视觉中的生成物理人工智能:综述.pdf

视觉中的生成物理人工智能:综述.pdf
这份文档是一篇关于视觉中物理感知生成式人工智能(AI)的调查研究,综述了将物理知识融入视觉生成模型的各种方法,并探讨了未来的研究方向。 **核心内容:** * **研究背景:** 生成式AI在视觉领域取得了显著进展,但传统模型往往忽视了生成内容的物理合理性。为了在机器人、自动驾驶和科学模拟等需要遵守物理规律的应用中发挥作用,生成式AI需要具备对物理世界的理解,包括动力学、因果关系和材料特性。 * **定义:** * **物理模拟 (PS):** 使用物理模型将输入观察转化为输出观察的过程。 * **物理理解 (PU):** 从观察中推断出潜在的物理模型或参数的过程。 * **生成 (G):** 从输入条件创建新内容的过程。 * **物理感知生成 (PAG):** 具有对现实世界物理现象的深刻理解的生成过程。 * **分类:** 物理感知生成被分为两类: * **PAG-E (显式物理模拟):** 生成模型显式地使用物理模拟模型来提高物理感知能力。 * **PAG-I (隐式物理模拟):** 生成模型不显式使用物理模拟模型。 * **PAG-E 的常用范式:** * **GtS (生成到模拟):** 生成过程后,应用物理模拟。 * **SiG (模拟在生成中):** 将模拟模型嵌入到生成模型中。 * **GnS (生成和模拟):** 生成和模拟同时发生,如使用共享模型。 * **ScG (模拟约束生成):** 模拟模型提供约束或知识给生成模型。 * **GcS (生成约束模拟):** 生成模型提供约束或知识给模拟模型。 * **SeG (模拟评估生成):** 使用物理模拟来评估生成模型或生成的模型用于模拟环境。 * **物理模拟的构成要素:** * **物理材质:** 刚体、软体、牛顿流体、非牛顿流体、粘塑性材料、弹性体、颗粒介质等。 * **模拟方法:** 基于连续介质力学、物质点法 (MPM)、有限元法 (FEM)、基于位置的动力学 (PBD)、欧拉方法 (EM)、拉格朗日方法 (LM)、3D 弹簧-质量模型、牛顿动力学等。 * **物理引擎和平台:** Bullet Physics、Havok Physics、NVIDIA PhysX、Unity Physics、Unreal Engine Physics (Chaos Physics)、Open Dynamics Engine、Box2D、Mantaflow、Simulink/Matlab、Blender、Isaac Gym、Vortex Studio、PyBullet、Gazebo、Genesis、Taichi 等。 * **物理理解的方法:** * **手动设置物理参数:** 由领域专家显式定义物理属性。 * **自动学习物理参数:** 从视觉观察中自动推断物理参数。 * **LLM 推理的物理参数:** 使用大型语言模型推理物理属性。 * **生成模型:** 涵盖了 GANs、DMs 和神经渲染方法(NeRF 和 GS 等)。 * **物理感知生成:** * **方法综述:** 总结了各类范式中,使用不同生成模型(GANs、DMs、NeRFs、GS 等)实现物理感知的具体方法。 * **关键论文总结:** 针对不同范式下的具体实现方法,例如 GtS 中将模拟应用于 NeRF 或 GS 的工作, SiG 中将物理模拟模块嵌入 DM 中的工作,GnS 中同时进行生成和模拟的工作,以及 ScG 和 SeG 中利用物理约束和评估的方法等。 * **评估:** 介绍了专门用于评估物理感知能力的基准和指标。 包括 PhyBench, PhyGenBench 和 VideoPhy. * **未来发展方向:** * **改进物理感知能力的评估指标。** * **利用大型语言模型提升物理感知能力。** * **生成式模拟引擎。** * **机器人技术和具身智能。** * **在跨学科领域的应用。**
在线阅读 下载完整报告 | 1.75 MB | 18页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告