PhysX-Anything：单图生成仿真就绪3D资产，突破具身智能物理建模瓶颈

在机器人、具身智能和交互仿真等前沿领域，对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度，却普遍忽视密度、绝对尺度、关节约束等关键物理属性，导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成，但受限于高质量物理标注数据的稀缺，现有方法多采用“检索现有模型+附加运动”的范式，难以从单张真实图像泛化生成全新且物理一致的资产。物理仿真的核心在于对物体运动规律、材料属性和交互行为的精确建模，而当前大多数生成框架在此方面存在显著短板。

为弥合合成3D资产与真实下游应用之间的鸿沟，南洋理工大学与上海人工智能实验室的研究团队提出了PhysX-Anything——首个面向仿真、具备完整物理属性的3D生成框架。该框架仅需单张图像，即可生成高质量、可直接导入标准物理引擎的“仿真就绪”（sim-ready）3D资产，同时具备显式几何结构、关节运动机制与物理参数。这一突破性进展不仅解决了现有方法在物理建模上的不足，更通过创新的表征设计与生成流程，实现了从“静态视觉模型”到“动态物理资产”的范式转变。

PhysX-Anything的核心创新在于其“由粗到细”（coarse-to-fine）的生成架构。给定一张真实场景图像，系统首先通过多轮对话生成整体物理描述与部件级几何信息，随后对物理表征进行解码，最终输出六种常用格式的可仿真3D资产。这一流程的关键在于对物理属性的显式建模与高效压缩，使得生成结果既能满足仿真精度要求，又保持较低的生成复杂度。

在3D表征方面，研究团队提出了一种基于体素的新型几何表示方法。传统方法在视觉语言模型（VLM）中进行3D生成时，常采用基于顶点量化的文本序列表示，但所得几何token仍十分冗长。3D VQ-GAN虽可进一步压缩，却需引入额外特殊token和自定义tokenizer，增加了训练与部署的复杂度。PhysX-Anything受体素表征在精度与效率间良好折中的启发，创新性地在32³体素网格上由VLM建模粗略几何，再由下游解码器细化得到高保真形状。这种方法在保留体素显式结构优势的同时，避免了过高的token开销，实现了193倍的压缩比，显著提升了生成效率。

在整体信息表征上，团队采用树状、VLM友好的结构，并以JSON风格格式替代标准URDF，使其包含更丰富的物理属性与文本描述，便于VLM理解与推理。同时，关键运动学参数（如运动方向、关节轴位置、运动范围等）被统一映射到体素空间，保证了运动学与几何结构的一致性。这种设计使得物理属性不再是生成后的附加信息，而是贯穿整个生成流程的核心要素。

生成流程的精细化控制是另一大亮点。研究团队以Qwen2.5为基础模型，在自建的物理3D数据集上进行微调，通过精心设计的多轮对话流程，同时生成高质量的全局描述（整体物理与结构属性）与局部信息（部件级几何）。为获取更精细的几何细节，团队受ControlNet启发，设计了一个可控的flow transformer模块，将粗体素表示作为扩散模型的引导信号，控制细粒度体素几何的生成。在得到细粒度体素表示后，系统采用预训练的结构化潜在扩散模型解码出多种格式的3D资产，包括网格表面、辐射场与3D高斯等。随后，基于体素分配结果，使用最近邻算法将重建网格划分为部件级组件。最终，结合全局结构信息与细粒度体素几何，PhysX-Anything能够生成用于仿真的URDF、XML及部件级网格，实现真正的“仿真就绪”。

在性能评估方面，PhysX-Anything在PhysX-Mobility数据集上的测试显示，其在几何与物理两类指标上均优于当前最新方法URDFormer、Articulate-Anything和PhysXGen。得益于强大的VLM先验，该系统在绝对尺度上的误差大幅降低，同时在文本描述相关指标上也取得最高得分，表明其不仅能生成物理上合理的属性，还能产出连贯的、具备部件层级的文字描述，对物体结构与功能具备较强理解能力。定性对比进一步显示，PhysX-Anything在泛化能力方面具有显著优势，尤其相较于检索式方法更为突出。

在真实世界场景测试中，研究团队在覆盖日常物体类别的图像上评估了方法的泛化能力。为避免VLM在某些具体物理属性上判断不稳定的问题，评估重点放在几何与关节运动质量上。结果表明，PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法，显示出对真实输入的强泛化能力。人类志愿者评分也证实，PhysX-Anything的生成结构在几何与物理属性上都获得了最高分，表明其生成结果更受人类认可。

可视化结果直观展示了该方法的优势：PhysX-Anything能够生成更加准确的几何结构、关节运动以及物理属性。在MuJoCo风格的模拟器中进行的实验进一步验证了生成资产对下游任务的支撑能力。生成的sim-ready 3D资产——包括水龙头、柜子、打火机、眼镜等日常物体——可以直接导入模拟器，并用于接触丰富的交互训练，为具身智能的快速原型开发与大规模训练提供了可行路径。

[[IMAGE_13]]

PhysX-Anything的提出标志着3D生成技术从视觉导向向物理仿真导向的重要转变。通过将物理属性建模融入生成流程，并创新性地采用体素表征与精细化控制策略，该框架不仅解决了现有方法在物理一致性上的不足，更开辟了“单图生成仿真资产”的新范式。未来，随着物理标注数据的进一步丰富与生成模型的持续优化，此类技术有望在机器人操作、虚拟训练、交互式娱乐等领域发挥更大价值，推动具身智能向更高效、更实用的方向发展。

[[IMAGE_15]]

[[IMAGE_17]]

— 图片补充 —