PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在机器人、具身智能和交互仿真等前沿领域,对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度,却普遍忽视密度、绝对尺度、关节约束等关键物理属性,导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成,但受限于高质量物理标注数据的稀缺,现有方法多采用“检索现有模型+附加运动”的范式,难以从单张真实图像泛化生成全新且物理一致的资产。物理仿真的核心在于对物体运动规律、材料属性和交互行为的精确建模,而当前大多数生成框架在此方面存在显著短板。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

为弥合合成3D资产与真实下游应用之间的鸿沟,南洋理工大学与上海人工智能实验室的研究团队提出了PhysX-Anything——首个面向仿真、具备完整物理属性的3D生成框架。该框架仅需单张图像,即可生成高质量、可直接导入标准物理引擎的“仿真就绪”(sim-ready)3D资产,同时具备显式几何结构、关节运动机制与物理参数。这一突破性进展不仅解决了现有方法在物理建模上的不足,更通过创新的表征设计与生成流程,实现了从“静态视觉模型”到“动态物理资产”的范式转变。

PhysX-Anything的核心创新在于其“由粗到细”(coarse-to-fine)的生成架构。给定一张真实场景图像,系统首先通过多轮对话生成整体物理描述与部件级几何信息,随后对物理表征进行解码,最终输出六种常用格式的可仿真3D资产。这一流程的关键在于对物理属性的显式建模与高效压缩,使得生成结果既能满足仿真精度要求,又保持较低的生成复杂度。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在3D表征方面,研究团队提出了一种基于体素的新型几何表示方法。传统方法在视觉语言模型(VLM)中进行3D生成时,常采用基于顶点量化的文本序列表示,但所得几何token仍十分冗长。3D VQ-GAN虽可进一步压缩,却需引入额外特殊token和自定义tokenizer,增加了训练与部署的复杂度。PhysX-Anything受体素表征在精度与效率间良好折中的启发,创新性地在32³体素网格上由VLM建模粗略几何,再由下游解码器细化得到高保真形状。这种方法在保留体素显式结构优势的同时,避免了过高的token开销,实现了193倍的压缩比,显著提升了生成效率。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在整体信息表征上,团队采用树状、VLM友好的结构,并以JSON风格格式替代标准URDF,使其包含更丰富的物理属性与文本描述,便于VLM理解与推理。同时,关键运动学参数(如运动方向、关节轴位置、运动范围等)被统一映射到体素空间,保证了运动学与几何结构的一致性。这种设计使得物理属性不再是生成后的附加信息,而是贯穿整个生成流程的核心要素。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

生成流程的精细化控制是另一大亮点。研究团队以Qwen2.5为基础模型,在自建的物理3D数据集上进行微调,通过精心设计的多轮对话流程,同时生成高质量的全局描述(整体物理与结构属性)与局部信息(部件级几何)。为获取更精细的几何细节,团队受ControlNet启发,设计了一个可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,控制细粒度体素几何的生成。在得到细粒度体素表示后,系统采用预训练的结构化潜在扩散模型解码出多种格式的3D资产,包括网格表面、辐射场与3D高斯等。随后,基于体素分配结果,使用最近邻算法将重建网格划分为部件级组件。最终,结合全局结构信息与细粒度体素几何,PhysX-Anything能够生成用于仿真的URDF、XML及部件级网格,实现真正的“仿真就绪”。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在性能评估方面,PhysX-Anything在PhysX-Mobility数据集上的测试显示,其在几何与物理两类指标上均优于当前最新方法URDFormer、Articulate-Anything和PhysXGen。得益于强大的VLM先验,该系统在绝对尺度上的误差大幅降低,同时在文本描述相关指标上也取得最高得分,表明其不仅能生成物理上合理的属性,还能产出连贯的、具备部件层级的文字描述,对物体结构与功能具备较强理解能力。定性对比进一步显示,PhysX-Anything在泛化能力方面具有显著优势,尤其相较于检索式方法更为突出。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在真实世界场景测试中,研究团队在覆盖日常物体类别的图像上评估了方法的泛化能力。为避免VLM在某些具体物理属性上判断不稳定的问题,评估重点放在几何与关节运动质量上。结果表明,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,显示出对真实输入的强泛化能力。人类志愿者评分也证实,PhysX-Anything的生成结构在几何与物理属性上都获得了最高分,表明其生成结果更受人类认可。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

可视化结果直观展示了该方法的优势:PhysX-Anything能够生成更加准确的几何结构、关节运动以及物理属性。在MuJoCo风格的模拟器中进行的实验进一步验证了生成资产对下游任务的支撑能力。生成的sim-ready 3D资产——包括水龙头、柜子、打火机、眼镜等日常物体——可以直接导入模拟器,并用于接触丰富的交互训练,为具身智能的快速原型开发与大规模训练提供了可行路径。

[[IMAGE_13]]

PhysX-Anything的提出标志着3D生成技术从视觉导向向物理仿真导向的重要转变。通过将物理属性建模融入生成流程,并创新性地采用体素表征与精细化控制策略,该框架不仅解决了现有方法在物理一致性上的不足,更开辟了“单图生成仿真资产”的新范式。未来,随着物理标注数据的进一步丰富与生成模型的持续优化,此类技术有望在机器人操作、虚拟训练、交互式娱乐等领域发挥更大价值,推动具身智能向更高效、更实用的方向发展。

[[IMAGE_15]]

[[IMAGE_17]]

— 图片补充 —

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/6387

(0)
上一篇 2025年11月23日 上午11:36
下一篇 2025年11月23日 上午11:46

相关推荐

  • 联邦学习新突破:FedVLR框架如何破解多模态推荐中的隐私与个性化悖论

    在人工智能与推荐系统深度融合的今天,多模态信息处理已成为提升用户体验的核心技术路径。然而,当这一技术趋势与日益严格的数据隐私保护要求相遇时,一个根本性矛盾便浮出水面:如何在确保用户数据“不出本地”的前提下,实现精准的图文内容理解与个性化推荐?悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队提出的FedVLR框架,正是针对这一行业痛点的一次系…

    2025年11月25日
    18500
  • vLLM集成PaddleOCR-VL:轻量化文档解析模型的高效推理新范式

    在人工智能技术快速迭代的浪潮中,模型部署与推理效率已成为制约实际应用落地的关键瓶颈。近日,vLLM项目宣布正式支持PaddleOCR-VL模型,这一举措不仅为文档解析领域带来了新的技术解决方案,更在模型服务化部署层面树立了轻量化与高效化并重的典范。本文将从技术架构、性能优化、部署实践及行业影响四个维度,深入剖析此次集成的核心价值与未来展望。 从技术架构层面看…

    2025年11月5日
    33500
  • 实测夸克AI浏览器「千问划词快捷指令」:7个高效Prompt技巧提升AI交互质量

    新年伊始,DeepSeek发布了一篇技术论文,其专业深度让不少网友直呼“看不懂”。 于是,在相关社群的评论区,出现了集体向AI求助的有趣场景:有人要求AI“用八十岁老太太能听懂的方式解释”,有人希望得到“大白话翻译”,还有人直接说“当我是幼儿园小朋友,给我讲明白”。 这一幕既幽默又真实地反映了现状:面对复杂信息时,我们的第一反应往往是寻求AI的帮助,而非自己…

    2026年1月15日
    48200
  • 多模态深度研究评测新标准:MMDR-Bench实现过程可核验、证据可追溯

    Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…

    2026年2月14日
    12500
  • AI浪潮下的开源危机:明星项目Tailwind CSS如何被生成式AI逼至绝境

    又一家初创公司,差点被AI干没了。 由于AI对我们业务的冲击,昨天,75%的工程师失去了工作。 明星开源项目Tailwind CSS 创造者Adam Wathan ,在GitHub上发布的这则消息,引起了科技行业的广泛关注。 Wathan表示,这家以前端开发闻名的公司,如今只剩下了三位老板、一位工程师和一位兼职员工。 我觉得自己很失败,我找不到其他办法了,这…

    2026年1月12日
    17300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注