PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在机器人、具身智能和交互仿真等前沿领域,对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度,却普遍忽视密度、绝对尺度、关节约束等关键物理属性,导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成,但受限于高质量物理标注数据的稀缺,现有方法多采用“检索现有模型+附加运动”的范式,难以从单张真实图像泛化生成全新且物理一致的资产。物理仿真的核心在于对物体运动规律、材料属性和交互行为的精确建模,而当前大多数生成框架在此方面存在显著短板。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

为弥合合成3D资产与真实下游应用之间的鸿沟,南洋理工大学与上海人工智能实验室的研究团队提出了PhysX-Anything——首个面向仿真、具备完整物理属性的3D生成框架。该框架仅需单张图像,即可生成高质量、可直接导入标准物理引擎的“仿真就绪”(sim-ready)3D资产,同时具备显式几何结构、关节运动机制与物理参数。这一突破性进展不仅解决了现有方法在物理建模上的不足,更通过创新的表征设计与生成流程,实现了从“静态视觉模型”到“动态物理资产”的范式转变。

PhysX-Anything的核心创新在于其“由粗到细”(coarse-to-fine)的生成架构。给定一张真实场景图像,系统首先通过多轮对话生成整体物理描述与部件级几何信息,随后对物理表征进行解码,最终输出六种常用格式的可仿真3D资产。这一流程的关键在于对物理属性的显式建模与高效压缩,使得生成结果既能满足仿真精度要求,又保持较低的生成复杂度。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在3D表征方面,研究团队提出了一种基于体素的新型几何表示方法。传统方法在视觉语言模型(VLM)中进行3D生成时,常采用基于顶点量化的文本序列表示,但所得几何token仍十分冗长。3D VQ-GAN虽可进一步压缩,却需引入额外特殊token和自定义tokenizer,增加了训练与部署的复杂度。PhysX-Anything受体素表征在精度与效率间良好折中的启发,创新性地在32³体素网格上由VLM建模粗略几何,再由下游解码器细化得到高保真形状。这种方法在保留体素显式结构优势的同时,避免了过高的token开销,实现了193倍的压缩比,显著提升了生成效率。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在整体信息表征上,团队采用树状、VLM友好的结构,并以JSON风格格式替代标准URDF,使其包含更丰富的物理属性与文本描述,便于VLM理解与推理。同时,关键运动学参数(如运动方向、关节轴位置、运动范围等)被统一映射到体素空间,保证了运动学与几何结构的一致性。这种设计使得物理属性不再是生成后的附加信息,而是贯穿整个生成流程的核心要素。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

生成流程的精细化控制是另一大亮点。研究团队以Qwen2.5为基础模型,在自建的物理3D数据集上进行微调,通过精心设计的多轮对话流程,同时生成高质量的全局描述(整体物理与结构属性)与局部信息(部件级几何)。为获取更精细的几何细节,团队受ControlNet启发,设计了一个可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,控制细粒度体素几何的生成。在得到细粒度体素表示后,系统采用预训练的结构化潜在扩散模型解码出多种格式的3D资产,包括网格表面、辐射场与3D高斯等。随后,基于体素分配结果,使用最近邻算法将重建网格划分为部件级组件。最终,结合全局结构信息与细粒度体素几何,PhysX-Anything能够生成用于仿真的URDF、XML及部件级网格,实现真正的“仿真就绪”。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在性能评估方面,PhysX-Anything在PhysX-Mobility数据集上的测试显示,其在几何与物理两类指标上均优于当前最新方法URDFormer、Articulate-Anything和PhysXGen。得益于强大的VLM先验,该系统在绝对尺度上的误差大幅降低,同时在文本描述相关指标上也取得最高得分,表明其不仅能生成物理上合理的属性,还能产出连贯的、具备部件层级的文字描述,对物体结构与功能具备较强理解能力。定性对比进一步显示,PhysX-Anything在泛化能力方面具有显著优势,尤其相较于检索式方法更为突出。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在真实世界场景测试中,研究团队在覆盖日常物体类别的图像上评估了方法的泛化能力。为避免VLM在某些具体物理属性上判断不稳定的问题,评估重点放在几何与关节运动质量上。结果表明,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,显示出对真实输入的强泛化能力。人类志愿者评分也证实,PhysX-Anything的生成结构在几何与物理属性上都获得了最高分,表明其生成结果更受人类认可。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

可视化结果直观展示了该方法的优势:PhysX-Anything能够生成更加准确的几何结构、关节运动以及物理属性。在MuJoCo风格的模拟器中进行的实验进一步验证了生成资产对下游任务的支撑能力。生成的sim-ready 3D资产——包括水龙头、柜子、打火机、眼镜等日常物体——可以直接导入模拟器,并用于接触丰富的交互训练,为具身智能的快速原型开发与大规模训练提供了可行路径。

[[IMAGE_13]]

PhysX-Anything的提出标志着3D生成技术从视觉导向向物理仿真导向的重要转变。通过将物理属性建模融入生成流程,并创新性地采用体素表征与精细化控制策略,该框架不仅解决了现有方法在物理一致性上的不足,更开辟了“单图生成仿真资产”的新范式。未来,随着物理标注数据的进一步丰富与生成模型的持续优化,此类技术有望在机器人操作、虚拟训练、交互式娱乐等领域发挥更大价值,推动具身智能向更高效、更实用的方向发展。

[[IMAGE_15]]

[[IMAGE_17]]

— 图片补充 —

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/6387

(0)
上一篇 2025年11月23日 上午11:36
下一篇 2025年11月23日 上午11:46

相关推荐

  • TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

    在大型语言模型(LLM)日益成为解决复杂任务核心工具的当下,测试时扩展(Test-Time Scaling,TTS)已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源,显著优化其表现。当前,Test-Time Scaling主要分为两大范式:内部测试时扩展,以DeepSeek-R1等推理模型为代表,通过延长思维链实现;外部…

    2025年11月6日
    7300
  • 开源编译器工具链突破:PyTorch直通FPGA,性能超越Vitis HLS 2.21倍

    关键词:PyTorch、Calyx、编译器工具链、机器学习加速器、FPGA From PyTorch to Calyx: An Open-Source Compiler Toolchain for ML Accelerators https://arxiv.org/pdf/2512.06177 9000 字,阅读 30 分钟,播客 6 分钟 本文提出一款端到…

    2025年12月21日
    10500
  • 影目INMO:一年三轮融资近5亿,中国AI+AR眼镜如何以技术领跑全球赛道

    CES大奖拿到手软,中国创企正把AI+AR眼镜爆款做向全球。 在刚刚过去的CES 2026上,给人留下印象最为深刻的要数中国的AI眼镜军团和中国机器人军团。如果说人形机器人领域尚有波士顿动力这样的巨头能与中国大厂抗衡,那么AI眼镜赛道几乎完全成为中国公司主场。 据不完全统计,CES上展出各类AI眼镜的中国企业超过了27家,展区人头攒动十分火爆,产品体验热情颇…

    2026年1月15日
    9100
  • Kimi神秘模型Kiwi-do现身竞技场:融资35亿后,多模态K2-VL即将登场?

    克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 融资35亿后,Kimi的新模型紧跟着就要来了?! 大模型竞技场上,一个名叫Kiwi-do 的神秘模型悄然出现。 发现这个新模型的推特网友询问了模型的身份,结果模型自报家门,表示自己来自月之暗面Kimi,训练数据截止到2025年1月。 另有网友表示,Kiwi-do表现出了一些有趣的结果,尤其是在竞技场当中…

    2026年1月5日
    9000
  • AI革命下的程序员生存指南:当代码稀疏化遇上技能焦虑,如何驾驭这场“9级大地震”?

    年末假期是总结与思考的时刻,但对于程序员而言,深入思考后可能会感到一丝不安。 近期,Andrej Karpathy 在 X 平台发布的一条推文,引发了数万程序员和从业者的强烈共鸣与热议。 Karpathy 坦言:“我从未像现在这样,感觉自己作为一名程序员如此落后。” 他指出,编程这一职业正在被彻底重构。程序员直接编写的代码越来越少,更多的工作转变为在各种工具…

    2025年12月27日
    12700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注