PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在机器人、具身智能和交互仿真等前沿领域,对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度,却普遍忽视密度、绝对尺度、关节约束等关键物理属性,导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成,但受限于高质量物理标注数据的稀缺,现有方法多采用“检索现有模型+附加运动”的范式,难以从单张真实图像泛化生成全新且物理一致的资产。物理仿真的核心在于对物体运动规律、材料属性和交互行为的精确建模,而当前大多数生成框架在此方面存在显著短板。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

为弥合合成3D资产与真实下游应用之间的鸿沟,南洋理工大学与上海人工智能实验室的研究团队提出了PhysX-Anything——首个面向仿真、具备完整物理属性的3D生成框架。该框架仅需单张图像,即可生成高质量、可直接导入标准物理引擎的“仿真就绪”(sim-ready)3D资产,同时具备显式几何结构、关节运动机制与物理参数。这一突破性进展不仅解决了现有方法在物理建模上的不足,更通过创新的表征设计与生成流程,实现了从“静态视觉模型”到“动态物理资产”的范式转变。

PhysX-Anything的核心创新在于其“由粗到细”(coarse-to-fine)的生成架构。给定一张真实场景图像,系统首先通过多轮对话生成整体物理描述与部件级几何信息,随后对物理表征进行解码,最终输出六种常用格式的可仿真3D资产。这一流程的关键在于对物理属性的显式建模与高效压缩,使得生成结果既能满足仿真精度要求,又保持较低的生成复杂度。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在3D表征方面,研究团队提出了一种基于体素的新型几何表示方法。传统方法在视觉语言模型(VLM)中进行3D生成时,常采用基于顶点量化的文本序列表示,但所得几何token仍十分冗长。3D VQ-GAN虽可进一步压缩,却需引入额外特殊token和自定义tokenizer,增加了训练与部署的复杂度。PhysX-Anything受体素表征在精度与效率间良好折中的启发,创新性地在32³体素网格上由VLM建模粗略几何,再由下游解码器细化得到高保真形状。这种方法在保留体素显式结构优势的同时,避免了过高的token开销,实现了193倍的压缩比,显著提升了生成效率。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在整体信息表征上,团队采用树状、VLM友好的结构,并以JSON风格格式替代标准URDF,使其包含更丰富的物理属性与文本描述,便于VLM理解与推理。同时,关键运动学参数(如运动方向、关节轴位置、运动范围等)被统一映射到体素空间,保证了运动学与几何结构的一致性。这种设计使得物理属性不再是生成后的附加信息,而是贯穿整个生成流程的核心要素。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

生成流程的精细化控制是另一大亮点。研究团队以Qwen2.5为基础模型,在自建的物理3D数据集上进行微调,通过精心设计的多轮对话流程,同时生成高质量的全局描述(整体物理与结构属性)与局部信息(部件级几何)。为获取更精细的几何细节,团队受ControlNet启发,设计了一个可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,控制细粒度体素几何的生成。在得到细粒度体素表示后,系统采用预训练的结构化潜在扩散模型解码出多种格式的3D资产,包括网格表面、辐射场与3D高斯等。随后,基于体素分配结果,使用最近邻算法将重建网格划分为部件级组件。最终,结合全局结构信息与细粒度体素几何,PhysX-Anything能够生成用于仿真的URDF、XML及部件级网格,实现真正的“仿真就绪”。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在性能评估方面,PhysX-Anything在PhysX-Mobility数据集上的测试显示,其在几何与物理两类指标上均优于当前最新方法URDFormer、Articulate-Anything和PhysXGen。得益于强大的VLM先验,该系统在绝对尺度上的误差大幅降低,同时在文本描述相关指标上也取得最高得分,表明其不仅能生成物理上合理的属性,还能产出连贯的、具备部件层级的文字描述,对物体结构与功能具备较强理解能力。定性对比进一步显示,PhysX-Anything在泛化能力方面具有显著优势,尤其相较于检索式方法更为突出。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在真实世界场景测试中,研究团队在覆盖日常物体类别的图像上评估了方法的泛化能力。为避免VLM在某些具体物理属性上判断不稳定的问题,评估重点放在几何与关节运动质量上。结果表明,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,显示出对真实输入的强泛化能力。人类志愿者评分也证实,PhysX-Anything的生成结构在几何与物理属性上都获得了最高分,表明其生成结果更受人类认可。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

可视化结果直观展示了该方法的优势:PhysX-Anything能够生成更加准确的几何结构、关节运动以及物理属性。在MuJoCo风格的模拟器中进行的实验进一步验证了生成资产对下游任务的支撑能力。生成的sim-ready 3D资产——包括水龙头、柜子、打火机、眼镜等日常物体——可以直接导入模拟器,并用于接触丰富的交互训练,为具身智能的快速原型开发与大规模训练提供了可行路径。

[[IMAGE_13]]

PhysX-Anything的提出标志着3D生成技术从视觉导向向物理仿真导向的重要转变。通过将物理属性建模融入生成流程,并创新性地采用体素表征与精细化控制策略,该框架不仅解决了现有方法在物理一致性上的不足,更开辟了“单图生成仿真资产”的新范式。未来,随着物理标注数据的进一步丰富与生成模型的持续优化,此类技术有望在机器人操作、虚拟训练、交互式娱乐等领域发挥更大价值,推动具身智能向更高效、更实用的方向发展。

[[IMAGE_15]]

[[IMAGE_17]]

— 图片补充 —

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/6387

(0)
上一篇 2025年11月23日 上午11:36
下一篇 2025年11月23日 上午11:46

相关推荐

  • OpenAI研究员揭秘:无博士学位如何通过公开研究进入顶尖AI实验室

    如果没有博士学位,是否就与前沿AI研究无缘? 至少在Noam Brown看来,答案是否定的。 这位OpenAI研究员、o1模型的核心贡献者,近期分享了一系列“非典型研究员”的职业路径。 他们中,有人没有发表过论文,有人未曾攻读研究生,有人白天在麦肯锡工作,晚上在GitHub上推进研究项目。 也有人习惯于在推特上分享见解,或在开源社区积极提问。 这些人的共同去…

    2026年1月25日
    3300
  • 20万大奖!全球首个AI视频生成一致性挑战赛开启,AAAI 2026大佬云集定义行业新标准

    随着AI视频生成技术的快速发展,“一致性”已成为制约其迈向更高质量和更广泛应用的核心挑战。视频中频繁出现的逻辑谬误、时空错乱以及角色风格突变等问题,严重影响了内容的连贯性与可信度。 为应对这一关键瓶颈,在人工智能顶级会议AAAI 2026的研讨会期间,将举办一场专注于该问题的竞赛——“从片段到原生:视频生成模型中的一致性(CVM)”。 该挑战赛由北京大学袁粒…

    2025年12月17日
    9500
  • 视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

    在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。 传统评估体系面临的根本性挑…

    2025年12月15日
    9400
  • 从Sora到Seko:视频生成“不可能三角”的破局者与AI短剧工业化之路

    自Sora 2发布以来,全球科技巨头纷纷加码视频生成赛道,谷歌Veo 3.1、Runway Gen-4.5、快手Kling 2.6等迭代产品层出不穷,在控制精度、物理模拟、音画同步等维度持续突破。然而,当技术演示的光环褪去,一个根本性问题浮出水面:这些模型距离成为真正的生产力工具,究竟还有多远?答案或许隐藏在效率、成本与质量构成的“不可能三角”之中。 当前主…

    2025年12月15日
    11200
  • Claude Code之父自曝生产数据:30天259个PR全由AI编写,代码不再是瓶颈

    编辑|听雨 Claude Code 创始人 Boris Cherny 近期在社交平台 X 上公布了过去一个月使用 Claude Code 的真实生产数据,其规模令人惊讶: 在过去 30 天里,我合并了 259 个 PR —— 共 497 次提交,新增约 4 万行代码,删除约 3.8 万行代码。而且,每一行代码都是由 Claude Code + Opus 4.…

    2025年12月29日
    15300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注