PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在机器人、具身智能和交互仿真等前沿领域,对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度,却普遍忽视密度、绝对尺度、关节约束等关键物理属性,导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成,但受限于高质量物理标注数据的稀缺,现有方法多采用“检索现有模型+附加运动”的范式,难以从单张真实图像泛化生成全新且物理一致的资产。物理仿真的核心在于对物体运动规律、材料属性和交互行为的精确建模,而当前大多数生成框架在此方面存在显著短板。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

为弥合合成3D资产与真实下游应用之间的鸿沟,南洋理工大学与上海人工智能实验室的研究团队提出了PhysX-Anything——首个面向仿真、具备完整物理属性的3D生成框架。该框架仅需单张图像,即可生成高质量、可直接导入标准物理引擎的“仿真就绪”(sim-ready)3D资产,同时具备显式几何结构、关节运动机制与物理参数。这一突破性进展不仅解决了现有方法在物理建模上的不足,更通过创新的表征设计与生成流程,实现了从“静态视觉模型”到“动态物理资产”的范式转变。

PhysX-Anything的核心创新在于其“由粗到细”(coarse-to-fine)的生成架构。给定一张真实场景图像,系统首先通过多轮对话生成整体物理描述与部件级几何信息,随后对物理表征进行解码,最终输出六种常用格式的可仿真3D资产。这一流程的关键在于对物理属性的显式建模与高效压缩,使得生成结果既能满足仿真精度要求,又保持较低的生成复杂度。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在3D表征方面,研究团队提出了一种基于体素的新型几何表示方法。传统方法在视觉语言模型(VLM)中进行3D生成时,常采用基于顶点量化的文本序列表示,但所得几何token仍十分冗长。3D VQ-GAN虽可进一步压缩,却需引入额外特殊token和自定义tokenizer,增加了训练与部署的复杂度。PhysX-Anything受体素表征在精度与效率间良好折中的启发,创新性地在32³体素网格上由VLM建模粗略几何,再由下游解码器细化得到高保真形状。这种方法在保留体素显式结构优势的同时,避免了过高的token开销,实现了193倍的压缩比,显著提升了生成效率。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在整体信息表征上,团队采用树状、VLM友好的结构,并以JSON风格格式替代标准URDF,使其包含更丰富的物理属性与文本描述,便于VLM理解与推理。同时,关键运动学参数(如运动方向、关节轴位置、运动范围等)被统一映射到体素空间,保证了运动学与几何结构的一致性。这种设计使得物理属性不再是生成后的附加信息,而是贯穿整个生成流程的核心要素。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

生成流程的精细化控制是另一大亮点。研究团队以Qwen2.5为基础模型,在自建的物理3D数据集上进行微调,通过精心设计的多轮对话流程,同时生成高质量的全局描述(整体物理与结构属性)与局部信息(部件级几何)。为获取更精细的几何细节,团队受ControlNet启发,设计了一个可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,控制细粒度体素几何的生成。在得到细粒度体素表示后,系统采用预训练的结构化潜在扩散模型解码出多种格式的3D资产,包括网格表面、辐射场与3D高斯等。随后,基于体素分配结果,使用最近邻算法将重建网格划分为部件级组件。最终,结合全局结构信息与细粒度体素几何,PhysX-Anything能够生成用于仿真的URDF、XML及部件级网格,实现真正的“仿真就绪”。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在性能评估方面,PhysX-Anything在PhysX-Mobility数据集上的测试显示,其在几何与物理两类指标上均优于当前最新方法URDFormer、Articulate-Anything和PhysXGen。得益于强大的VLM先验,该系统在绝对尺度上的误差大幅降低,同时在文本描述相关指标上也取得最高得分,表明其不仅能生成物理上合理的属性,还能产出连贯的、具备部件层级的文字描述,对物体结构与功能具备较强理解能力。定性对比进一步显示,PhysX-Anything在泛化能力方面具有显著优势,尤其相较于检索式方法更为突出。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

在真实世界场景测试中,研究团队在覆盖日常物体类别的图像上评估了方法的泛化能力。为避免VLM在某些具体物理属性上判断不稳定的问题,评估重点放在几何与关节运动质量上。结果表明,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,显示出对真实输入的强泛化能力。人类志愿者评分也证实,PhysX-Anything的生成结构在几何与物理属性上都获得了最高分,表明其生成结果更受人类认可。

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

可视化结果直观展示了该方法的优势:PhysX-Anything能够生成更加准确的几何结构、关节运动以及物理属性。在MuJoCo风格的模拟器中进行的实验进一步验证了生成资产对下游任务的支撑能力。生成的sim-ready 3D资产——包括水龙头、柜子、打火机、眼镜等日常物体——可以直接导入模拟器,并用于接触丰富的交互训练,为具身智能的快速原型开发与大规模训练提供了可行路径。

[[IMAGE_13]]

PhysX-Anything的提出标志着3D生成技术从视觉导向向物理仿真导向的重要转变。通过将物理属性建模融入生成流程,并创新性地采用体素表征与精细化控制策略,该框架不仅解决了现有方法在物理一致性上的不足,更开辟了“单图生成仿真资产”的新范式。未来,随着物理标注数据的进一步丰富与生成模型的持续优化,此类技术有望在机器人操作、虚拟训练、交互式娱乐等领域发挥更大价值,推动具身智能向更高效、更实用的方向发展。

[[IMAGE_15]]

[[IMAGE_17]]

— 图片补充 —

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6387

(0)
上一篇 2025年11月23日 上午11:36
下一篇 2025年11月23日 上午11:50

相关推荐

  • DeepSeek开源视觉压缩模型引爆业界,单GPU实现高效长文本处理

    DeepSeek-OCR创新性地提出“视觉压缩文本”范式,通过将文本信息转化为图像表征,有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构,实现用少量视觉token高效表示海量文本内容。实验表明,在10倍压缩率下解码准确率达97%,20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据,在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”,更为统一视觉与语言处理、构建类人记忆机制提供了新路径。

    2025年10月21日
    13900
  • 从代码补全到任务委托:AI编程助手的技术演进与豆包编程模型的实战突破

    在人工智能技术快速迭代的浪潮中,AI编程助手已成为开发者工作流中不可或缺的组成部分。从最初的简单代码补全到如今能够处理复杂工程任务的智能体,这一领域正经历着深刻的技术范式转移。本文将从技术演进、市场痛点、模型能力三个维度,深入分析当前AI编程助手的发展现状,并以火山引擎豆包编程模型(Doubao-Seed-Code)为案例,探讨其在真实工程场景中的表现与突破…

    2025年11月11日
    300
  • 仿真合成数据:驱动具身智能与世界模型突破的关键燃料

    在AI技术从信息处理向物理世界交互演进的关键拐点,仿真合成数据正从辅助工具转变为基础设施,成为训练下一代AI模型的核心要素。近期,专注于该领域的光轮智能完成数亿元融资,其客户涵盖英伟达、谷歌、阿里、字节等科技巨头,以及Figure AI、智元机器人、丰田、比亚迪等产业代表,凸显了仿真合成数据在AI生态中的战略地位。 当前AI发展的核心矛盾在于:模型在文本、图…

    2025年11月19日
    300
  • 谷歌Veo 3.1震撼发布,全面迎战Sora 2:AI视频的“专业级”战争正式打响

    2025年10月16日,谷歌发布AI视频生成模型Veo 3.1,正面迎战OpenAI的Sora 2。新版本主打电影级画质、原生音频同步、精准对象编辑与首尾帧插值,支持最长148秒视频生成,全面接入Flow、Gemini API与Vertex AI平台。与Sora 2的“生活化、社交化”路线不同,Veo 3.1定位专业创作与商业应用,标志着AI视频生成进入可控、可编辑、可商用的工业化阶段。

    2025年10月16日
    1.2K01
  • 从语言到空间:世界模型如何重塑AI进化的底层逻辑

    近期AI领域两位重量级人物的发声,揭示了人工智能发展路径的重要转向。图灵奖得主杨立昆(Yann LeCun)被曝计划离开Meta,专注于以“世界模型”为核心的新事业;而斯坦福大学教授李飞飞则在社交媒体发表长文,直言大语言模型(LLM)的局限性,并提出“空间智能”才是通往通用人工智能(AGI)的关键。两人不约而同地强调“世界模型”的重要性,这标志着AI研究正从…

    2025年11月17日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注