仿真合成数据：驱动具身智能与世界模型突破的关键燃料

2025年11月19日下午1:56 • AI产业动态 • 阅读 347

在AI技术从信息处理向物理世界交互演进的关键拐点，仿真合成数据正从辅助工具转变为基础设施，成为训练下一代AI模型的核心要素。近期，专注于该领域的光轮智能完成数亿元融资，其客户涵盖英伟达、谷歌、阿里、字节等科技巨头，以及Figure AI、智元机器人、丰田、比亚迪等产业代表，凸显了仿真合成数据在AI生态中的战略地位。

当前AI发展的核心矛盾在于：模型在文本、图像等数字领域已取得显著进展，但一旦涉及与物理世界交互（如机器人操作、环境适应），性能便出现明显瓶颈。斯坦福大学教授李飞飞在《From Words to Worlds》中指出，AI需要发展“空间智能”——理解物体间关系、语义意义及现实重要性的能力。这解释了为何全球资源正加速投向世界模型和具身智能：二者是打通AI与物理世界壁垒的关键路径。

训练这类模型需要的数据范式已发生根本转变。传统依赖图文对齐或语言标注的方法无法满足需求，取而代之的是多模态交互过程数据，这类数据必须具备规模化、结构化、高可控性。行业将训练数据分为三类：真实遥操作数据、仿真合成数据、人类视频数据。

其中，仿真合成数据与人类视频数据属于“本体无关数据”，更易标准化生成。而仿真合成数据在结构清晰度、精度、可控性及投资回报率方面更具优势，成为具身智能与世界模型训练的首选方案。

具身智能领域，机器人“大脑”（决策模型）和“小脑”（控制模型）均需大量仿真数据，尤其小脑模型对高保真数据依赖度更高。世界模型同样对仿真数据有强烈需求——李飞飞团队强调，高质量合成数据及深度、触觉等多模态数据在训练关键阶段起补充作用。云端世界模型因追求泛化与物理预测，数据需求规模更大，而真实数据存在稀缺性、成本高、覆盖窄等瓶颈，仿真数据成为突破这些限制的核心手段。

近期多项突破验证了仿真合成数据的价值。李飞飞团队与斯坦福AI实验室通过合成管线生成亿级视觉-语言-动作数据，推出人形机器人基准BEHAVIOR Challenge；英伟达开源模型GR00T N1.5的预训练与后训练均采用光轮智能提供的仿真数据，以提升泛化能力。这些案例显示，仿真数据已从“补充资源”跃升为“基础要素”。同时，Generalist AI发布的GEN-0模型在27万小时人类视频数据上训练，验证了数据规模的扩展定律，标志着行业数据范式的重要转折。

光轮智能作为该领域的先行者，已深度融入全球AI训练生态。其参与英伟达Newton物理引擎开发、SimReady数据标准制定及Isaac Lab Arena平台建设，表明合作已超越表层接口，进入系统级协同。10月，英伟达Omniverse总监Madison Huang与光轮CEO谢晨公开对话，探讨虚拟与现实差距的缩小路径；

在GTC DC大会上，黄仁勋展示光轮跨平台仿真成果，机械臂在布料折叠任务中表现一致，印证了其高保真仿真能力获主流体系认可。

仿真合成数据的崛起反映了AI发展的底层逻辑：当模型能力逼近物理世界边界时，数据质量与规模成为决定性变量。光轮智能通过技术闭环与生态嵌入，在引擎、标准、平台三层构建壁垒，其客户矩阵与融资表现不仅体现商业价值，更预示行业正将仿真数据置于战略核心。随着具身智能与世界模型竞赛白热化，仿真合成数据作为“确定性燃料”，将持续驱动AI从数字世界迈向物理现实。

— 图片补充 —