在AI技术从信息处理向物理世界交互演进的关键拐点,仿真合成数据正从辅助工具转变为基础设施,成为训练下一代AI模型的核心要素。近期,专注于该领域的光轮智能完成数亿元融资,其客户涵盖英伟达、谷歌、阿里、字节等科技巨头,以及Figure AI、智元机器人、丰田、比亚迪等产业代表,凸显了仿真合成数据在AI生态中的战略地位。
当前AI发展的核心矛盾在于:模型在文本、图像等数字领域已取得显著进展,但一旦涉及与物理世界交互(如机器人操作、环境适应),性能便出现明显瓶颈。斯坦福大学教授李飞飞在《From Words to Worlds》中指出,AI需要发展“空间智能”——理解物体间关系、语义意义及现实重要性的能力。这解释了为何全球资源正加速投向世界模型和具身智能:二者是打通AI与物理世界壁垒的关键路径。
训练这类模型需要的数据范式已发生根本转变。传统依赖图文对齐或语言标注的方法无法满足需求,取而代之的是多模态交互过程数据,这类数据必须具备规模化、结构化、高可控性。行业将训练数据分为三类:真实遥操作数据、仿真合成数据、人类视频数据。

其中,仿真合成数据与人类视频数据属于“本体无关数据”,更易标准化生成。而仿真合成数据在结构清晰度、精度、可控性及投资回报率方面更具优势,成为具身智能与世界模型训练的首选方案。
具身智能领域,机器人“大脑”(决策模型)和“小脑”(控制模型)均需大量仿真数据,尤其小脑模型对高保真数据依赖度更高。世界模型同样对仿真数据有强烈需求——李飞飞团队强调,高质量合成数据及深度、触觉等多模态数据在训练关键阶段起补充作用。云端世界模型因追求泛化与物理预测,数据需求规模更大,而真实数据存在稀缺性、成本高、覆盖窄等瓶颈,仿真数据成为突破这些限制的核心手段。

近期多项突破验证了仿真合成数据的价值。李飞飞团队与斯坦福AI实验室通过合成管线生成亿级视觉-语言-动作数据,推出人形机器人基准BEHAVIOR Challenge;英伟达开源模型GR00T N1.5的预训练与后训练均采用光轮智能提供的仿真数据,以提升泛化能力。这些案例显示,仿真数据已从“补充资源”跃升为“基础要素”。同时,Generalist AI发布的GEN-0模型在27万小时人类视频数据上训练,验证了数据规模的扩展定律,标志着行业数据范式的重要转折。

光轮智能作为该领域的先行者,已深度融入全球AI训练生态。其参与英伟达Newton物理引擎开发、SimReady数据标准制定及Isaac Lab Arena平台建设,表明合作已超越表层接口,进入系统级协同。10月,英伟达Omniverse总监Madison Huang与光轮CEO谢晨公开对话,探讨虚拟与现实差距的缩小路径;

在GTC DC大会上,黄仁勋展示光轮跨平台仿真成果,机械臂在布料折叠任务中表现一致,印证了其高保真仿真能力获主流体系认可。

仿真合成数据的崛起反映了AI发展的底层逻辑:当模型能力逼近物理世界边界时,数据质量与规模成为决定性变量。光轮智能通过技术闭环与生态嵌入,在引擎、标准、平台三层构建壁垒,其客户矩阵与融资表现不仅体现商业价值,更预示行业正将仿真数据置于战略核心。随着具身智能与世界模型竞赛白热化,仿真合成数据作为“确定性燃料”,将持续驱动AI从数字世界迈向物理现实。
— 图片补充 —




关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6655
