前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。
具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。
而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。
在这个赛道上,光轮智能基于全栈自研仿真技术体系所构筑的护城河,正在显现规模效应。
此次与AI教母李飞飞旗下World Labs的合作,本身也是这一价值判断在战略层面的具象化体现,也是一次「世界模型×仿真基础设施」的历史性交汇:
World Labs解决的是「世界从哪来」,而光轮智能解决的,是「进步怎么被衡量」。
最火世界模型公司
李飞飞何许人也?
斯坦福著名教授、ImageNet奠基者、前Google Cloud首席AI科学家……行业公认的AI教母。
而World Labs,正是李飞飞的首个创业项目。
有这样一位重量级人物坐镇,World Labs自然是「出生就含着金汤匙」。
更重要的是,它从一开始就选择了一条与LLM大相径庭的AGI路线——空间智能 (Spatial Intelligence)。
这是一个极具想象力的概念:
通过构建能够感知、生成、推理并与环境互动的世界模型,让AI像人类一样,在与真实世界的持续交互中,逐步形成更具泛化性、上限更高的心智模型。
这种理念,也与Yann LeCun的判断不谋而合。尽管二者在世界模型的具体实现路径上存在差异,但都坚信:只有这种方式,才能突破LLM的智能天花板。
2025年底,World Labs正式推出首款产品Marble。
仅需一句话、一张图片或一段视频,便可生成高保真的3D世界。
更重要的,是其清晰的商业化潜力。
与LeCun路线不同,Marble走的是可视化世界模型方向,生成结果在视觉层面极具完成度。

Marble生成的是持久、可下载的3D环境,能够显著减少场景变形与细节不一致问题,并支持导出为高斯斑点、Mesh网格、视频等多种格式。
同时,Marble还内置了原生的AI世界编辑器Chisel,用户只需一句提示,便可对世界进行定制化修改。

对于视觉特效从业者或游戏开发者而言,「一句提示→生成3D世界→一键导出至Unity」的链路,已经是实打实的生产力工具。
也正因如此,Marble一经发布便广受好评,也让更多投资人重新审视世界模型这一路线的可行性。
在创始人、理念与产品的多重加持下,World Labs很快跻身为备受追捧的超级独角兽。
成立仅两年,World Labs已融资数亿美元,股东包括Andreessen Horowitz、英伟达、Databricks、Adobe等,几乎串起了整个顶级风投与AI生态网络。
学术评测与真实评测,已无法跟上具身智能
当然,世界模型真正的潜力,仍然在具身智能。
而这个领域,正在遭遇一个日益尖锐的问题。
模型进步的速度,已经快到一种近乎失控的程度——
几乎每隔一两周,就会出现令人眼前一亮的demo (演示),快到连现有benchmark都来不及跟上其进化节奏。

这让全球顶尖AI Labs集体陷入困境:
模型能力已经超过所有学术基准,但却无法被准确评估。
具身智能,迫切需要一把新的尺子。
直觉上,最直接的方法是进入真实环境测试。但这种方式无法规模化。
与自动驾驶不同,机器人没有「影子模式」的天然土壤。
车辆早已融入日常生活,即便不开启自动驾驶,系统也能在后台同步做决策推演,并与人类驾驶行为对比。
但机器人若想达到类似效果,必须额外搭建实验环境,装配大量物理设备,并承担高昂的维护与安全成本。
机械臂路径规划出错,可能导致减速器受损;夹爪力度控制不当,甚至可能直接损坏测试物体。
评测LLM,只需书面作答,边际成本极低;而要以同等规模评测具身智能,唯一可行的路径只有仿真。
这,也正是李飞飞投身具身智能创业的核心原因之一。
李飞飞多次强调:数据与评测,是具身智能scaling的根本约束。
她所倡导的数据金字塔,将训练数据划分为三类:真实遥操作数据、仿真合成数据、人类视频数据。

这一框架,正是出自她的学生、UT Austin教授、NVIDIA GEAR项目联合负责人Yuke Zhu之手。
在这一金字塔中,仿真合成数据被视为最具可扩展性、也最有潜力成为主干的数据形态。
问题随之而来:如何让仿真真正实现规模化?
在这一背景下,World Labs推出了Marble,希望将世界模型作为机器人的仿真训练场。
但Marble走的是可视化世界模型路线,本质上提供的是一个「世界载体」,并未内置触觉、重力等物理参数。
若要真正用于机器人训练与评测,还需要物理引擎,以及大量与真实物理对齐的仿真资产——这是一项极其庞大的长尾工程。
这,正是World Labs与光轮智能合作的关键原因。
事实上,这并非李飞飞第一次系统性地推动机器人评测。
早在Stanford时期,她便在2021年左右启动并推动了BEHAVIOR系列研究,目标非常明确:为具身智能建立ImageNet级别的长期评测工程。
BEHAVIOR从一开始,就不是为了刷榜而生,而是一个长期评测工程,旨在用可扩展、可复现的方式,系统刻画机器人在真实家庭场景中完成长程、多步骤任务的能力。
其背后,已有两代博士生投入多年研究。
2025年的BEHAVIOR Challenge,正是这一愿景的重要节点。
该挑战在NeurIPS顶会期间正式颁奖,被视为具身智能领域少有的、兼具学术与产业权威性的评测事件。
今年BEHAVIOR Challenge的颁奖环节中,光轮智能CEO谢晨受邀参与颁奖。在一个以学术权威著称的评测体系中,这一安排本身,已经传递出明确的行业信号——
评测,正在从论文问题,演进为工程与基础设施问题。

在这一体系中,参赛者需要在统一机器人本体上,于仿真家庭环境中完成烹饪、清洁等50个长程任务,平均单任务持续6.6分钟,评测维度涵盖任务完成率、时间效率、路径规划等多个层面。
这一次,李飞飞希望再次借助评测的力量,为具身智能指明方向,而光轮,正是具身智能最关键的产业级基础设施之一。
World Labs×光轮智能
当前,大多数仿真系统仍在追求「数字孪生」——试图将真实世界一比一复刻进仿真系统。
这种方式效果惊艳,却极其昂贵:
高密度传感器扫描、人工重建、长周期制作,几乎等同于制作一部小型CG。
显然,这条路线无法规模化。
World Labs与光轮智能,选择了另一条路径——Digital Cousin (数字表亲)。
这一概念由斯坦福SVL提出,其核心观点是:仿真最重要的是物理与空间结构,只要结构可信,细节允许近似。
Marble正是这一思想的代表。
通过一张360°全景图像等轻量级输入,Marble便可生成可导航的3D高斯散射世界,将环境创建时间从数周压缩到数分钟。
但对于具身智能评测而言,这一步只是起点。
真正的瓶颈在于:这些世界,是否能承载真实的物理交互,并用于稳定、可复现的评测?
这正是光轮智能进入的位置。光轮并非简单为Marble「补物理引擎」,而是从一开始,就将具身智能视为一个世界—行为—评测高度耦合的系统。
在这次合作中,双方的分工非常清晰:Marble解决的是环境生成的规模问题,而光轮承担的是仿真中最难、最重、也是最不可替代的部分——与真实物理对齐的资产,以及评测闭环。
其底层,是一套三位一体的仿真技术体系:
- 求解:自研GPU物理求解器,支持百万级自由度并行计算,稳定输出轨迹、接触力等可用于学习与验证的物理信号。
- 测量:构建全自动虚实对标物理测量工厂,通过高精度设备采集材料、摩擦、接触等真实物理参数。
- 生成:将真实世界的物理特性规模化映射为可执行、可评测的SimReady资产与场景。
在这一体系下,仿真不再是一次性的数据生成工具,而是一个可重复运行、可持续扩展的数据生产系统。世界、行为、评测,在这里形成闭环,使得规模化评测第一次真正成为可能。
为何是光轮智能?
众多从事仿真合成数据业务的公司中,李飞飞为何选择与光轮智能联手?其行业地位与技术实力是关键。
光轮智能是当前备受关注的具身智能基础设施公司,其能力得到了英伟达的官方认可。作为英伟达亲密的AI生态伙伴,光轮深度参与了英伟达仿真系统的底层共建,是Newton物理引擎的早期验证者和开发合作者。去年10月,英伟达Omniverse与物理AI高级总监Madison Huang首次公开亮相,便是与光轮智能进行对谈。

Madison Huang的发言直接佐证了光轮智能的技术实力:“英伟达内部有很多项目需要光轮智能的支持。”
光轮智能的客户覆盖范围同样印证了其市场影响力,几乎涵盖了AI生态中对仿真合成数据有需求的主要公司,包括:
* 大模型公司:英伟达、谷歌、Genesis AI、阿里、字节等。
* 机器人本体公司:Figure AI、1X Technology、智元机器人、银河通用等。
* 行业公司:Toyota、BOSCH、比亚迪、吉利等。
据行业资深人士透露,光轮已服务全球前三的世界模型公司,国际主要具身团队的仿真资产和合成数据,80%以上来自光轮。
更重要的是,光轮智能身处客户需求一线,能够最早洞察机器人能力的短板。通过汇聚来自不同模型团队的反馈,光轮形成了一本详实的机器人能力“病历”,并能据此反向优化仿真与合成数据,提供更具针对性的解决方案,从而形成了一个推动技术迭代的闭环。
作为行业基础设施提供者,光轮智能天然适合承担评测角色。去年年底,光轮推出了业内首个工业级、可规模化、真实可信的仿真评测平台——RoboFinals,专为尖端机器人基础模型评测而生,并获得了阿里通义千问团队的积极采用。同时,光轮也与英伟达联合打造了新一代开源仿真评测框架Isaac Lab Arena。
评测驱动时代开启
随着具身智能行业迎来爆发,技术路线日益分叉,行业亟需能够指引方向的“路标”。评测的意义不仅在于横向比较,更在于提前发现技术瓶颈,甚至反向塑造研究方向。这是一种必须与模型能力同步扩展的系统级能力。
当评测本身成为基础设施,光轮智能的角色也随之凸显。不同于模型公司或机器人本体厂商,作为仿真与评测基础设施,光轮处在所有技术路线之上,而非其中之一,这使其最适合承担客观的评测角色。
在此背景下,李飞飞World Labs与光轮智能的合作,将具身智能领域两块重要的基础设施串联起来。此次合作或许标志着一个新阶段的开始——具身智能,正式迈入评测驱动时代。
参考链接:
[1]https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
[2]https://developer.nvidia.com/blog/simplify-generalist-robot-policy-evaluation-in-simulation-with-nvidia-isaac-lab-arena/
[3]https://www.ft.com/content/d8fec7b5-f64a-4c5b-8439-6b8fe557be95
[4]https://mp.weixin.qq.com/s/fF4ePkwm_f9j6xE0B1vRlQ
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18395
