评测驱动时代开启：李飞飞World Labs联手光轮智能，破解具身智能规模化评测难题

最火世界模型，最火具身智能基建，联手了！

前者，是李飞飞旗下的World Labs；后者，是一家炙手可热的仿真合成数据公司——光轮智能。

具身智能生态中最受关注的两家公司双刃合璧，原因无他，正是瞄准困扰行业已久的「规模化评测」问题，发起一波攻势。

而随着这波号角的吹响，也标志着具身智能正式迈入评测驱动时代。

在这个赛道上，光轮智能基于全栈自研仿真技术体系所构筑的护城河，正在显现规模效应。

此次与AI教母李飞飞旗下World Labs的合作，本身也是这一价值判断在战略层面的具象化体现，也是一次「世界模型×仿真基础设施」的历史性交汇：

World Labs解决的是「世界从哪来」，而光轮智能解决的，是「进步怎么被衡量」。

最火世界模型公司

李飞飞何许人也？

斯坦福著名教授、ImageNet奠基者、前Google Cloud首席AI科学家……行业公认的AI教母。

而World Labs，正是李飞飞的首个创业项目。

有这样一位重量级人物坐镇，World Labs自然是「出生就含着金汤匙」。

更重要的是，它从一开始就选择了一条与LLM大相径庭的AGI路线——空间智能 （Spatial Intelligence）。

这是一个极具想象力的概念：

通过构建能够感知、生成、推理并与环境互动的世界模型，让AI像人类一样，在与真实世界的持续交互中，逐步形成更具泛化性、上限更高的心智模型。

这种理念，也与Yann LeCun的判断不谋而合。尽管二者在世界模型的具体实现路径上存在差异，但都坚信：只有这种方式，才能突破LLM的智能天花板。

2025年底，World Labs正式推出首款产品Marble。

仅需一句话、一张图片或一段视频，便可生成高保真的3D世界。

更重要的，是其清晰的商业化潜力。

与LeCun路线不同，Marble走的是可视化世界模型方向，生成结果在视觉层面极具完成度。

Marble生成的是持久、可下载的3D环境，能够显著减少场景变形与细节不一致问题，并支持导出为高斯斑点、Mesh网格、视频等多种格式。

同时，Marble还内置了原生的AI世界编辑器Chisel，用户只需一句提示，便可对世界进行定制化修改。

对于视觉特效从业者或游戏开发者而言，「一句提示→生成3D世界→一键导出至Unity」的链路，已经是实打实的生产力工具。

也正因如此，Marble一经发布便广受好评，也让更多投资人重新审视世界模型这一路线的可行性。

在创始人、理念与产品的多重加持下，World Labs很快跻身为备受追捧的超级独角兽。

成立仅两年，World Labs已融资数亿美元，股东包括Andreessen Horowitz、英伟达、Databricks、Adobe等，几乎串起了整个顶级风投与AI生态网络。

学术评测与真实评测，已无法跟上具身智能

当然，世界模型真正的潜力，仍然在具身智能。

而这个领域，正在遭遇一个日益尖锐的问题。

模型进步的速度，已经快到一种近乎失控的程度——

几乎每隔一两周，就会出现令人眼前一亮的demo （演示），快到连现有benchmark都来不及跟上其进化节奏。

这让全球顶尖AI Labs集体陷入困境：

模型能力已经超过所有学术基准，但却无法被准确评估。

具身智能，迫切需要一把新的尺子。

直觉上，最直接的方法是进入真实环境测试。但这种方式无法规模化。

与自动驾驶不同，机器人没有「影子模式」的天然土壤。

车辆早已融入日常生活，即便不开启自动驾驶，系统也能在后台同步做决策推演，并与人类驾驶行为对比。

但机器人若想达到类似效果，必须额外搭建实验环境，装配大量物理设备，并承担高昂的维护与安全成本。

机械臂路径规划出错，可能导致减速器受损；夹爪力度控制不当，甚至可能直接损坏测试物体。

评测LLM，只需书面作答，边际成本极低；而要以同等规模评测具身智能，唯一可行的路径只有仿真。

这，也正是李飞飞投身具身智能创业的核心原因之一。

李飞飞多次强调：数据与评测，是具身智能scaling的根本约束。

她所倡导的数据金字塔，将训练数据划分为三类：真实遥操作数据、仿真合成数据、人类视频数据。

这一框架，正是出自她的学生、UT Austin教授、NVIDIA GEAR项目联合负责人Yuke Zhu之手。

在这一金字塔中，仿真合成数据被视为最具可扩展性、也最有潜力成为主干的数据形态。

问题随之而来：如何让仿真真正实现规模化？

在这一背景下，World Labs推出了Marble，希望将世界模型作为机器人的仿真训练场。

但Marble走的是可视化世界模型路线，本质上提供的是一个「世界载体」，并未内置触觉、重力等物理参数。

若要真正用于机器人训练与评测，还需要物理引擎，以及大量与真实物理对齐的仿真资产——这是一项极其庞大的长尾工程。

这，正是World Labs与光轮智能合作的关键原因。

事实上，这并非李飞飞第一次系统性地推动机器人评测。

早在Stanford时期，她便在2021年左右启动并推动了BEHAVIOR系列研究，目标非常明确：为具身智能建立ImageNet级别的长期评测工程。

BEHAVIOR从一开始，就不是为了刷榜而生，而是一个长期评测工程，旨在用可扩展、可复现的方式，系统刻画机器人在真实家庭场景中完成长程、多步骤任务的能力。

其背后，已有两代博士生投入多年研究。

2025年的BEHAVIOR Challenge，正是这一愿景的重要节点。

该挑战在NeurIPS顶会期间正式颁奖，被视为具身智能领域少有的、兼具学术与产业权威性的评测事件。

今年BEHAVIOR Challenge的颁奖环节中，光轮智能CEO谢晨受邀参与颁奖。在一个以学术权威著称的评测体系中，这一安排本身，已经传递出明确的行业信号——

评测，正在从论文问题，演进为工程与基础设施问题。

在这一体系中，参赛者需要在统一机器人本体上，于仿真家庭环境中完成烹饪、清洁等50个长程任务，平均单任务持续6.6分钟，评测维度涵盖任务完成率、时间效率、路径规划等多个层面。

这一次，李飞飞希望再次借助评测的力量，为具身智能指明方向，而光轮，正是具身智能最关键的产业级基础设施之一。

World Labs×光轮智能

当前，大多数仿真系统仍在追求「数字孪生」——试图将真实世界一比一复刻进仿真系统。

这种方式效果惊艳，却极其昂贵：

高密度传感器扫描、人工重建、长周期制作，几乎等同于制作一部小型CG。

显然，这条路线无法规模化。

World Labs与光轮智能，选择了另一条路径——Digital Cousin （数字表亲）。

这一概念由斯坦福SVL提出，其核心观点是：仿真最重要的是物理与空间结构，只要结构可信，细节允许近似。

Marble正是这一思想的代表。

通过一张360°全景图像等轻量级输入，Marble便可生成可导航的3D高斯散射世界，将环境创建时间从数周压缩到数分钟。

但对于具身智能评测而言，这一步只是起点。

真正的瓶颈在于：这些世界，是否能承载真实的物理交互，并用于稳定、可复现的评测？

这正是光轮智能进入的位置。光轮并非简单为Marble「补物理引擎」，而是从一开始，就将具身智能视为一个世界—行为—评测高度耦合的系统。

在这次合作中，双方的分工非常清晰：Marble解决的是环境生成的规模问题，而光轮承担的是仿真中最难、最重、也是最不可替代的部分——与真实物理对齐的资产，以及评测闭环。

其底层，是一套三位一体的仿真技术体系：

求解：自研GPU物理求解器，支持百万级自由度并行计算，稳定输出轨迹、接触力等可用于学习与验证的物理信号。
测量：构建全自动虚实对标物理测量工厂，通过高精度设备采集材料、摩擦、接触等真实物理参数。
生成：将真实世界的物理特性规模化映射为可执行、可评测的SimReady资产与场景。

在这一体系下，仿真不再是一次性的数据生成工具，而是一个可重复运行、可持续扩展的数据生产系统。世界、行为、评测，在这里形成闭环，使得规模化评测第一次真正成为可能。

为何是光轮智能？

众多从事仿真合成数据业务的公司中，李飞飞为何选择与光轮智能联手？其行业地位与技术实力是关键。

光轮智能是当前备受关注的具身智能基础设施公司，其能力得到了英伟达的官方认可。作为英伟达亲密的AI生态伙伴，光轮深度参与了英伟达仿真系统的底层共建，是Newton物理引擎的早期验证者和开发合作者。去年10月，英伟达Omniverse与物理AI高级总监Madison Huang首次公开亮相，便是与光轮智能进行对谈。

Madison Huang的发言直接佐证了光轮智能的技术实力：“英伟达内部有很多项目需要光轮智能的支持。”

光轮智能的客户覆盖范围同样印证了其市场影响力，几乎涵盖了AI生态中对仿真合成数据有需求的主要公司，包括：
* 大模型公司：英伟达、谷歌、Genesis AI、阿里、字节等。
* 机器人本体公司：Figure AI、1X Technology、智元机器人、银河通用等。
* 行业公司：Toyota、BOSCH、比亚迪、吉利等。

据行业资深人士透露，光轮已服务全球前三的世界模型公司，国际主要具身团队的仿真资产和合成数据，80%以上来自光轮。

更重要的是，光轮智能身处客户需求一线，能够最早洞察机器人能力的短板。通过汇聚来自不同模型团队的反馈，光轮形成了一本详实的机器人能力“病历”，并能据此反向优化仿真与合成数据，提供更具针对性的解决方案，从而形成了一个推动技术迭代的闭环。

作为行业基础设施提供者，光轮智能天然适合承担评测角色。去年年底，光轮推出了业内首个工业级、可规模化、真实可信的仿真评测平台——RoboFinals，专为尖端机器人基础模型评测而生，并获得了阿里通义千问团队的积极采用。同时，光轮也与英伟达联合打造了新一代开源仿真评测框架Isaac Lab Arena。

评测驱动时代开启

随着具身智能行业迎来爆发，技术路线日益分叉，行业亟需能够指引方向的“路标”。评测的意义不仅在于横向比较，更在于提前发现技术瓶颈，甚至反向塑造研究方向。这是一种必须与模型能力同步扩展的系统级能力。

当评测本身成为基础设施，光轮智能的角色也随之凸显。不同于模型公司或机器人本体厂商，作为仿真与评测基础设施，光轮处在所有技术路线之上，而非其中之一，这使其最适合承担客观的评测角色。

在此背景下，李飞飞World Labs与光轮智能的合作，将具身智能领域两块重要的基础设施串联起来。此次合作或许标志着一个新阶段的开始——具身智能，正式迈入评测驱动时代。

参考链接：
[1]https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
[2]https://developer.nvidia.com/blog/simplify-generalist-robot-policy-evaluation-in-simulation-with-nvidia-isaac-lab-arena/
[3]https://www.ft.com/content/d8fec7b5-f64a-4c5b-8439-6b8fe557be95
[4]https://mp.weixin.qq.com/s/fF4ePkwm_f9j6xE0B1vRlQ

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18395

评测驱动时代开启：李飞飞World Labs联手光轮智能，破解具身智能规模化评测难题

最火世界模型公司

学术评测与真实评测，已无法跟上具身智能

World Labs×光轮智能

为何是光轮智能？

评测驱动时代开启

相关推荐

量子计算十年瓶颈终破：万级Qubit芯片开启可扩展硬件时代

国产AI实现空间智能突破：SenseNova-SI超越国际顶尖模型，揭示AI技术范式变革

AI巨头混战升级：从单点突破到生态闭环的战略博弈

LangChain创始人深度解析：AI智能体沙盒架构的两种核心模式与安全实践

Vercel发布skills 1.1.1：打破AI助手技能孤岛，构建跨平台共享新生态