在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩:
- 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶;
- 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo 3.1、英伟达 Cosmos-Predict 2.5 等模型;
- Ctrl-World 成为在 “视频生成质量” 与 “具身任务” 两大关键维度均跻身顶级梯队的世界模型。

| 
—|—
图:14 款世界模型在 WorldArena 的综合指标评分(左);Ctrl-World 在具身策略评估一致性(a)与视频生成质量(b)上的表现(右)
WorldArena:具身世界模型的“终极试炼场”
WorldArena 之所以被公认为行业权威评测,源于其全面、硬核且具引领性的定位,其专业权威性建立在三大核心特质之上:
1. 硬核基准:顶尖学术共建,全方位综合评测
WorldArena 由清华大学牵头,联合普林斯顿大学、新加坡国立大学、北京大学等全球 8 所顶尖学术机构共同研发,制定了兼具科学性与实用性的评测标准。
该体系聚焦具身世界模型,构建了涵盖 16 项核心指标 和 3 大真实应用任务 的综合测试场景,全面考核模型的感知、物理理解、空间认知、动作预测及实际落地能力。
2. 参赛阵容鼎盛:全球巨头与顶尖机构同台竞技
首批参评模型涵盖了国际科技巨头与顶尖学术机构,包括谷歌、英伟达、阿里、字节、清华大学、斯坦福大学等。14 款 主流技术路线的模型同台竞技,使榜单结果成为行业技术发展的重要风向标。
3. 评测硬核:16 项指标 + 3 大任务,直击“真干活”需求
WorldArena 的评测体系围绕“具身实用”设计,聚焦模型的实际应用价值。

图:视频质量的 6 大评估维度示意图
- 视频质量:从视觉质量、运动质量、内容一致性、物理贴合度、3D 精度、可控性等 6 大维度 进行细粒度评估。

图:具身任务的 3 大评估体系概览
- 具身任务:通过数据引擎、策略评估、动作规划 3 大任务,直接考核模型生成内容能否用于训练机器人、模拟环境能否测试策略、规划动作能否完成任务。
- 人类校验:由 70 位专业标注者对 3500 个视频进行主观评估,确保结果既符合技术标准,又贴近人类对“实用”的直觉判断。

图:现有世界模型基准与 WorldArena 的评测维度对比
这种“技术指标 + 实用任务 + 人类校验”的三重考核,使 WorldArena 的排名直接体现了模型的实际应用价值。
Ctrl-World 四大具身维度登顶,斩获具身任务能力全球第一

图:14 款世界模型在视频质量三大维度的评分,Ctrl-World 在主体一致性上全球第一

图:14 款世界模型在物理贴合度、3D 准确性及可控性上的评分,Ctrl-World 在轨迹准确性等指标上领先
1. 主体一致性全球第一(0.8411):筑牢具身任务落地基础
该指标衡量生成物体在时序上的身份、外观与形态稳定程度。Ctrl-World 的领先表现,使其生成的机器人操作视频能最大程度规避物体漂移、形变或身份混淆问题,为机器人作业提供了高保真的交互对象。

图:WorldArena 基准中主体一致性的高低分案例对比
2. 轨迹精度全球第一(0.4766):动作精准度媲美真实物理轨迹
轨迹准确性衡量机械臂运动轨迹与真实物理轨迹的对齐度。Ctrl-World 位列第一,意味着其生成的机械臂运动轨迹与真实世界物理运动高度吻合,为机器人提供了可信赖的动作规划模板。

图:WorldArena 基准中轨迹准确性的高低分案例对比
3. 深度准确性全球第一梯队(0.9300):3D 空间认知领先
在 3D 准确性维度的深度准确性指标上,Ctrl-World 以 0.9300 的得分(与第一位差距仅 0.0012)位居全球第一梯队,展现了对三维空间结构的精准把握。这一能力直接关系到机器人在抓取、堆叠等精密操作中的成功率。

该图展示了 WorldArena 基准中深度准确性(Depth Accuracy)的高分与低分案例对比,直观呈现了 Ctrl-World 以 0.9300 的分数位居全球第一梯队的技术优势:
- 高分案例(深度准确性 91.58):在「stack blocks three」与「stack bowls two」任务中,模型生成的深度图与真实场景(GT)高度一致。物体空间位置稳定、透视关系合理,机械臂与物体之间保持了正确的空间分离与物理接触,体现了精准的三维空间结构认知能力。
- 低分案例(深度准确性 59.07):在相同场景下,出现了机械臂与物体异常融合(穿透)、严重几何失真、鬼影模糊及阴影缺失等问题,导致空间完整性崩塌。
4. 策略评估一致性全球第一(Pearson r=0.986):虚拟测试等效于真实测试
在最具实用价值的策略评估任务中,Ctrl-World 与真实物理模拟器的评估结果相关性高达 0.986,近乎完美地复现了真实环境的动态。这意味着开发者可以直接使用 Ctrl-World 来测试机器人策略,无需搭建昂贵的真实物理环境,从而大幅降低研发成本。

图表说明:世界模型与物理模拟器的策略评估结果相关性对比。Ctrl-World 的 Pearson 相关系数 r=0.986,远高于其他模型,印证了其作为高保真虚拟仿真环境的可靠性。
从指标领先到任务成功:解码 Ctrl-World 的“实力转化”
Ctrl-World 在物理贴合度、3D 准确性及可控性等维度的全面领先,直接决定了其作为“机器人大脑”的实用价值。WorldArena 的评测数据清晰地揭示了这种从指标到实际应用的转化关系:
- 高保真策略评估:虚拟测试即真实测试
在策略评估任务中,Ctrl-World 与物理模拟器的评估相关性高达 0.986,这意味着在其虚拟环境中测试的机器人策略性能,与在真实物理环境中的测试结果几乎无差异。这一成就背后的技术关键在于:Ctrl-World 采用了显式动作条件化架构,将机械臂关节角度、末端执行器位姿等底层物理参数直接作为生成条件,强制模型学习“执行动作 A → 产生状态 B”的因果物理链,而非仅根据文本描述进行推测。 - 动作规划成功率:物理准确性直接决定任务成败
在动作规划任务中,虽然当前所有世界模型的绝对成功率仍有提升空间,但 Ctrl-World 的物理准确性优势为其奠定了最可靠的基础。其领先的轨迹精度和深度准确性确保了生成的动作序列在真实机器人上执行时,能够精准到达目标位置并维持物理稳定的交互,有效避免了因空间感知偏差导致的抓空、碰撞等操作失误。 - 合成数据的有效性:从“能生成”到“能训练”
在数据引擎任务中,Ctrl-World 生成数据的物理合理性确保了其可用于训练真实的机器人策略。与许多视觉清晰但缺乏物理一致性的合成数据不同,Ctrl-World 通过嵌入物理引擎约束的训练方式,确保生成的视频-动作序列不仅“看起来对”,更在“物理上对”,从而使其合成数据真正具备训练价值。
Ctrl-World 的核心技术优势
- 动作条件化架构
与主要依赖文本提示的模型不同,Ctrl-World 采用显式动作建模,直接将机器人动作参数注入生成过程。这使其能够精确模拟接触力反馈、惯性传递等物理现象,从根本上避免了物体穿透、隔空吸附等常见错误。 - 物理引擎约束嵌入
Ctrl-World 在训练过程中嵌入了物理引擎约束,将牛顿力学定律“内化”为生成过程的硬性条件。这使得其生成的环境动态与真实物理模拟器的误差极小,是其策略评估相关性达到 0.986 的核心原因。 - 多视图联合与视频预测模型
为达成深度准确性方面的领先,Ctrl-World 融合了多视图联合预测与视频预测模型,不仅预测 RGB 像素,更隐式建模深度图与点云结构,从而在处理需要精确空间认知的复杂任务时表现更优。
结语:从“生成好看”到“真能干活”,世界模型进入新阶段
Ctrl-World 在 WorldArena 评测中取得的佳绩,核心在于其精准把握了具身世界模型的本质——以物理规律为根基,以空间认知为骨架,以实际功能效用为目标。这标志着世界模型的研究正从追求视觉保真度,向构建真正具备物理常识、能支撑机器人完成实际任务的方向迈进。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23145
