近日,全球具身世界模型权威基准评测平台 WorldArena 正式更新了其最新榜单。由 Manifold AI(流形空间)研发的世界模型 Worldscape 0.2,凭借在物理规律遵循与多源交互理解方面的重大突破,成功登顶 WorldArena 全球第一。这一成绩充分展示了国产世界模型在复杂动态场景生成与具身控制任务中所具备的高精度、强泛化能力以及物理可信度。参与此次评测的对手包括英伟达、谷歌等国外科技巨头,以及星动纪元、极佳视界等国内具身智能企业。
WorldArena 是首个专门面向具身世界模型的“功能+视觉”统一评测体系,由清华大学、北京大学、香港大学、普林斯顿大学、中国科学院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖学术机构联合推出。目前,它已成为具身世界模型领域公认的国际权威公开评测标准。
在 WorldArena 的评测维度中,除了视觉质量,还涵盖了动作质量、内容一致性、物理遵循性、3D 准确性和可控性。这些指标全面评估了各模型对物理规律的理解深度、动作轨迹的精确度,以及多步决策的稳定性——这些正是“具身大脑”最应关注的核心能力。此外,WorldArena 还包含世界模型作为数据引擎(Data Engine)、策略评估器(Policy Evaluator)和动作规划器(Action Planner)等三个下游任务的综合评测。最终,这些客观评测结果会与人类主观评估相结合,计算出高度综合的 EWMScore 指数。

WorldScape 0.2 在 WorldArena 的登顶并非源于偏科,而是同时展现了卓越的综合素质与突出的长板优势。其具体表现如下:
- 综合感知得分稳居榜首:在包含视觉质量、运动质量、内容一致性、可控性等多维度的极其严苛的综合感知评估中,WorldScape 0.2 拿下了综合第一。更重要的是,它在各项能力之间达成了完美的平衡,没有明显的“短板效应”,能够全方位支撑复杂的长程具身任务。
- 物理规律遵循断层第一:以往的生成模型往往“重视觉、轻物理”,生成的行为虽然看起来合理,却违背了真实世界的物理约束。WorldScape 0.2 在该项指标上不仅拿下最高分,且大幅领先第二名。这表明模型真正“内化”了重力、摩擦力、碰撞与受力反馈等力学逻辑。其生成的场景不仅“像”,而且在物理上“对”,完全具备了作为高可靠物理模拟器指导真实机器人作业的能力。
- 卓越的三维空间理解力:模型在 3D 准确性这一高难度指标上同样表现出极高水准。这表明 WorldScape 0.2 在处理复杂的机械臂操控、视角切换和物体遮挡时,依然能维持极高精度的三维空间几何结构,有效避免了传统视频模型常见的“空间扭曲”或“二维纸片化”现象,为多源交互提供了坚实的空间拓扑基础。

一个月前,国际最权威的通用世界模型评测榜单 WorldScore 迎来更新。Manifold AI 自研的模型 WorldScape 0.1 就在 WorldScore 强势登顶(WorldScore-Static 和 WorldScore-Dynamic 全部两项指标均排名第一),在全球同台竞技中拿下第一并保持至今。

在世界模型的全球竞逐中,WorldScore 被公认为检验通用世界模型基座实力的“终极试金石”。该基准从各类可控性、生成质量等多类维度,考验模型在数千个不同场景中的生成能力,对模型进行严苛的极限测试。面对这一高门槛,Manifold AI(流形空间)研发的 WorldScape 0.1 模型强势突围,总分稳居全球榜首。与其同场竞技的包括李飞飞团队、MIT、阿里、Runway、智谱、MiniMax、腾讯混元等。
长久以来,世界模型的通病是“重渲染、轻规律”。生成的视频看似精美,但在涉及复杂场景的运动、多步控制时,往往破绽百出。而 WorldScape 恰恰在最难攻克的物理和交互指标上,拉开了显著的领先优势,从而成功登顶。这意味着,WorldScape 已成功跨越了“像不像”的视觉表象,真正触及了“对不对”的底层物理逻辑。这不仅是一次分数的超越,更是国产世界模型在真实世界执行力上的一次标志性跨越。

更难能可贵的是,WorldScape 模型的参数规模仅为排名前列其他模型的 10%,却展现了全球最佳的空间智能密度和推理实时性。这为将其落地到物理 AI 的边缘侧提供了坚实的技术支撑。
不到一个月再次进化,MoE 开启世界模型 Scaling Law
近年来,MoE 架构在大语言模型中取得了巨大成功。它使模型能够以稀疏激活的方式高效吸收海量知识,在同等计算预算下大幅提升语言理解与生成能力。MoE 的底层原理是通过引入多个专精的子网络与动态门控机制,在每次前向计算中仅激活与输入最匹配的少数专家,从而在不显著增加计算成本的前提下,将模型参数规模提升数个量级。
将 MoE 拓展至世界模型尤为重要:世界模型需要统一建模物理规律、多模态感知、交互决策等高度异质的场景。而 MoE 可以让不同专家分别负责视觉动态、移动交互、操作推理等不同子空间或任务模式,并通过门控自适应地整合它们。这样,在保持整体参数可扩展性的同时,能避免不同知识领域的相互干扰,为实现通用、连贯的世界模拟提供了关键的结构化机制。短短不到一个月,WorldScape 从 0.1 进化到 0.2 并再次登顶,其核心驱动力正是来自 MoE。具体来说,体现在三个方面:

- 多专家协同泛化:从统一交互到多专家协同的泛化基座
WorldScape 0.2 突破了单一任务边界,构建了支持多源控制信号协同学习的统一架构。在延续基础空间交互能力的同时,它将机械臂精细操控等复杂具身行为纳入多专家统一生成范式,实现了不同控制模态间的相互赋能与联合优化。该框架具备原生可扩展性,为迈向“世界模型驱动的通用智能”提供了可插拔、可泛化的底层技术路径。
- 统一空间表征:从几何约束到多源知识融合的元空间建模
WorldScape 0.2 超越了单一几何先验,将几何拓扑、语义理解与物理规律等多维异质表征进行结构化对齐,并在统一的隐式元空间中完成跨模态知识融合。这种表征耦合机制使模型在长程交互中不仅能维持空间拓扑稳定,更能实现语义连贯与物理合理的深度一致,从根本上升级了世界结构的生成可信度。
- 多阶段持续学习:从视觉保真到物理遵循的范式跃迁
WorldScape 0.2 采用渐进式分阶段训练策略。通过海量世界知识注入与异源控制信号的深度耦合,它显著强化了生成内容对真实物理规律的遵循能力。模型不再局限于“画面流畅”,而是追求“运动符合力学逻辑与场景常识”。在全球权威具身基准 WorldArena 中斩获第一,实现了从“视觉拟真”向“物理可信”的关键跨越。
Manifold AI 在多个主流评测模型中的独占鳌头表现,以及其模型 scaling 能力的验证,让我们相信世界模型的 GPT-3 时刻即将到来。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32253

