国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

近日,全球具身世界模型权威基准评测平台 WorldArena 正式更新了其最新榜单。由 Manifold AI(流形空间)研发的世界模型 Worldscape 0.2,凭借在物理规律遵循与多源交互理解方面的重大突破,成功登顶 WorldArena 全球第一。这一成绩充分展示了国产世界模型在复杂动态场景生成与具身控制任务中所具备的高精度、强泛化能力以及物理可信度。参与此次评测的对手包括英伟达、谷歌等国外科技巨头,以及星动纪元、极佳视界等国内具身智能企业。

WorldArena 是首个专门面向具身世界模型的“功能+视觉”统一评测体系,由清华大学、北京大学、香港大学、普林斯顿大学、中国科学院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖学术机构联合推出。目前,它已成为具身世界模型领域公认的国际权威公开评测标准。

在 WorldArena 的评测维度中,除了视觉质量,还涵盖了动作质量、内容一致性、物理遵循性、3D 准确性和可控性。这些指标全面评估了各模型对物理规律的理解深度、动作轨迹的精确度,以及多步决策的稳定性——这些正是“具身大脑”最应关注的核心能力。此外,WorldArena 还包含世界模型作为数据引擎(Data Engine)、策略评估器(Policy Evaluator)和动作规划器(Action Planner)等三个下游任务的综合评测。最终,这些客观评测结果会与人类主观评估相结合,计算出高度综合的 EWMScore 指数。

国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

WorldScape 0.2 在 WorldArena 的登顶并非源于偏科,而是同时展现了卓越的综合素质与突出的长板优势。其具体表现如下:

  • 综合感知得分稳居榜首:在包含视觉质量、运动质量、内容一致性、可控性等多维度的极其严苛的综合感知评估中,WorldScape 0.2 拿下了综合第一。更重要的是,它在各项能力之间达成了完美的平衡,没有明显的“短板效应”,能够全方位支撑复杂的长程具身任务。
  • 物理规律遵循断层第一:以往的生成模型往往“重视觉、轻物理”,生成的行为虽然看起来合理,却违背了真实世界的物理约束。WorldScape 0.2 在该项指标上不仅拿下最高分,且大幅领先第二名。这表明模型真正“内化”了重力、摩擦力、碰撞与受力反馈等力学逻辑。其生成的场景不仅“像”,而且在物理上“对”,完全具备了作为高可靠物理模拟器指导真实机器人作业的能力。
  • 卓越的三维空间理解力:模型在 3D 准确性这一高难度指标上同样表现出极高水准。这表明 WorldScape 0.2 在处理复杂的机械臂操控、视角切换和物体遮挡时,依然能维持极高精度的三维空间几何结构,有效避免了传统视频模型常见的“空间扭曲”或“二维纸片化”现象,为多源交互提供了坚实的空间拓扑基础。

国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

一个月前,国际最权威的通用世界模型评测榜单 WorldScore 迎来更新。Manifold AI 自研的模型 WorldScape 0.1 就在 WorldScore 强势登顶(WorldScore-Static 和 WorldScore-Dynamic 全部两项指标均排名第一),在全球同台竞技中拿下第一并保持至今。

国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

在世界模型的全球竞逐中,WorldScore 被公认为检验通用世界模型基座实力的“终极试金石”。该基准从各类可控性、生成质量等多类维度,考验模型在数千个不同场景中的生成能力,对模型进行严苛的极限测试。面对这一高门槛,Manifold AI(流形空间)研发的 WorldScape 0.1 模型强势突围,总分稳居全球榜首。与其同场竞技的包括李飞飞团队、MIT、阿里、Runway、智谱、MiniMax、腾讯混元等。

长久以来,世界模型的通病是“重渲染、轻规律”。生成的视频看似精美,但在涉及复杂场景的运动、多步控制时,往往破绽百出。而 WorldScape 恰恰在最难攻克的物理和交互指标上,拉开了显著的领先优势,从而成功登顶。这意味着,WorldScape 已成功跨越了“像不像”的视觉表象,真正触及了“对不对”的底层物理逻辑。这不仅是一次分数的超越,更是国产世界模型在真实世界执行力上的一次标志性跨越。

国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

更难能可贵的是,WorldScape 模型的参数规模仅为排名前列其他模型的 10%,却展现了全球最佳的空间智能密度和推理实时性。这为将其落地到物理 AI 的边缘侧提供了坚实的技术支撑。

不到一个月再次进化,MoE 开启世界模型 Scaling Law

近年来,MoE 架构在大语言模型中取得了巨大成功。它使模型能够以稀疏激活的方式高效吸收海量知识,在同等计算预算下大幅提升语言理解与生成能力。MoE 的底层原理是通过引入多个专精的子网络与动态门控机制,在每次前向计算中仅激活与输入最匹配的少数专家,从而在不显著增加计算成本的前提下,将模型参数规模提升数个量级。

将 MoE 拓展至世界模型尤为重要:世界模型需要统一建模物理规律、多模态感知、交互决策等高度异质的场景。而 MoE 可以让不同专家分别负责视觉动态、移动交互、操作推理等不同子空间或任务模式,并通过门控自适应地整合它们。这样,在保持整体参数可扩展性的同时,能避免不同知识领域的相互干扰,为实现通用、连贯的世界模拟提供了关键的结构化机制。短短不到一个月,WorldScape 从 0.1 进化到 0.2 并再次登顶,其核心驱动力正是来自 MoE。具体来说,体现在三个方面:

国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

  1. 多专家协同泛化:从统一交互到多专家协同的泛化基座

WorldScape 0.2 突破了单一任务边界,构建了支持多源控制信号协同学习的统一架构。在延续基础空间交互能力的同时,它将机械臂精细操控等复杂具身行为纳入多专家统一生成范式,实现了不同控制模态间的相互赋能与联合优化。该框架具备原生可扩展性,为迈向“世界模型驱动的通用智能”提供了可插拔、可泛化的底层技术路径。

  1. 统一空间表征:从几何约束到多源知识融合的元空间建模

WorldScape 0.2 超越了单一几何先验,将几何拓扑、语义理解与物理规律等多维异质表征进行结构化对齐,并在统一的隐式元空间中完成跨模态知识融合。这种表征耦合机制使模型在长程交互中不仅能维持空间拓扑稳定,更能实现语义连贯与物理合理的深度一致,从根本上升级了世界结构的生成可信度。

  1. 多阶段持续学习:从视觉保真到物理遵循的范式跃迁

WorldScape 0.2 采用渐进式分阶段训练策略。通过海量世界知识注入与异源控制信号的深度耦合,它显著强化了生成内容对真实物理规律的遵循能力。模型不再局限于“画面流畅”,而是追求“运动符合力学逻辑与场景常识”。在全球权威具身基准 WorldArena 中斩获第一,实现了从“视觉拟真”向“物理可信”的关键跨越。

Manifold AI 在多个主流评测模型中的独占鳌头表现,以及其模型 scaling 能力的验证,让我们相信世界模型的 GPT-3 时刻即将到来。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32253

(0)
上一篇 23小时前
下一篇 23小时前

相关推荐

  • 告别二元成功率!PRM-as-a-Judge:机器人长程任务的细粒度审计新范式

    随着机器人操作从短程、单步技能向长程、多接触、需要持续协调与恢复能力的复杂任务演进,传统以二元成功率(成功/失败)为核心的评估范式已显露出明显局限。该指标仅能回答“任务是否完成”,却无法揭示“策略推进到了哪个阶段”“执行过程是否高效稳定”以及“失败具体发生在何处”等关键问题。 针对这一挑战,来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出…

    2026年4月14日
    22300
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    37000
  • Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话

    谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …

    2025年11月25日
    32300
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    45000
  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    33800