WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」?

2026年2月13日,由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的WorldArena——首个面向具身世界模型的「功能+视觉」统一评测体系,正式面向全球开源发布。

这并非又一套「比谁画得真」的榜单,而是一面照向世界模型本质的镜子。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

视觉满分,任务零分?WorldArena首次揭示「美丽视频」的伪装

「许多模型的生成视频,人眼看几乎完美,但让它真正指挥机器人抓个杯子——立刻露怯。」

WorldArena研究团队指出,当前世界模型评测被「视觉内卷」绑架已久,谁的视频更清晰、更流畅、更像好莱坞特效,谁就得分高。然而,真实世界并非电影——机器人需要的是对物理规律的理解、动作轨迹的精度、多步决策的稳定性,而非一帧帧精美的「幻灯片」。

WorldArena首次用数据证明:视觉质量与任务执行能力之间的相关性仅有0.36。这意味着,一个模型可以生成奥斯卡级别的视频,却在真实任务中几乎「失能」。

  • 核心创新:从「看起来真实」到「用起来可靠」

WorldArena并非对现有评测的修补,而是一次评测范式的根本重构。

✅ 创新一:六维视觉评测,不止于「好不好看」

视觉评测不再局限于「单一审美」,而是被拆解为六大维度:视觉质量、动作质量、内容一致性、物理遵循性、3D准确性、可控性。其中,物理遵循性与3D空间理解被提升到与画质同等重要的地位——因为机器人不信「魔术」,只信物理。

✅ 创新二:三大具身任务,直接拷问「能不能用」

WorldArena在全球范围内首次将世界模型置于真实的具身任务流水线中进行压力测试:

  1. 作为数据生成引擎:它合成的轨迹,能否训练出更好的策略模型?
  2. 作为策略评估器:它对环境动态的建模,是否与真实物理引擎高度相关?
  3. 作为行动规划器:它能否闭环执行长时序、多步交互任务?

评测结果令人警醒:多数视觉高分模型,在任务评测中「溃不成军」。而少数以动作条件建模为核心的模型(如CtrlWorld),虽视觉非顶尖,却在策略评估相关性上高达0.986,几乎媲美真实环境。

📊 EWMScore:一个分数,对齐人类感知与模型能力

WorldArena推出了EWMScore综合评分体系,将多维客观评测指标统一映射为一个可横向对比的分数。关键在于,EWMScore与人类主观评估高度正相关——它不再是一个「黑盒学术指标」,而是一个能反映真实人类感知的标尺。

🧠 学术深意:世界模型的「iPhone时刻」尚未到来

「我们离真正可用的具身世界模型,还有一段关键的路要走。」

WorldArena通过系统化实验向全球研究者发出信号:视觉生成能力已逼近天花板,但功能智能才刚刚破土。当模型能生成一杯「看起来很冰的可乐」,却不知道冰块会浮起、杯壁会凝水珠,它就仍然是「视觉模型」,而非「世界模型」。

🌍 开放共建,评测权交给全球社区

WorldArena是一个完全开放、可复现、持续迭代的社区平台。

  • 🧩 项目主页:http://world-arena.ai
  • 📄 论文已上线:http://arxiv.org/abs/2602.08971
  • 🧪 评测榜单实时更新:https://huggingface.co/spaces/WorldArena/WorldArena
  • 💻 代码与数据全开源:https://github.com/tsinghua-fib-lab/WorldArena

「我们不是在造一个排行榜,而是在为具身智能建立一套‘驾照考试系统’。」—— WorldArena团队


评测细节

多维度视频质量评估

为建立系统化的视觉评测标准,WorldArena构建了六大核心维度,从感知真实到物理真实,全面刻画模型生成能力。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
图1:WorldArena在六个关键维度对世界模型生成质量进行全面评估

1. 视觉质量
首先评估视频是否「看起来真实」。通过图像质量、美学质量与JEPA相似性等指标,衡量生成视频在清晰度、色彩协调性及分布相似性方面的表现。这一维度主要刻画模型在感知层面的真实程度与视觉表现力。
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

2. 动作质量
仅有清晰画面远远不够,运动是否合理同样关键。通过动态程度、光流连续性与动作平滑性,分析视频中运动的强度、连续性与时间一致性。该维度用于刻画生成内容在时序层面的稳定程度与运动特征。
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

3. 内容一致性
真实世界不会「瞬间变形」。通过主体一致性与背景一致性指标,衡量对象与场景在时间与空间维度上的稳定性,分析是否存在结构漂移、身份变化或背景不连贯等现象。
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

4. 物理遵循性
对物理规律的遵循能力是连接「视觉」与「功能」的关键桥梁。通过对视频中机械臂和物体交互质量与轨迹准确性,评估机器人与物体交互的合理程度,以及动作轨迹与物理规律之间的匹配关系。
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

5. 3D准确性
空间理解能力,是世界模型迈向具身智能的重要基础。通过深度准确性与透视一致性指标,刻画生成视频的空间结构是否符合几何与透视规律,分析模型对三维结构关系的理解能力。
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

6. 可控性
最后,也是最关键的一步:模型是否「听得懂指令」。通过指令跟随、语义一致性与行动跟随能力,评估模型对外部输入的响应程度,以及不同指令条件下生成结果的区分能力。
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

具身任务功能性评估

WorldArena的另一项核心创新,在于首次系统性评估世界模型在真实具身任务中的「功能能力」。评测不再只问「视频生成得有多逼真?」,而是进一步追问:「它能否真正参与任务执行?」

为此,WorldArena从三个关键角色出发进行全面评估:
1. 作为数据生成引擎:是否能有效补充下游策略训练数据?
2. 作为策略评估器:是否能准确刻画真实环境的状态转移?
3. 作为行动规划器:是否具备支持闭环执行与长期决策的能力?

传统评测往往停留在视觉层面,而WorldArena将评估延伸至下游具身任务本身。它关注模型是否能在动态环境中做出有效决策、处理复杂的多步交互,以及是否具备稳定的规划与执行能力。通过这种功能导向的评测框架,得以更全面地理解世界模型的真实能力边界,并判断其走向实际具身应用的潜力。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
图2:具身下游任务评测体系(数据合成引擎、策略评估器、动作规划器)

EWMScore:统一的综合评分体系

为更直观、可比地评估世界模型,WorldArena 引入了统一的综合指标 EWMScore。该指标通过整合视频质量、物理一致性与指令遵循等多维度评测结果,将其映射为一个综合分数,从而为每个模型提供清晰、可横向对比的性能刻画。实验表明,EWMScore 与人工评估结果高度正相关,能够真实反映模型的综合能力。这标志着世界模型的能力评估,正从“多指标碎片化比较”走向“统一、可解释、可对齐”的综合衡量体系。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
图 3:14 个世界模型的 EWMScore 及不同维度指标对比

视频质量与功能之间的鸿沟:从视觉到执行的能力差距

WorldArena 的系统性评估揭示了一个关键现实:当前世界模型在视觉生成层面已取得显著进展,但在支撑具身智能任务与长期决策方面仍存在本质短板。

具体而言,尽管许多模型能生成高度逼真的视觉效果,但在复杂物理环境中的一致性与稳定性明显不足。尤其在长时序、多步交互的任务中,模型往往难以持续遵循物理规律,容易出现动态漂移、目标偏离或策略失稳。这表明,仅依赖视觉生成能力,远不足以突破具身智能的核心瓶颈。

通过对数据引擎、策略评估、动作规划三类关键具身下游任务的系统评测,WorldArena 进一步验证了这一结论:当前世界模型虽能生成“好看”的视频,却尚未具备支撑真实具身应用的能力。

以数据引擎任务为例,我们利用世界模型生成合成轨迹,用于补充下游策略模型(如 VLA)的训练数据。实验结果显示,部分模型确实能带来一定程度的性能提升,但整体来看,其生成数据质量仍显著落后于真实数据,多数模型尚难以为下游策略学习提供稳定可靠的增益。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
表 2:以世界模型作为数据合成引擎,训练得到的 VLA 模型性能对比

在动作控制型世界模型的评估中,我们通过“策略评估任务”衡量其是否能够作为真实环境的有效代理。具体方法是,训练一系列不同能力水平的 VLA 模型,并分别让它们在真实物理仿真环境和世界模型环境中进行交互,通过计算两组性能评估结果的相关性,来判断世界模型是否准确刻画了真实环境的状态转移规律。

在 CtrlWorld 与 Cosmos-Predict 2.5 上的实验结果呈现出显著差异:CtrlWorld 的策略评估相关系数高达 0.986,几乎与真实环境评测结果保持一致,表明其在动态建模层面有效捕捉了真实环境的演化机制。相比之下,Cosmos-Predict 2.5 的相关性明显较低。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
图 4:基于世界模型和物理仿真环境的策略评估结果相关性

在动作规划任务中,我们进一步将世界模型接入逆动力学模型,实现端到端的具身任务执行。实验发现,尽管部分世界模型能够生成视觉上合理的未来预测,但在支持闭环控制,尤其是长时序复杂任务时,其性能仍显著落后于成熟的策略模型。

这表明,当前世界模型虽然在一定程度上捕捉到了环境动态,却尚不足以支撑稳定、可靠的自主控制行为,尤其在长期决策与复杂交互场景中仍存在明显短板。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
表 3:基于世界模型进行动作规划的任务性能对比

这些实验揭示了一个关键挑战:世界模型的终极目标,不是生成漂亮的视频,而是成为可以支撑自主决策的环境代理。真正可用的世界模型,必须理解物理规律、精确刻画动作细节、在长时序任务中保持一致性,并且在复杂环境中持续稳定执行。否则,它们仍然停留在“视觉生成模型”的阶段,而非“具身智能基础设施”。

WorldArena 的结论很明确:世界模型正在逼近真实世界,但距离真正可用,还有一段关键的路要走。

评测与人类感知的高度对齐

一个关键问题是:模型指标好看,真的代表人类也觉得“真实”吗?

WorldArena 在评测设计中,首次大规模引入人工评估,与自动指标 EWMScore 进行深度对齐。我们不仅在视觉清晰度上,更在视频整体质量、物理规律符合性、复杂指令遵循能力以及模型间相对优劣这四个核心维度上开展了大规模人类评测。

人工评估结果揭示出一个清晰趋势:商业化大型视频模型在整体质量、指令遵循和物理符合性上表现优异,展现出强大的感知现实性与语义一致性。在具身世界模型中,基于动作条件的模型显著优于基于文本驱动的模型,尤其在物理合理性方面表现更稳定。这说明,明确的动作建模是生成高质量视觉预测的关键。

更重要的是,我们发现 EWMScore 与人类主观评估高度正相关。这表明,EWMScore 是一个能够有效刻画人类综合感知判断的评测标准。但当我们进一步分析其与具身任务性能的关系时,一个更值得警惕的事实浮现:EWMScore 与数据引擎任务的相关性为 0.600,与动作规划任务的相关性仅为 0.360。

这意味着——视觉真实,并不等于功能真实。即便模型在视觉质量上获得人类认可,其对真实任务执行能力的支撑仍然有限。尤其是在闭环控制场景中,视觉表现与功能性之间尚未建立强关联。

WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
图 5:EWMScore 与人类评估、具身下游任务性能相关性分析

结语:从「生成世界」到「理解世界」,评测决定了技术进化的方向

WorldArena 的意义,远不止于一套新指标。它标志着具身智能评测正在从“审美导向”走向“功能导向”,从“论文里的对比实验”走向“真实场景的能力验证”。当世界模型不再比拼谁更“像电影”,而是谁更“懂物理、能干活、靠得住”时,具身智能才真正开始。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21411

(0)
上一篇 16小时前
下一篇 16小时前

相关推荐

  • MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

    MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…

    2025年12月24日
    83200
  • 深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限

    Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…

    2026年2月6日
    2500
  • GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力

    OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…

    2025年12月14日
    12300
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    13700
  • Kimi K2 ToolCall性能大揭秘:12家服务商评测结果出炉,开源测试集助力API一致性优化

    自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。 用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。 因此,Kimi开…

    2025年10月16日
    12100