VLA拐杖已弃，世界模型如何真正支撑具身智能落地？

今年4月，具身智能领域发生了一件看似不大却意味深长的事。

由PaLM-E、RT-2等模型核心贡献者创立的明星公司，发布了新一代模型GEN-1，并在三个核心维度上实现了跨越式提升：任务成功率超过99%，运行速度提升2–3倍，所需数据量和微调成本仅为上一代的1/10。

几乎在同一周，其CEO Pete Florence发表了一篇博客，明确表示：他们不再将自己的模型归类为VLA（视觉-语言-动作模型）。

这一表态之所以值得重视，是因为Florence本人正是VLA概念的共同开创者之一。

他在文中给出了直白的理由：

“世界模型”正在迎来属于它的高光时刻；而在2023到2025年间，风头正劲的是VLA。

追逐热点和潮流，本是学术研究的常态。但如果目标是实现物理世界的通用人工智能（AGI），那么最终目标远比手中“工具的标签”更重要。

更重要的是，他点破了一个行业长期回避的事实：将“视觉-语言”训练引入机器人领域，很大程度上是因为机器人自身的物理交互数据尚不充足，因此VLA更像是一根过渡期的“拐杖”。

一旦物理交互数据的规模和质量达到临界点，这根拐杖就应被拿掉，而不是继续围绕它构建整个系统架构。

我们需要回归一个更本质的问题进行系统性思考：

超越VLA之后，下一代具身模型应该具备何种形态，才能真正支撑机器人在真实世界中持续、稳定、可扩展地运行？

这是一个关键的立场分野，也要求所有从业者以“返璞归真”的思维方式重新审视技术路径。

当前，VLA和世界模型是具身智能领域两条主流的技术路线。

然而，许多冠以“世界模型”之名的研究，实质上属于视频生成范式——它们在RGB像素或低层视觉隐空间中预测未来帧，本质上回答的是“下一帧是否符合真实视频的视觉逻辑”，而非“世界进入了何种对智能体行动有意义的状态”。

这类模型在视频生成评测集上或许指标亮眼，但一旦接入真实机器人任务，便会立刻暴露出四类系统性瓶颈：

表示瓶颈：在像素空间建模，模型被迫将大量容量消耗在纹理、光照、背景等与任务弱相关的视觉细节上；
记忆瓶颈：因果自回归与KV Cache的组合，导致空间复杂度随轨迹长度线性增长，长时任务负担沉重，难以稳定部署；
推理瓶颈：感知→推理→执行的严格串行流程，造成部署端延迟高，闭环控制频率难以提升，导致机器人行动迟滞、“走走停停”；
数据瓶颈：模型依赖固定的离线数据集训练，缺乏持续、新鲜、物理可信的在线数据流，难以实现快速迭代与进化。

如果这四类瓶颈不能得到协同解决，“世界模型”在机器人领域的落地将困难重重。

评价标准的重新审视：许多世界模型榜单与机器人任务脱节

范式迁移之后，一个更为隐蔽但同样关键的问题是：

世界模型究竟该如何评价？

当前被广泛引用的，多是面向视频生成模型的评测榜单——主要考察未来帧的画质、FVD分数、时序一致性、文本-视频对齐度等。

这些指标对于“生成式视频模型”是合理的，但置于具身智能的语境下，评价对象便开始与最终目标发生错位。

这一结论得到了实证研究的支持。2026年2月，由清华大学等机构联合发布的WorldArena基准，在14个代表性世界模型上，系统性地测量了视觉质量与下游具身任务能力之间的关联，结论相当直接：

高视觉质量并不一定能转化为强大的具身任务能力。

支撑这一结论的是一组硬性数据。论文构建的综合视觉质量指标EWMScore，与人类主观打分的相关系数高达Pearson r = 0.825，但与作为动作规划器的任务成功率之间的相关系数仅为r = 0.360——处于典型的弱相关区间。

更值得玩味的是，该研究还观察到，视觉和美学评分最高的Veo 3.1模型，在具身任务指标上反而“提升有限”，并伴随明显的语义漂移现象。

画得最逼真的模型，恰恰最不理解物理交互。

这背后的本质是评价目标的错位：

生成式世界模型追问的是：“未来画面看起来是否像一个合理的视频？”
具身世界模型更应追问的是：“这个预测的未来状态，能否被机器人成功执行，并最终完成任务？”

两者之间的差距，远比表面看起来要大。

一个模型完全可以生成极其逼真的未来视频，却在真实机器人上因几何不准、动力学不稳或时序漂移而失败；反之，一个视觉上并不惊艳的模型，却可能在真机上获得更高的任务成功率。

因此，一个明确的立场是：

具身世界模型的唯一合理评价指标，应是下游机器人任务的成功率。

从这个意义上讲，像RoboTwin这样以机器人任务成功率为核心评价维度的基准，才是具身世界模型真正应该接受检验的舞台。

它考察的不是“生成得是否好看”，而是“能否让机器人在一系列多样化任务中稳定、可靠地运行”。