今年4月,具身智能领域发生了一件看似不大却意味深长的事。
由PaLM-E、RT-2等模型核心贡献者创立的明星公司,发布了新一代模型GEN-1,并在三个核心维度上实现了跨越式提升:任务成功率超过99%,运行速度提升2–3倍,所需数据量和微调成本仅为上一代的1/10。
几乎在同一周,其CEO Pete Florence发表了一篇博客,明确表示:他们不再将自己的模型归类为VLA(视觉-语言-动作模型)。
这一表态之所以值得重视,是因为Florence本人正是VLA概念的共同开创者之一。
他在文中给出了直白的理由:
“世界模型”正在迎来属于它的高光时刻;而在2023到2025年间,风头正劲的是VLA。
追逐热点和潮流,本是学术研究的常态。但如果目标是实现物理世界的通用人工智能(AGI),那么最终目标远比手中“工具的标签”更重要。
更重要的是,他点破了一个行业长期回避的事实:将“视觉-语言”训练引入机器人领域,很大程度上是因为机器人自身的物理交互数据尚不充足,因此VLA更像是一根过渡期的“拐杖”。
一旦物理交互数据的规模和质量达到临界点,这根拐杖就应被拿掉,而不是继续围绕它构建整个系统架构。
我们需要回归一个更本质的问题进行系统性思考:
超越VLA之后,下一代具身模型应该具备何种形态,才能真正支撑机器人在真实世界中持续、稳定、可扩展地运行?
这是一个关键的立场分野,也要求所有从业者以“返璞归真”的思维方式重新审视技术路径。
当前,VLA和世界模型是具身智能领域两条主流的技术路线。
然而,许多冠以“世界模型”之名的研究,实质上属于视频生成范式——它们在RGB像素或低层视觉隐空间中预测未来帧,本质上回答的是“下一帧是否符合真实视频的视觉逻辑”,而非“世界进入了何种对智能体行动有意义的状态”。
这类模型在视频生成评测集上或许指标亮眼,但一旦接入真实机器人任务,便会立刻暴露出四类系统性瓶颈:
- 表示瓶颈:在像素空间建模,模型被迫将大量容量消耗在纹理、光照、背景等与任务弱相关的视觉细节上;
- 记忆瓶颈:因果自回归与KV Cache的组合,导致空间复杂度随轨迹长度线性增长,长时任务负担沉重,难以稳定部署;
- 推理瓶颈:感知→推理→执行的严格串行流程,造成部署端延迟高,闭环控制频率难以提升,导致机器人行动迟滞、“走走停停”;
- 数据瓶颈:模型依赖固定的离线数据集训练,缺乏持续、新鲜、物理可信的在线数据流,难以实现快速迭代与进化。
如果这四类瓶颈不能得到协同解决,“世界模型”在机器人领域的落地将困难重重。
评价标准的重新审视:许多世界模型榜单与机器人任务脱节
范式迁移之后,一个更为隐蔽但同样关键的问题是:
世界模型究竟该如何评价?
当前被广泛引用的,多是面向视频生成模型的评测榜单——主要考察未来帧的画质、FVD分数、时序一致性、文本-视频对齐度等。
这些指标对于“生成式视频模型”是合理的,但置于具身智能的语境下,评价对象便开始与最终目标发生错位。
这一结论得到了实证研究的支持。2026年2月,由清华大学等机构联合发布的WorldArena基准,在14个代表性世界模型上,系统性地测量了视觉质量与下游具身任务能力之间的关联,结论相当直接:
高视觉质量并不一定能转化为强大的具身任务能力。
支撑这一结论的是一组硬性数据。论文构建的综合视觉质量指标EWMScore,与人类主观打分的相关系数高达Pearson r = 0.825,但与作为动作规划器的任务成功率之间的相关系数仅为r = 0.360——处于典型的弱相关区间。
更值得玩味的是,该研究还观察到,视觉和美学评分最高的Veo 3.1模型,在具身任务指标上反而“提升有限”,并伴随明显的语义漂移现象。
画得最逼真的模型,恰恰最不理解物理交互。
这背后的本质是评价目标的错位:
- 生成式世界模型追问的是:“未来画面看起来是否像一个合理的视频?”
- 具身世界模型更应追问的是:“这个预测的未来状态,能否被机器人成功执行,并最终完成任务?”
两者之间的差距,远比表面看起来要大。
一个模型完全可以生成极其逼真的未来视频,却在真实机器人上因几何不准、动力学不稳或时序漂移而失败;反之,一个视觉上并不惊艳的模型,却可能在真机上获得更高的任务成功率。
因此,一个明确的立场是:
具身世界模型的唯一合理评价指标,应是下游机器人任务的成功率。
从这个意义上讲,像RoboTwin这样以机器人任务成功率为核心评价维度的基准,才是具身世界模型真正应该接受检验的舞台。
它考察的不是“生成得是否好看”,而是“能否让机器人在一系列多样化任务中稳定、可靠地运行”。
下文将介绍的DexWorldModel,其所有设计选择与评估方式,均是围绕这一核心目标展开的。
DexWorldModel的技术栈:四层协同,推动世界模型实现真机闭环

DexWorldModel在系统层面的工作,可以简化为一条协同总线:
因果潜空间世界模型 + 双状态测试时记忆 + 推测式异步推理 + 具身数据链与在线数据流
(技术文档链接已移除)

这四大组件并非彼此独立的模块,而是围绕 “真机闭环部署” 这一主线,针对前述表示、记忆、推理、数据四类瓶颈,做出的系统性协同升级。
01 表示层:为何“像素重建”可能成为世界模型泛化的隐性障碍
许多世界模型选择直接在像素空间或较低层的视觉隐空间中预测未来。
这条路径在学术研究上是成立的,但在真实机器人任务中,模型容量会被大量与任务无关的纹理、光照和背景细节所占据。
对机器人而言,关键并非下一帧画面是否逼真,而是世界是否进入了一个可操作、可交互、可执行后续动作的状态。
DexWorldModel采用的因果潜空间世界模型,将生成目标从像素转向了高层语义特征。
它在两阶段流匹配框架下,将“预测未来语义状态”与“生成对应动作”显式解耦:
- 第一阶段:预测未来的潜语义状态。
- 第二阶段:基于预测的状态,生成动作序列。
视频预测分支与动作生成分支共享一个混合专家Transformer主干网络,仅在输入输出投影层和流匹配的时间步嵌入上进行了独立的参数化。这使得“世界状态推演”与“动作生成”能够在同一套时序动力学模型中对齐。
这一步从根本上改变了世界模型所回答的问题:不再是“下一帧好不好看”,而是“世界是否进入了对下一步行动有意义的状态”。
这也使得模型更容易克服背景、材质与视觉噪声带来的干扰,为后续的鲁棒泛化与仿真到现实迁移奠定了基础。
02 记忆层:让长时任务摆脱不断膨胀的历史缓存负担
传统的自回归世界模型依赖KV Cache来记录历史轨迹,其空间复杂度为O(T)。一旦任务轨迹变长,显存占用便会线性增长,成为系统瓶颈。
在短回合评测中这一问题并不突出,但面对连续、多步、长时的真实操作任务时,它会迅速限制模型的部署能力。
DexWorldModel采用测试时微调记忆模块,将历史观测和已执行动作压缩编码进记忆网络的权重中,并进一步设计了双状态机制:
- 长期记忆:仅使用真实观测和已执行动作进行更新,锚定真实的因果历史。
- 工作记忆:从长期记忆派生出,在当前预测步骤中作为临时上下文使用。
- Flow Matching 的去噪过程中,Working Memory 保持冻结,仅在去噪完成后才进行更新。

这套机制的核心价值并非简单的“缓存实现替换”,而在于严格隔离真实历史与推测历史——这避免了推测的未来反向污染真实的因果链,同时将长时序的内存占用压缩至常数级别 O(1)。
其部署意义非常直接:系统在持续运行时不再因历史积累而负担加重,长时任务因此才真正具备了稳定部署的可能性。
03 推理层:SAI 引入预去噪,将一半推理时间隐藏于动作执行中
即使模型能力本身得到增强,只要“感知 → 推理 → 执行”的流程仍然是串行的,真机闭环频率就永远会被阻塞延迟所限制。
世界模型真正有价值的一点在于其预测未来的能力;但如果这种前瞻性仅停留在“模型内部想到了未来”,却未能改变机器人系统的运行节奏,那么它距离实际部署价值就仍差一步。
SAI(推测式异步推理) 正是在这一层面,将模型的前瞻能力真正转化为系统时间收益:
- 机械臂执行当前动作时,GPU 不处于空闲等待状态。
- 利用上一轮预测结果作为替代条件,在后台预先完成下一阶段未来语义与动作的前半段去噪。
- 当真实观测到达后,快速更新长时记忆,再完成后半段的精细去噪。

在 RoboTwin 仿真环境下,该方法使端到端的阻塞延迟降低了约 50%。
这一变化至关重要:在传统流程中,机器人执行与模型推理是前后串行的;而在 DexWorldModel 中,这两项任务开始深度重叠。
世界模型带来的不仅是“更好的预测”,还包括“更少的等待”和“更高的闭环频率”。对于真实机器人而言,这种系统层面的变化往往比单纯提升几个离线指标更为重要。
04 数据层:EmbodiChain 将数据效率转化为系统能力
世界模型能否真正“成长”,取决于它能否持续获得足够新鲜、多样且物理可信的经验。
而这正是具身智能与纯互联网数据范式最根本的差异:机器人数据获取成本高昂、生产缓慢,许多训练过程仍受限于有限的静态数据集。
△ 效率定律:损失值随数据生成速率变化的关系
机器人基础模型的瓶颈,很多时候并不在于网络结构,而在于 “高质量交互数据的吞吐率”。
EmbodiChain 构建了一条从数据生产到训练更新的在线闭环:
- 物理一致的资产与场景快速生成
- 考虑可达性的轨迹采样,提升功能层面的多样性
- 失败恢复轨迹回流训练,补齐错误状态下的监督信号
- 在线数据流:流式注入新的批量数据,替代对静态数据集的反复训练
论文中的消融实验也印证了这一点:当在线数据流中新鲜经验的吞吐率更高、单条轨迹被重复使用的次数更低时,任务成功率显著提升。
因此,EmbodiChain 并非 DexWorldModel 外围的一套独立数据工具,而是支撑 DexWorldModel 能够不断逼近真实世界能力边界的 经验引擎。

结果:在 RoboTwin 量化指标中领先
如前所述,具身世界模型真正的评价标准应是机器人任务成功率。
因此,我们将结果直接置于 RoboTwin 这类相关基准上进行审视。

在仿真环境 RoboTwin 上,DexWorldModel 取得了 94.00% 的平均成功率,超越了多项现有基线。
在系统效率方面,两项结果尤为关键:双状态 TTT 记忆在长时任务中维持了常数级内存占用,SAI 将部署阻塞延迟降低了约 50%。
更值得关注的是仿真到现实的迁移环节。
DexWorldModel 在四个真实机器人任务上报告了 零样本仿真到现实迁移 的结果:
模型仅在仿真环境中训练,其表现便优于 π0、GR00T N1.5 与 Sim2Real-VLA 等基线,而其中部分基线还使用了真实示范数据进行微调。

这组结果有几点值得强调:
第一,这不是单点性能突破,而是系统性成果。
CLWM 解决状态表示问题,TTT 解决记忆问题,SAI 解决推理节奏问题,EmbodiChain 解决经验供给问题,四层改进的收益叠加在同一条性能曲线上。
第二,EmbodiChain 并非“可选加持”,而是直接参与了性能上限的提升。
消融实验表明,将在线数据流从流程中移除,成功率会出现明显下降。这进一步印证了“持续的经验流本身就是一种系统能力”。
第三,零样本的仿真到现实迁移是最具说服力的证据。
仅在仿真中训练,就能在真实机器人上直接完成四个任务,并且超越了部分使用了真机示范微调的强基线,这才是检验“具身世界模型是否可行”的真正分水岭。
这当然不是终点,也不意味着世界模型已跨越所有落地门槛。但它至少说明了一件事:
当世界模型围绕语义状态、长时记忆、部署节奏、经验供给等关键问题被系统性地重构后,从概念走向部署的距离,确实可以被一步步拉近。
开源 EmbodiChain:将 Scaling Law 的焦点拉回具身智能的正确变量
如果说 DexWorldModel 是模型侧的答卷,那么 EmbodiChain 则是希望贡献给整个行业的基础设施。
过去两年,Scaling Law 在具身智能领域被频繁引用。但机器人世界真正稀缺的,从来不是参数规模,也不是存量数据,而是 持续、物理可信、可交互的数据流。在这个核心变量上,整个领域目前仍然供给不足。
这也是选择将 EmbodiChain 作为仿真数据基础设施对外开源的原因。它不是一个一次性的数据集发布,而是 一套可供社区复用、扩展和共建的经验生产链路:资产生成、场景布局、考虑可达性的采样、失败恢复、视觉域扩展、在线数据流等,均以模块化方式开放。

此举旨在帮助行业将注意力从“追求更大的模型”拉回到 “构建更持续、更新鲜、更物理可信的数据基础设施” 这条真正决定具身智能发展斜率的主轴上。开源不是终点,而是为了让这条增长曲线变得更加陡峭。
结语
如果用一句话总结,那么这一阶段的核心信息,并不仅仅是“发布了一个世界模型”,而是:
世界模型的决胜关键,不在于视频生成是否逼真,而在于机器人能否稳定可靠地完成任务。
当视觉语言行动模型的先驱者自身都决定转向时,剩下的问题只有一个:
谁能率先将具身模型这条路,从概念推进到真机部署。
DexWorldModel 所做的是在状态表示、记忆、推理、数据引擎四个层面同时发力,逐步缩小仿真到现实迁移的最后几道鸿沟;EmbodiChain 所做的则是让这一过程能够 持续发生。
接下来,将继续沿着“真机基准测试”这条更艰难但更有意义的道路前进。

DexWorldModel 背后的意义,从来不只是世界模型本身,更在于选择直面那些真正决定落地成败的系统性问题——当前距离真实部署最近的障碍究竟是什么,哪些问题值得优先解决,哪些系统能力必须先行构建。
它并未宣称世界模型已经走完了通向现实世界的全部道路,但它确实将其中几段最关键的间隙缩小了。这也是一贯的态度:不与概念赛跑,而与真实世界赛跑。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31193

