近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。
DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。

然而,这一设计也引出了更深层的问题:为何这种联合预测世界与动作的架构能带来显著的性能提升?它相较于传统的策略模型或世界模型究竟有何优势?这究竟是方法论的范式突破,还是主要得益于数据与模型规模的扩大?
针对这些问题,近期一篇分析文章《Why is DreamZero so good at robotics?》提供了深入解读,探讨了训练通用机器人策略所需的数据与架构特征,并对一些既有认知提出了挑战。该文作者 Chris Paxton 是一位机器人与人工智能研究者,曾在 Hello Robot 负责具身智能方向的研究,并有在 NVIDIA Research 及 Meta FAIR 的工作经历。

该文章从模型架构、训练数据分布、主干网络规模、时间上下文长度以及视频生成作为辅助监督信号等多个维度,剖析了 DreamZero 表现卓越的潜在原因。

以下是该文的核心内容摘要。
DreamZero 是什么?

DreamZero 是 NVIDIA 提出的“世界-动作模型”。它吸收了世界模型的核心思想,特别是认可视频生成对机器人任务的价值,但在关键设计上做出了重要改进:其核心在于联合建模动作生成与视频生成。
通常,世界模型可分为两类:
1. 动作条件世界模型:学习从当前状态和动作到下一状态的映射,即 ( x’ = f(x, a) )。例如 V-JEPA 2 或近期 RISE 论文中的模型。
2. 逆动力学世界模型:先学习状态转移 ( x’ = f(x) ),再通过逆动力学模型学习动作 ( a = g(x, x’) )。例如 NVIDIA 的 DreamGen 或 1X 的世界模型。
相比之下,DreamZero 更接近传统的机器人策略模型,但同时预测未来视频。其学习目标可概括为:( (x’, a) = f(x) ),即在模型中同时输出对未来状态的预测和对应采取的动作。
与传统的视觉-语言-动作模型相比,DreamZero 增加的未来画面预测为模型提供了更丰富的监督信号。这不仅指示了“该做什么”,还揭示了“世界将如何变化”,从而有助于模型更深刻地理解环境演化的规律。
基准测试表现

- RoboArena:这是一个基于 Droid 数据集构建的分布式真实世界基准测试。评测者在全球各地使用相似的机器人与设置,根据自然语言指令执行开放式任务。从数据分布看,这对 DreamZero 属于分布内场景,因为其训练数据包含 Droid。但它仍面临真实世界的复杂性与任务多样性挑战。该基准采用类似 Chatbot Arena 的“对战”式比较。

- MolmoSpaces:这是一个具备高保真物理模拟和程序化生成环境的新基准平台。其 MolmoSpaces-Bench 重点测试在多种受控变化条件下(如抓取、放置、开合及其组合任务)的表现。该基准尚未达到性能饱和,模型间差距明显,而 DreamZero 在其中取得了优异表现。
关键洞察:与 pi-0.5 的对比
通过与当前排名第二的模型 pi-0.5 对比,可以揭示一些关键因素。
1. 训练数据分布可能比数据量更重要
* pi-0.5 使用了超过 1 万小时的真实机器人数据、VLM 数据及 Droid 数据进行训练。
* DreamZero 则主要使用 DROID 或 AgiBot 数据训练。
* 值得注意的是,在 AgiBot 数据集(未包含在 pi-0.5 训练数据中)上,DreamZero 表现显著优于 pi-0.5;而在双方共用的 DROID-Franka 设置下,性能差距则小得多。

这暗示,额外的上万小时机器人数据未必能带来预期中的泛化提升。关键或许在于是否在“正确分布”的机器人数据上进行预训练。近期 Physical Intelligence 的一篇博客也展示了类似结论:在与目标任务分布高度一致的数据上预训练,能带来性能大幅提升。

因此,从其他机器人形态收集大量数据,其收益可能并不比使用充足、低成本的第一视角视频数据更高。这对于希望训练跨机体通用模型的研究者而言,是一个需要深思的发现。
2. 模型主干与信息输入
* 规模差异:DreamZero 基于 140 亿参数的 Wan2.1-I2V-14B-480P 视频生成模型构建。pi-0.5 则基于 30 亿参数的 PaliGemma 视觉语言模型,参数规模相差近 5 倍。
* 输入方式:DreamZero 最多可接收 8 帧历史画面作为上下文,使其能够观察一个短视频片段。pi-0.5 仅能输入单帧图像进行决策。
真实世界的机器人任务通常具有部分可观测、依赖复杂物理动态和理解时间连续性的特点。例如,判断物体的运动状态、推断动作后果、理解惯性效应等。仅凭单帧图像,模型难以捕捉这些信息。而提供连续多帧(如8帧)输入,使模型能够感知运动趋势和状态变化,更易于学习潜在的物理规律,从而做出更稳定、准确的决策。
DreamZero 是一个参数量达 140 亿的庞大模型,因此,研究的相当一部分工作聚焦于如何实现这一巨型模型的实时运行。论文中的消融实验表明,模型规模是影响其性能的关键因素之一。

然而,引入更长的历史信息和扩大模型规模通常会带来训练难度增加的问题,并在数据有限的情况下更容易导致过拟合。这与大语言模型的情况截然不同,后者得益于海量的训练数据,几乎无需担忧过拟合。机器人领域本质上始终处于数据稀缺的环境中。即便是目前规模较大的 DROID 数据集,与最小规模的大语言模型数据集相比,也依然小得多。
由此可以提出一个假设:视频生成目标在此充当了一种辅助损失。它为 DreamZero 模型施加了结构上的约束,可能迫使模型学习某种内部的世界模型。相比于机器人动作提供的稀疏奖励信号,视频预测提供了更强、更密集的监督信号。这或许有助于模型更好地泛化到那些在训练中未曾直接接触过的、多样化的 MolmoSpaces 环境。
总结与展望
仅基于现有论文,我们尚无法得出全部结论。例如,我们无法获知 Physical Intelligence 所使用的完整数据细节;目前,用于推理的 NVIDIA GB200 设备也并非轻易可得。但对于许多研究者而言,这项工作提供了一个重要的启示:或许我们并不需要此前设想的那样海量的数据,就能在真实世界的机器人任务中取得强劲的性能表现。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23956
