NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。

DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

然而,这一设计也引出了更深层的问题:为何这种联合预测世界与动作的架构能带来显著的性能提升?它相较于传统的策略模型或世界模型究竟有何优势?这究竟是方法论的范式突破,还是主要得益于数据与模型规模的扩大?

针对这些问题,近期一篇分析文章《Why is DreamZero so good at robotics?》提供了深入解读,探讨了训练通用机器人策略所需的数据与架构特征,并对一些既有认知提出了挑战。该文作者 Chris Paxton 是一位机器人与人工智能研究者,曾在 Hello Robot 负责具身智能方向的研究,并有在 NVIDIA Research 及 Meta FAIR 的工作经历。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

该文章从模型架构、训练数据分布、主干网络规模、时间上下文长度以及视频生成作为辅助监督信号等多个维度,剖析了 DreamZero 表现卓越的潜在原因。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

以下是该文的核心内容摘要。

DreamZero 是什么?

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

DreamZero 是 NVIDIA 提出的“世界-动作模型”。它吸收了世界模型的核心思想,特别是认可视频生成对机器人任务的价值,但在关键设计上做出了重要改进:其核心在于联合建模动作生成与视频生成

通常,世界模型可分为两类:
1. 动作条件世界模型:学习从当前状态和动作到下一状态的映射,即 ( x’ = f(x, a) )。例如 V-JEPA 2 或近期 RISE 论文中的模型。
2. 逆动力学世界模型:先学习状态转移 ( x’ = f(x) ),再通过逆动力学模型学习动作 ( a = g(x, x’) )。例如 NVIDIA 的 DreamGen 或 1X 的世界模型。

相比之下,DreamZero 更接近传统的机器人策略模型,但同时预测未来视频。其学习目标可概括为:( (x’, a) = f(x) ),即在模型中同时输出对未来状态的预测和对应采取的动作

与传统的视觉-语言-动作模型相比,DreamZero 增加的未来画面预测为模型提供了更丰富的监督信号。这不仅指示了“该做什么”,还揭示了“世界将如何变化”,从而有助于模型更深刻地理解环境演化的规律。

基准测试表现

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

  • RoboArena:这是一个基于 Droid 数据集构建的分布式真实世界基准测试。评测者在全球各地使用相似的机器人与设置,根据自然语言指令执行开放式任务。从数据分布看,这对 DreamZero 属于分布内场景,因为其训练数据包含 Droid。但它仍面临真实世界的复杂性与任务多样性挑战。该基准采用类似 Chatbot Arena 的“对战”式比较。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

  • MolmoSpaces:这是一个具备高保真物理模拟和程序化生成环境的新基准平台。其 MolmoSpaces-Bench 重点测试在多种受控变化条件下(如抓取、放置、开合及其组合任务)的表现。该基准尚未达到性能饱和,模型间差距明显,而 DreamZero 在其中取得了优异表现。

关键洞察:与 pi-0.5 的对比

通过与当前排名第二的模型 pi-0.5 对比,可以揭示一些关键因素。

1. 训练数据分布可能比数据量更重要
* pi-0.5 使用了超过 1 万小时的真实机器人数据、VLM 数据及 Droid 数据进行训练。
* DreamZero 则主要使用 DROID 或 AgiBot 数据训练。
* 值得注意的是,在 AgiBot 数据集(未包含在 pi-0.5 训练数据中)上,DreamZero 表现显著优于 pi-0.5;而在双方共用的 DROID-Franka 设置下,性能差距则小得多。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

这暗示,额外的上万小时机器人数据未必能带来预期中的泛化提升。关键或许在于是否在“正确分布”的机器人数据上进行预训练。近期 Physical Intelligence 的一篇博客也展示了类似结论:在与目标任务分布高度一致的数据上预训练,能带来性能大幅提升。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

因此,从其他机器人形态收集大量数据,其收益可能并不比使用充足、低成本的第一视角视频数据更高。这对于希望训练跨机体通用模型的研究者而言,是一个需要深思的发现。

2. 模型主干与信息输入
* 规模差异:DreamZero 基于 140 亿参数的 Wan2.1-I2V-14B-480P 视频生成模型构建。pi-0.5 则基于 30 亿参数的 PaliGemma 视觉语言模型,参数规模相差近 5 倍。
* 输入方式:DreamZero 最多可接收 8 帧历史画面作为上下文,使其能够观察一个短视频片段。pi-0.5 仅能输入单帧图像进行决策。

真实世界的机器人任务通常具有部分可观测、依赖复杂物理动态和理解时间连续性的特点。例如,判断物体的运动状态、推断动作后果、理解惯性效应等。仅凭单帧图像,模型难以捕捉这些信息。而提供连续多帧(如8帧)输入,使模型能够感知运动趋势和状态变化,更易于学习潜在的物理规律,从而做出更稳定、准确的决策。

DreamZero 是一个参数量达 140 亿的庞大模型,因此,研究的相当一部分工作聚焦于如何实现这一巨型模型的实时运行。论文中的消融实验表明,模型规模是影响其性能的关键因素之一。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

然而,引入更长的历史信息和扩大模型规模通常会带来训练难度增加的问题,并在数据有限的情况下更容易导致过拟合。这与大语言模型的情况截然不同,后者得益于海量的训练数据,几乎无需担忧过拟合。机器人领域本质上始终处于数据稀缺的环境中。即便是目前规模较大的 DROID 数据集,与最小规模的大语言模型数据集相比,也依然小得多。

由此可以提出一个假设:视频生成目标在此充当了一种辅助损失。它为 DreamZero 模型施加了结构上的约束,可能迫使模型学习某种内部的世界模型。相比于机器人动作提供的稀疏奖励信号,视频预测提供了更强、更密集的监督信号。这或许有助于模型更好地泛化到那些在训练中未曾直接接触过的、多样化的 MolmoSpaces 环境。

总结与展望

仅基于现有论文,我们尚无法得出全部结论。例如,我们无法获知 Physical Intelligence 所使用的完整数据细节;目前,用于推理的 NVIDIA GB200 设备也并非轻易可得。但对于许多研究者而言,这项工作提供了一个重要的启示:或许我们并不需要此前设想的那样海量的数据,就能在真实世界的机器人任务中取得强劲的性能表现。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/23956

(0)
上一篇 2026年3月4日 上午11:49
下一篇 2026年3月4日 上午11:56

相关推荐

  • 多模态大模型决策机制深度解析:从宏观偏好到微观不确定性

    多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,在整合视觉、文本等多种信息源方面展现出卓越能力。然而,当不同模态呈现相互冲突的信息时(例如图像显示蓝色汽车而文本描述为红色),模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”,并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷:它忽略…

    2025年11月14日
    15800
  • PixelCraft:以高保真视觉处理与讨论式推理重塑结构化图像理解新范式

    多模态大模型(MLLM)在自然图像理解领域已取得令人瞩目的成就,然而当任务场景转向图表、几何草图、科研绘图等高度结构化的图像时,传统方法的局限性便暴露无遗。细微的感知误差会沿着推理链条迅速放大,导致最终结论出现系统性偏差。线性、刚性的“链式思考”流程难以支撑复杂任务中必要的回溯、分支探索与假设修正,这已成为制约结构化图像理解迈向实用化的关键瓶颈。 针对这一挑…

    2025年11月3日
    17700
  • ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

    在人工智能领域,大语言模型(LLM)的数学推理能力一直是衡量其智能水平的重要标尺。近年来,基于可验证奖励的强化学习(RLVR)方法,如PPO、GRPO等,已成为提升模型推理能力的主流技术路径。然而,这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷:训练稳定性差、计算复…

    2025年10月31日
    19900
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    14900
  • AI颠覆COBOL帝国:IBM股价单日蒸发310亿美元,创26年最惨纪录

    IBM 成为人工智能领域的最新受害者。 周一,IBM 股价单日暴跌 13.2%,收于 223.35 美元,创下该公司自 2000 年 10 月以来最惨烈的单日跌幅,月内累计跌幅已达 25%。 这场风波的导火索,是 AI 初创公司 Anthropic 发布的一篇博客文章。该文章介绍了其 Claude Code 工具如何自动化处理 COBOL 代码的现代化迁移工…

    2026年2月25日
    13800