NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。

DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

然而,这一设计也引出了更深层的问题:为何这种联合预测世界与动作的架构能带来显著的性能提升?它相较于传统的策略模型或世界模型究竟有何优势?这究竟是方法论的范式突破,还是主要得益于数据与模型规模的扩大?

针对这些问题,近期一篇分析文章《Why is DreamZero so good at robotics?》提供了深入解读,探讨了训练通用机器人策略所需的数据与架构特征,并对一些既有认知提出了挑战。该文作者 Chris Paxton 是一位机器人与人工智能研究者,曾在 Hello Robot 负责具身智能方向的研究,并有在 NVIDIA Research 及 Meta FAIR 的工作经历。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

该文章从模型架构、训练数据分布、主干网络规模、时间上下文长度以及视频生成作为辅助监督信号等多个维度,剖析了 DreamZero 表现卓越的潜在原因。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

以下是该文的核心内容摘要。

DreamZero 是什么?

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

DreamZero 是 NVIDIA 提出的“世界-动作模型”。它吸收了世界模型的核心思想,特别是认可视频生成对机器人任务的价值,但在关键设计上做出了重要改进:其核心在于联合建模动作生成与视频生成

通常,世界模型可分为两类:
1. 动作条件世界模型:学习从当前状态和动作到下一状态的映射,即 ( x’ = f(x, a) )。例如 V-JEPA 2 或近期 RISE 论文中的模型。
2. 逆动力学世界模型:先学习状态转移 ( x’ = f(x) ),再通过逆动力学模型学习动作 ( a = g(x, x’) )。例如 NVIDIA 的 DreamGen 或 1X 的世界模型。

相比之下,DreamZero 更接近传统的机器人策略模型,但同时预测未来视频。其学习目标可概括为:( (x’, a) = f(x) ),即在模型中同时输出对未来状态的预测和对应采取的动作

与传统的视觉-语言-动作模型相比,DreamZero 增加的未来画面预测为模型提供了更丰富的监督信号。这不仅指示了“该做什么”,还揭示了“世界将如何变化”,从而有助于模型更深刻地理解环境演化的规律。

基准测试表现

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

  • RoboArena:这是一个基于 Droid 数据集构建的分布式真实世界基准测试。评测者在全球各地使用相似的机器人与设置,根据自然语言指令执行开放式任务。从数据分布看,这对 DreamZero 属于分布内场景,因为其训练数据包含 Droid。但它仍面临真实世界的复杂性与任务多样性挑战。该基准采用类似 Chatbot Arena 的“对战”式比较。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

  • MolmoSpaces:这是一个具备高保真物理模拟和程序化生成环境的新基准平台。其 MolmoSpaces-Bench 重点测试在多种受控变化条件下(如抓取、放置、开合及其组合任务)的表现。该基准尚未达到性能饱和,模型间差距明显,而 DreamZero 在其中取得了优异表现。

关键洞察:与 pi-0.5 的对比

通过与当前排名第二的模型 pi-0.5 对比,可以揭示一些关键因素。

1. 训练数据分布可能比数据量更重要
* pi-0.5 使用了超过 1 万小时的真实机器人数据、VLM 数据及 Droid 数据进行训练。
* DreamZero 则主要使用 DROID 或 AgiBot 数据训练。
* 值得注意的是,在 AgiBot 数据集(未包含在 pi-0.5 训练数据中)上,DreamZero 表现显著优于 pi-0.5;而在双方共用的 DROID-Franka 设置下,性能差距则小得多。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

这暗示,额外的上万小时机器人数据未必能带来预期中的泛化提升。关键或许在于是否在“正确分布”的机器人数据上进行预训练。近期 Physical Intelligence 的一篇博客也展示了类似结论:在与目标任务分布高度一致的数据上预训练,能带来性能大幅提升。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

因此,从其他机器人形态收集大量数据,其收益可能并不比使用充足、低成本的第一视角视频数据更高。这对于希望训练跨机体通用模型的研究者而言,是一个需要深思的发现。

2. 模型主干与信息输入
* 规模差异:DreamZero 基于 140 亿参数的 Wan2.1-I2V-14B-480P 视频生成模型构建。pi-0.5 则基于 30 亿参数的 PaliGemma 视觉语言模型,参数规模相差近 5 倍。
* 输入方式:DreamZero 最多可接收 8 帧历史画面作为上下文,使其能够观察一个短视频片段。pi-0.5 仅能输入单帧图像进行决策。

真实世界的机器人任务通常具有部分可观测、依赖复杂物理动态和理解时间连续性的特点。例如,判断物体的运动状态、推断动作后果、理解惯性效应等。仅凭单帧图像,模型难以捕捉这些信息。而提供连续多帧(如8帧)输入,使模型能够感知运动趋势和状态变化,更易于学习潜在的物理规律,从而做出更稳定、准确的决策。

DreamZero 是一个参数量达 140 亿的庞大模型,因此,研究的相当一部分工作聚焦于如何实现这一巨型模型的实时运行。论文中的消融实验表明,模型规模是影响其性能的关键因素之一。

NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

然而,引入更长的历史信息和扩大模型规模通常会带来训练难度增加的问题,并在数据有限的情况下更容易导致过拟合。这与大语言模型的情况截然不同,后者得益于海量的训练数据,几乎无需担忧过拟合。机器人领域本质上始终处于数据稀缺的环境中。即便是目前规模较大的 DROID 数据集,与最小规模的大语言模型数据集相比,也依然小得多。

由此可以提出一个假设:视频生成目标在此充当了一种辅助损失。它为 DreamZero 模型施加了结构上的约束,可能迫使模型学习某种内部的世界模型。相比于机器人动作提供的稀疏奖励信号,视频预测提供了更强、更密集的监督信号。这或许有助于模型更好地泛化到那些在训练中未曾直接接触过的、多样化的 MolmoSpaces 环境。

总结与展望

仅基于现有论文,我们尚无法得出全部结论。例如,我们无法获知 Physical Intelligence 所使用的完整数据细节;目前,用于推理的 NVIDIA GB200 设备也并非轻易可得。但对于许多研究者而言,这项工作提供了一个重要的启示:或许我们并不需要此前设想的那样海量的数据,就能在真实世界的机器人任务中取得强劲的性能表现。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23956

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 深势科技C轮融资8亿,AI for Science如何重塑300万科学家的科研范式?

    近日,深势科技完成总额超8亿人民币的C轮融资。本轮融资由达晨财智、京国瑞基金、北京市人工智能产业投资基金、北京市医药健康产业投资基金、联想创投、元禾璞华等机构共同出资。 本轮融资资金将主要用于持续吸引和培养行业内顶尖人才,进一步进化迭代深势科技的“科学发现智能引擎”,持续夯实从原始技术创新、到智能科研工具产品及行业解决方案的全栈能力,加速围绕科学发现的智能产…

    2025年12月24日
    17700
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    12200
  • AI重塑跨境电商:1688“遨虾”如何用智能体重构B2B供应链三环节

    在AI技术从概念验证迈向产业落地的关键阶段,B2B领域正成为价值创造的前沿阵地。作为中国最大的B2B供应链平台,阿里巴巴旗下1688近期推出的跨境电商AI智能体“遨虾”(alphashop.cn),标志着AI正从辅助工具升级为核心生产力引擎。本文将从技术架构、产业影响和商业逻辑三个维度,深入分析这一变革如何重构跨境电商的选品、采购、上架全流程。 **一、技术…

    2025年12月7日
    32900
  • Transformer架构深度解析:从“the cat sat on the mat”看大语言模型的内部运作机制

    当我们在聊天界面输入“the cat sat on the mat”并期待大语言模型生成下一个词时,背后实际上是一个由数十亿参数驱动的复杂计算过程。Transformer架构作为现代大语言模型的核心,其内部机制远不止简单的“模式匹配”,而是通过多层神经网络对语言结构进行深度建模。本文将以这个简单句子为例,深入剖析Transformer模型从输入到输出的完整处…

    2025年11月30日
    17100
  • AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

    10月26日 【开源】美团LongCat-Video视频生成模型美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频、视频续写三大核心任务,能够实现分钟级长视频的连贯生成,从根源上保障了跨帧时序一致性与物理运动的合理性。 模型链接…

    2025年11月3日
    14500