英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

驱动具身智能迈向通用领域的核心挑战是什么?

我们认为,关键在于实现“跨具身迁移”。

一个完善的世界模型是具身智能执行通用复杂任务的基础。然而,许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。

具体而言,当前应用于机器人或智能汽车的世界模型,大多针对特定硬件平台进行设计和训练,其泛化能力有限,跨平台迁移往往依赖运气。

本质上,许多机器人学习到的并非“世界如何运作”,而是“这台特定机器如何运动”。我们需要一个能够真正理解物理规律与因果关系的世界模型——它需要知晓世界状态如何变化、动作会引发何种后果——才能在不同“身体”和不同环境中实现有效的迁移与泛化。

针对这一难题,深耕于各类世界模型的英伟达再次取得突破,构建了一个全新的、完全基于零样本范式的世界模型。

近期,英伟达GEAR实验室提出了DreamZero,这是一种基于预训练视频扩散骨干网络构建的世界动作模型。

这是一个拥有140亿参数的模型,能够让机器人仅通过简单的文本提示,就完成此前从未接触过的任务。

实验室负责人Jim Fan将其称为机器人领域的“GPT-2时刻”:研究团队只需输入想法,机器人就能执行相应动作。目前,该模型的代码已在GitHub上开源。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

  • 论文标题:World Action Models are Zero-shot Policies
  • 论文链接:https://dreamzero0.github.io/DreamZero.pdf
  • Github 链接:https://github.com/dreamzero0/dreamzero

与传统视觉-语言-动作模型不同,WAM通过联合预测未来世界状态与动作来学习物理动力学,并以视频作为世界演化的稠密表示。通过对视频与动作的联合建模,DreamZero能够从异构机器人数据中高效学习多样化技能,而不依赖重复示范。在真实机器人实验中,相比最先进的VLA模型,DreamZero在新任务与新环境的泛化上实现了超过2倍的性能提升。

至关重要的是,通过模型与系统层面的优化,研究团队让一个140亿参数的自回归视频扩散模型实现了7Hz的实时闭环控制。此外,研究团队展示了两种跨具身迁移能力:仅使用10–20分钟的人类或其他机器人纯视频示范,即可在未见任务上带来超过42%的性能提升。更令人惊讶的是,DreamZero只需30分钟的“玩耍数据”,就能适配到全新的机器人平台,同时仍保持零样本泛化能力。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
DreamZero 整体概览。

图中展示了DreamZero通过联合预测视频与动作,世界动作模型继承了关于世界物理规律的先验,从而实现了:
1. 从多样、非重复的数据中高效学习;
2. 在开放世界场景中的强泛化能力;
3. 仅依赖纯视频数据即可完成跨具身学习;
4. 对新机器人的少样本快速适配。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
DreamZero 的模型架构。

大多数预训练的视频扩散模型凭借来自网页规模数据的丰富时空先验,成为构建机器人策略的理想骨干网络。然而,将这类模型转化为高效的世界动作模型仍面临关键挑战:
1. 视频–动作对齐:联合预测视频与动作要求对视觉未来与电机指令进行紧密耦合,但如果只是简单地将独立的视频头与动作拼接,往往会导致二者对齐失效;
2. 架构设计:尚不清楚双向架构还是自回归架构更适合WAM,这关系到多模态对齐、误差累积以及推理效率等关键问题;
3. 实时推理:视频扩散模型需要在高维潜空间中进行多步迭代去噪,使其在闭环控制场景下速度过慢、难以实用。

为此,DreamZero通过模型设计选择有效应对了上述挑战。

模型接收三类输入:视觉上下文(通过VAE编码)、语言指令(通过文本编码器)、以及本体感知状态(通过状态编码器)。这些输入随后被送入一个基于Flow Matching的自回归DiT主干网络,由其联合预测未来的视频帧与动作,并通过各自独立的解码器输出结果。

在训练阶段,模型以分块的方式工作:在给定干净视频上下文作为条件的情况下,对加噪的视频与动作潜变量进行去噪。在推理阶段,模型的预测会以异步方式在真实世界中执行,同时将真实观测结果回灌到KV缓存中,以防止误差随时间累积。

实验结果

研究团队在六种设置下展示了DreamZero的能力——其中五种用于测试泛化,一种用于实时部署。

相关的训练数据以及实验结果的演示可以参考以下链接:
https://dreamzero0.github.io/evals_gallery/

AgiBot预训练:已见 & 未见任务

研究团队对预训练模型进行开箱即用评测:任务来自预训练分布,但在未见对象的新环境中进行零样本测试。DreamZero(也包含从零训练版本)取得62.2%的平均任务进度,相比最佳预训练VLA基线(27.4%)提升超过2倍。从零训练的VLA几乎为零;预训练VLA有一定进展,但幅度有限。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

对于训练中完全未出现的任务(如解鞋带、握手),DreamZero仍达到39.5%的任务进度,而VLA再次表现吃力。值得注意的是,预训练VLA在未见任务上的有限进展,主要源于其无论指令如何都倾向于执行“抓取-放置”的默认动作,显示其过拟合于主导训练行为,而非真正理解新任务语义。研究团队在4台机器人、不同环境与物体上,对每个检查点进行了80次rollouts。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

DROID:已见任务 & 未见动作

为验证在公开数据上的效果,研究团队在DROID(最异构的开源机器人数据集之一)上训练DreamZero,并评测20个已见任务与20个未见动词任务(DROID中未出现的动作)。DreamZero显著优于预训练基线,在未见动词上取得49%的任务进度,而最先进的VLA仅为25–32%。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

后训练:分布外泛化

本部分研究WAM在任务特定微调后是否仍保留泛化能力。研究团队在三项下游任务上进行后训练:叠衬衫、装水果、清理餐桌。DreamZero在三项任务上均表现更强,表明后训练后仍保持环境泛化能力。

跨具身迁移

仅用30分钟的玩耍数据(55条轨迹),DreamZero即可适配YAM机器人,并对南瓜、泰迪熊、纸袋等新物体实现零样本泛化,同时展现出强大的语言指令遵循能力。来自AgiBot预训练的知识可直接迁移,无需大规模重训。这是目前效率最高的具身迁移:以往需要数百小时示范的工作,能够在30分钟内完成(未使用任何其他YAM数据)。

交互式提示

机器人基础模型的“提示时代”已经到来。研究团队展示了交互式提示的实战:带着机器人走到不同地方,让人们直接用语言提出新任务。机器人能够完成多种令人惊喜的操作。

实时推理

通过模型、系统与实现层面的优化,DreamZero实现了每个动作块150ms的实时推理,支持7Hz闭环控制。结合异步推理与动作块平滑,执行过程更加流畅、响应迅速。研究团队对比了16/4/1个扩散步数的效果:步数越少延迟越低,而DreamZero-Flash即便在单步推理下也能保持性能。研究团队还展示了动作块平滑与异步推理对执行质量的影响。

DreamZero (16 diffusion step) + async & action chunk smoothing

零样本泛化能走多远?研究团队持续对 DreamZero 进行压力测试,在从未训练过的任务、从未见过的环境中探索其能力边界。从翻转汉堡、按下电梯按钮,到敲击木琴、摇动铃鼓,模型不断涌现出令人惊讶的新技能。

DreamZero 只是一个开始——它代表了基于视频世界模型的新一代机器人基础模型浪潮。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20883

(0)
上一篇 2026年2月9日 上午8:51
下一篇 2026年2月9日 上午8:57

相关推荐

  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    40700
  • 马斯克xAI创始团队半数出走:AI人才流失危机下的IPO挑战与Grok发展隐忧

    马斯克于2023年与另外11位联合创始人共同创办的xAI,如今已有6人离开。 最新消息,xAI联合创始人Jimmy Ba于周二宣布,他已经离开了这家AI初创公司。 Jimmy在社交媒体上写道:“这是我在xAI的最后一天。xAI的使命是推动人类提升卡尔达舍夫等级。我非常荣幸能在公司创立之初共同参与这一历程。由衷感谢@elonmusk将我们聚集在一起,开启了这段…

    2026年2月11日
    18800
  • ChatGPT广告功能代码泄露:OpenAI商业化转型的深度剖析与行业影响

    近日,ChatGPT安卓测试版代码泄露事件揭示了OpenAI正在内部测试广告功能的重大动向。软件工程师Tibor Blaho在分析应用代码时,发现了“搜索广告”“搜索广告轮播”“集市内容”等关键字符串,这标志着OpenAI可能正在探索将广告整合到其对话式AI产品中。尽管这些代码不代表功能即将上线,但通常预示着公司正在进行广告形式和投放位置的内部测试,为未来的…

    2025年11月30日
    22600
  • 月之暗面Kimi K2 Thinking开源:万亿参数思考智能体如何重塑AI推理与执行边界

    在人工智能领域,模型规模的扩张与架构的创新始终是推动技术进步的双引擎。近日,月之暗面(Moonshot AI)正式开源其全新模型Kimi K2 Thinking,这款自称“思考Agent模型”的发布,不仅在参数规模上达到惊人的1万亿,更在推理能力、工具调用连续性及工程落地优化等方面展现出突破性进展。其核心在于将“思考”机制深度融入模型架构,实现了从被动响应到…

    2025年11月7日
    24600
  • 从执行到创造:百度伐谋超级智能体如何重塑AI自主优化新范式

    在人工智能技术快速迭代的浪潮中,AI正从被动执行指令的工具,向主动探索解决方案的创造者转变。这一变革的核心驱动力,在于智能体技术的突破性进展。近日,百度世界大会上发布的全球首个可商用、自我演化超级智能体——百度伐谋(FM Agent),标志着AI自主优化能力迈入了全新阶段。它不仅是一个技术产品,更是一种颠覆传统问题解决范式的引擎,为复杂工业场景提供了前所未有…

    2025年11月14日
    26300