英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

驱动具身智能迈向通用领域的核心挑战是什么?

我们认为,关键在于实现“跨具身迁移”。

一个完善的世界模型是具身智能执行通用复杂任务的基础。然而,许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。

具体而言,当前应用于机器人或智能汽车的世界模型,大多针对特定硬件平台进行设计和训练,其泛化能力有限,跨平台迁移往往依赖运气。

本质上,许多机器人学习到的并非“世界如何运作”,而是“这台特定机器如何运动”。我们需要一个能够真正理解物理规律与因果关系的世界模型——它需要知晓世界状态如何变化、动作会引发何种后果——才能在不同“身体”和不同环境中实现有效的迁移与泛化。

针对这一难题,深耕于各类世界模型的英伟达再次取得突破,构建了一个全新的、完全基于零样本范式的世界模型。

近期,英伟达GEAR实验室提出了DreamZero,这是一种基于预训练视频扩散骨干网络构建的世界动作模型。

这是一个拥有140亿参数的模型,能够让机器人仅通过简单的文本提示,就完成此前从未接触过的任务。

实验室负责人Jim Fan将其称为机器人领域的“GPT-2时刻”:研究团队只需输入想法,机器人就能执行相应动作。目前,该模型的代码已在GitHub上开源。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

  • 论文标题:World Action Models are Zero-shot Policies
  • 论文链接:https://dreamzero0.github.io/DreamZero.pdf
  • Github 链接:https://github.com/dreamzero0/dreamzero

与传统视觉-语言-动作模型不同,WAM通过联合预测未来世界状态与动作来学习物理动力学,并以视频作为世界演化的稠密表示。通过对视频与动作的联合建模,DreamZero能够从异构机器人数据中高效学习多样化技能,而不依赖重复示范。在真实机器人实验中,相比最先进的VLA模型,DreamZero在新任务与新环境的泛化上实现了超过2倍的性能提升。

至关重要的是,通过模型与系统层面的优化,研究团队让一个140亿参数的自回归视频扩散模型实现了7Hz的实时闭环控制。此外,研究团队展示了两种跨具身迁移能力:仅使用10–20分钟的人类或其他机器人纯视频示范,即可在未见任务上带来超过42%的性能提升。更令人惊讶的是,DreamZero只需30分钟的“玩耍数据”,就能适配到全新的机器人平台,同时仍保持零样本泛化能力。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
DreamZero 整体概览。

图中展示了DreamZero通过联合预测视频与动作,世界动作模型继承了关于世界物理规律的先验,从而实现了:
1. 从多样、非重复的数据中高效学习;
2. 在开放世界场景中的强泛化能力;
3. 仅依赖纯视频数据即可完成跨具身学习;
4. 对新机器人的少样本快速适配。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
DreamZero 的模型架构。

大多数预训练的视频扩散模型凭借来自网页规模数据的丰富时空先验,成为构建机器人策略的理想骨干网络。然而,将这类模型转化为高效的世界动作模型仍面临关键挑战:
1. 视频–动作对齐:联合预测视频与动作要求对视觉未来与电机指令进行紧密耦合,但如果只是简单地将独立的视频头与动作拼接,往往会导致二者对齐失效;
2. 架构设计:尚不清楚双向架构还是自回归架构更适合WAM,这关系到多模态对齐、误差累积以及推理效率等关键问题;
3. 实时推理:视频扩散模型需要在高维潜空间中进行多步迭代去噪,使其在闭环控制场景下速度过慢、难以实用。

为此,DreamZero通过模型设计选择有效应对了上述挑战。

模型接收三类输入:视觉上下文(通过VAE编码)、语言指令(通过文本编码器)、以及本体感知状态(通过状态编码器)。这些输入随后被送入一个基于Flow Matching的自回归DiT主干网络,由其联合预测未来的视频帧与动作,并通过各自独立的解码器输出结果。

在训练阶段,模型以分块的方式工作:在给定干净视频上下文作为条件的情况下,对加噪的视频与动作潜变量进行去噪。在推理阶段,模型的预测会以异步方式在真实世界中执行,同时将真实观测结果回灌到KV缓存中,以防止误差随时间累积。

实验结果

研究团队在六种设置下展示了DreamZero的能力——其中五种用于测试泛化,一种用于实时部署。

相关的训练数据以及实验结果的演示可以参考以下链接:
https://dreamzero0.github.io/evals_gallery/

AgiBot预训练:已见 & 未见任务

研究团队对预训练模型进行开箱即用评测:任务来自预训练分布,但在未见对象的新环境中进行零样本测试。DreamZero(也包含从零训练版本)取得62.2%的平均任务进度,相比最佳预训练VLA基线(27.4%)提升超过2倍。从零训练的VLA几乎为零;预训练VLA有一定进展,但幅度有限。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

对于训练中完全未出现的任务(如解鞋带、握手),DreamZero仍达到39.5%的任务进度,而VLA再次表现吃力。值得注意的是,预训练VLA在未见任务上的有限进展,主要源于其无论指令如何都倾向于执行“抓取-放置”的默认动作,显示其过拟合于主导训练行为,而非真正理解新任务语义。研究团队在4台机器人、不同环境与物体上,对每个检查点进行了80次rollouts。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

DROID:已见任务 & 未见动作

为验证在公开数据上的效果,研究团队在DROID(最异构的开源机器人数据集之一)上训练DreamZero,并评测20个已见任务与20个未见动词任务(DROID中未出现的动作)。DreamZero显著优于预训练基线,在未见动词上取得49%的任务进度,而最先进的VLA仅为25–32%。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

后训练:分布外泛化

本部分研究WAM在任务特定微调后是否仍保留泛化能力。研究团队在三项下游任务上进行后训练:叠衬衫、装水果、清理餐桌。DreamZero在三项任务上均表现更强,表明后训练后仍保持环境泛化能力。

跨具身迁移

仅用30分钟的玩耍数据(55条轨迹),DreamZero即可适配YAM机器人,并对南瓜、泰迪熊、纸袋等新物体实现零样本泛化,同时展现出强大的语言指令遵循能力。来自AgiBot预训练的知识可直接迁移,无需大规模重训。这是目前效率最高的具身迁移:以往需要数百小时示范的工作,能够在30分钟内完成(未使用任何其他YAM数据)。

交互式提示

机器人基础模型的“提示时代”已经到来。研究团队展示了交互式提示的实战:带着机器人走到不同地方,让人们直接用语言提出新任务。机器人能够完成多种令人惊喜的操作。

实时推理

通过模型、系统与实现层面的优化,DreamZero实现了每个动作块150ms的实时推理,支持7Hz闭环控制。结合异步推理与动作块平滑,执行过程更加流畅、响应迅速。研究团队对比了16/4/1个扩散步数的效果:步数越少延迟越低,而DreamZero-Flash即便在单步推理下也能保持性能。研究团队还展示了动作块平滑与异步推理对执行质量的影响。

DreamZero (16 diffusion step) + async & action chunk smoothing

零样本泛化能走多远?研究团队持续对 DreamZero 进行压力测试,在从未训练过的任务、从未见过的环境中探索其能力边界。从翻转汉堡、按下电梯按钮,到敲击木琴、摇动铃鼓,模型不断涌现出令人惊讶的新技能。

DreamZero 只是一个开始——它代表了基于视频世界模型的新一代机器人基础模型浪潮。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20883

(0)
上一篇 2026年2月9日 上午8:51
下一篇 2026年2月9日 上午8:57

相关推荐

  • 高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率

    关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…

    2026年2月11日
    35400
  • 智元机器人量产破5000台:具身智能商业化进程加速,三大产线全面落地工业与消费场景

    智元机器人近日宣布第5000台通用具身机器人正式量产下线,这一里程碑事件不仅标志着该公司在短短三年内实现了从创业到规模化生产的跨越,更折射出中国具身智能产业商业化进程的显著提速。作为由“天才少年”彭志辉创立的硬核科技企业,智元以5000台的量产规模,提前触及了行业机构对2025年中国人形机器人商用出货量的预测值,预示着具身智能的量产元年可能比预期更早到来。 …

    2025年12月9日
    52100
  • 库克卸任苹果CEO!硬件工程高级副总裁John Ternus接棒,AI竞争落后引热议

    苹果公司最新宣布,自9月1日起,执掌公司15年的蒂姆·库克将卸任首席执行官一职,转任公司执行董事长。其职位将由现任硬件工程高级副总裁约翰·特纳斯(John Ternus)接替。 消息公布后,各界反应迅速。OpenAI首席执行官萨姆·奥特曼第一时间在社交媒体上发文,称库克为“传奇人物”,并感谢其贡献。与此同时,公众也开始回顾库克任内的业绩:自2011年从史蒂夫…

    2026年4月21日
    28400
  • 解码语言理解的神经与算法共鸣:Nature新研究揭示LLM与人脑处理语言的惊人同步性

    近日,《Nature》发表的一项突破性研究,通过对比人类大脑与大型语言模型(LLM)处理语言时的神经活动与计算过程,揭示了两者在机制上的深刻相似性,为理解语言认知的本质提供了全新视角。 研究团队设计了一项精密的实验:让志愿者佩戴脑电图(EEG)设备,聆听30分钟的叙事内容,同时将相同文本输入GPT-2 XL和Llama-2模型,并记录模型每一隐藏层的激活状态…

    2025年12月11日
    39400
  • UI-Genie:移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁

    在人工智能技术快速演进的当下,多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie,为这一转型提供了极具启发性的技术路径。该研究由肖涵(第一作者,研究方向为多模态大模型和智能体学习)、王国志(研究方向为多模态大模型和Agent强化学习)共同完成,项目负责人任帅(研究方向为多模…

    2025年11月7日
    39500