英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

驱动具身智能迈向通用领域的核心挑战是什么?

我们认为,关键在于实现“跨具身迁移”。

一个完善的世界模型是具身智能执行通用复杂任务的基础。然而,许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。

具体而言,当前应用于机器人或智能汽车的世界模型,大多针对特定硬件平台进行设计和训练,其泛化能力有限,跨平台迁移往往依赖运气。

本质上,许多机器人学习到的并非“世界如何运作”,而是“这台特定机器如何运动”。我们需要一个能够真正理解物理规律与因果关系的世界模型——它需要知晓世界状态如何变化、动作会引发何种后果——才能在不同“身体”和不同环境中实现有效的迁移与泛化。

针对这一难题,深耕于各类世界模型的英伟达再次取得突破,构建了一个全新的、完全基于零样本范式的世界模型。

近期,英伟达GEAR实验室提出了DreamZero,这是一种基于预训练视频扩散骨干网络构建的世界动作模型。

这是一个拥有140亿参数的模型,能够让机器人仅通过简单的文本提示,就完成此前从未接触过的任务。

实验室负责人Jim Fan将其称为机器人领域的“GPT-2时刻”:研究团队只需输入想法,机器人就能执行相应动作。目前,该模型的代码已在GitHub上开源。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

  • 论文标题:World Action Models are Zero-shot Policies
  • 论文链接:https://dreamzero0.github.io/DreamZero.pdf
  • Github 链接:https://github.com/dreamzero0/dreamzero

与传统视觉-语言-动作模型不同,WAM通过联合预测未来世界状态与动作来学习物理动力学,并以视频作为世界演化的稠密表示。通过对视频与动作的联合建模,DreamZero能够从异构机器人数据中高效学习多样化技能,而不依赖重复示范。在真实机器人实验中,相比最先进的VLA模型,DreamZero在新任务与新环境的泛化上实现了超过2倍的性能提升。

至关重要的是,通过模型与系统层面的优化,研究团队让一个140亿参数的自回归视频扩散模型实现了7Hz的实时闭环控制。此外,研究团队展示了两种跨具身迁移能力:仅使用10–20分钟的人类或其他机器人纯视频示范,即可在未见任务上带来超过42%的性能提升。更令人惊讶的是,DreamZero只需30分钟的“玩耍数据”,就能适配到全新的机器人平台,同时仍保持零样本泛化能力。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
DreamZero 整体概览。

图中展示了DreamZero通过联合预测视频与动作,世界动作模型继承了关于世界物理规律的先验,从而实现了:
1. 从多样、非重复的数据中高效学习;
2. 在开放世界场景中的强泛化能力;
3. 仅依赖纯视频数据即可完成跨具身学习;
4. 对新机器人的少样本快速适配。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代
DreamZero 的模型架构。

大多数预训练的视频扩散模型凭借来自网页规模数据的丰富时空先验,成为构建机器人策略的理想骨干网络。然而,将这类模型转化为高效的世界动作模型仍面临关键挑战:
1. 视频–动作对齐:联合预测视频与动作要求对视觉未来与电机指令进行紧密耦合,但如果只是简单地将独立的视频头与动作拼接,往往会导致二者对齐失效;
2. 架构设计:尚不清楚双向架构还是自回归架构更适合WAM,这关系到多模态对齐、误差累积以及推理效率等关键问题;
3. 实时推理:视频扩散模型需要在高维潜空间中进行多步迭代去噪,使其在闭环控制场景下速度过慢、难以实用。

为此,DreamZero通过模型设计选择有效应对了上述挑战。

模型接收三类输入:视觉上下文(通过VAE编码)、语言指令(通过文本编码器)、以及本体感知状态(通过状态编码器)。这些输入随后被送入一个基于Flow Matching的自回归DiT主干网络,由其联合预测未来的视频帧与动作,并通过各自独立的解码器输出结果。

在训练阶段,模型以分块的方式工作:在给定干净视频上下文作为条件的情况下,对加噪的视频与动作潜变量进行去噪。在推理阶段,模型的预测会以异步方式在真实世界中执行,同时将真实观测结果回灌到KV缓存中,以防止误差随时间累积。

实验结果

研究团队在六种设置下展示了DreamZero的能力——其中五种用于测试泛化,一种用于实时部署。

相关的训练数据以及实验结果的演示可以参考以下链接:
https://dreamzero0.github.io/evals_gallery/

AgiBot预训练:已见 & 未见任务

研究团队对预训练模型进行开箱即用评测:任务来自预训练分布,但在未见对象的新环境中进行零样本测试。DreamZero(也包含从零训练版本)取得62.2%的平均任务进度,相比最佳预训练VLA基线(27.4%)提升超过2倍。从零训练的VLA几乎为零;预训练VLA有一定进展,但幅度有限。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

对于训练中完全未出现的任务(如解鞋带、握手),DreamZero仍达到39.5%的任务进度,而VLA再次表现吃力。值得注意的是,预训练VLA在未见任务上的有限进展,主要源于其无论指令如何都倾向于执行“抓取-放置”的默认动作,显示其过拟合于主导训练行为,而非真正理解新任务语义。研究团队在4台机器人、不同环境与物体上,对每个检查点进行了80次rollouts。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

DROID:已见任务 & 未见动作

为验证在公开数据上的效果,研究团队在DROID(最异构的开源机器人数据集之一)上训练DreamZero,并评测20个已见任务与20个未见动词任务(DROID中未出现的动作)。DreamZero显著优于预训练基线,在未见动词上取得49%的任务进度,而最先进的VLA仅为25–32%。

英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

后训练:分布外泛化

本部分研究WAM在任务特定微调后是否仍保留泛化能力。研究团队在三项下游任务上进行后训练:叠衬衫、装水果、清理餐桌。DreamZero在三项任务上均表现更强,表明后训练后仍保持环境泛化能力。

跨具身迁移

仅用30分钟的玩耍数据(55条轨迹),DreamZero即可适配YAM机器人,并对南瓜、泰迪熊、纸袋等新物体实现零样本泛化,同时展现出强大的语言指令遵循能力。来自AgiBot预训练的知识可直接迁移,无需大规模重训。这是目前效率最高的具身迁移:以往需要数百小时示范的工作,能够在30分钟内完成(未使用任何其他YAM数据)。

交互式提示

机器人基础模型的“提示时代”已经到来。研究团队展示了交互式提示的实战:带着机器人走到不同地方,让人们直接用语言提出新任务。机器人能够完成多种令人惊喜的操作。

实时推理

通过模型、系统与实现层面的优化,DreamZero实现了每个动作块150ms的实时推理,支持7Hz闭环控制。结合异步推理与动作块平滑,执行过程更加流畅、响应迅速。研究团队对比了16/4/1个扩散步数的效果:步数越少延迟越低,而DreamZero-Flash即便在单步推理下也能保持性能。研究团队还展示了动作块平滑与异步推理对执行质量的影响。

DreamZero (16 diffusion step) + async & action chunk smoothing

零样本泛化能走多远?研究团队持续对 DreamZero 进行压力测试,在从未训练过的任务、从未见过的环境中探索其能力边界。从翻转汉堡、按下电梯按钮,到敲击木琴、摇动铃鼓,模型不断涌现出令人惊讶的新技能。

DreamZero 只是一个开始——它代表了基于视频世界模型的新一代机器人基础模型浪潮。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/20883

(0)
上一篇 2026年2月9日 上午8:51
下一篇 2026年2月9日 上午8:57

相关推荐

  • AI生产力真相:Anthropic联创揭秘内部数据,代码加速遇瓶颈,维修工也难逃AI替代

    Anthropic联合创始人Jack Clark近期参与了一场深度对话,同台的还有知名前对冲基金经理Michael Burry、Dwarkesh播客创始人Dwarkesh Patel以及软件创业者Patrick McKenzie。 四位业界人士的讨论揭示了关于AI生产力的一些反直觉细节和数据。 AI工具真的提升了生产力吗?多数人的直觉答案是肯定的,但Jack…

    2026年1月11日
    17600
  • 2026数据中心机房建设新纪元:算力适配、绿色低碳与智能协同的全流程方案

    2026年,随着“十五五”规划将“全国一体化算力网”纳入国家级基础设施体系,数据中心机房建设正式进入“算力适配、绿色低碳、智能协同、安全可控”的高质量发展新阶段。 本方案立足《算力互联互通行动计划》等最新政策要求,结合GB 50174-2017规范延伸适配及2026年技术迭代趋势,整合传统机房与微模块机房的建设经验,融入产业链全维度分析,提供兼具科学性、技术…

    2026年2月11日
    17100
  • 从AI先驱到华尔街巨鳄:Hinton首位博士生的跨界传奇

    一张照片,一段往事 最近,一张老照片在AI圈内重新引发了热议。 这张照片是1986年CMU首届联结主义夏令营的合影。 有人将这张合影誉为AI界的“索尔维会议”。对于研究神经网络、计算神经科学和计算语言学的后辈而言,几乎都能在这张照片里找到自己领域的开创者。 照片中被圈出的,是深度学习的奠基人、图灵奖得主Geoffrey Hinton。正是在他的坚持下,神经网…

    2026年1月10日
    18600
  • 从辍学生到Sora核心开发者:Gabriel Petersson如何用ChatGPT颠覆传统教育路径

    在人工智能浪潮席卷全球的背景下,一个名为Gabriel Petersson的23岁丹麦青年,以其高中辍学生的身份,成为OpenAI研究科学家和Sora核心技术贡献者,引发了关于教育体系、人才认证与AI时代学习模式的深刻反思。他的故事不仅是一个个体逆袭的传奇,更折射出AI技术对传统知识获取、职业发展路径的颠覆性冲击。 Petersson的成长轨迹与传统教育范式…

    2025年11月29日
    16900
  • Vibe Coding的进化:从概念狂欢到生产级革命,百度秒哒如何定义AI编程新范式

    2025年,当Vibe Coding被《柯林斯英语词典》正式收录为年度词汇时,这项技术已经完成了从技术圈层概念到全球性现象的蜕变。从Cursor估值逼近99亿美元,到谷歌收购Windsurf核心团队推出Antigravity;从海外Claude Code、v0、Lovable的持续迭代,到国内字节Trae、阿里Qcoder、百度Comate的全面布局——整个…

    2025年12月18日
    17100