英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

henry 发自凹非寺

量子位 | 公众号 QbitAI

继“下一个词预测”之后，世界建模将成为新的预训练范式。

这是英伟达机器人主管Jim Fan 给出的最新判断。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

他认为，2026年将成为大世界模型（Large World Models）真正为机器人领域以及更广义的多模态AI奠定基础的第一年。

谢赛宁随即转发表示赞同：“事后看来显而易见”。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

在这篇长文中，Jim Fan讨论了世界模型的定义与应用，尤其聚焦于物理AI领域的发展，同时展望了新的推理形式：

世界建模是在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。
当前世界模型的主要炒作集中在AI视频领域，而2026年将迎来物理AI的爆发。
世界模型需要更广义的预训练目标：下一个世界状态不应只包含RGB，还必须覆盖3D运动、本体感觉与触觉。
将出现一种新的推理形式：在视觉空间中的思维链，而非语言空间中的思维链。

第二个预训练范式

下一个词预测曾是第一个预训练范式，而现在我们正在经历第二次范式转变：世界建模，或者说 “下一个物理状态预测”。

很少有人真正理解这一转变的深远意义。我非常有信心地说：2026年将成为大世界模型首次为机器人领域，以及更广义的多模态 AI 奠定真实基础的一年。

在这个背景下，我将世界建模定义为：在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。

视频生成模型是其中的一种实现形式，其中“下一个状态”是一系列RGB帧，而“动作”是一段描述要执行什么的文本。训练过程就是对数十亿小时视频像素的未来变化进行建模。本质上，视频世界模型就是可学习的物理模拟器和渲染引擎。

它们能够捕捉反事实情景，即预测如果采取不同动作，未来可能会如何不同——这就是推理。世界模型从根本上以视觉为中心。

相比之下，视觉语言模型本质上是以语言为中心的。从最早的原型开始，整体路径基本一致：视觉在编码器处进入，然后被送入语言主干网络。随着时间推移，编码器不断改进，架构变得更简洁，视觉试图变得更加“原生”。然而，视觉仍然是二等公民，无法与领域多年构建的大语言模型能力相比。

对于物理AI来说，2025年以视觉语言动作模型为主：在预训练视觉语言模型上接入机器人动作解码器。严格来说，它更像是 “语言 > 视觉 > 动作”，等级递减。

视觉语言动作模型的设计在知识检索上很强，但物理能力分配不足。多阶段嫁接的设计，也违背我对简洁优雅的偏好。

从生物学角度看，视觉主导了我们的皮层计算。大约三分之一的大脑皮层用于处理像素。相比之下，语言依赖于一个相对紧凑的区域。视觉是连接我们大脑、运动系统和物理世界的最高带宽通道。它闭合了“感知—运动回路”——这是机器人最需要解决的回路，而且在中间不需要语言。

自然界给了我们一个最具说服力的例证：高灵巧物理智能几乎不依赖语言——猿类。它们的语言理解能力有限，但它们的物理技能远远超过我们当前最先进的机器人。猿类可能没有优秀的语言模型，但它们显然拥有对“如果……会怎样”的稳健心理表征：即对物理世界如何运作、以及在其干预下会如何反应的理解。

世界建模的时代已经到来。

YouTube的海量视频和智能眼镜的兴起，将以远超文本训练规模的原始视觉流捕捉世界。我们将看到一种新的预训练形式：下一个世界状态将不只包含RGB——3D空间运动、本体感觉和触觉感知才刚刚开始。

我们将看到一种新的推理形式：在视觉空间中的思维链，而不是语言空间中的思维链。你可以通过模拟几何关系和接触来解决物理谜题，想象物体如何移动和碰撞，而无需将其翻译成字符串。语言是一种瓶颈，是一种脚手架，而不是基础。

我们将面临一系列新的挑战：即便未来模拟完美，动作该如何解码？像素重建真的是最优目标，还是应该进入其他潜在空间？需要多少机器人数据？远程操作的扩展是否仍然可行？完成这些之后，我们是否终于迎来机器人领域的GPT-3时刻？

世界模型作为新的范式

总体来看，这篇新文章可以被看作是Jim Fan在2025年机器人年终总结中第三点的延伸与展开。当时，他提出：基于视觉语言模型的路线，本质上主要服务于语言和知识，而不是物理世界本身。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

那时，他已经把问题说得很直白：视觉语言模型的参数主要面向语言和知识，而非物理世界。视觉编码器在训练中会主动丢弃细节，但机器人操作恰恰依赖这些细节。因此，视觉语言动作模型并不会随着视觉语言模型的扩展而自然增强。而最近这篇关于世界建模的长文，则可以看作是Jim Fan对这一判断的系统性展开与进一步思考。

对于他的观点，业内大佬和网友也纷纷表达了看法。

来自Google DeepMind的Genie 3联合负责人、世界模型团队负责人Jack Parker-Holder 也在转发分享了他对世界模型应用场景的理解：

世界模型本身就是一类全新的基础模型。它们既服务于交互式媒体（视频模型），也服务于具身AGI。世界模型是连接虚拟与物理两个领域的桥梁，其真正价值在于跨任务、跨领域的泛化能力。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

换句话说，就像大语言模型作为基座模型既能编程又能解数学题一样，放到世界模型上，视频生成与具身操控也可以兼容。而谷歌、英伟达等玩家，也都在虚拟游戏、视频以及物理机器人领域同步布局。

不过，前英伟达机器人研究主管Arsalan Mousavian 也提醒：

对于大型世界模型来说，这是一个非常棒的愿景，但从像素到物理的跃迁仍然很陡峭。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

要让世界模型成为可靠的动作生成骨干，还必须解决以下问题：

几何一致性：确保运动学和物体恒常性在物理上成立。
同一性保持：避免跨实体的幻觉预测，例如机器人A在预测过程中突然变成机器人B。
推理速度：降低实时循环延迟。大型世界模型计算量大、延迟高，而机器人需要高频率响应。
动作采样：世界模型可以预测结果，但我们仍然需要对动作进行采样。

在数据量和计算需求上，这一目标将使当前的动作策略扩展显得相对温和。

此外，Jim Fan提到的视觉推理也引发广泛讨论：

推理不一定非得依赖语言——视觉模拟（几何、接触、运动）本身就能构成推理过程。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

机器人正是视觉为中心的基础模型大显身手的完美舞台。2026将是多模态、多轮交互代理（机器人/CUA）之年，而这一场比赛的胜者，必然会在游戏中更加重视视觉模态。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

猿猴的比喻非常贴切。我们太过痴迷语言，以至于忘记了灵巧的行动能力并不一定需要词汇量。2026年或许是机器人技术最终停止依赖语言模型，转而构建原生系统的一年。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

而除开英伟达、谷歌等巨头在世界模型技术路线的押注外，商业层面也在快速推进。

一周前，李飞飞 创办的World Labs正以约50亿美元估值进行新一轮融资，规模最高可达5亿美元。

与此同时，LeCun 创立的AMI Labs（Advanced Machine Intelligence，AMI）也吸引了包括Cathay Innovation在内的潜在投资者，传闻其融资估值可能达到35亿美元。

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20401

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

henry 发自 凹非寺

第二个预训练范式

世界模型作为新的范式

相关推荐

KlingAvatar2.0：时空级联框架与共推理导演系统，让数字人拥有生动灵魂与5分钟长视频生成能力

Claude Code创始人Boris Cherny亲授：13条高效AI编程实战秘籍，引爆500万在线围观

HarmonyOS架构深度解析：从分布式能力到实战迁移，解锁万物智联开发新范式

MiroThinker v1.5：30B小模型颠覆万亿参数Agent，交互深度成AI新范式

北京版幻方开源SOTA代码大模型IQuest-Coder-V1：40B参数性能超Opus-4.5/GPT-5.2，单张3090可运行

henry 发自凹非寺