AI范式革命：从预测下一个词到预测下一个物理状态

又一位大佬准备对现有 AI 技术范式开刀了。

今天凌晨，英伟达高级研究科学家、机器人团队负责人 Jim Fan（范麟熙）发布文章《第二代预训练范式》，引发了机器学习社区的讨论。

AI范式革命：从预测下一个词到预测下一个物理状态

Jim Fan 指出，目前以大语言模型（LLM）为代表的 AI 模型主要基于「对下一词的预测」，这第一代范式虽然取得了巨大成功，但在将其应用于物理世界时，出现了明显的「水土不服」。

对于这个观点，纽约大学助理教授、谷歌 DeepMind 研究科学家谢赛宁也表示同意。

AI范式革命：从预测下一个词到预测下一个物理状态

那么预训练的第二代范式应该是什么样子？我们先来看 Jim Fan 的全文内容：

「预测下一个词」曾是第一个预训练范式。而现在，我们正处于第二个范式转移之中：世界建模（World Modeling）或者「预测下一个物理状态」。

很少有人意识到这场变革的影响有多么深远，遗憾的是，目前世界模型最被大众熟知的用例只是些 AI 视频废料（以及即将到来的游戏废料）。但我敢全心笃定，2026 年将成为「大世界模型」（Large World Models, LWMs）为机器人学以及更广泛的多模态 AI 奠定真实基础的元年。

在此背景下，我将「世界建模」定义为：在特定动作的约束下，预测下一个（或一段持续时间内）合理的物理世界状态。视频生成模型是其中的一种实例化体现，这里的「下一状态」是一系列 RGB 帧（通常为 8-10 秒，最长可几分钟），而「动作」则是对该做什么的文本描述。训练过程涉及对数十亿小时视频像素中未来变化的建模。

从核心上看，视频世界模型是可学习的物理模拟器和渲染引擎，它们捕捉到了「反事实」。这是一个更高级的词汇，意指在给定不同动作时，推理未来的演化如何不同。世界模型从根本上将视觉置于首位。

相比之下，视觉语言模型（VLMs）在本质上是「语言优先」的。从最早的原型（如 LLaVA）开始，其叙事逻辑几乎未变：视觉信息从编码器进入，然后被路由到语言主干网络中。随着时间的推移，编码器在改进，架构更趋简洁，视觉也试图变得更加「原生」（如 omni 模型）。但它始终像是一个「二等公民」，在物理规模上远逊于业界多年来为大语言模型（LLMs）练就的肌肉。

这条路径很便捷，因为我们知道 LLM 是可扩展的。我们的架构直觉、数据配方设计以及基准测试（如 VQA）都高度针对语言进行了优化。

对于物理 AI，2025 年曾被 VLA（视觉 – 语言 – 动作）模型主导：在预训练的 VLM 检查点之上，硬生生嫁接一个机器人电机动作解码器。这其实是「LVA」：其重要性排序依次为语言 > 视觉 > 动作。同样，这条路径很方便，因为我们精通 VLM 的训练套路。

然而，VLM 中的大部分参数都分配给了知识（例如「这团像素是可口可乐品牌」），而非物理（例如「如果你打翻可乐瓶，液体会蔓延成一片褐色污渍，弄脏白桌布，并毁掉电机」）。VLA 在设计上非常擅长知识检索，但在错误的地方显得「头重脚轻」。这种多阶段的嫁接设计也违背了我对简洁与优雅的追求。

从生物学角度看，视觉主导了我们的皮层计算。大脑皮层约有三分之一的部分专门用于处理枕叶、颞叶和顶叶区域的像素信息。相比之下，语言仅依赖于一个相对紧凑的区域。视觉是连接大脑、运动系统和物理世界的高带宽通道，它闭合了「感觉运动回路」。这是解决机器人问题的最核心环路，而且这个过程的中转完全不需要语言。

大自然给了我们一个存在性证明：一种具有极高肢体智能但语言能力微乎其微的生物 —— 类人猿。

我曾见过类人猿驾驶高尔夫球车，像人类技工一样用螺丝刀更换刹车片。它们的语言理解能力比不过 BERT 或 GPT-1，但它们的物理技能远超目前最先进的机器人。类人猿或许没有强大的语言模型，但它们肯定拥有极其稳健的「如果… 会怎样」的心理图景：即物理世界如何运作，以及如何应对它们的干预。

世界建模的时代已经到来，它充满了「苦涩的教训」的味道。正如加州大学伯克利分校教授 Jitendra Malik 经常提醒我们这些「规模崇拜者」所说：「监督学习是 AI 研究者的鸦片。」YouTube 的全部存量以及智能眼镜的兴起，将捕捉到规模远超人类历史所有文本的原始物理世界视觉流。

我们将见证一种新型预训练：下一个世界状态可能不限于 RGB 图像，3D 空间运动、本体感觉和触觉感知才刚刚起步。

我们将见证一种新型推理：发生在视觉空间而非语言空间的「思维链」。你可以通过模拟几何形状和接触点，想象物体如何移动和碰撞来解决物理难题，而无需将其转化为字符串。语言只是一个瓶颈，一个脚手架，而非根基。

我们将面临一盒全新的潘多拉之问：即使有了完美的未来模拟，动作指令该如何解码？像素重建真的是最佳目标吗，还是我们应该进入另一种潜空间？我们需要多少机器人数据，扩展遥操作规模仍是标准答案吗？在经历过这些探索后，我们是否终于在向机器人领域的「GPT-3 时刻」迈进？

Ilya 终究是对的，AGI 尚未收敛。我们回到了「研究的时代」，没有什么比挑战第一性原理更令人心潮澎湃了。

Jim Fan 对现状的思考以及对未来的判断，同样收获了评论区大量网友的认可。

AI范式革命：从预测下一个词到预测下一个物理状态

有人认为这是「神经符号 AI 社区的胜利」。

AI范式革命：从预测下一个词到预测下一个物理状态

你认同 Jim Fan 的观点吗？

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20190

AI范式革命：从预测下一个词到预测下一个物理状态

相关推荐

阿里2步生成方案：5秒4张2K图，AI生图速度提升40倍

300亿美元能否突破AI增长瓶颈？尤洋教授深度解析算力与智能的底层逻辑

2026年自动化加速利器：13个Python库提升开发效率

跨学科突破：神经科学与AI融合，打造类人记忆Agent系统

突破GUI像素瓶颈！面向端侧Agent语义世界建模 MobileWorldBench！1.4M 数据样本驱动 7.4%性能跃升！