AI范式革命:从预测下一个词到预测下一个物理状态

又一位大佬准备对现有 AI 技术范式开刀了。

今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。

AI范式革命:从预测下一个词到预测下一个物理状态

Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。

对于这个观点,纽约大学助理教授、谷歌 DeepMind 研究科学家谢赛宁也表示同意。

AI范式革命:从预测下一个词到预测下一个物理状态

那么预训练的第二代范式应该是什么样子?我们先来看 Jim Fan 的全文内容:

「预测下一个词」曾是第一个预训练范式。而现在,我们正处于第二个范式转移之中:世界建模(World Modeling)或者「预测下一个物理状态」。

很少有人意识到这场变革的影响有多么深远,遗憾的是,目前世界模型最被大众熟知的用例只是些 AI 视频废料(以及即将到来的游戏废料)。但我敢全心笃定,2026 年将成为「大世界模型」(Large World Models, LWMs)为机器人学以及更广泛的多模态 AI 奠定真实基础的元年。

在此背景下,我将「世界建模」定义为:在特定动作的约束下,预测下一个(或一段持续时间内)合理的物理世界状态。 视频生成模型是其中的一种实例化体现,这里的「下一状态」是一系列 RGB 帧(通常为 8-10 秒,最长可几分钟),而「动作」则是对该做什么的文本描述。训练过程涉及对数十亿小时视频像素中未来变化的建模。

从核心上看,视频世界模型是可学习的物理模拟器和渲染引擎,它们捕捉到了「反事实」。这是一个更高级的词汇,意指在给定不同动作时,推理未来的演化如何不同。世界模型从根本上将视觉置于首位。

相比之下,视觉语言模型(VLMs)在本质上是「语言优先」的。从最早的原型(如 LLaVA)开始,其叙事逻辑几乎未变:视觉信息从编码器进入,然后被路由到语言主干网络中。随着时间的推移,编码器在改进,架构更趋简洁,视觉也试图变得更加「原生」(如 omni 模型)。但它始终像是一个「二等公民」,在物理规模上远逊于业界多年来为大语言模型(LLMs)练就的肌肉。

这条路径很便捷,因为我们知道 LLM 是可扩展的。我们的架构直觉、数据配方设计以及基准测试(如 VQA)都高度针对语言进行了优化。

对于物理 AI,2025 年曾被 VLA(视觉 – 语言 – 动作)模型主导:在预训练的 VLM 检查点之上,硬生生嫁接一个机器人电机动作解码器。这其实是 「LVA」:其重要性排序依次为语言 > 视觉 > 动作。同样,这条路径很方便,因为我们精通 VLM 的训练套路。

然而,VLM 中的大部分参数都分配给了知识(例如「这团像素是可口可乐品牌」),而非物理(例如「如果你打翻可乐瓶,液体会蔓延成一片褐色污渍,弄脏白桌布,并毁掉电机」)。VLA 在设计上非常擅长知识检索,但在错误的地方显得「头重脚轻」。这种多阶段的嫁接设计也违背了我对简洁与优雅的追求。

从生物学角度看,视觉主导了我们的皮层计算。大脑皮层约有三分之一的部分专门用于处理枕叶、颞叶和顶叶区域的像素信息。相比之下,语言仅依赖于一个相对紧凑的区域。视觉是连接大脑、运动系统和物理世界的高带宽通道,它闭合了「感觉运动回路」。这是解决机器人问题的最核心环路,而且这个过程的中转完全不需要语言。

大自然给了我们一个存在性证明:一种具有极高肢体智能但语言能力微乎其微的生物 —— 类人猿。

我曾见过类人猿驾驶高尔夫球车,像人类技工一样用螺丝刀更换刹车片。它们的语言理解能力比不过 BERT 或 GPT-1,但它们的物理技能远超目前最先进的机器人。类人猿或许没有强大的语言模型,但它们肯定拥有极其稳健的「如果… 会怎样」的心理图景:即物理世界如何运作,以及如何应对它们的干预。

世界建模的时代已经到来,它充满了「苦涩的教训」的味道。正如加州大学伯克利分校教授 Jitendra Malik 经常提醒我们这些「规模崇拜者」所说:「监督学习是 AI 研究者的鸦片。」YouTube 的全部存量以及智能眼镜的兴起,将捕捉到规模远超人类历史所有文本的原始物理世界视觉流。

我们将见证一种新型预训练:下一个世界状态可能不限于 RGB 图像,3D 空间运动、本体感觉和触觉感知才刚刚起步。

我们将见证一种新型推理:发生在视觉空间而非语言空间的「思维链」。你可以通过模拟几何形状和接触点,想象物体如何移动和碰撞来解决物理难题,而无需将其转化为字符串。语言只是一个瓶颈,一个脚手架,而非根基。

我们将面临一盒全新的潘多拉之问:即使有了完美的未来模拟,动作指令该如何解码?像素重建真的是最佳目标吗,还是我们应该进入另一种潜空间?我们需要多少机器人数据,扩展遥操作规模仍是标准答案吗?在经历过这些探索后,我们是否终于在向机器人领域的「GPT-3 时刻」迈进?

Ilya 终究是对的,AGI 尚未收敛。我们回到了「研究的时代」,没有什么比挑战第一性原理更令人心潮澎湃了。

Jim Fan 对现状的思考以及对未来的判断,同样收获了评论区大量网友的认可。

AI范式革命:从预测下一个词到预测下一个物理状态

AI范式革命:从预测下一个词到预测下一个物理状态

有人认为这是「神经符号 AI 社区的胜利」。

AI范式革命:从预测下一个词到预测下一个物理状态

你认同 Jim Fan 的观点吗?


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20190

(0)
上一篇 2026年2月4日 下午6:58
下一篇 2026年2月4日 下午7:12

相关推荐

  • 谷歌Gemini 3.1 Flash-Lite震撼发布:性价比之王,每百万token仅0.25美元

    谷歌发布Gemini 3.1 Flash-Lite:主打轻量高速与极致性价比 谷歌近日正式推出 Gemini 3.1 Flash-Lite 模型。从命名可知,该模型主打轻量化与高速度。官方将其定位为迄今为止 Gemini 3系列中性价比最高 的模型。 其定价极具竞争力:每百万输入token仅需0.25美元,每百万输出token为1.5美元。作为参考,仅需约1…

    2026年3月4日
    17400
  • AI赋能卫星星座:北航团队发布AEOS-Bench基准与AEOS-Former模型,开启空天智能调度新纪元

    随着全球卫星星座规模的急剧扩张,从SpaceX的Starlink到我国的“千帆”星座,卫星网络正从科幻概念演变为数字经济时代的关键基础设施。这些运行在距地数百公里轨道上的卫星群,默默支撑着遥感监测、全球通信、精准导航、气象预测等核心领域。然而,星座规模的扩大带来了前所未有的调度挑战:如何在几分钟的观测窗口内,协调数十颗卫星执行上百项任务,同时应对地震救援、海…

    2025年12月13日
    25000
  • AI腔调入侵:当人类语言被大模型重塑,我们如何守护交流的真实性?

    近期,OpenAI首席执行官山姆·奥特曼在社交媒体上公开表达了对“AI腔调”(LLM-speak)现象的担忧。他在浏览关于Codex的论坛讨论时,发现大量帖子虽然内容属实,但语言风格高度同质化,充满程序化表达,让人怀疑是AI生成或人类模仿AI的结果。奥特曼指出,这种交流方式让真实的人际互动“感觉很假”,并警示过度依赖和模仿AI可能导致人性特质的流失。这一观察…

    2025年11月3日
    20700
  • 高通发布骁龙可穿戴平台至尊版,AI可穿戴市场规模或达十亿量级

    在今年的MWC巴塞罗那展会上,科技行业聚焦于“智能跃升”这一主题。行业趋势显示,用户已不再满足于执行单一任务的AI,开始追求能够提供高度个性化体验的专属AI智能体。这需要海量的真实情境数据作为基础,而手机、PC等终端设备因其能安全处理私密信息,被视为理想的载体。 高通进一步提出,AI需要进驻更微型化的载体,即“AI穿戴”设备,才能实现自适应、即时响应且高度个…

    2026年3月4日
    15400
  • Neuralink脑机接口新突破:意念操控游戏与打字,下一代设备性能翻三倍

    近日,埃隆·马斯克在社交媒体上转发了一个帖子,展示了Neuralink脑机接口的突破性进展:植入其脑芯片的患者,已经能够仅凭意念直接操控电子游戏,完全无需依赖手柄、鼠标或键盘等传统外设。 对于网友“我们正生活在未来,这太神奇了”的感叹,马斯克简洁地回复了一个“Yup”。 截至目前,Neuralink在全球范围内已有21人参与其名为“Telepathy”(心灵…

    2026年2月1日
    43400