AI范式革命:从预测下一个词到预测下一个物理状态

又一位大佬准备对现有 AI 技术范式开刀了。

今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。

AI范式革命:从预测下一个词到预测下一个物理状态

Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。

对于这个观点,纽约大学助理教授、谷歌 DeepMind 研究科学家谢赛宁也表示同意。

AI范式革命:从预测下一个词到预测下一个物理状态

那么预训练的第二代范式应该是什么样子?我们先来看 Jim Fan 的全文内容:

「预测下一个词」曾是第一个预训练范式。而现在,我们正处于第二个范式转移之中:世界建模(World Modeling)或者「预测下一个物理状态」。

很少有人意识到这场变革的影响有多么深远,遗憾的是,目前世界模型最被大众熟知的用例只是些 AI 视频废料(以及即将到来的游戏废料)。但我敢全心笃定,2026 年将成为「大世界模型」(Large World Models, LWMs)为机器人学以及更广泛的多模态 AI 奠定真实基础的元年。

在此背景下,我将「世界建模」定义为:在特定动作的约束下,预测下一个(或一段持续时间内)合理的物理世界状态。 视频生成模型是其中的一种实例化体现,这里的「下一状态」是一系列 RGB 帧(通常为 8-10 秒,最长可几分钟),而「动作」则是对该做什么的文本描述。训练过程涉及对数十亿小时视频像素中未来变化的建模。

从核心上看,视频世界模型是可学习的物理模拟器和渲染引擎,它们捕捉到了「反事实」。这是一个更高级的词汇,意指在给定不同动作时,推理未来的演化如何不同。世界模型从根本上将视觉置于首位。

相比之下,视觉语言模型(VLMs)在本质上是「语言优先」的。从最早的原型(如 LLaVA)开始,其叙事逻辑几乎未变:视觉信息从编码器进入,然后被路由到语言主干网络中。随着时间的推移,编码器在改进,架构更趋简洁,视觉也试图变得更加「原生」(如 omni 模型)。但它始终像是一个「二等公民」,在物理规模上远逊于业界多年来为大语言模型(LLMs)练就的肌肉。

这条路径很便捷,因为我们知道 LLM 是可扩展的。我们的架构直觉、数据配方设计以及基准测试(如 VQA)都高度针对语言进行了优化。

对于物理 AI,2025 年曾被 VLA(视觉 – 语言 – 动作)模型主导:在预训练的 VLM 检查点之上,硬生生嫁接一个机器人电机动作解码器。这其实是 「LVA」:其重要性排序依次为语言 > 视觉 > 动作。同样,这条路径很方便,因为我们精通 VLM 的训练套路。

然而,VLM 中的大部分参数都分配给了知识(例如「这团像素是可口可乐品牌」),而非物理(例如「如果你打翻可乐瓶,液体会蔓延成一片褐色污渍,弄脏白桌布,并毁掉电机」)。VLA 在设计上非常擅长知识检索,但在错误的地方显得「头重脚轻」。这种多阶段的嫁接设计也违背了我对简洁与优雅的追求。

从生物学角度看,视觉主导了我们的皮层计算。大脑皮层约有三分之一的部分专门用于处理枕叶、颞叶和顶叶区域的像素信息。相比之下,语言仅依赖于一个相对紧凑的区域。视觉是连接大脑、运动系统和物理世界的高带宽通道,它闭合了「感觉运动回路」。这是解决机器人问题的最核心环路,而且这个过程的中转完全不需要语言。

大自然给了我们一个存在性证明:一种具有极高肢体智能但语言能力微乎其微的生物 —— 类人猿。

我曾见过类人猿驾驶高尔夫球车,像人类技工一样用螺丝刀更换刹车片。它们的语言理解能力比不过 BERT 或 GPT-1,但它们的物理技能远超目前最先进的机器人。类人猿或许没有强大的语言模型,但它们肯定拥有极其稳健的「如果… 会怎样」的心理图景:即物理世界如何运作,以及如何应对它们的干预。

世界建模的时代已经到来,它充满了「苦涩的教训」的味道。正如加州大学伯克利分校教授 Jitendra Malik 经常提醒我们这些「规模崇拜者」所说:「监督学习是 AI 研究者的鸦片。」YouTube 的全部存量以及智能眼镜的兴起,将捕捉到规模远超人类历史所有文本的原始物理世界视觉流。

我们将见证一种新型预训练:下一个世界状态可能不限于 RGB 图像,3D 空间运动、本体感觉和触觉感知才刚刚起步。

我们将见证一种新型推理:发生在视觉空间而非语言空间的「思维链」。你可以通过模拟几何形状和接触点,想象物体如何移动和碰撞来解决物理难题,而无需将其转化为字符串。语言只是一个瓶颈,一个脚手架,而非根基。

我们将面临一盒全新的潘多拉之问:即使有了完美的未来模拟,动作指令该如何解码?像素重建真的是最佳目标吗,还是我们应该进入另一种潜空间?我们需要多少机器人数据,扩展遥操作规模仍是标准答案吗?在经历过这些探索后,我们是否终于在向机器人领域的「GPT-3 时刻」迈进?

Ilya 终究是对的,AGI 尚未收敛。我们回到了「研究的时代」,没有什么比挑战第一性原理更令人心潮澎湃了。

Jim Fan 对现状的思考以及对未来的判断,同样收获了评论区大量网友的认可。

AI范式革命:从预测下一个词到预测下一个物理状态

AI范式革命:从预测下一个词到预测下一个物理状态

有人认为这是「神经符号 AI 社区的胜利」。

AI范式革命:从预测下一个词到预测下一个物理状态

你认同 Jim Fan 的观点吗?


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20190

(0)
上一篇 2026年2月4日 下午6:58
下一篇 2026年2月4日 下午7:12

相关推荐

  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    4400
  • 300亿美元能否突破AI增长瓶颈?尤洋教授深度解析算力与智能的底层逻辑

    智能增长的瓶颈:300亿美元能否买到超越GPT-4的模型? 2026年将至,ChatGPT发布三周年,但关于“AI瓶颈期” 的焦虑正达到顶峰。 当全行业都在讨论如何通过量化、蒸馏来“省钱”时,新加坡国立大学校长青年教授、潞晨科技创始人尤洋 却提出了一个更为本质的拷问: 如果给你300亿美元预算,今天我们真的能训出比GPT-4强出几个维度的模型吗? 在《智能增…

    2025年12月31日
    11900
  • 2026年自动化加速利器:13个Python库提升开发效率

    在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…

    2025年12月21日
    13900
  • 跨学科突破:神经科学与AI融合,打造类人记忆Agent系统

    跨学科突破:神经科学如何让 Agent 拥有「人类式」记忆? 你是否设想过,AI Agent 能像人类一样,通过积累经验实现自我成长?如今,这一愿景正加速走向现实。然而,当前的研究要么局限于AI技术本身,要么对人脑记忆机制的借鉴流于表面,两个学科之间始终缺乏深刻的交叉与碰撞。 近期,来自哈尔滨工业大学、鹏城实验室、新加坡国立大学、复旦大学和北京大学的研究团队…

    2026年1月10日
    8700
  • 突破GUI像素瓶颈!面向端侧Agent语义世界建模 MobileWorldBench!1.4M 数据样本驱动 7.4%性能跃升!

    关键词: 语义世界建模 、移动智能体 、MobileWorldBench、MobileWorld、 视觉语言模型 、GUI 世界建模 在手机 APP 操作中,我们早已习惯了“点击-反馈”的即时互动——但对 AI 智能体来说,要预判“点击按钮后界面会怎么变”,曾是个棘手难题。 传统 AI 依赖像素级世界建模,试图精准预测未来界面的每一个像素点,却因 GUI(图…

    2025年12月28日
    12500