世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

春节后，图灵奖得主杨立昆的新公司 AMI 宣布完成 10.3 亿美元种子轮融资，创下欧洲 AI 公司融资纪录。
此前不久，李飞飞创办的 World Labs 也宣布获得 10 亿美元融资。
本周早些时候，极佳视界获得数十亿元融资，估值超百亿。
昨日，阿里巴巴发布了世界模型「快乐生蚝」（HappyOyster）。
今日，群核科技在港交所敲钟上市。

这些公司共同竞逐的焦点，是“世界模型”这一新兴赛道。杨立昆曾直言：“大语言模型在通往超级智能的路上是条死胡同。”此观点并非全盘否定大语言模型的价值，而是特指其在实现通用人工智能（AGI）路径上的局限。一个简单的理解是：ChatGPT 能写代码、能解题，却未必理解物理世界的基本规律。它能流畅描述“苹果落地”，但若追问苹果为何落地，它可能只是在复述文本，而非真正理解重力。其根源在于，大语言模型的训练数据是二维的互联网文本，而真实世界是三维、连续且充满物理规律的。这正是世界模型成为前沿科研攻关方向的原因。

然而，尽管“世界模型”成为热词，业界对其具体内涵却莫衷一是。研究方向各异：有的专注于视频预测，有的致力于构建3D场景，有的搭建仿真平台，还有的从神经科学直接切入。Meta 研究科学家 Zhuokai Zhao 在 X 平台上分享了他归纳的世界模型“五大门派”。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

这五大门派分别是什么？本文将基于 Zhao 的推文框架，结合多方资料进行解读与扩写。

JEPA 派：杨立昆的「抽象预测」哲学

JEPA，全称联合嵌入预测架构（Joint-Embedding Predictive Architecture），由杨立昆等人提出。其核心思想是让 AI 像人类一样，通过“观察”来学习世界的运行规律，而非死记硬背像素或单词。例如，AI 无需记住每片树叶的位置，只需理解“风会吹落树叶”这一规律。

在杨立昆看来，像 Sora 这类模型本质是在做“逐像素预测下一帧”，他认为这在物理上是不可能的——我们无法精确预测充满随机性的世界中每一片树叶的飘落轨迹。JEPA 的解决方案是：放弃像素级预测，转而在抽象的“表征空间”中进行预测。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

具体而言，JEPA 先用编码器将视频转换为抽象的数学表示（即潜在空间），然后在此空间内预测“接下来会发生什么”。例如，直接预测“球会滚下桌子”这一符合物理规律的长期结果，而非逐帧生成球滚落的画面。V-JEPA 2 是该路线的代表作。这个拥有12亿参数的模型，基于100万小时无标签视频进行预训练。其惊人之处在于，仅需62小时的机器人动作数据，就能实现零样本任务规划，在陌生环境中操作陌生物体的成功率可达65-80%。相比之下，传统机器人学习方法往往需要数千小时的示范数据。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

杨立昆曾表示，如果表征足够好，就无需为每个任务从头训练。然而，在创立 AMI 公司后，这位图灵奖得主也需面对现实。他坦言，AMI 的商业化产品可能还需数年才能面世。这是一项长线投资，但资本愿意下注。AMI 已获得超10亿美元的首轮融资，投资方涵盖众多业界与跨界巨头。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

空间智能派：李飞飞的「三维重建」路线

如果说 JEPA 派关注“时间维度”的预测，那么李飞飞创立的 World Labs 则聚焦于另一个维度：“空间重建”。两者从底层逻辑便开始分道扬镳。

JEPA 认为智能的核心是在抽象层面进行因果推理，预测事件序列，因而不过分追求像素级细节。而李飞飞的出发点在于，真正的智能需要对三维世界有显式的理解，包括几何结构、深度信息及物体间的相对位置。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

简言之，JEPA 旨在让 AI 理解“球会从桌子上滚下去”的规律，而 World Labs 则致力于让 AI 理解“桌子有多高、球在什么位置、地板与桌子的距离是多少”。前者关注事件逻辑，后者关心空间结构。

这种差异直接体现在产品形态上。World Labs 于2025年11月发布了首款产品 Marble。用户输入一段文字、一张照片、一段视频或一个粗糙的3D草图，Marble 输出的并非视频，而是一个可编辑、可导航、可导出的3D世界。用户可旋转视角、移动物体、改变光照，并能将结果导出为高斯溅射、三角网格或视频格式，直接用于 Unreal Engine 或 Unity 等引擎。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

一个关键的技术细节是：许多视频生成模型本质是逐帧“编故事”，帧与帧之间缺乏统一的3D结构支撑。而 Marble 生成的3D场景具备“空间一致性”，其底层维护着一个真实的空间表示，确保了视角变换时世界的稳定性。

World Labs 的团队配置也凸显了其技术路线：联合创始人 Ben Mildenhall 是神经辐射场（NeRF）的发明者，该技术重塑了计算机视觉中的3D重建领域；另一位联创 Christoph Lassner 是3D图形学专家。这样的团队决定了 World Labs 走的是“显式3D”路线，而非从2D视频中推断三维关系。

2026年2月，World Labs 宣布完成10亿美元融资，投资方包括 NVIDIA、AMD 和 Autodesk。Marble 已面向普通用户和商业场景开放，被影视工作室和游戏开发者采用。

然而，Marble 目前也存在局限。生成的3D世界在连续探索后可能出现视觉变形或“幻觉”。这与 JEPA 路线追求的“理解物理规律”形成对比：World Labs 擅长重建空间的“静态样貌”，但对空间中“动态事件”的理解仍较薄弱。李飞飞也承认 Marble 只是第一步，其终极目标是实现“空间智能”，即 AI 不仅能理解场景结构，还能在其中进行推理、规划与交互。这条路方向明确，但道阻且长。

卖水卖铲子：英伟达作为基建供应商

前面三条路线各有各的技术理想，但都面临同一个现实问题：世界模型训练需要极其庞大的数据量和算力。谁来提供这些基础条件？英伟达的 Cosmos 平台正是在回答这个问题。它的定位很明确：我来提供造世界模型的工具。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

Cosmos 包含几个核心组件：
* 数据处理管线 Cosmos Curator：能在 14 天内处理 2000 万小时的视频数据，加速世界模型的训练；而传统的 CPU 方案处理同等规模数据需要 3 年以上。
* 视觉 Tokenizer：就像大语言模型将文字切分成“词元”(token)来处理，世界模型需要把视频帧切分成可计算的表征。Cosmos 的 Tokenizer 压缩率比业界方案高 8 倍，支持多种视频比例和时长，能处理从机器人第一视角到自动驾驶鱼眼镜头的各种格式。
* 预训练模型家族：这是最关键的组成部分，包括负责预测环境未来状态的 Cosmos Predict、将模拟迁移到真实的仿真模型 Cosmos Transfer，以及负责让机器人做规划的推理模型 Cosmos Reason。这些预训练模型都通过开放许可证发布，供开发者免费下载。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

自 2025 年 1 月在 CES 上发布后，Cosmos 迭代飞速。目前其仿真模型和推理模型已进化到第二代，Predict 模型则到了 2.5 代。小鹏汽车在用 Cosmos 做自动驾驶仿真，Figure AI 等硅谷头部机器人公司也在用它生成训练数据。

这背后仍是英伟达的经典策略：通过免费开放的软件来锁定硬件生态。使用 Cosmos 训练世界模型，最终仍需依赖英伟达的 H、Jetson 等硬件平台以及 CUDA 生态。黄仁勋在 CES 上的断言是：世界基础模型之于物理 AI，就像大语言模型之于生成式 AI。他押注的是，世界模型会像大语言模型一样，成为一个巨大且带来变革的赛道。而英伟达要确保的是，无论谁最终胜出，手里拿着的都是“N 家的铲子”。

主动推断派：来自神经科学的“异端”

并非所有人都在走深度学习的主流路线来实现世界模型。这个赛道上还有一位“异端”：代表公司 Verses 的首席科学家卡尔·弗里斯顿 (Karl Friston)。他来自神经科学领域，是“自由能原理”的提出者，在学术界享有极高声誉。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

该理论的核心观点是：所有生物系统的行为，本质上都在做同一件事——不断生成对外界的预测，然后采取行动来减少预测与现实之间的偏差（即“意外”）。

这与主流 AI 思路有何区别？
* 强化学习（主流）：核心逻辑是“奖励最大化”，为 AI 设定目标，通过试错寻找最优策略。
* 主动推断（弗里斯顿）：核心追求是“减少意外”或“不确定性最小化”。

一个直观的比喻：强化学习像一头被胡萝卜引导的驴子，朝着奖励前进；主动推断则像一位在陌生城市里的旅行者，不断修正自己的心理地图，力求对下一个路口有准确的预期。前者是被目标驱动，后者是被好奇心和不确定性驱动。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

基于这一理论，Verses 开发了 AXIOM 框架。它有两大显著特点：
1. 对象中心化：将世界建模为由离散对象组成的结构，每个对象拥有属性和相互关系。这更接近人类的认知方式（识别“椅子在桌子旁边”），而非深度学习通常将场景处理为一个高维像素向量的做法。
2. 贝叶斯推理：使用概率分布来表示“信念”，并通过消息传递进行更新，而非依赖梯度下降。这使得系统能明确表达“不确定”，例如，仓库机器人面对未知物体会知道自己“不确定这是什么”，而非盲目猜测并执行可能错误的策略。

2024年6月，Verses 宣布其基于 AXIOM 的模型在雅达利游戏的 Gameworld 10K 基准测试中超越了 DeepMind 的 DreamerV3，且训练数据量更少，完成游戏所用步数仅为后者的 1/8。

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

更激进的是，AXIOM 框架无需预训练。例如，将机械臂的关节替换为陌生物体，它能实时重新规划——因为它进行在线推理，而非执行固定策略。

Verses 的商业化产品名为 Genius，目标客户包括金融、机器人和智慧城市等领域（例如对市场不确定性进行建模）。该公司也被 Gartner 纳入了关于 AI、空间 AI 和物理 AI 的研报中。AI 学界知名学者 Gary Marcus 曾评论，许多机器学习研究者对在模型中引入先验结构抱有“暴力的厌恶”，但 Verses 没有这个问题。毕竟，生物智能的进化并非通过梯度下降完成。

尽管如此，Verses 的主动推断路线短期内仍难成为主流。但弗里斯顿的理论在神经科学界根基深厚。如果世界模型的实现真的需要更贴近生物智能的原理，这一派别或许能后来居上。

写在最后

五条路线，从多个侧面回答同一个根本问题：世界模型究竟是什么，又该如何实现？它们之间并非非此即彼，更像是同一幅宏大拼图的不同碎片。

世界模型的突然爆发并非偶然。一方面，大语言模型遇到瓶颈，边际收益递减，幻觉、推理能力、多模态理解等问题仍是硬伤，资本需要新的叙事；另一方面，具身智能崛起，人形机器人、自动驾驶、工业自动化等领域都亟需 AI 与物理世界交互，而纯文本训练的模型无法解决此问题，高质量物理交互数据又十分稀缺昂贵。在世界模型研究者看来，能在仿真中生成无限数据的“世界模型”正是终极解法。

杨立昆曾断言，五年后将无人使用如今这般的大语言模型。此言虽显夸张，但对趋势的观察不无道理：AI 已读完“万卷书”，接下来该行“千里路”了。而世界模型，将成为它的眼镜和四肢。

至于五大门派谁能最终胜出，答案或许并不重要。从长期来看，融合才是唯一的出路。毕竟，真正的智能，大概不会只有一种形态。

五、殊途同归：走向统一与融合

尽管路径各异，但五大流派的目标正逐渐汇聚：构建更强大、更通用、更可信的人工智能。纯粹的端到端学习可能面临可解释性瓶颈，而纯粹的世界模型路线则可能在复杂现实建模中遇到挑战。未来的突破点，很可能在于融合。

学习与模型的结合：将深度学习的感知能力与世界模型的推理、规划能力相结合，形成互补。
符号与子符号的协同：让神经网络处理感知和模式识别，符号系统负责高层逻辑和推理，二者协同工作。
具身智能的深化：让AI在物理世界或高保真模拟中“体验”和“互动”，为其学习和模型训练提供真实数据流。

结语：定义未来的，是对话本身

杨立昆与李飞飞，以及他们各自代表的理念阵营，与其说是“争霸”，不如说是一场塑造AI未来的深度对话。这场对话没有唯一的胜者。

“世界模型”与“端到端学习”的张力，恰恰是驱动技术进步的核心动力。它促使我们思考智能的本质：是纯粹的数据关联，还是内在的因果模型？或许，答案就在二者的创造性融合之中。

最终，定义AI未来的，可能并非某一学派的技术完胜，而是这场持续进行的、开放且协作的全球性探索本身。它指引着整个领域，朝着创造真正理解世界、并能安全可靠地服务于人类的智能系统这一共同目标稳步迈进。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30829

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

JEPA 派：杨立昆的「抽象预测」哲学

空间智能派：李飞飞的「三维重建」路线

卖水卖铲子：英伟达作为基建供应商

主动推断派：来自神经科学的“异端”

写在最后

相关推荐

600亿美元！马斯克旗下SpaceX收购编程神器Cursor

阿里千问APP深度解析：Qwen模型全面赋能，开启中国版ChatGPT的超级入口之战

AI驱动PC产业新周期：联想财报揭示硬件巨头的智能化转型路径

视觉压缩革命：DeepSeek-OCR如何颠覆AI信息处理范式

前OpenAI研究VP挑战Transformer霸权，10亿美元融资打造持续学习AI新范式