- 春节后,图灵奖得主杨立昆的新公司 AMI 宣布完成 10.3 亿美元种子轮融资,创下欧洲 AI 公司融资纪录。
- 此前不久,李飞飞创办的 World Labs 也宣布获得 10 亿美元融资。
- 本周早些时候,极佳视界获得数十亿元融资,估值超百亿。
- 昨日,阿里巴巴发布了世界模型「快乐生蚝」(HappyOyster)。
- 今日,群核科技在港交所敲钟上市。
这些公司共同竞逐的焦点,是“世界模型”这一新兴赛道。杨立昆曾直言:“大语言模型在通往超级智能的路上是条死胡同。”此观点并非全盘否定大语言模型的价值,而是特指其在实现通用人工智能(AGI)路径上的局限。一个简单的理解是:ChatGPT 能写代码、能解题,却未必理解物理世界的基本规律。它能流畅描述“苹果落地”,但若追问苹果为何落地,它可能只是在复述文本,而非真正理解重力。其根源在于,大语言模型的训练数据是二维的互联网文本,而真实世界是三维、连续且充满物理规律的。这正是世界模型成为前沿科研攻关方向的原因。
然而,尽管“世界模型”成为热词,业界对其具体内涵却莫衷一是。研究方向各异:有的专注于视频预测,有的致力于构建3D场景,有的搭建仿真平台,还有的从神经科学直接切入。Meta 研究科学家 Zhuokai Zhao 在 X 平台上分享了他归纳的世界模型“五大门派”。

这五大门派分别是什么?本文将基于 Zhao 的推文框架,结合多方资料进行解读与扩写。
JEPA 派:杨立昆的「抽象预测」哲学
JEPA,全称联合嵌入预测架构(Joint-Embedding Predictive Architecture),由杨立昆等人提出。其核心思想是让 AI 像人类一样,通过“观察”来学习世界的运行规律,而非死记硬背像素或单词。例如,AI 无需记住每片树叶的位置,只需理解“风会吹落树叶”这一规律。
在杨立昆看来,像 Sora 这类模型本质是在做“逐像素预测下一帧”,他认为这在物理上是不可能的——我们无法精确预测充满随机性的世界中每一片树叶的飘落轨迹。JEPA 的解决方案是:放弃像素级预测,转而在抽象的“表征空间”中进行预测。

具体而言,JEPA 先用编码器将视频转换为抽象的数学表示(即潜在空间),然后在此空间内预测“接下来会发生什么”。例如,直接预测“球会滚下桌子”这一符合物理规律的长期结果,而非逐帧生成球滚落的画面。V-JEPA 2 是该路线的代表作。这个拥有12亿参数的模型,基于100万小时无标签视频进行预训练。其惊人之处在于,仅需62小时的机器人动作数据,就能实现零样本任务规划,在陌生环境中操作陌生物体的成功率可达65-80%。相比之下,传统机器人学习方法往往需要数千小时的示范数据。

杨立昆曾表示,如果表征足够好,就无需为每个任务从头训练。然而,在创立 AMI 公司后,这位图灵奖得主也需面对现实。他坦言,AMI 的商业化产品可能还需数年才能面世。这是一项长线投资,但资本愿意下注。AMI 已获得超10亿美元的首轮融资,投资方涵盖众多业界与跨界巨头。

空间智能派:李飞飞的「三维重建」路线
如果说 JEPA 派关注“时间维度”的预测,那么李飞飞创立的 World Labs 则聚焦于另一个维度:“空间重建”。两者从底层逻辑便开始分道扬镳。
JEPA 认为智能的核心是在抽象层面进行因果推理,预测事件序列,因而不过分追求像素级细节。而李飞飞的出发点在于,真正的智能需要对三维世界有显式的理解,包括几何结构、深度信息及物体间的相对位置。

简言之,JEPA 旨在让 AI 理解“球会从桌子上滚下去”的规律,而 World Labs 则致力于让 AI 理解“桌子有多高、球在什么位置、地板与桌子的距离是多少”。前者关注事件逻辑,后者关心空间结构。
这种差异直接体现在产品形态上。World Labs 于2025年11月发布了首款产品 Marble。用户输入一段文字、一张照片、一段视频或一个粗糙的3D草图,Marble 输出的并非视频,而是一个可编辑、可导航、可导出的3D世界。用户可旋转视角、移动物体、改变光照,并能将结果导出为高斯溅射、三角网格或视频格式,直接用于 Unreal Engine 或 Unity 等引擎。

一个关键的技术细节是:许多视频生成模型本质是逐帧“编故事”,帧与帧之间缺乏统一的3D结构支撑。而 Marble 生成的3D场景具备“空间一致性”,其底层维护着一个真实的空间表示,确保了视角变换时世界的稳定性。
World Labs 的团队配置也凸显了其技术路线:联合创始人 Ben Mildenhall 是神经辐射场(NeRF)的发明者,该技术重塑了计算机视觉中的3D重建领域;另一位联创 Christoph Lassner 是3D图形学专家。这样的团队决定了 World Labs 走的是“显式3D”路线,而非从2D视频中推断三维关系。
2026年2月,World Labs 宣布完成10亿美元融资,投资方包括 NVIDIA、AMD 和 Autodesk。Marble 已面向普通用户和商业场景开放,被影视工作室和游戏开发者采用。
然而,Marble 目前也存在局限。生成的3D世界在连续探索后可能出现视觉变形或“幻觉”。这与 JEPA 路线追求的“理解物理规律”形成对比:World Labs 擅长重建空间的“静态样貌”,但对空间中“动态事件”的理解仍较薄弱。李飞飞也承认 Marble 只是第一步,其终极目标是实现“空间智能”,即 AI 不仅能理解场景结构,还能在其中进行推理、规划与交互。这条路方向明确,但道阻且长。
卖水卖铲子:英伟达作为基建供应商
前面三条路线各有各的技术理想,但都面临同一个现实问题:世界模型训练需要极其庞大的数据量和算力。谁来提供这些基础条件?英伟达的 Cosmos 平台正是在回答这个问题。它的定位很明确:我来提供造世界模型的工具。

Cosmos 包含几个核心组件:
* 数据处理管线 Cosmos Curator:能在 14 天内处理 2000 万小时的视频数据,加速世界模型的训练;而传统的 CPU 方案处理同等规模数据需要 3 年以上。
* 视觉 Tokenizer:就像大语言模型将文字切分成“词元”(token)来处理,世界模型需要把视频帧切分成可计算的表征。Cosmos 的 Tokenizer 压缩率比业界方案高 8 倍,支持多种视频比例和时长,能处理从机器人第一视角到自动驾驶鱼眼镜头的各种格式。
* 预训练模型家族:这是最关键的组成部分,包括负责预测环境未来状态的 Cosmos Predict、将模拟迁移到真实的仿真模型 Cosmos Transfer,以及负责让机器人做规划的推理模型 Cosmos Reason。这些预训练模型都通过开放许可证发布,供开发者免费下载。

自 2025 年 1 月在 CES 上发布后,Cosmos 迭代飞速。目前其仿真模型和推理模型已进化到第二代,Predict 模型则到了 2.5 代。小鹏汽车在用 Cosmos 做自动驾驶仿真,Figure AI 等硅谷头部机器人公司也在用它生成训练数据。
这背后仍是英伟达的经典策略:通过免费开放的软件来锁定硬件生态。使用 Cosmos 训练世界模型,最终仍需依赖英伟达的 H、Jetson 等硬件平台以及 CUDA 生态。黄仁勋在 CES 上的断言是:世界基础模型之于物理 AI,就像大语言模型之于生成式 AI。他押注的是,世界模型会像大语言模型一样,成为一个巨大且带来变革的赛道。而英伟达要确保的是,无论谁最终胜出,手里拿着的都是“N 家的铲子”。
主动推断派:来自神经科学的“异端”
并非所有人都在走深度学习的主流路线来实现世界模型。这个赛道上还有一位“异端”:代表公司 Verses 的首席科学家卡尔·弗里斯顿 (Karl Friston)。他来自神经科学领域,是“自由能原理”的提出者,在学术界享有极高声誉。

该理论的核心观点是:所有生物系统的行为,本质上都在做同一件事——不断生成对外界的预测,然后采取行动来减少预测与现实之间的偏差(即“意外”)。
这与主流 AI 思路有何区别?
* 强化学习(主流):核心逻辑是“奖励最大化”,为 AI 设定目标,通过试错寻找最优策略。
* 主动推断(弗里斯顿):核心追求是“减少意外”或“不确定性最小化”。
一个直观的比喻:强化学习像一头被胡萝卜引导的驴子,朝着奖励前进;主动推断则像一位在陌生城市里的旅行者,不断修正自己的心理地图,力求对下一个路口有准确的预期。前者是被目标驱动,后者是被好奇心和不确定性驱动。

基于这一理论,Verses 开发了 AXIOM 框架。它有两大显著特点:
1. 对象中心化:将世界建模为由离散对象组成的结构,每个对象拥有属性和相互关系。这更接近人类的认知方式(识别“椅子在桌子旁边”),而非深度学习通常将场景处理为一个高维像素向量的做法。
2. 贝叶斯推理:使用概率分布来表示“信念”,并通过消息传递进行更新,而非依赖梯度下降。这使得系统能明确表达“不确定”,例如,仓库机器人面对未知物体会知道自己“不确定这是什么”,而非盲目猜测并执行可能错误的策略。
2024年6月,Verses 宣布其基于 AXIOM 的模型在雅达利游戏的 Gameworld 10K 基准测试中超越了 DeepMind 的 DreamerV3,且训练数据量更少,完成游戏所用步数仅为后者的 1/8。

更激进的是,AXIOM 框架无需预训练。例如,将机械臂的关节替换为陌生物体,它能实时重新规划——因为它进行在线推理,而非执行固定策略。
Verses 的商业化产品名为 Genius,目标客户包括金融、机器人和智慧城市等领域(例如对市场不确定性进行建模)。该公司也被 Gartner 纳入了关于 AI、空间 AI 和物理 AI 的研报中。AI 学界知名学者 Gary Marcus 曾评论,许多机器学习研究者对在模型中引入先验结构抱有“暴力的厌恶”,但 Verses 没有这个问题。毕竟,生物智能的进化并非通过梯度下降完成。
尽管如此,Verses 的主动推断路线短期内仍难成为主流。但弗里斯顿的理论在神经科学界根基深厚。如果世界模型的实现真的需要更贴近生物智能的原理,这一派别或许能后来居上。
写在最后
五条路线,从多个侧面回答同一个根本问题:世界模型究竟是什么,又该如何实现?它们之间并非非此即彼,更像是同一幅宏大拼图的不同碎片。
| 门派 | 代表 | 核心优势 | 主要挑战 |
| :— | :— | :— | :— |
| JEPA | AMI | 数据效率极高,抽象表征 | 商业化周期长 |
| 空间智能 | World Labs | 可编辑3D,设计/游戏刚需 | 物理动态性较弱 |
| 学习型仿真 | DeepMind | 交互性强,训练成本低 | 像素生成≠物理理解 |
| 基础设施 | 英伟达 | 全栈平台,生态锁定 | 依赖硬件销售 |
| 主动推断 | Verses | 实时适应,可解释性强 | 生态兼容性差 |
世界模型的突然爆发并非偶然。一方面,大语言模型遇到瓶颈,边际收益递减,幻觉、推理能力、多模态理解等问题仍是硬伤,资本需要新的叙事;另一方面,具身智能崛起,人形机器人、自动驾驶、工业自动化等领域都亟需 AI 与物理世界交互,而纯文本训练的模型无法解决此问题,高质量物理交互数据又十分稀缺昂贵。在世界模型研究者看来,能在仿真中生成无限数据的“世界模型”正是终极解法。
杨立昆曾断言,五年后将无人使用如今这般的大语言模型。此言虽显夸张,但对趋势的观察不无道理:AI 已读完“万卷书”,接下来该行“千里路”了。而世界模型,将成为它的眼镜和四肢。
至于五大门派谁能最终胜出,答案或许并不重要。从长期来看,融合才是唯一的出路。毕竟,真正的智能,大概不会只有一种形态。
五、殊途同归:走向统一与融合
尽管路径各异,但五大流派的目标正逐渐汇聚:构建更强大、更通用、更可信的人工智能。纯粹的端到端学习可能面临可解释性瓶颈,而纯粹的世界模型路线则可能在复杂现实建模中遇到挑战。未来的突破点,很可能在于融合。
- 学习与模型的结合:将深度学习的感知能力与世界模型的推理、规划能力相结合,形成互补。
- 符号与子符号的协同:让神经网络处理感知和模式识别,符号系统负责高层逻辑和推理,二者协同工作。
- 具身智能的深化:让AI在物理世界或高保真模拟中“体验”和“互动”,为其学习和模型训练提供真实数据流。
结语:定义未来的,是对话本身
杨立昆与李飞飞,以及他们各自代表的理念阵营,与其说是“争霸”,不如说是一场塑造AI未来的深度对话。这场对话没有唯一的胜者。
“世界模型”与“端到端学习”的张力,恰恰是驱动技术进步的核心动力。它促使我们思考智能的本质:是纯粹的数据关联,还是内在的因果模型?或许,答案就在二者的创造性融合之中。
最终,定义AI未来的,可能并非某一学派的技术完胜,而是这场持续进行的、开放且协作的全球性探索本身。它指引着整个领域,朝着创造真正理解世界、并能安全可靠地服务于人类的智能系统这一共同目标稳步迈进。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30829

