从语言到空间：世界模型如何重塑AI进化的底层逻辑

2025年11月17日下午8:53 • AI产业动态 • 阅读 177

近期AI领域两位重量级人物的发声，揭示了人工智能发展路径的重要转向。图灵奖得主杨立昆（Yann LeCun）被曝计划离开Meta，专注于以“世界模型”为核心的新事业；而斯坦福大学教授李飞飞则在社交媒体发表长文，直言大语言模型（LLM）的局限性，并提出“空间智能”才是通往通用人工智能（AGI）的关键。两人不约而同地强调“世界模型”的重要性，这标志着AI研究正从语言中心主义转向对物理世界理解的深层探索。

当前以大语言模型为代表的AI系统已取得令人瞩目的成就：能够生成逻辑连贯的文本、创作逼真的图像与视频，甚至在特定任务上超越人类表现。然而，这些系统仍存在根本性缺陷。李飞飞指出，AI无法产出完全符合物理规律的视频，未能创造出真正实用的家庭服务机器人，更无法理解艺术家或建筑师脑中的“虚拟世界”。核心问题在于：现有AI缺乏对物理世界的基本认知，无法理解距离、大小、远近等空间关系，更遑论预测自身行为的后果。

杨立昆对此有更深刻的阐述。他认为，人类过于强调语言和符号作为智能的基础，忽视了更早进化出的底层能力。许多动物如灵长类、犬类、鸟类甚至章鱼，虽无人类语言，却能表现出超越当前AI系统的智能行为。这些动物具备学习“世界模型”的能力——即构建对环境的内部表征，用以预测行为结果、规划行动路径。这种能力正是当前AI系统所缺失的。世界模型的提出，既是对大语言模型局限的反思，也是对动物智能本质的重新发现。

那么，动物（包括人类）究竟如何感知世界？美国AI企业家麦克斯·班尼特（Max Bennett）通过多年研究，揭示了人类感知的三大特性：填补性（大脑自动补全缺失信息）、逐一性（一次只能接受一种解释）、无法忽视性（一旦形成认知便难以改变）。这些特性指向一个核心机制：人类并非直接感知外部世界，而是通过大脑构建的“模拟现实”来理解环境。19世纪德国科学家赫尔曼·冯·亥姆霍兹将这一过程称为“推断”，即大脑根据感官输入推断最可能的外部现实。

填补性体现了大脑的主动构建能力。当视觉信息不完整时，大脑会基于经验自动补全，形成连贯的感知。这解释了为何我们能在模糊图像中识别物体，也说明了世界模型需要具备的预测补全功能。

逐一性则揭示了感知的选择性本质。面对模棱两可的图像（如鸭兔错觉），大脑只能选择一种解释，无法同时接受两种可能性。这表明世界模型需要具备决策机制，在多种可能中选定最合理的解释。

无法忽视性凸显了感知的持久影响。一旦大脑接受某种解释（如将斑点图识别为青蛙），便难以回到原始状态。这反映了世界模型的稳定性要求——一旦形成有效模型，便应持续指导行为。

亥姆霍兹的理论在20世纪90年代得到计算验证。杰弗里·辛顿与彼得·达扬提出的“亥姆霍兹机器”，首次实现了通过推断进行感知的人工智能系统。该网络具有双向连接结构：前向传递处理感官输入，反向连接生成预测输出。通过识别模式与生成模式的交替学习，网络最终能准确重建输入图像。这一架构为世界模型提供了早期蓝图，表明AI系统可以通过内部模拟来理解外部世界。

世界模型的实现需要突破三大技术挑战：首先是多模态融合，将视觉、听觉、触觉等信息整合为统一的空间表征；其次是物理规律建模，使AI理解重力、碰撞、运动等基本物理约束；最后是主动学习机制，让AI能通过交互不断修正内部模型。当前，神经符号AI、强化学习与生成模型的结合，正为世界模型搭建技术桥梁。

从产业角度看，世界模型将推动AI从工具向伙伴演进。在机器人领域，具备世界模型的系统能更安全地操作物理环境；在自动驾驶中，能更准确预测交通参与者的行为；在虚拟现实里，能创建更符合直觉的交互体验。更重要的是，世界模型可能成为AGI的基石——只有当AI真正理解它所处的世界，才能展现出通用、灵活、可靠的智能。

杨立昆与李飞飞的呼吁，不仅是技术路线的争论，更是对智能本质的深层追问。当AI研究从语言迷宫转向空间探索，我们或许正在接近智能进化的真正密码：那些隐藏在哺乳动物微笑背后的，对世界最原始的理解与想象。

— 图片补充 —