AI巨头论战：LeCun与哈萨比斯激辩智能本质，马斯克站队引热议

一场关于智能本质的激烈辩论正在顶级AI研究者之间展开。

AI三巨头之一、图灵奖得主Yann LeCun近日公开表示：

纯粹就是胡扯（complete BS）。

而诺贝尔奖得主、谷歌DeepMind CEO德米斯·哈萨比斯则毫不留情地回击：

LeCun的说法简直是大错特错。

这场论战引发了广泛关注，甚至让社交平台𝕏专门开辟了相关话题板块。

科技企业家埃隆·马斯克也加入了讨论，他简短地表达了对哈萨比斯的支持：“Demis is right”。

马斯克的立场或许也掺杂了个人关系因素。他与LeCun素有分歧，而与哈萨比斯则关系密切，曾是DeepMind的早期投资人。

要理解这场争论，关键在于他们辩论的核心议题。

争论焦点：智能的本质是什么？

这场争论始于LeCun几天前接受的一场采访。他在节目中尖锐地指出：

根本不存在所谓的“通用智能”，纯粹就是胡扯（complete BS）。

这个概念毫无意义，因为它实际上是用来指代人类水平的智能，但人类智能其实是高度专业化的。我们在现实世界里确实干得不错，比如认路、导航；也特别擅长社交，因为这是漫长进化塑造的结果。

但在国际象棋等领域，我们表现平平。许多事情其他动物比我们做得更好。所以说，人类本质上是“专才”。

我们认为自己是“通用”的，但这仅仅是一种错觉，因为我们能理解的所有问题都局限于我们有限的认知范畴。

简而言之，LeCun认为人类智能并非“通用”，而是为适应物理世界而进化出的、一系列高度专业化的能力集合。

然而，这一观点很快遭到了哈萨比斯的直接反驳。他表示：

LeCun的说法简直是大错特错。

他这是把“通用智能（general intelligence）”和“普适智能（universal intelligence）”两个概念混淆了。

哈萨比斯逐一驳斥了LeCun的观点：

大脑是目前宇宙中已知最精妙、最复杂的事物，实际上具有极强的通用性。

当然，任何实际且有限的系统，在其所学目标分布周围，都必然存在一定程度的专门化，这是“天下没有免费的午餐”原理的体现。

但从图灵机的理论意义上讲，通用性的核心在于，只要给予足够的时间、内存和数据，就能够学习任何可计算的内容。而人脑以及现代AI基础模型，正是这种近似的图灵机。

针对LeCun关于人类国际象棋能力的评论，哈萨比斯强调，人类能发明国际象棋乃至整个现代文明，这本身就证明了大脑的惊人潜力。

关于LeCun对棋手的评论——人类最初竟能发明国际象棋（乃至从科学到波音747的整个现代文明！）本就令人惊叹，更不用说还能出现像马格努斯·卡尔森那样棋艺卓绝的人物。

他或许并非严格意义上的最优解（毕竟记忆有限、决策时间也受限），但考虑到我们的大脑本是为狩猎采集而进化，他和我们如今所能成就的一切，已足以展现人脑的惊人潜力。

哈萨比斯对智能的理解融合了神经科学与计算机科学。他认为衡量智能的两个关键标准是通用性（Generality）和学习能力（Learning）。他常以1997年“深蓝”战胜卡斯帕罗夫为例：尽管“深蓝”象棋水平高超，却连简单的井字游戏都不会，这凸显了其智能的狭隘。

哈萨比斯坚信，人类大脑是宇宙中已知的唯一关于“通用智能可行性”的存在性证明。他认为，通用人工智能（AGI）应能展现出人类所拥有的所有认知能力。

至于实现AGI的路径，哈萨比斯多年来形成了一套方法论，可概括为：预测构建理解，规划扩展可能，强化学习实现自主进化。

第一步：以预测为基石。智能的本质在于预测，这是所有认知活动的基础，也是AI理解世界的内在驱动力。
第二步：引入搜索与规划。AI需建立世界模型，并在此基础上进行搜索规划，以在复杂空间中寻优。
第三步：最终通向深度强化学习。这是对大脑运作的模拟——深度学习负责模式匹配，强化学习负责通过试错进行规划和达成目标。

至此，两位顶尖学者的观点看似针锋相对：一方认为“通用智能”是伪概念，智能是高度专业化的产物；另一方则认为通用智能不仅存在，且潜力巨大。

但分歧真的如此根本吗？

随后，LeCun再次回应，他点明了争论的一个核心：

我认为分歧主要在于用词。我反对用“通用（general）”来指代“人类水平”，因为人类是高度专门化的。

尽管承认用词分歧，他仍坚持“人类智能并不通用”的观点，并给出论证：

第一，理论完备≠实际通用。

一个配合无限纸笔的人脑，在理论上是图灵完备的。但对于绝大多数计算问题，这种方式效率极低。真正的智能必须在有限资源下高效运作，而人脑正是资源约束下高度优化的结果。

第二，大脑能力具有局限性。

理论上，一个两层神经网络可以逼近任何函数，但实践中需要巨大且不现实的规模，这正是我们使用深度网络的原因。
再以视觉为例：视神经约有100万根纤维。在所有可能的一百万比特到一比特的布尔函数中，人脑能实现的只占无穷小的比例。

因此，LeCun总结道：

所以我们不仅谈不上“通用”，而且是极其高度专业化的。我们之所以没有意识到这一点，是因为绝大多数可能的函数复杂到难以想象，对我们而言近乎随机。

他还引用了爱因斯坦的名言：世界上最不可思议的事，是世界竟然可以被理解。

在所有可能的世界组织方式中，我们能理解的只是极小一部分。我们无法理解的那部分，我们称之为“熵”。宇宙中绝大多数信息都是我们认知无法触及的熵。

许多旁观者也意识到，这场争论的关键可能确实在于“用词”。抛开术语，两人探讨的或许是不同层面的问题：一个强调“我们（人类智能）是什么”，另一个则展望“我们能成为什么（AGI）”。

而这，共同指向了一个更深层、更现实的议题：我们究竟该以怎样的方式实现AGI？

答案：世界模型

无论在LeCun还是哈萨比斯的框架中，答案都已清晰指向同一个核心概念——世界模型。

据悉，即将从Meta离职的LeCun，其下一步创业方向正是世界模型。

据《金融时报》报道，其新公司名为Advanced Machine Intelligence Labs（AMI Labs），计划于明年一月正式亮相，目标估值30亿欧元（约247亿人民币）。

在LeCun的理解中，世界模型所要追求的不是渲染精美的像素，而是掌握控制理论和认知科学。他认为对AI而言，只有中间那个抽象表征才重要（和JEPA研究一脉相承），模型没必要浪费算力去生成像素，只需专注于捕捉那些能用于AI决策的世界状态。换言之，了解“世界的结构是什么”才是最关键的。

而哈萨比斯也在采访中多次表示，世界模型绝对是自己和谷歌接下来的重点。今年8月，谷歌DeepMind推出了新版世界模型Genie 3。哈萨比斯表示：

我们谈论的世界模型，指的是那种能够理解世界运行机制中因果关系与协同效应的模型，也就是一种“直观物理学”——事物如何运动、如何相互作用、如何表现。

你已经可以在当前的视频模型中看到这种能力的雏形。

而检验是否真正具备这种理解的一种方式，是看能否构建一个逼真的世界。因为如果你能够生成它，那么在某种意义上，你就已经理解并内化了这个系统的运作规律。

这也解释了为什么Genie、Veo这些模型首先会以视频模型的形式出现。在他看来，这种可交互的世界模型正是通往AGI的关键一步。

通过对比，我们能发现虽然二者都在描绘“世界模型”，但他们的理解和实践方向也存在明显差别——LeCun代表着“世界模型即认知框架”，而谷歌的哈萨比斯代表着“世界模型即模拟器”。

回顾历史，AI的每一次跃迁都伴随着类似的“争论”：符号主义和连接主义的争论，定义了智能的根基究竟是“逻辑”还是“数据”；端到端学习和模块化系统的争论，定义了“系统该如何构建”；再加上今天的“开源VS闭源之争”、“智能本质之争”……这些辩论本身，正是推动领域前进的动力之一。

One More Thing

几乎同一时间，LSTM之父Jürgen Schmidhuber也发表了自己的看法。他预判了预判——指出LeCun即将创业探索的世界模型，其团队在2014年就有过高度相似的研究涉猎。

作为LSTM的发明者，Jürgen Schmidhuber在ChatGPT诞生前，其成果一度被称为“最具商业价值的人工智能成就”，他也曾被《纽约时报》称为“成熟人工智能之父”。但在近年AI浪潮中，他并未获得与之匹配的广泛技术发明者桂冠或图灵奖等荣誉，这导致他多次在公开场合进行“维权”或隔空回应相关争议。