一场关于智能本质的激烈辩论正在顶级AI研究者之间展开。
AI三巨头之一、图灵奖得主Yann LeCun近日公开表示:
纯粹就是胡扯(complete BS)。
而诺贝尔奖得主、谷歌DeepMind CEO德米斯·哈萨比斯则毫不留情地回击:
LeCun的说法简直是大错特错。
这场论战引发了广泛关注,甚至让社交平台𝕏专门开辟了相关话题板块。

科技企业家埃隆·马斯克也加入了讨论,他简短地表达了对哈萨比斯的支持:“Demis is right”。

马斯克的立场或许也掺杂了个人关系因素。他与LeCun素有分歧,而与哈萨比斯则关系密切,曾是DeepMind的早期投资人。
要理解这场争论,关键在于他们辩论的核心议题。
争论焦点:智能的本质是什么?
这场争论始于LeCun几天前接受的一场采访。他在节目中尖锐地指出:
根本不存在所谓的“通用智能”,纯粹就是胡扯(complete BS)。
这个概念毫无意义,因为它实际上是用来指代人类水平的智能,但人类智能其实是高度专业化的。我们在现实世界里确实干得不错,比如认路、导航;也特别擅长社交,因为这是漫长进化塑造的结果。
但在国际象棋等领域,我们表现平平。许多事情其他动物比我们做得更好。所以说,人类本质上是“专才”。
我们认为自己是“通用”的,但这仅仅是一种错觉,因为我们能理解的所有问题都局限于我们有限的认知范畴。

简而言之,LeCun认为人类智能并非“通用”,而是为适应物理世界而进化出的、一系列高度专业化的能力集合。
然而,这一观点很快遭到了哈萨比斯的直接反驳。他表示:
LeCun的说法简直是大错特错。
他这是把“通用智能(general intelligence)”和“普适智能(universal intelligence)”两个概念混淆了。

哈萨比斯逐一驳斥了LeCun的观点:
大脑是目前宇宙中已知最精妙、最复杂的事物,实际上具有极强的通用性。
当然,任何实际且有限的系统,在其所学目标分布周围,都必然存在一定程度的专门化,这是“天下没有免费的午餐”原理的体现。
但从图灵机的理论意义上讲,通用性的核心在于,只要给予足够的时间、内存和数据,就能够学习任何可计算的内容。而人脑以及现代AI基础模型,正是这种近似的图灵机。
针对LeCun关于人类国际象棋能力的评论,哈萨比斯强调,人类能发明国际象棋乃至整个现代文明,这本身就证明了大脑的惊人潜力。
关于LeCun对棋手的评论——人类最初竟能发明国际象棋(乃至从科学到波音747的整个现代文明!)本就令人惊叹,更不用说还能出现像马格努斯·卡尔森那样棋艺卓绝的人物。
他或许并非严格意义上的最优解(毕竟记忆有限、决策时间也受限),但考虑到我们的大脑本是为狩猎采集而进化,他和我们如今所能成就的一切,已足以展现人脑的惊人潜力。

哈萨比斯对智能的理解融合了神经科学与计算机科学。他认为衡量智能的两个关键标准是通用性(Generality)和学习能力(Learning)。他常以1997年“深蓝”战胜卡斯帕罗夫为例:尽管“深蓝”象棋水平高超,却连简单的井字游戏都不会,这凸显了其智能的狭隘。
哈萨比斯坚信,人类大脑是宇宙中已知的唯一关于“通用智能可行性”的存在性证明。他认为,通用人工智能(AGI)应能展现出人类所拥有的所有认知能力。
至于实现AGI的路径,哈萨比斯多年来形成了一套方法论,可概括为:预测构建理解,规划扩展可能,强化学习实现自主进化。
- 第一步:以预测为基石。智能的本质在于预测,这是所有认知活动的基础,也是AI理解世界的内在驱动力。
- 第二步:引入搜索与规划。AI需建立世界模型,并在此基础上进行搜索规划,以在复杂空间中寻优。
- 第三步:最终通向深度强化学习。这是对大脑运作的模拟——深度学习负责模式匹配,强化学习负责通过试错进行规划和达成目标。
至此,两位顶尖学者的观点看似针锋相对:一方认为“通用智能”是伪概念,智能是高度专业化的产物;另一方则认为通用智能不仅存在,且潜力巨大。
但分歧真的如此根本吗?
随后,LeCun再次回应,他点明了争论的一个核心:
我认为分歧主要在于用词。我反对用“通用(general)”来指代“人类水平”,因为人类是高度专门化的。

尽管承认用词分歧,他仍坚持“人类智能并不通用”的观点,并给出论证:
第一,理论完备≠实际通用。
一个配合无限纸笔的人脑,在理论上是图灵完备的。但对于绝大多数计算问题,这种方式效率极低。真正的智能必须在有限资源下高效运作,而人脑正是资源约束下高度优化的结果。
第二,大脑能力具有局限性。
理论上,一个两层神经网络可以逼近任何函数,但实践中需要巨大且不现实的规模,这正是我们使用深度网络的原因。
再以视觉为例:视神经约有100万根纤维。在所有可能的一百万比特到一比特的布尔函数中,人脑能实现的只占无穷小的比例。
因此,LeCun总结道:
所以我们不仅谈不上“通用”,而且是极其高度专业化的。我们之所以没有意识到这一点,是因为绝大多数可能的函数复杂到难以想象,对我们而言近乎随机。
他还引用了爱因斯坦的名言:世界上最不可思议的事,是世界竟然可以被理解。
在所有可能的世界组织方式中,我们能理解的只是极小一部分。我们无法理解的那部分,我们称之为“熵”。宇宙中绝大多数信息都是我们认知无法触及的熵。

许多旁观者也意识到,这场争论的关键可能确实在于“用词”。抛开术语,两人探讨的或许是不同层面的问题:一个强调“我们(人类智能)是什么”,另一个则展望“我们能成为什么(AGI)”。
而这,共同指向了一个更深层、更现实的议题:我们究竟该以怎样的方式实现AGI?
答案:世界模型
无论在LeCun还是哈萨比斯的框架中,答案都已清晰指向同一个核心概念——世界模型。
据悉,即将从Meta离职的LeCun,其下一步创业方向正是世界模型。
据《金融时报》报道,其新公司名为Advanced Machine Intelligence Labs(AMI Labs),计划于明年一月正式亮相,目标估值30亿欧元(约247亿人民币)。
在LeCun的理解中,世界模型所要追求的不是渲染精美的像素,而是掌握控制理论和认知科学。他认为对AI而言,只有中间那个抽象表征才重要(和JEPA研究一脉相承),模型没必要浪费算力去生成像素,只需专注于捕捉那些能用于AI决策的世界状态。换言之,了解“世界的结构是什么”才是最关键的。
而哈萨比斯也在采访中多次表示,世界模型绝对是自己和谷歌接下来的重点。今年8月,谷歌DeepMind推出了新版世界模型Genie 3。哈萨比斯表示:
我们谈论的世界模型,指的是那种能够理解世界运行机制中因果关系与协同效应的模型,也就是一种“直观物理学”——事物如何运动、如何相互作用、如何表现。
你已经可以在当前的视频模型中看到这种能力的雏形。
而检验是否真正具备这种理解的一种方式,是看能否构建一个逼真的世界。因为如果你能够生成它,那么在某种意义上,你就已经理解并内化了这个系统的运作规律。
这也解释了为什么Genie、Veo这些模型首先会以视频模型的形式出现。在他看来,这种可交互的世界模型正是通往AGI的关键一步。
通过对比,我们能发现虽然二者都在描绘“世界模型”,但他们的理解和实践方向也存在明显差别——LeCun代表着“世界模型即认知框架”,而谷歌的哈萨比斯代表着“世界模型即模拟器”。
回顾历史,AI的每一次跃迁都伴随着类似的“争论”:符号主义和连接主义的争论,定义了智能的根基究竟是“逻辑”还是“数据”;端到端学习和模块化系统的争论,定义了“系统该如何构建”;再加上今天的“开源VS闭源之争”、“智能本质之争”……这些辩论本身,正是推动领域前进的动力之一。
One More Thing
几乎同一时间,LSTM之父Jürgen Schmidhuber也发表了自己的看法。他预判了预判——指出LeCun即将创业探索的世界模型,其团队在2014年就有过高度相似的研究涉猎。

作为LSTM的发明者,Jürgen Schmidhuber在ChatGPT诞生前,其成果一度被称为“最具商业价值的人工智能成就”,他也曾被《纽约时报》称为“成熟人工智能之父”。但在近年AI浪潮中,他并未获得与之匹配的广泛技术发明者桂冠或图灵奖等荣誉,这导致他多次在公开场合进行“维权”或隔空回应相关争议。

推特(现X)的拥有者马斯克曾评价Jürgen Schmidhuber时言简意赅:一切的发明者。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15012
