AI教父Hinton与弟子Ilya的Scaling Law之争：数据瓶颈能否被AI自我进化突破？

我并不认为Scaling Law已经完全结束了 。

正当学生Ilya为Scaling Law“泼下冷水”时，他的老师、AI教父Geoffrey Hinton却发表了上述截然相反的观点。

这一师徒观点的对立，不禁让人回想起两件往事。

一是Ilya几乎从学生时代起就坚信Scaling Law，不仅积极向身边人推介，还将这套理念带入了OpenAI，堪称Scaling Law最初的拥趸。

二是Hinton后来回顾与Ilya的相处时，曾盛赞其“具有惊人的直觉”。在Scaling Law这件事上，Hinton曾坦言：

当时的我错了，而Ilya基本上是对的。

比如Transformer确实是一种创新想法，但实际上起作用的还是规模，数据的规模和计算的规模。

如今，这对师徒的态度却发生了惊人的反转。这中间究竟发生了什么？

Scaling Law不死派：Hinton与哈萨比斯

紧随学生Ilya的言论，Hinton在接受《Business Insider》最新采访时，明确阐述了他对Scaling Law的看法：

Scaling Laws依然有效，只不过当前正面临一些挑战（limit）。

其中，最大的挑战无疑是数据缺失问题。

大部分高价值数据都锁在公司内部，免费互联网数据已基本耗尽。

他认为，这个问题将由AI自行解决，即模型通过推理生成自己的训练数据。他特别提到了AlphaGo和AlphaZero：

这就像AlphaGo和AlphaZero在规模小得多的情况下，为了精通围棋而生成数据一样。

对于这些早期程序，Hinton直言当时没人担心数据不足，因为它会自我对弈，并以此生成数据。照此逻辑，语言模型也可以采用同样的方法来解决Scaling Law面临的数据瓶颈。

与Hinton持相似观点的，还有谷歌DeepMind CEO德米斯·哈萨比斯。

哈萨比斯在不久前的峰会上表示：

我们必须将当前系统的规模化推向极致，因为至少，它将是最终AGI系统的关键组成部分。

甚至，它可能会成为整个AGI系统本身。

正如Hinton所言，哈萨比斯早就在AlphaGo和AlphaZero身上看到了AI自主进化的潜力。训练AlphaGo时，DeepMind先让其学习人类棋谱，再通过数百万局自我对弈不断进化。到了AlphaZero，则彻底摒弃人类数据，仅通过“Zero”状态下的自我博弈，便在短时间内达到顶尖水平。

这些都让哈萨比斯坚信——通过规模化自动生成数据与自我进化，AI最终能在各种任务上超越人类。这一判断恰好与Hinton关于“数据瓶颈可以被模型自行突破”的观点形成了呼应。

不过值得注意的是，哈萨比斯对Scaling Law的理解不止于“参数×数据×算力”的线性增长。他倡导一种更系统、更广义的规模化，即模型规模、训练范式、环境复杂度乃至系统架构本身，都需要作为一个协同演进的整体被同步扩展。

这也是他为何反复强调构建“世界模型”、整合“搜索”与“规划”能力的原因。他认为：

如果一个系统只能被动地拟合静态数据分布，那么无论规模多大，最终都会撞上天花板；而一旦模型被允许进入“可交互的环境”，数据本身就会变成一个可被无限扩展的变量。

简而言之，二人都认为Scaling Law本身没有问题，关键是如何突破当下遇到的瓶颈。 他们给出的解决思路在本质上高度一致：让AI自行解决。

然而在Ilya看来，继续扩展规模已经“不划算”了：

这几年大家几乎都在喊“继续扩大！再扩大！”。但当规模已经这么大时，你真的会相信再扩大100倍就能彻底改变一切吗？

此言一出，外界纷纷认为Ilya这是在给Scaling Law“判死刑”。事实果真如此吗？

Scaling Law不够用派：Ilya与LeCun

实际上，要理解Ilya当下的想法，还需回到Scaling Law本身。

Scaling Law俗称“大力出奇迹”，其核心思想是：随着模型参数规模、训练数据量和计算资源的持续扩大，AI模型的性能会按照可预测的规律稳步提升。

这一规律在过去的AI发展中得到了反复验证，从GPT-3到后来的大模型浪潮，几乎每一次性能跃升都伴随着规模的数量级增长。

然而，从去年开始，关于Scaling Law的风向开始转变。

起初的争论还围绕归属权问题——这个概念被OpenAI带火后，一位Meta研究员指出百度2017年的论文早已探讨过类似规律。

但到了年底，“Scaling Law见顶”的声音越来越多。

也是在这个时候，已离开OpenAI的Ilya在NeurIPS现场宣告了“预训练即将终结”。

我们所熟知的预训练即将终结。

他认为，数据是AI的化石燃料，随着全球数据的限制，未来人工智能将面临数据瓶颈。虽然当前仍可使用现有数据进行有效训练，但这一增长趋势终将放缓，预训练的时代也会逐步结束。未来属于超级智能，如智能体、推理、理解和自我意识。

随着Ilya的发言，关于Scaling Law的讨论被彻底引爆。其间，老东家OpenAI也曾附议，当时是为了宣传其o系列推理模型——核心成员Noam Brown表示，o1代表了一种全新的、以推理计算为代表的Scaling。即“预训练虽然终结，但Scaling Law还没死”。

后来，Ilya创办了新公司，并开始尝试回答：我们在Scaling什么？下一步做什么？

他在公司成立后的采访中表示：

过去十年深度学习的巨大突破，是一个关于尺度假设的特定公式。但它会改变……随着它的改变，系统的能力将会增强，安全问题将变得最为紧迫，这就是我们需要解决的问题。

从这里可以看出，他开始强调一个观念——Scaling Law变了。

这也与他最新引起争议的“Scaling Law无用论”相契合。在提出“你真的会相信再扩大100倍就能彻底改变一切吗”之后，他表示：

会有变化，但我不认为仅靠更大规模就能带来根本性的转折。我们正重新回到研究时代，只不过这一次，我们手里多的是巨型计算机。

在他看来，目前主流的“预训练+Scaling”路线已明显遇到瓶颈。与其盲目扩大规模，不如将注意力放回到“研究范式本身”的重构上（即所谓重新回到“科研时代”）。

他后来补充解释道，并非继续扩展规模不会带来变化，而是有些重要的东西仍然会缺失。

至于缺失的是什么，Ilya并未明确回答。但从他的一些采访中，或许能找到蛛丝马迹。

其中一个关键词是——情绪。Ilya曾提到这样一个例子：

我碰到过一个例子，有一个人脑部受损，可能是中风或意外事故，导致他丧失了情感处理能力。所以他不再能感受到任何情绪。他仍然能言善辩，也能解一些简单的谜题，考试成绩也一切正常。

但他感觉不到任何情绪。他不会感到悲伤，不会感到愤怒，也不会感到兴奋。不知何故，他变得极其不擅长做任何决定。他甚至要花几个小时才能决定穿哪双袜子。他在财务方面也会做出非常糟糕的决定。

这说明我们与生俱来的情感在使我们成为合格的行动主体方面扮演着怎样的角色？说到你提到的预训练，如果你能充分发挥预训练的优势，或许也能达到同样的效果。但这似乎……嗯，预训练是否真的能达到这种效果还很难说。

在Ilya看来，Scaling Law或许有用，但其是否足够有效，仍需打上一个大大的问号。

另一位对Scaling Law持怀疑态度的重量级人物是Yann LeCun。他在今年4月的一次采访中明确表示：

你不能简单地假设，更多的数据和更强的算力就等同于更智能的人工智能。

众所周知，LeCun一直认为大语言模型无法实现通用人工智能（AGI），并为此创立了新公司，专注于开发“世界模型”。

至此，表面上，科技界对Scaling Law的态度似乎分成了泾渭分明的两派。

然而，Meta的AI研究员Noam Brown（也是其前沿模型o1的核心成员）提出了不同看法。他指出，当前的社交媒体讨论常常将复杂的AI辩论简化为两种夸张的刻板印象：

（A）怀疑派：认为大语言模型没有前途，AI纯属炒作。
（B）狂热派：认为万事俱备，超级人工智能（ASI）指日可待。

但如果仔细审视顶尖研究人员的实际观点，会发现他们之间存在着惊人的共识：

即使没有新的研究突破，当前的技术范式也足以产生巨大的经济和社会影响。
要实现AGI或ASI，很可能还需要进一步的研究突破（例如在持续学习、样本效率等方面）。
没有人认为ASI是永远不会实现的天方夜谭。分歧主要在于，那些关键的“突破”会是什么，以及它们何时会到来。

这一总结也得到了LeCun的认同：

因此，当我们回过头审视Hinton与Ilya的分歧时，其本质或许并不在于“要不要扩展”，而在于一个更核心的问题：

我们到底在扩展什么？

参考资料：
1. https://www.businessinsider.com/ai-Scaling-debate-geoffrey-hinton-ilya-sutskever-alexandr-wang-lecun-2025-12
2. https://x.com/ilyasut/status/1994424504370581726
3. https://x.com/ylecun/status/1994533846885523852

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16624

AI教父Hinton与弟子Ilya的Scaling Law之争：数据瓶颈能否被AI自我进化突破？

Scaling Law不死派：Hinton与哈萨比斯

Scaling Law不够用派：Ilya与LeCun

相关推荐

Claude深夜全线宕机10小时！AWS数据中心遭不明物体袭击，全球打工人集体断粮

从LLM到多智能体系统：一份免费的AI技术学习地图与工程化指南

SDAR：打破大模型推理瓶颈的协同扩散-自回归新范式

AI编程革命：个人贡献者终结，开发者转型管理者时代来临

Axe异构布局编译器：跨GPU/TPU/Trainium的统一编程模型，开启机器学习编译新纪元