2026年即将到来,AI的发展已经进入一个新阶段:我们取得了惊人成就,却也同时面临进一步增长的瓶颈。
新加坡国立大学(NUS)的尤洋教授近期发表了一篇深度分析:《智能增长的瓶颈》。

在这篇分析文章中,尤洋教授从技术本质出发,直指智能增长的核心矛盾,并揭示了AGI(通用人工智能)的可能路径。
核心观点
- 智能增长的本质不是架构变革,而是算力如何转化为智能:AI的核心智能来自于预训练及其损失函数结构(例如GPT的Next-Token Prediction)。这些机制更像是把算力转化为智能的方法,而非智能本身。
- 现有智能增长遇到瓶颈的根源:当前范式(Transformer + 超大算力)在面对进一步增长时,难以充分消化不断增长的算力资源,这导致了所谓“预训练红利递减”。
- 算力并非无限扩展就能解决问题:即使算力指数级增长,如果现有算法无法有效利用这些计算资源,智能提升仍将受限。
- 未来方向在于底层范式突破:文章探讨了更高精度计算、更高阶优化器、更灵活的损失函数设计、超大规模训练策略等潜在突破点。
- AI未来仍然乐观:智能增长瓶颈虽强,但仍有可能通过更好的算力利用方式被克服。预训练可能才刚刚开始,大模型智能仍有巨大的发展空间。
智能增长的瓶颈
2026年已至。在ChatGPT诞生三年多后的今天,关于我们的智能水平是否令人满意,以及未来是否还能强劲增长,笔者想分享一些个人的看法。如有谬误,恳请大家指正。
为了能深入探讨智能的本质,本文将不涉及产品易用性、成本等商业化或落地问题,因为这些本质上与智能突破本身无关。
1. 智能的现状
什么是智能?其实目前并没有一个明确的定义。
从最近图灵奖得主Yann LeCun和诺贝尔奖得主Demis Hassabis关于AGI的争论中,我感受到即便是世界上最顶尖的专家也无法准确定义智能。
个人感觉,AGI很难定义,其标准也会随着时代的变化而变化。我依然记得十几年前,普通人对人脸识别技术感到不可思议。如果把今天的ChatGPT拿到2006年,相信那时候的很多人会毫不怀疑地认为我们已经实现了AGI。
我觉得智能的核心是预测和创作。
我认为如果达到以下这种状态,那么就离AGI不远了:
- 如果你选择接受哪个工作Offer,完全听从AI的意见。
- 如果你买足球彩票预测世界杯冠军,完全听从AI的意见。
- 如果你有健康问题,会完全采用AI制定的方案去治疗。
- 你分辨不清楚一部奥斯卡最佳电影是否是由AI生成的。
- 石油公司的勘探团队用AI替代了所有数值算法。
- AI能指导初级高铁工程师在5分钟内排除高铁的疑难故障。
- AI能研制出一款专杀癌细胞且不破坏好细胞的药物。
- AI能通过某区域的地下结构数据,精准预测地震的时间。
- 等等……
今天,我们显然还没实现这些。未来能否实现,取决于我们能否克服智能发展的瓶颈。
2. 智能发展的瓶颈
今天,我们经常听到一些关于智能发展遇到瓶颈,或者预训练红利已尽的观点。何为瓶颈?我们先探讨一下智能从何而来。
过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。技术的好坏取决于这个转化效率的高低。类似的表述,我也听月之暗面的朋友提及过。
今天模型的智能本身,最主要还是来自预训练(往往是自监督方法),仅有少量来自微调或强化学习。
为什么?先算一笔浅显的经济账:因为预训练消耗的算力最多,消耗的能源也最多。
当然,预训练、微调、强化学习本质上都是在计算梯度以更新参数。如果有合适的海量数据和损失函数,未来在预训练阶段采用SFT(监督微调)或特殊的强化学习方法也有可能。
从智能增长的角度,我们甚至不用刻意区分预训练、SFT和强化学习。它们的区别主要在于更新参数的次数与规模。从计算本质上看:预训练、微调、强化学习(比如GRPO)都是在计算梯度的类似物,并用它来更新参数。
那么,能源从何而来呢?这就是GPU或算力。英伟达在这点上做了最大的贡献。虽然英伟达有很多先进的技术,比如更强的Tensor Cores、Transformer Engine、互联技术(NVLink / 网络化 NVLink)、软件栈等,但我先试图用一句话说清楚英伟达过去几年在技术上做的最重要的事情,即其GPU设计的核心思路。
简而言之,英伟达过去几年最重要的路线是:在同样的物理空间里堆更多HBM(高带宽内存)。
HBM虽然带宽很高,但依然是计算核心之外的内存(Off-chip from logic die),与计算核心存在不可忽略的物理距离。为了掩盖内存访问延迟,GPU只能依赖超大的Batch Size(批处理量)和大规模并行来处理数据。英伟达GPU本质上就是一台并行计算机。
因此,英伟达对算法层和软件层的要求非常明确:必须提供足够大的Batch Size或并行度。
面对英伟达的要求,很多研究团队都提出了自己的方案。比如RNN、Transformer、卷积序列模型(CNN for Sequence)等等。甚至有人尝试用SVM来处理大规模序列数据。
那为什么Transformer率先脱颖而出?因为Transformer也是一台并行计算机。

原初的Transformer架构
这里我引用一下Ilya Sutskever的一句话:“Transformers: parallel computers in disguise”,直白的意思是:Transformer本质上是一个被神经网络外壳包裹起来的并行计算机。这也是Transformer最先能够显现智能的核心原因,因为它的并行计算特性完美匹配了GPU的并行计算单元。

同时,OpenAI完美地实现了Next-Token Prediction这个损失函数,它给了AI大模型近乎无限的训练数据。理论上BERT的损失函数(完形填空和Next Sentence Prediction)也可以提供近乎无限的数据,但在实践中,Next-Token Prediction的效果明显更好。
我推测,这个损失函数最小化了人类的干预——它不是人为设计的,而是大自然在进化过程中赋予人脑的逻辑。并且,Next-Token Prediction其实是预测未来,而BERT的完形填空其实是把过去的信息和现在的信息串联起来。这就好比让一个足球专家根据历史数据和当天的比赛结果去解释合理性,几乎所有专家都能做到;但是,如果让专家去预测每一场比赛的精准比分,他们会经常出错。这再次说明了,预测 (Prediction) 是智能的核心能力体现,难度远高于解释 (Explanation)。
其实我挺佩服OpenAI团队能够坚持下来的勇气。2018年时,BERT在媒体上的影响力几乎完全碾压了GPT,且当时OpenAI的AI研发团队体量跟Google比起来微不足道。很佩服他们没有放弃Next-Token Prediction,也没有转向类BERT的训练方式。真理往往需要时间去检验。

BERT对比GPT
同时,以 Transformer 为核心的方案收获了“一箭双雕”的双重优势:
- 模型的每层参数量越多,并行度就越高(Tensor Parallelism)。只要通信代价不显著增加,能同时利用的算力就越多。相比之下,在 CNN 时代,研究人员曾尝试构建极深(如设想 1000 层)的网络,但层数过多并不利于高效利用算力,因为流水线并行所能提供的并行度上限有限。
- Transformer 的不同 Token 可以同时计算(Sequence Parallelism)。序列长度越长,并行度就越高,只要通信代价不显著增加,能同时利用的算力就越多。序列并行与数据并行互补,进一步提升了整体并行能力。
基于这些优势,我们见证了从 GPT-1、BERT 到 GPT-3、ChatGPT、Gemini 等一系列模型,逐步将 AI 智能推升至当前的高度。
然而,这也揭示了当前 AI 模型智能增长遭遇瓶颈的核心原因:现有技术范式无法充分消化持续增长的算力。
一个关键问题是:当模型训练所消耗的浮点运算次数(FLOPs)从 10ⁿ 增长到 10ⁿ⁺³ 时,我们是否真的能获得一个显著更优的模型?
这里需要区分“效率优化技术”与“智能提升技术”。例如,一项新架构若仅用 20% 的计算量就能达到与 GPT-5 相当的效果,这更多属于落地或商业化层面的效率优化。智能提升的本质问题在于:在消耗同等 FLOPs(而非处理同等 Token 量)的前提下,能否获得一个更好的模型。浮点运算次数,才是衡量算力投入最本质的计量单位。
3. 未来的方法探讨
首先从硬件层来看,我们需要持续产生更大的绝对算力,这不局限于单芯片算力的提升。

前沿规模机器学习模型训练所用计算量的趋势,图源:Epoch AI
即便单芯片算力未大幅提升,通过构建更大规模的集群也能汇聚更大的绝对算力。关键在于平衡:集群带来的性能增长,必须高于芯片或服务器间通信开销的增长。
因此,一个具体的硬性指标是:维持甚至提升“计算开销/通信开销”的比值。这是整个 AI 基础设施层最核心的技术目标,需要依赖扩展性更优的并行计算技术(包括软件与硬件)。
在更上层的模型与算法层面,我们需要探索如何让 AI 模型在单位时间内“消化”更多能源,并将其有效转化为智能。个人认为主要有以下几个方向:
- 更高精度的计算能力。当前,从 FP16 提升到 FP32 甚至 FP64,并未带来模型智能的显著跃升,这本身就是一个瓶颈。理论上,更高精度应能带来更可靠的计算结果,这在传统科学计算中已得到验证。虽然这一观点可能与当前主流共识不符,且实现可能需要很长时间,但从本质上看,智能的提升或许需要更精准的计算基础。这与过拟合问题无直接关联,过拟合的根源在于数据规模不足或参数与数据不匹配。
- 更高阶的优化器。据了解,Google 等机构已在部分训练中尝试使用比 Adam 更高阶的优化器。高阶优化器理论上能在学习过程中为模型提供更好的指导,计算出更优的梯度方向,这直接关系到模型智能提升的本质。当然,高阶优化器全面替代现有方案可能需要较长时间。
- 扩展性更好的模型架构或损失函数。我们仍需寻找扩展性更好、能更有效整合与利用海量算力的模型架构或目标函数。需要注意的是,优化效率不一定能提升智能上限。例如,Mamba 架构的宣传重点在于吞吐量提升,即以更小的模型达到相近的智能水平。但本文关注的是另一个问题:在最优的 AI 基础设施上,以可接受的最高成本(例如,预算 300 亿美元,不考虑省钱),能否训练出智能更高的模型?在这种不计成本的探索场景下,是否会选择 Mamba 这类架构?是否需要设计全新的、更强大的损失函数?
- 更多的训练轮次(Epoch)与更优的超参数。迫于成本压力,当前我们对大模型的训练往往未进行深度优化,甚至没有进行深度的超参数搜索。这正是我对 AI 模型智能继续增长保有信心的原因之一。这里的“更多 Epoch”并非指明知无效而机械地增加迭代次数(例如在参数量与数据量不匹配时),而是指从根本上找到方法,让模型能够有效“消化”更多 FLOPs(即更多能源),并将其转化为更高的智能。
需要说明的是,诸如低精度训练、剪枝、量化、知识蒸馏等推理优化技术,对于 AI 的大规模实际部署至关重要。然而,在一个追求“算力转化智能”效率极限的语境下,这些技术与提升智能的理论上限无关。笔者对这些技术的贡献者充满敬意,它们在实际应用中不可或缺,只是与本文探讨的核心主题不同。
智能增长归根结底是算力利用问题。假设算力无限大(比如达到今天的万亿倍),我们可能会发现比 Transformer 和 Next-Token Prediction 扩展性更好的、更简单的模型结构。从 SVM 到 CNN、LSTM,再到 BERT、GPT、MoE,整个发展历程始终在寻找能更高效利用算力且具备更好扩展性的方法,其核心驱动力在于待解决问题的规模在不断扩大。
我们在 AI 时代之前就已实现天气预报,但至今未能攻克地震预报,尽管两者都是对地球数据的研究。究其原因,地下结构涉及比大气更为错综复杂、变量规模呈指数级庞大的动态多模态数据。这种传统计算模式难以驾驭的高维复杂性,恰恰是未来 AI 技术大有可为的机遇所在。
因此,我有信心未来我们会不断找到更高效的算力使用方式。虽然过程中必然会有诸多困难与低潮,但大趋势不可阻挡。
最后,借用 Richard Sutton 教授的一句话作为结尾:人工智能 70 年的研究留给我们最大的经验教训是,依托计算能力的通用方法才是最终的赢家,且具备压倒性的优势。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16461
