
大模型的通用性与泛化能力正日益增强。
尽管一些新模型(例如在某些专业任务和智能水平上表现已相当出色的模型)不断涌现,但它们距离我们通常所理解的通用人工智能(AGI)依然十分遥远。

然而,这恰恰说明业界对AGI的实现仍抱有巨大的热情与信心,或许下一款突破性的大模型就能初步触及AGI的构想。
不过,卡耐基梅隆大学教授、AI2研究所科学家Tim Dettmers近期发表了一篇题为《Why AGI Will Not Happen》的长文博客,提出了一个截然不同的观点。他认为,受限于物理规律,我们不仅无法实现AGI,也无法实现任何有意义的超级智能。
这一论断无疑为当前的AGI热潮泼了一盆冷水,并引发了广泛的讨论。

为什么AGI不会发生
这篇文章深入探讨了硬件演进、通用人工智能(AGI)、超级智能、规模法则、人工智能泡沫等一系列相关议题。

计算是物理的
许多关于AGI、超级智能、缩放定律和硬件进步的讨论,往往将这些概念视为抽象的哲学思辨。然而,这一切都建立在一个根本性的误解之上:计算是物理的。
高效计算需要在两件事之间取得平衡:一是将全局信息移动到局部处理单元,二是将多份局部信息汇聚起来,将旧信息转化为新信息。局部计算的复杂度几乎恒定(更小的晶体管能极大加速此过程),但信息移动到计算单元的距离呈平方级增长。虽然更小的晶体管对此也有助益,但由于内存访问模式的平方特性,其改进效果很快会变得次线性。
需要记住两个关键点:第一,缓存越大,速度越慢。第二,随着晶体管尺寸不断缩小,计算变得越来越廉价,而内存(相对而言)却变得越来越昂贵。
如今,计算单元在芯片面积中的占比已微乎其微,几乎所有面积都被用于内存。若在一块芯片上实现10 exaflops的算力,却无法为其提供足够的内存带宽支持,那么这些浮点运算能力将成为“无效算力”。
正因如此,像Transformer这样的AI架构在本质上是物理的。我们的架构并非可以天马行空随意构思的抽象概念,而是对信息处理单元进行的物理层面的优化。
要有意义地处理信息,你需要做两件事:一是计算局部关联(如MLP层),二是将更远处的关联汇聚到局部邻域中(如注意力机制)。这是因为,仅凭局部信息只能区分高度相似的内容,而汇聚远程信息则能形成更复杂的关联,用以对比或补充局部细节。
Transformer架构以最简洁的方式结合了局部计算与全局信息汇聚,已经非常接近物理最优。
“计算是物理的”这一原则同样适用于生物系统。所有动物的计算能力都受限于其生态位中可获取的热量摄入。如果人类大脑更大,我们将无法繁衍,因为无法提供足够的能量。这使得我们当前的智能水平成为一个因能量限制而无法跨越的物理边界。
我们正在接近数字计算的边界。
线性进步需要指数级资源
这里存在两种现实:一种是物理现实,另一种是观念空间中的现实。
在物理现实中,若需在时间和空间上聚集资源以产生某种结果,出于物流和组织的原因,想要获得线性效果,往往需要线性规模的资源投入。但由于物理限制,这些资源在空间或时间上会产生竞争,导致资源的汇聚速度必然越来越慢。
在观念空间中,也存在类似但更隐晦的现象。如果两个想法完全独立,它们叠加的效果可能远超单个想法。但如果想法彼此相关,由于边际收益递减,其总体影响就会受限。如果一个想法建立在另一个之上,其所能带来的改进幅度是有限的。很多时候,只要存在依赖关系,新想法就只是对旧想法的细化或打磨。而这种“精修式”的想法,即便极具创造性,也只能带来渐进式改进。
当一个领域足够庞大时,即便刻意研究看似迥异的思路,它们仍可能与既有想法高度相关。例如,状态空间模型(SSM)和Transformer看似是两种不同的注意力机制路线,但它们本质上都在解决同一类问题。通过这种方式改造注意力机制,所能获得的收益非常有限。
这种关系在物理学中尤为明显。过去,物理学的重大进展可由个体完成,如今这已基本不再可能。
观念空间的核心困境在于:如果你的想法仍处于同一子领域内,那么几乎不可能产生有意义的创新,因为大多数可能性早已被探索过。因此,理论物理学家实际上只剩下两条路:要么对现有思想进行渐进式修补(影响微乎其微),要么尝试打破规则、提出非传统想法(这些想法或许有趣,却很难对物理理论产生明确影响)。
实验物理则直观地展示了物理层面的限制。为了检验更基础的物理定律和基本粒子(即标准模型),实验成本正变得越来越高。标准模型并不完整,但我们不知如何修补它。大型强子对撞机在更高能量下的实验,只带来了更多不确定的结果和对更多理论的否定。尽管我们建造了耗资数十亿美元、日益复杂的实验装置,我们依然不了解暗能量和暗物质的本质。
如果你想获得线性的改进,就必须付出指数级的资源。
GPU不再进步了
我观察到的一个最常见误解是:人们默认硬件会持续不断地进步。几乎所有的AI创新,都由GPU的效率提升所驱动。
AlexNet之所以成为可能,是因为人们开发了最早的CUDA实现,使得卷积能在多张GPU上并行计算。此后的大多数创新,也主要依赖于更强的GPU以及更多GPU的使用。几乎所有人都观察到了这种模式——GPU变强,AI性能提升——于是很自然地认为GPU还会继续变强,并持续推动AI进步。
实际上,GPU已经不会再有实质性的提升了。我们基本已经见证了最后一代真正重要的GPU改进。GPU在“性能/成本”这一指标上大约在2018年左右达到了峰值,此后加入的只是一些很快就会被消耗殆尽的一次性特性。
这些一次性特性包括:16位精度、张量核心(Tensor Core)、高带宽内存(HBM)、张量内存加速器(TMA)、8位精度、4位精度。而现在,无论是在物理层面还是在观念空间中,我们都已走到尽头。相关研究论文中展示的k-bit推理缩放定律,在特定块大小和计算布局下,已经指明了最优的数据类型,这些结论已被硬件厂商采纳。
任何进一步的改进,都不再是“纯收益”,而只会变成权衡:要么以更低的计算效率换取更好的内存占用,要么以更高的内存占用换取更高的计算吞吐。即便还能继续创新——并且由于“线性进步需要指数级资源”——这些改进也将是微不足道的,无法带来任何有意义的跃迁。
虽然GPU本身已无法显著改进,但机架级(rack-level)的优化依然至关重要。
高效地搬运KV缓存是当前AI基础设施中最重要的问题之一。不过,这个问题的现有解决方案其实相当直接。因为在此问题上,基本只存在一种最优架构。实现起来固然复杂,但更多依赖的是清晰的思路,以及大量艰苦、耗时的工程工作,而非新颖的系统设计。
无论是OpenAI还是其他前沿实验室,在推理和基础设施栈上都不存在根本性的优势。唯一可能形成优势的方式,是在机架级或数据中心级硬件优化上略胜一筹。但这些红利同样会很快耗尽——也许在2026年,也许在2027年。
为什么“规模化”并不足够
我相信缩放定律,规模化确实能够提升性能,像 Gemini 这样的模型显然是优秀的。
问题在于:过去,为了获得线性改进,我们恰好拥有 GPU 算力指数级增长这一“对冲因素”,它抵消了规模化所需的指数级资源成本。换句话说,以前我们投入大致线性的成本,就能获得线性的回报;而现在,这已经变成了指数级成本。
它意味着一个清晰且迅速逼近的物理极限。我们可能只剩下一年,最多两年的规模化空间,因为再往后,改进将变得在物理上不可行。2025 年的规模化收益并不亮眼;2026 年和 2027 年的规模化,最好能真正奏效。
尽管成本呈指数级增长,目前的基础设施建设在一定程度上仍然是合理的,尤其是在推理需求不断增长的背景下。但这依然形成了一种非常脆弱的平衡。最大的问题在于:如果规模化带来的收益不明显优于研究或软件层面的创新,那么硬件就会从“资产”变成“负债”。
像 MoonshotAI、Z.ai 这样的中小型玩家已经证明,他们并不需要大量资源就能达到前沿性能。如果这些公司在“超越规模化”的方向上持续创新,它们完全有可能做出最好的模型。
规模化基础设施面临的另一个重大威胁在于:目前,大模型推理效率与庞大的用户基数高度相关,这源于网络层面的规模效应。要实现高效的大模型部署,需要足够多的 GPU,才能在计算、网络通信以及 KV-cache 分段之间实现有效重叠。这类部署在技术上极其高效,但必须依赖庞大的用户规模才能实现充分利用,从而具备成本优势。这也是为什么开源权重模型至今没有产生人们预期中的影响——因为大规模部署的基础设施成本,要求必须有足够大的用户群体。
目前,vLLM 和 SGLang 主要在优化大规模部署,但它们并不能在小规模场景下提供同样的效率。如果有一套超越 vLLM / SGLang 的推理栈,人们就可以用与 OpenAI 或 Anthropic 部署前沿模型几乎相同的效率,来部署一个约 3000 亿参数的模型。一旦较小模型变得更强(我们已经在 GLM 4.6 上看到了这一趋势),或者 AI 应用变得更加垂直和专用,前沿实验室的基础设施优势可能会在一夜之间消失。软件复杂性会迅速蒸发,而开源、开权重的部署方案,可能在计算效率和信息处理效率上都接近物理最优。这对前沿玩家而言,是一个巨大的风险。
在规模化放缓的背景下,以下三种因素中的任何一个,都可能迅速而显著地削弱 AI 基础设施的价值:
(1)研究与软件层面的创新;
(2)强大的开源权重推理栈;
(3)向其他硬件平台的迁移。
从当前趋势来看,这对前沿实验室并不是一个乐观的局面。
前沿 AI 路径与理念
美国和中国在 AI 上采取了两种截然不同的路径。美国遵循的是一种“赢家通吃”的思路——谁先构建出超级智能,谁就赢了。其核心信念是:把模型做到最大、最强,人自然会来。
中国的理念则不同。他们认为,模型能力本身并没有应用重要。真正重要的是你如何使用 AI,这个模型是否实用、是否能以合理的成本带来生产力提升。如果一种新方案比旧方案更高效,它就会被采用;但为了略微更好的效果而进行极端优化,往往并不划算。在绝大多数情况下,“足够好”反而能带来最大的生产力提升。
我认为,美国的这种理念是短视且问题重重的——尤其是在模型能力增速放缓的情况下。相比之下,中国的思路更加长期、更加务实。
AI 的核心价值在于:它是否有用,是否提升生产力。正因如此,它才是有益的。就像计算机和互联网一样,AI 显然会被用到各个角落。这使得 AI 在全社会范围内的经济整合对其有效性至关重要。
AGI 不会发生,超级智能是一种幻想
我注意到一个反复出现的模式:当你问硅谷的人 AGI 什么时候会到来,他们总会说“再过几年”,而且会带来巨大冲击。但当你进一步问他们 AGI 到底是什么,他们的定义里既不包含任何物理任务,也不考虑资源投入。
真正的 AGI——能够做人类能做的一切——必须具备执行物理任务的能力。简而言之,AGI 必须包括能够在现实世界中完成具有经济意义工作的实体机器人或机器。
然而,尽管家用机器人或许能帮你把洗碗机里的碗拿出来,但你不会看到它们取代工厂里的专用系统。工厂中的专用机器人效率更高、精度更强。中国已经证明,“黑灯工厂”——完全自动化的工厂——是可行的。在受控环境中,大多数机器人问题其实已经被解决。而那些尚未解决的机器人问题,往往在经济上也并不划算。比如,把 T 恤的袖子缝上去仍是一个未完全解决的机器人问题,但在大多数情境下,这件事并没有多大的经济意义。
机器人领域的根本问题在于:学习同样遵循与语言模型相似的缩放定律。而物理世界的数据收集成本极其高昂,且现实世界的细节复杂到难以处理。
超级智能的根本谬误
超级智能这一概念建立在一个错误前提之上:一旦出现与人类同等甚至更强的智能(即 AGI),这种智能就可以自我改进,从而引发失控式的爆炸增长。我认为这是一个对整个领域有害的、根本性错误的观念。
其核心问题在于:它把智能视为一种纯抽象的东西,而不是扎根于物理现实的系统。要改进任何系统,都需要资源。即便超级智能在利用资源方面比人类高效,它依然受制于我前面提到的缩放规律——线性改进需要指数级资源。
因此,所谓超级智能,更像是在填补能力空白,而不是推动能力边界外扩。填补空白是有用的,但它不会引发失控式增长,只会带来渐进式改进。
在我看来,任何以“追求超级智能”为主要目标的组织,最终都会遭遇巨大困难,并被那些真正推动 AI 经济扩散的参与者所取代。
是的,AGI 完全能够发生
Tim Dettmers 的博客将 AGI 的发展建立在物理和成本限制的基础上的观点是正确的,规模扩大并不是魔法,智能的进化仍需要高昂的成本。
但我总觉得这个观点有些偏激和悲观。或许 AGI 并不等同于指数增加的算力,软硬件发展或许仍有空间。
加州大学圣地亚哥分校助理教授 Dan Fu 对于 Dettmers 的博客持反对意见,他认为 Tim Dettmers 的分析遗漏了关于目前效率以及如何充分利用系统的关键信息,现在的系统仍有巨大的发展空间,目前还不存在实际意义上的限制。

这篇博客将论证当今的人工智能系统在软件和硬件效率方面还有很大的提升空间,并概述几条前进的道路。并将论证我们目前拥有的人工智能系统已经非常实用,即使它们不符合每个人对 AGI 的定义。

当今的人工智能系统被严重低估
Tim 的文章中一个核心论点是:当今的 AI 系统正在接近“数字计算的极限”。这一论点隐含了两个前提假设:其一,当下的模型(主要是 Transformer)已经极其高效;其二,GPU 的进步正在停滞——因此,我们不应再期待通往 AGI 的进展能够以同样的方式继续下去。
但如果你更仔细地审视实际的数据,就会发现情况并非如此。我们可以从训练和推理两个角度更深入地分析,这将揭示出截然不同的前景和潜在的前进方向。
训练:当前的训练效率远未达到上限
今天最先进模型的训练效率,其实比它“本可以做到的”要低得多——我们之所以知道这一点,是因为它甚至比几年前的效率还要低。一个观察这一问题的方式,是看训练过程中的 MFU(Mean FLOP Utilization,平均 FLOP 利用率)。这个指标衡量的是计算效率:你到底用了 GPU 理论算力的多少。
举例来说,DeepSeek-V3 和 Llama-4 的训练在 FP8 精度下只达到了大约 20% 的 MFU。相比之下,像 BLOOM 这样的开源训练项目,早在 2022 年就已经达到了 50% 的 MFU。
这种效率差距主要源于几个因素,一个重要原因是:DeepSeek-V3 和 Llama-4 都是混合专家(MoE)模型。MoE 层在算术强度上不如稠密矩阵乘法(GEMM)—— 它们需要加载更多权重的 I/O、执行更小规模的矩阵乘操作,因此更难达到高 FLOP 利用率。结果是,相对于计算量,它们需要更多的通信。换言之,当前的模型设计并非旨在 GPU 上实现最高的训练 FLOP 利用率。
此外,这些训练本身也是在上一代硬件上完成的。Blackwell 架构芯片的 FP8 吞吐量是 Hopper 的 2.2 倍,并且支持原生 FP4 Tensor Core。再加上像 GB200 这样的机架级方案,以及通过内核设计实现计算与通信重叠,都可以缓解当前模型中的通信瓶颈。如果能实现高效、高质量且 MFU 很高的 FP4 训练,理论上可用的 FLOPs 将提升最多 9 倍。
推理:效率问题甚至更严重
在推理阶段,情况实际上更糟。最优化的推理实现(例如 megakernel)甚至不再使用 MFU 作为指标,而是关注 MBU(最大带宽利用率)。
原因在于:自回归语言模型的瓶颈通常不在于计算,而在于将权重从 GPU 内存(HBM)加载到片上存储(SRAM / 寄存器 / 张量内存)。最顶级的优化实现旨在尽可能隐藏这种延迟,目前大约能达到约 70% 的 MBU。
但如果切换回 MFU 视角,会发现 FLOP 利用率往往是个位数(<5%)。
这并非物理或硬件层面的根本极限。仅仅因为我们最早规模化的是自回归架构(因此遇到了这些限制),并不意味着它是构建通用 AI 的唯一可行或必须采用的架构。这个领域还很新,我们几乎可以控制所有变量 —— 无论是软件(模型架构、内核设计等),还是硬件。
前进方向:还有大量可挖掘的空间
一旦真正理解了当前所处的位置,就会发现有几条清晰的前进路径,可以让我们更充分地利用硬件。这些方向并不轻松,但也并非天方夜谭 —— 事实上,每一条路径上都已经有实际进展正在发生:
-
训练高效的架构协同设计
设计能更好利用硬件的机器学习架构。这方面已有大量优秀工作。例如,Simran Arora 关于硬件感知架构的研究,以及 Songlin Yang 关于高效注意力机制的工作,它们表明:- Transformer 并非只有一种形态,很多变体都能保持高质量;
- 我们完全可以设计出在硬件利用率上更高、且能良好扩展的架构。
-
高质量、高效率的 FP4 训练
如果能够在 FP4 下完成训练,我们就能获得 2 倍的可用 FLOPs(推理侧已开始看到 FP4 带来的加速)。目前已有论文沿着这一方向展开探索,其中包括 Albert Tseng 和 NVIDIA 的一些出色工作。 -
推理高效的模型设计
如果能设计出在推理阶段使用更多 FLOPs 的模型架构,就有可能显著提升硬件利用率。值得关注的方向包括:- Inception Labs 和 Radical Numerics 的扩散式语言模型;
- Ted Zadouri 关于「推理感知注意力机制」的研究;
- 巨大但尚未被充分利用的算力来源:分布在全球手机和笔记本电脑上的计算资源 —— 能否找到办法,把这些算力用于推理?
当下的 AI 训练和推理范式中,仍然存在大量未被利用的余量。上述每一条研究方向,都是在尝试填补这些空隙,让我们用更高的硬件利用率训练出高质量模型。
模型是硬件的滞后指标
第二个重要观点是:模型的发布与能力水平,本质上是已经启动的硬件建设以及新硬件特性的滞后反映。
这一点从第一性原理出发不难理解 —— 从一个新集群上线,到有人在其上完成预训练,再到后训练结束、模型真正能够通过 API 被使用,中间必然存在时间滞后。
集群规模
以 DeepSeek-V3 为例 —— 我们清楚它使用了多少硬件、训练了多长时间。DeepSeek-V3 的预训练发生在 2024 年末,只使用了 2048 张 H800 GPU。即便在一年之后,它依然是开源模型生态中的重要参与者。
而我们也清楚,今天正在进行的集群建设规模要大得多:从初创公司部署的 4 万卡集群,到前沿实验室正在建设的 10 万卡以上集群。仅从纯粹的集群规模来看,这意味着高达 50 倍的算力建设正在发生。
新的硬件特性
我们今天使用的大多数模型,在某种意义上也都是老模型,因为它们是在上一代硬件上训练的。而新一代硬件带来了新的特性,模型需要围绕这些特性进行(重新)设计。
- FP4 训练,如果可行,是一个非常明确的突破方向;
- GB200 的机架级通信域(NVL72 通过高速 NVLink 将 72 张 GPU 连接在一起)也是另一个极其清晰的突破点 —— 它们既能缓解低 FLOP 利用率问题,也为探索全新的模型设计提供了杠杆。
我们目前仍然处在 Blackwell 硬件周期的非常早期阶段。最近发布的 GPT-5.2,是最早一批使用 GB200 训练的模型之一(尽管它似乎也同时使用了 H100 和 H200)。
此外,还有一些不那么显眼但同样关键的硬件改进。一个例子是:在 B200 上,注意力计算的瓶颈并不在 Tensor Core,而是在指数运算上。原因很简单 —— Tensor Core 在代际升级中快了 2.2 倍,但超越函数单元的数量或速度却没有同比增长。好消息是,这类问题相对容易解决。B300 将超越函数单元数量翻倍,这在一定程度上可以缓解这一瓶颈。
这些硬件改进当然需要工程投入,但再次强调 —— 这并非遥不可及。这里存在大量唾手可得的低垂果实。
前进路径
在理解了上述背景之后,可以给出一些具体且现实的前进方向,来进一步提升驱动顶级模型的有效算力:
-
「加速等待」
在很大程度上,我们当前仍然是在观察那些基于上一代集群预训练的模型表现。而一些团队已经完成或正在完成新一代超大规模集群的建设。这很可能只是一个等待模型发布的阶段性问题。 -
面向硬件的专项优化
还有大量工作可以围绕新一代硬件特性展开:例如前面提到的 FP4;围绕完整的机架级通信域来设计模型;或者针对 B200 / B300 上指数运算瓶颈的特性,对注意力机制进行适配和重构。 -
新硬件与新的算力来源
最后,还有大量新硬件平台正在涌现,以及配套的软件栈,使它们能够被 AI 所使用。如今的新硬件平台层出不穷,许多都专注于推理场景。只要其中任何一个真正产生重大影响,整个局面都可能被彻底改写。
距离有用的 AGI 到底还有多远?
最后一个观点,关注点已不再主要是系统或算力层面的 AI,而是 AGI 究竟意味着什么,以及要产生真实、可观的影响究竟需要什么。
理解这一部分的一个角度是:即便世界上所有系统层面和效率层面的进步都突然停滞,那么距离「有用的、类似 AGI 的能力」真正落地,我们还差多远?
如果把 AGI 理解为一种「魔法棒」—— 可以挥一挥就完成地球上任何一个人能做的任何事情 —— 那显然我们还远远没有到达那个阶段。
但如果换一种更务实的定义:一套在某些任务上比大多数人做得更好、并能产生巨大经济影响的通用工具体系,那我们或许并没有想象中那么遥远。
回顾仅仅两三年前,无论是开源模型还是前沿模型,今天实现的许多能力在当时都近乎魔法。以我个人为例,像 Claude Code、Cursor Composer 这类工具已经跨越了一个关键阈值——我编写的大部分代码现在由模型生成(尽管这篇博客本身仍采用“传统方式”撰写)。
在 GPU 内核工程领域,大模型带来的几点影响尤其令我惊讶:
- 编写复杂内核代码:在人类提供上下文和引导的前提下,模型已非常擅长编写 GPU 内核代码。它们虽未达到完全零样本(zero-shot)的程度,但已能实现跨越技术栈多个层次的复杂功能。这种能力极具挑战性且稀缺,即使对资深工程师而言也是如此。
- 构建工具链与可视化:模型在开发工具链和构建可视化分析方面表现优异,能有效辅助定位性能优化方向——从日志系统、工作负载模拟到性能瓶颈的可视化分析。
- 接管更大技术栈:即便仅在现有能力上小幅进步,也不难想象模型能在人类参与的控制模式下,接管更大比例的技术栈开发工作。事实上,当前这一代模型已经“好用得离谱”。
即使假设我们无法获得任何更高效的算法或新硬件,我们可能也已掌握一种方法,能够构建在特定领域内解决或加速95%问题的通用AI智能体或模型。
至少可以确定,我们已经拥有一套工具,只要配合恰当的数据收集方法(如RLHF、构建强化学习环境)以及领域专家知识,就能迁移应用于各类问题。编程之所以成为最先被突破的领域,一个很自然的原因是:绝大多数AI研究者都具备编程能力,且编程本身具有极高的经济价值。
当然,这里也正是AI研究的“主战场”。在上述约束条件下,我们仍可设想多种推进“有用AI工具”的路径:
- 新的后训练范式:当前所谓的后训练,其具体实践方式(如大规模RLHF、构建测试环境)是新的,但其核心思想并非全新。市场上涌现出Tinker及各类微调API平台并非偶然。
- 更好的样本效率:构建能在更少数据和样本下有效学习的训练系统,或设计更优的数据筛选算法,以提升样本效率。总体而言,“以数据为中心的AI”研究社群正在持续推动这方面的进展。
- 传统“硬功夫”与领域经验:即便我们自缚双手,假设模型核心能力不再提升,今天的AI模型仍可在大量应用场景和垂直领域产生巨大影响。即使模型质量被“冻结”,系统层面的效率改进也足以推动许多高影响力应用真正落地。
我们仍处于理解和构建这项新技术的非常早期阶段。从如何将其应用于真实世界并产生积极影响,到如何让它更好地为人类服务,仍有大量工作要做。这是一个令人兴奋的时代。
结论:通往AGI的多条道路
本文的核心论点是:当前AI系统仍有巨大的提升空间,而通往更强AI的道路远不止一条。只要仔细观察,你会发现通向至少一个数量级(10倍)算力提升的具体路径和研究议程。
回到最初的动机:我十分欣赏Tim那篇博客的一点在于,它敢于直面从当下走向未来所必须跨越的具体障碍。我们可以共同设计能更好利用现有及未来硬件的新模型,也可以沿多条路径推进,以构建更强、更有用的模型。将潜在路障清晰地摊开讨论,本身就为“接下来该做什么、如何去做”提供了一张路线图。
三点总结
- 硬件利用率极低:当前AI系统对硬件的利用率极低。通过更好的模型-硬件协同设计,我们可以实现更高的FLOP利用率,从而获得更多“有用的FLOPs”。
- 模型是硬件建设的滞后指标:当前模型是硬件发展的滞后指标——无论是GPU的绝对数量,还是对新硬件特性的利用程度。
- 算法改进的巨大空间:即便不依赖系统层面的进一步改进,我们仍可通过更好的算法,让今天的模型在更广泛的领域中变得极其有用。事实上,今天的模型已经非常有价值。
当然,前方必然存在技术挑战。但我个人非常欢迎这些挑战,也期待看到研究者和工程师们将如何应对。从事AI与系统研究,从未有过比现在更好的时代,也从未如此令人兴奋。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/14162
