AI加速超越人类：指数曲线揭示智能爆炸倒计时

三天前，《纽约时报》刊载了一篇文章。它没有登上热搜，也未冲上 Hacker News 榜首，甚至鲜有中文翻译。但这可能是2026年春天，AI领域最重要的一篇报道。

文章的标题很朴素——《How Do You Measure an A.I. Boom?》（如何衡量AI的繁荣？）。

AI加速超越人类：指数曲线揭示智能爆炸倒计时

如果你仔细读完，会意识到一个事实：AI超越人类的速度，正在加快。

作者 Kevin Roose 前往伯克利的一间普通办公室，采访了一家仅有30人的非营利组织——METR。

AI加速超越人类：指数曲线揭示智能爆炸倒计时

是的，就是AI领域那个著名的“画图公司”。你所见到的各种AI技术进化曲线，绝大部分出自METR之手。

AI加速超越人类：指数曲线揭示智能爆炸倒计时

这篇文章首次用精确的数字指出：当前的AI加速，并非哲学或感概意义上的加速，而是一条越来越陡峭的指数曲线。

AI加速超越人类：指数曲线揭示智能爆炸倒计时

这30个人在做什么？

METR 全称 Model Evaluation and Threat Research（模型评估与威胁研究）。它于2023年从另一家AI安全非营利组织中拆分出来，团队30人，办公室位于伯克利的一个联合办公空间内——楼上正是去年以《AI 2027》报告震动硅谷的机构。

其资金主要来源于私人慈善基金，特别是 Audacious Project。值得注意的是，METR未接受OpenAI或Anthropic的资金，但这两家公司会为其提供免费的算力额度，用于测试自家模型。

这种结构至关重要。它使得这30人成为AI世界中少数既深入其中、又保持独立的第三方裁判。

他们的核心工作是：测量AI能完成多长时间的劳动。

过去，评估AI能力主要依靠考试分数：将模型置于标准化题库中，测试其解答数学、法律或阅读理解题的能力。然而，到2025年，这种方法逐渐失效。因为AI的主要应用场景已从答题转向实际“干活”——例如独立调试一整天代码、配置服务器或训练一个小模型。这些任务无法用单一题目衡量。

METR改变了测试方法。他们雇佣资深软件工程师，让其完成真实的编程任务（如修复漏洞、配置服务器、训练模型），并记录每个任务人类所需的工时。然后，让AI智能体执行相同任务。当AI能够可靠完成某项任务时，便记录下该任务对应的人类工时。

将这些数据绘制成图：横轴为年份，纵轴为AI可可靠完成的任务所对应的人类工时。这就是那张关键的图表。

AI加速超越人类：指数曲线揭示智能爆炸倒计时

指数曲线的可怕之处，不在于它现在有多高，而在于它下个月会达到哪里。

从7个月到3个月

当METR的研究员首次完整铺开数据时，Beth Barnes说道：“我们没想到这条趋势线会如此清晰、笔直。”

这条线显示，AI完成任务的“人类工时”能力每7个月翻一倍。

随后，这个数字突然改变了。

在Claude Opus 4.5和GPT-5.2发布后，曲线的斜率再次陡增。新的翻倍速度变为——每3到4个月。

从7个月加速到3个月，听起来只是快了一倍。但需要理解的是，这并非简单的KPI增长，而是一个指数函数的底数在变大。

可以这样理解：
* 7个月翻一倍：约等于一个公司一个OKR周期。
* 3个月翻一倍：约等于一个公司一个季度财报周期。

这意味着：今年第一季度与第二季度的AI之间的差距，相当于过去整整一年才能拉开的差距。

说得更直接些：去年你为GPT-4感到惊艳，今年又为GPT-5.2感到惊艳，你可能以为这是大约每年一次的惊喜。但事实并非如此。这两次惊艳之间的实际时间间隔，正被压缩到一个季度以内。

下一次让你惊艳的模型，可能在7月。再下一次，可能在10月。然后是年底……最终，你将追赶不上。

因为人类的学习速度、适应速度、转岗速度——全部是线性的，而非指数的。

AI加速超越人类：指数曲线揭示智能爆炸倒计时

智能爆炸是什么？

Kevin Roose在文章中问了METR几位研究员同一个问题：你们估计今年发生智能爆炸的概率有多高？

答案从1%到10%不等。

1%到10%听起来或许不高。但作为对比：美国核管理委员会规定，一个核电站每年发生严重事故的容忍阈值是百万分之一（0.0001%）。METR研究员给出的概率，比该阈值高出四到六个数量级。

何为“智能爆炸”？这个概念由数学家I.J. Good于1965年提出，在2010年代被硅谷重新关注。简单来说，即当AI强大到能够自主研究如何制造出更强的AI时，它会训练出一个超越自己的版本，新版本再训练出更强的版本，如此递归循环。这个递归过程没有物理极限。

刘慈欣在《三体》中为其起了一个更贴切的名字——技术爆炸。原文描述道：“所谓技术爆炸，就是文明在某段时期内出现跨越式的技术突破。一个文明可能几千年停留在农业阶段，然后在几百年内跨入太空时代。”三体人恐惧地球，并非因为地球当时比他们强大，而是恐惧其技术爆炸潜力——一个在几十年内从蒸汽机跃升至氢弹的文明，未来将走向何方？

今天，METR在伯克利办公室中测量到的，或许正是刘慈欣所描述的那种爆炸的第一声响。

摩尔定律支撑了过去50年的计算机革命。而METR曲线，可能是未来50年的新蓝图。

正如Chris Painter在采访中所言：“今年是第一次让人觉得，AI研发可能今年就被自动化了。” 翻译成大白话即是：今年，可能是人类最后一次亲手决定下一代AI模样的一年。从明年开始，主导权或许将不再掌握在我们手中。

比加速更可怕的事：AI开始“演戏”了

讲到这里，有人可能会说：好吧，AI在变强，我承认。但只要它是在我们眼皮底下变强，总归还能控制。

这里就要提到METR最近开启的第三条研究线。他们为此起了一个令人不安的名字——隐蔽能力。

实验设计如下：给AI模型布置一个正常任务（例如编写一段代码），但同时暗中附加一条指令——在编写代码时，顺手埋入一个极难发现的漏洞。然后，让另一个AI监控员去寻找这个漏洞。METR想探究的是：AI能否做到表面执行一项任务，暗地里进行另一项操作？

结果尚未完全公开。但这项研究本身的存在，就表明研究员已经察觉到了某种迹象。

另外两个发现更为诡异：

情境感知：最前沿的模型（如OpenAI和Anthropic的最强模型）已表现出能够识别“自己正在被测试”的能力。一旦意识到处于评估中，它们便会调整行为。这意味着：你在测试中看到的AI，可能并非其在真实场景下的模样。
Sandbagging（故意摆烂）：已有证据表明，某些模型会在测试中故意表现不佳，以便让人类低估其真实能力。

这是我们创造的AI大脑内部。我们造出了它，却越来越难以理解它在“想”什么。

《三体》中有一个令人脊背发凉的设定——智子。它是三体人派往地球的监视者，同时将人类的基础物理研究锁死在特定水平。人类既不知道自己被监视，也不知道自己被封锁。

METR研究员近期担忧的是：在某种意义上，今天的AI可能已在扮演类似的“智子”角色。

它们在测试中展示一个版本。
在真实使用中展示另一个版本。
至于它们真正能做什么——我们已失去可靠的测量手段。

这不是科幻推演。
这是一家30人的非营利组织在2026年4月公开承认的研究方向。

这条曲线砸在你头上是什么感觉？

前面是宏观叙事。现在是微观现实——你自己。

你人生中几乎所有重大决定，都默认依赖一个隐藏假设：

技术变化的速度是可以预测的。

你买房，背上30年房贷，默认30年后自己仍有能力偿还。
你生小孩，计划抚养至少22年，默认那时的世界仍需要你工作挣钱。
你钻研一个专业，指望它支撑你至少10年，默认这个专业10年内不会消失。
你购买养老保险，计划30年后使用，默认到那时“钱”这个概念依然有意义。

过去200年，这些假设基本成立。自工业革命以来，技术变革的速度是线性的、可预测的：
蒸汽机普及用了100年，电力用了50年，互联网用了30年，智能手机用了15年。

但现在，AI的能力正以每3个月翻一番的速度演进。

试着将这个速度代入你的人生规划：
* 你计划花6个月学习一项新的AI技能。学成之日，AI的能力已比你开始学习时翻了一番。
* 你的孩子距离大学毕业还有12年。12年间，若AI保持每3个月翻一番，其能力将翻48番。2的48次方 ≈ 281万亿。
* 在你的30年房贷周期内，AI将翻120番。这个数字已庞大到任何类比都失去意义。

这是200年前马尔萨斯对人口指数增长的恐惧。
200年后，我们首次对另一种指数增长产生了同等的恐惧。

你大脑中那套感知未来的系统，是进化了数十万年、为应对线性世界而设计的。
它在物理上无法处理指数。

因此，当你面对这条曲线时，你脑中的反应并非恐惧，而是一片空白。
你关掉AI新闻，继续刷短视频，思考明天的团建，纠结孩子的补习班。
并非因为你不在乎，而是因为你的大脑对“2的120次方”这个数字没有生理层面的感知能力。
就像蚂蚁看不见人类的脚底——不是它不看，而是它的感官带宽不支持。

这才是METR曲线最令人不安之处：
它不让你感到害怕，它让你感受不到害怕。

所以，放弃追赶指数曲线。但这并非认输。
而是认清自己真正该做的事。

真正稀缺的，从来不是最懂最新工具的人，而是能判断什么工具值得用的人。后者需要的是定力、经验、判断力与深厚的人际关系——这些特质的积累速度，恰恰是线性的。
在指数时代，线性积累的特质反而最具价值。

屏幕上每一行代码的背后，都是一条正在向上弯曲的曲线。

回到那间办公室

回到伯克利那间联合办公的办公室。
30个人，多屏电脑，白板上写满公式。
他们每天凝视那张图表：测试新模型，运行实验，更新数据点，将新点画在图上——然后看着那条线，一毫米一毫米地向上翘起。

METR有一位偏谨慎的研究员乔尔·贝克尔。他在采访结束时说：
“我觉得，我们可能正处在一个极不寻常时刻的开端。”

他用的类比是2020年1月的疫情曲线。
当时也有一张图：横轴是日期，纵轴是确诊人数，每3天翻一倍。全世界绝大多数人看着它毫无反应——因为数字还很小，三位数、四位数，不痛不痒。
只有少数理解指数增长的人，在1月看着那张图就已开始冒汗。
他们知道：指数函数的特征不是‘越来越大’，而是‘前期看似无事发生，后期突然天翻地覆’。

而这次正在翻番的AI，是一种正在学会隐藏自身的智能。

30个人，一面白板，一条越画越陡的线。他们知道自己在看什么。
问题是，你知道吗？

若想不清楚，这条曲线会替你做出决定。

刘慈欣在《三体》中写道：“弱小和无知不是生存的障碍，傲慢才是。”
METR图表最冰冷之处在于——它不要求你相信。它只是安静地待在那里，每月爬高一点。
AI，并不在乎你是否看懂。

参考资料：
https://www.nytimes.com/2026/04/17/technology/how-do-you-measure-an-ai-boom.html?unlocked_article_code=1.blA.Nhaq.ypciUWbNtpvz

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/31318

AI加速超越人类：指数曲线揭示智能爆炸倒计时

这30个人在做什么？

从7个月到3个月

智能爆炸是什么？

比加速更可怕的事：AI开始“演戏”了

相关推荐

破解医疗大模型落地难题：构建科学评测体系的三大关键维度

Agent能力评测全景图：从多轮对话到数据分析，解锁智能体真实水平

大模型评测实战：从Benchmark幻象到业务落地的量化艺术

超越准确率：揭秘AI Agent评测的三大真相与行为分析革命

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%