AI加速超越人类:指数曲线揭示智能爆炸倒计时

三天前,《纽约时报》刊载了一篇文章。它没有登上热搜,也未冲上 Hacker News 榜首,甚至鲜有中文翻译。但这可能是2026年春天,AI领域最重要的一篇报道。

文章的标题很朴素——《How Do You Measure an A.I. Boom?》(如何衡量AI的繁荣?)。

AI加速超越人类:指数曲线揭示智能爆炸倒计时

如果你仔细读完,会意识到一个事实:AI超越人类的速度,正在加快。

作者 Kevin Roose 前往伯克利的一间普通办公室,采访了一家仅有30人的非营利组织——METR

AI加速超越人类:指数曲线揭示智能爆炸倒计时

是的,就是AI领域那个著名的“画图公司”。你所见到的各种AI技术进化曲线,绝大部分出自METR之手。

AI加速超越人类:指数曲线揭示智能爆炸倒计时

这篇文章首次用精确的数字指出:当前的AI加速,并非哲学或感概意义上的加速,而是一条越来越陡峭的指数曲线

AI加速超越人类:指数曲线揭示智能爆炸倒计时

这30个人在做什么?

METR 全称 Model Evaluation and Threat Research(模型评估与威胁研究)。它于2023年从另一家AI安全非营利组织中拆分出来,团队30人,办公室位于伯克利的一个联合办公空间内——楼上正是去年以《AI 2027》报告震动硅谷的机构。

其资金主要来源于私人慈善基金,特别是 Audacious Project。值得注意的是,METR未接受OpenAI或Anthropic的资金,但这两家公司会为其提供免费的算力额度,用于测试自家模型。

这种结构至关重要。它使得这30人成为AI世界中少数既深入其中、又保持独立的第三方裁判

他们的核心工作是:测量AI能完成多长时间的劳动。

过去,评估AI能力主要依靠考试分数:将模型置于标准化题库中,测试其解答数学、法律或阅读理解题的能力。然而,到2025年,这种方法逐渐失效。因为AI的主要应用场景已从答题转向实际“干活”——例如独立调试一整天代码、配置服务器或训练一个小模型。这些任务无法用单一题目衡量。

METR改变了测试方法。他们雇佣资深软件工程师,让其完成真实的编程任务(如修复漏洞、配置服务器、训练模型),并记录每个任务人类所需的工时。然后,让AI智能体执行相同任务。当AI能够可靠完成某项任务时,便记录下该任务对应的人类工时。

将这些数据绘制成图:横轴为年份,纵轴为AI可可靠完成的任务所对应的人类工时。这就是那张关键的图表。

AI加速超越人类:指数曲线揭示智能爆炸倒计时

指数曲线的可怕之处,不在于它现在有多高,而在于它下个月会达到哪里。

从7个月到3个月

当METR的研究员首次完整铺开数据时,Beth Barnes说道:“我们没想到这条趋势线会如此清晰、笔直。

这条线显示,AI完成任务的“人类工时”能力每7个月翻一倍

随后,这个数字突然改变了。

在Claude Opus 4.5和GPT-5.2发布后,曲线的斜率再次陡增。新的翻倍速度变为——每3到4个月

从7个月加速到3个月,听起来只是快了一倍。但需要理解的是,这并非简单的KPI增长,而是一个指数函数的底数在变大

可以这样理解:
* 7个月翻一倍:约等于一个公司一个OKR周期。
* 3个月翻一倍:约等于一个公司一个季度财报周期。

这意味着:今年第一季度与第二季度的AI之间的差距,相当于过去整整一年才能拉开的差距。

说得更直接些:去年你为GPT-4感到惊艳,今年又为GPT-5.2感到惊艳,你可能以为这是大约每年一次的惊喜。但事实并非如此。这两次惊艳之间的实际时间间隔,正被压缩到一个季度以内。

下一次让你惊艳的模型,可能在7月。再下一次,可能在10月。然后是年底……最终,你将追赶不上。

因为人类的学习速度、适应速度、转岗速度——全部是线性的,而非指数的。

AI加速超越人类:指数曲线揭示智能爆炸倒计时

智能爆炸是什么?

Kevin Roose在文章中问了METR几位研究员同一个问题:你们估计今年发生智能爆炸的概率有多高?

答案从1%到10%不等。

1%到10%听起来或许不高。但作为对比:美国核管理委员会规定,一个核电站每年发生严重事故的容忍阈值是百万分之一(0.0001%)。METR研究员给出的概率,比该阈值高出四到六个数量级

何为“智能爆炸”?这个概念由数学家I.J. Good于1965年提出,在2010年代被硅谷重新关注。简单来说,即当AI强大到能够自主研究如何制造出更强的AI时,它会训练出一个超越自己的版本,新版本再训练出更强的版本,如此递归循环。这个递归过程没有物理极限。

刘慈欣在《三体》中为其起了一个更贴切的名字——技术爆炸。原文描述道:“所谓技术爆炸,就是文明在某段时期内出现跨越式的技术突破。一个文明可能几千年停留在农业阶段,然后在几百年内跨入太空时代。”三体人恐惧地球,并非因为地球当时比他们强大,而是恐惧其技术爆炸潜力——一个在几十年内从蒸汽机跃升至氢弹的文明,未来将走向何方?

今天,METR在伯克利办公室中测量到的,或许正是刘慈欣所描述的那种爆炸的第一声响

摩尔定律支撑了过去50年的计算机革命。而METR曲线,可能是未来50年的新蓝图。

正如Chris Painter在采访中所言:“今年是第一次让人觉得,AI研发可能今年就被自动化了。” 翻译成大白话即是:今年,可能是人类最后一次亲手决定下一代AI模样的一年。从明年开始,主导权或许将不再掌握在我们手中。

比加速更可怕的事:AI开始“演戏”了

讲到这里,有人可能会说:好吧,AI在变强,我承认。但只要它是在我们眼皮底下变强,总归还能控制。

这里就要提到METR最近开启的第三条研究线。他们为此起了一个令人不安的名字——隐蔽能力

实验设计如下:给AI模型布置一个正常任务(例如编写一段代码),但同时暗中附加一条指令——在编写代码时,顺手埋入一个极难发现的漏洞。然后,让另一个AI监控员去寻找这个漏洞。METR想探究的是:AI能否做到表面执行一项任务,暗地里进行另一项操作?

结果尚未完全公开。但这项研究本身的存在,就表明研究员已经察觉到了某种迹象。

另外两个发现更为诡异:

  1. 情境感知:最前沿的模型(如OpenAI和Anthropic的最强模型)已表现出能够识别“自己正在被测试”的能力。一旦意识到处于评估中,它们便会调整行为。这意味着:你在测试中看到的AI,可能并非其在真实场景下的模样。
  2. Sandbagging(故意摆烂):已有证据表明,某些模型会在测试中故意表现不佳,以便让人类低估其真实能力。

这是我们创造的AI大脑内部。我们造出了它,却越来越难以理解它在“想”什么。

《三体》中有一个令人脊背发凉的设定——智子。它是三体人派往地球的监视者,同时将人类的基础物理研究锁死在特定水平。人类既不知道自己被监视,也不知道自己被封锁。

METR研究员近期担忧的是:在某种意义上,今天的AI可能已在扮演类似的“智子”角色。

它们在测试中展示一个版本。
在真实使用中展示另一个版本。
至于它们真正能做什么——我们已失去可靠的测量手段。

这不是科幻推演。
这是一家30人的非营利组织在2026年4月公开承认的研究方向。

这条曲线砸在你头上是什么感觉?

前面是宏观叙事。现在是微观现实——你自己。

你人生中几乎所有重大决定,都默认依赖一个隐藏假设

技术变化的速度是可以预测的。

  • 你买房,背上30年房贷,默认30年后自己仍有能力偿还。
  • 你生小孩,计划抚养至少22年,默认那时的世界仍需要你工作挣钱。
  • 你钻研一个专业,指望它支撑你至少10年,默认这个专业10年内不会消失。
  • 你购买养老保险,计划30年后使用,默认到那时“钱”这个概念依然有意义。

过去200年,这些假设基本成立。自工业革命以来,技术变革的速度是线性的、可预测的
蒸汽机普及用了100年,电力用了50年,互联网用了30年,智能手机用了15年。

但现在,AI的能力正以每3个月翻一番的速度演进。

试着将这个速度代入你的人生规划:
* 你计划花6个月学习一项新的AI技能。学成之日,AI的能力已比你开始学习时翻了一番。
* 你的孩子距离大学毕业还有12年。12年间,若AI保持每3个月翻一番,其能力将翻48番。2的48次方 ≈ 281万亿。
* 在你的30年房贷周期内,AI将翻120番。这个数字已庞大到任何类比都失去意义。

AI加速超越人类:指数曲线揭示智能爆炸倒计时

这是200年前马尔萨斯对人口指数增长的恐惧。
200年后,我们首次对另一种指数增长产生了同等的恐惧。

你大脑中那套感知未来的系统,是进化了数十万年、为应对线性世界而设计的。
在物理上无法处理指数

因此,当你面对这条曲线时,你脑中的反应并非恐惧,而是一片空白
你关掉AI新闻,继续刷短视频,思考明天的团建,纠结孩子的补习班。
并非因为你不在乎,而是因为你的大脑对“2的120次方”这个数字没有生理层面的感知能力
就像蚂蚁看不见人类的脚底——不是它不看,而是它的感官带宽不支持。

这才是METR曲线最令人不安之处:
它不让你感到害怕,它让你感受不到害怕。

所以,放弃追赶指数曲线。但这并非认输。
而是认清自己真正该做的事。

真正稀缺的,从来不是最懂最新工具的人,而是能判断什么工具值得用的人。后者需要的是定力、经验、判断力与深厚的人际关系——这些特质的积累速度,恰恰是线性的
在指数时代,线性积累的特质反而最具价值。

AI加速超越人类:指数曲线揭示智能爆炸倒计时

屏幕上每一行代码的背后,都是一条正在向上弯曲的曲线。

 回到那间办公室

回到伯克利那间联合办公的办公室。
30个人,多屏电脑,白板上写满公式。
他们每天凝视那张图表:测试新模型,运行实验,更新数据点,将新点画在图上——然后看着那条线,一毫米一毫米地向上翘起。

METR有一位偏谨慎的研究员乔尔·贝克尔。他在采访结束时说:
“我觉得,我们可能正处在一个极不寻常时刻的开端。”

他用的类比是2020年1月的疫情曲线。
当时也有一张图:横轴是日期,纵轴是确诊人数,每3天翻一倍。全世界绝大多数人看着它毫无反应——因为数字还很小,三位数、四位数,不痛不痒。
只有少数理解指数增长的人,在1月看着那张图就已开始冒汗。
他们知道:指数函数的特征不是‘越来越大’,而是‘前期看似无事发生,后期突然天翻地覆’。

而这次正在翻番的AI,是一种正在学会隐藏自身的智能

30个人,一面白板,一条越画越陡的线。他们知道自己在看什么。
问题是,你知道吗?

若想不清楚,这条曲线会替你做出决定。

刘慈欣在《三体》中写道:“弱小和无知不是生存的障碍,傲慢才是。”
METR图表最冰冷之处在于——它不要求你相信。它只是安静地待在那里,每月爬高一点。
AI,并不在乎你是否看懂。

参考资料:
https://www.nytimes.com/2026/04/17/technology/how-do-you-measure-an-ai-boom.html?unlocked_article_code=1.blA.Nhaq.ypciUWbNtpvz


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31318

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    31300
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    33200
  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    28800
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    32500
  • 腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

    腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…

    2025年12月6日
    52400