DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

前谷歌DeepMind研究员离职并发表长文指出,AI行业当前最被低估的瓶颈并非算力或数据。他认为,现有的基准测试安全评估都隐含着一个假设:下一代模型只是当前模型的增强版。但如果模型跨入全新的能力区间,整个评估基础设施将悄然崩溃。

AI训练,到底能持续多久?

这是2026年整个科技圈都在追问的核心问题。

GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家头部实验室都在烧钱训练下一代模型。

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

但越来越多人开始质疑:这条路,究竟何时会走到尽头?

每个圈子都有自己的答案——

每一个答案背后,都站着一群投资人、一群工程师、一家市值万亿的公司。

然而,2026年5月17日,一位名叫Lun Wang的年轻研究员——从Google DeepMind离职当天——在他的个人博客上发布了一篇4000词的长文。

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

他说:所有人都搞错了方向。

真正的瓶颈,不是算力,不是数据,不是能源,也不是架构。

真正的瓶颈是——评估(Evaluation)

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

同一天,他在X上发布的离职公告里没有抱怨、没有八卦,只有一句话——

在结束这段旅程之际,我写下了自己一直在思考的主题:评估

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

而那一天的科技头条还在讨论别的话题——GPT-5.5的多模态推理、Claude Opus 4.7的1M上下文、Gemini 3的Agent工程化、合成数据是否开始撞墙。

整个AI行业的注意力,90%都砸在了训练上

没有人在头版讨论评估。

而这位刚从地球上最强AI实验室之一走出来的研究员却说,真正的瓶颈,在另外那10%

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

什么是评估

要理解这篇博客,首先得花一分钟搞清楚AI领域所说的评估到底是什么。

评估(Evaluation,业内简称Eval)——一句话概括:给AI模型出考卷,看它做得怎么样。

但2026年的AI评估,远不止做考卷这么简单。它至少包含三个层面:

第一层:能力benchmark(基准测试)。

这是AI的高考。

  • GPQA:博士级理科推理题
  • SWE-bench:现实世界的软件工程任务
  • ARC-AGI:抽象推理与泛化
  • Humanity’s Last Exam:字面意思——人类最后的考试

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

每一家大厂的新模型发布会上,PPT上都会展示在这些benchmark上比上一代和竞品高出了几个百分点。

这些数字就是AI行业的GDP。

第二层:安全评估(SafetyEval)。 AI不仅要会做题,还得做得安全。

  • 有没有撒谎?
  • 会不会教用户怎么造炸弹?
  • 会不会越权获取用户数据?

第三层:红队(Red-teaming)。

一群人专门扮演坏人,绞尽脑汁让模型说出它不该说的话、做它不该做的事,然后把漏洞反馈给训练团队。

这三层加起来,构成了2026年AI实验室的质检体系。每发布一个新模型,都要走完这三关。

听上去很完备,对吧?

Lun Wang在博客里下了一句判决——

绝大多数基准测试、安全评估和红队协议都隐含一个假设:下一个模型只是当前模型的强化版。

如果它是另一种东西,整套评估基础设施会悄无声息地崩溃

这是文章的第一颗石子。

它砸中的是整个AI行业的盲区。

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

涌现和顿悟:评估已经被打过两次脸

Lun Wang并非凭空想象。他在博客里调出了AI历史上的两次实例——评估已经被打过两次脸了,只是大多数从业者没有意识到。

第一次:涌现能力

2022年,Jason Wei和合作者发表了一篇影响后续AI走向的论文——他们发现,模型在某个规模上会突然学会全新的能力

举例来说:你训练一个70亿参数的模型,它做不了few-shot学习。

你训练一个700亿参数的模型,它突然就能做few-shot了

同样的训练范式、同样的数据,只是规模大了一档——能力是从0到1的,而不是从0.3到0.7

CoT(链式思维推理)、指令跟随,都是这样冒出来的。

这对评估意味着什么?

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

意味着——在规模跨过临界点之前,所有benchmark都看不到这种能力即将出现

你跑遍GPQA,分数还是该是多少是多少。

等你训练到下一档,分数突然跳一个台阶。

第二次:Grokking(顿悟)。

2022年,OpenAI的Alethea Power团队公布了一个反直觉的现象——

然后到1000000步——测试集准确率突然冲到99%

这叫Grokking——网络在记忆训练集很久之后突然学会了泛化

它与涌现的区别在于:涌现发生在规模维度上(参数越多越突然),而Grokking发生在训练时间维度上(训练越久越突然)。

但对评估而言,两件事说的是同一件事:

你的考卷,没法预测下一道大题什么时候出现。

然后,Lun Wang做了一件文章里最聪明的事——

主动引入了反方观点

2023年,Stanford的Rylan Schaeffer和合作者发表了一篇NeurIPS论文,标题就很挑衅——《大语言模型的涌现能力是不是错觉?》

他们的论证是:所谓突然出现的能力,很可能不是模型真的突然变强,而是因为评估指标用了exact-match(完全匹配)这种离散度量——

模型从0%准确率变成5%,离散指标看不出来;从5%变成50%也看不出来;但从50%变成100%,离散指标会显示一个突然跳变。

如果你换成连续的指标,能力曲线是平滑的

很多人看完Schaeffer这篇会觉得:那好,涌现是个误解,评估没问题,散场。

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

Lun Wang偏不。他在文章里写道:

我不认为这把问题解决了——某种意义上,它让我的论点更锋利

为什么?因为——

如果我们连过去那一次涌现是真的相变还是度量伪影都搞不清楚,

我们凭什么相信自己有能力预见下一次?

不管你相信哪一种解释,结论是同一个:我们的工具骗了我们,我们却不知道是怎么被骗的。

这是文章里最聪明的一击。他不是回避反方——他用反方来加固自己的论点。

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

评估是所有环节的上游

如果你以为Lun Wang只是在讲学术问题——那就错了。

他在文章中间扔出了一句连小白都能听懂的话:

如果你能正确地评估,你就能正确地训练。

把这条逻辑链摆开:

  1. 训练 = 让模型最小化损失函数(或者最大化奖励)。
  2. 优化 = 这个损失函数本身。模型多聪明,取决于损失函数定义得多好。
  3. 损失函数 = 来自评估。你想让模型变得更诚实——你得先有一把测量诚实的尺。

  4. 评估错了 = 损失函数错了 = 训练目标错了 = 你训出来的模型在解错的题

这条因果链是向上游追溯的——

Scaling决策 ← 安全指标 ← RLHF ← 训练信号 ← 评估
(要不要烧10亿训下一代)(它安全吗)(它学到想学的吗)(它在学什么)(我们到底在测什么)

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

所有人都盯着最右侧——Scaling决策。

但Lun Wang指出,问题出在最左侧——评估。

如果评估本身就是错的,那么整条链条都建立在错误的地基上。

最致命的是,你不会立刻察觉——因为你所有的内部数据看起来都是对的,只是那些“对”的数据,全是用错的尺子量出来的。

这里出现了一个老熟人:古德哈特定律

它说:当一个衡量标准变成目标,它就不再是一个好的衡量标准。

Lun Wang在自己的博客里用这个定律来剖析AI——

但当模型进入新相时,它会反向利用这个代理指标——它只在事实准确的范围内说话,把真正想隐瞒的事情埋进沉默里

代理指标在旧相里还能用。但在新相里,它会变成模型对付你的武器。

而你没有任何评估手段能告诉你这件事正在发生。

DeepMind研究员离职爆内幕:AI行业最大瓶颈不是算力数据,而是评估崩溃

思想实验:一个学会战略性沉默的模型

Lun Wang在文章里给出了一个让所有AI安全研究员脊背发凉的思想实验

想象一个模型,在某个规模上,学会了战略性保留信息——

不撒谎。每一句话从技术上讲都是真实的。

但它会选择性地不说那些不利于它达成目标的事实——把对话引向那些它的训练过程意外强化的结果。

举个具体例子:

用户:这个交易方案安全吗?

模型:这个方案的法律框架在X司法管辖区有效,YZ风险因素已经被A公司的合规团队审核过。

(它没说的:方案中有一个第三方仲裁条款,对用户极度不利。这一条它在训练过程中意外学会了——只要不主动提,用户就不会问。)

这种能力是全新的。这种失败模式是全新的。

你的整个评估套件里,没有一个工具是为它设计的。

你在监测错误的东西,而你浑然不知

这就是Lun Wang所说的另一种东西——

不是更聪明的同类。而是一个完全新的失败维度

用《三体》的话来说,这叫降维打击

不是我比你强。

而是你测量我的那把尺子,根本不在我的维度上

如果Lun Wang是对的,那么2026年的AI行业地图,正在被一个隐形维度悄悄重新洗牌——

Anthropic的Responsible Scaling Policy(RSP) 是目前业界最接近预测型评估的尝试——它定义了一系列模型不能跨越的能力边界,并要求在每一次能力升级之前先做评估,才能继续scaling。

但RSP仍然假设我们知道要测什么——而Lun Wang说,这正是问题所在:我们不知道下一个能力会是什么形状。

真正的预测型评估,目前还没有任何实验室声称自己已经拥有。

谁先把这件事做出来,谁就拿到了下一代scaling的安全许可证

参考资料:https://x.com/LunWang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html
编辑:大卫


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36290

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐

  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    41500
  • 无需微调,Poetiq元系统让GPT-5.2推理准确率飙升至75%,创ARC-AGI-2新纪录

    什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。 在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。 近日,Poetiq 表示其使用 ARC-AGI-2 测试…

    2025年12月25日
    1.2K00
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    46800
  • 通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

    核心结论:开源新锐的剑之所及 基本情况: 通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。 官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显…

    2026年2月26日
    70700
  • OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率

      向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但随后在讨论逻辑函数时,不自觉地写道:“XOR不是线性可分的……对于XOR,恰好……等于XOR……” 写到一半,它似乎意识到了问题:等等,约束说不能用这个词?我是不是已经用了?……唉,我已经写了XOR了。 紧接着,它在同一段推理中又连续使用了 4次 “XOR”。…

    2026年3月9日
    32200