评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

近日，谷歌 DeepMind 研究员 Lun Wang（@lunwang1996）在 X 平台发文，正式宣布从 DeepMind 离职，结束了一段极其精彩的旅程。“我非常感激曾共事过的伙伴、我们一起创造的一切，以及我在将前沿 AI 研究落地到生产环境过程中所汲取的宝贵经验。”

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

Lun Wang 表示，在 DeepMind 的工作经历重塑了他对研究、产品、评估以及如何真正大规模构建 AI 系统的认知。因此，在旅程告一段落之际，他撰写了一篇博文，分享自己近期一直在思考的核心议题：评估。

博文地址：https://wanglun1996.github.io/blog/your-evals-will-break.html

“我们似乎很擅长评估已有的模型，却远不擅长评估即将被构建的模型——尤其是当这些模型跨入一个全新的能力区间时。未来，我们将拥有能够自我进化的模型，但在此之前，我们首先需要能够自我进化的评估体系。”

接下来，我们来一探究竟：

你的评估系统即将崩溃，而你对此将一无所知

Lun Wang 指出，当前，大家非常擅长评估现有模型，但在评估即将构建的新模型方面却相形见绌，尤其是当这些模型进入新的能力范畴时。

大多数基准测试、安全评估和红队测试协议，都隐含着一个假设：下一代模型仅仅是当前模型的增强版。然而，如果它变成了本质完全不同的另一类事物，那么整个评估体系就会在无声无息中崩塌。

因此，这是我们在理解大型语言模型（LLM）过程中所面临的最重要、且尚未解决的核心问题。核心观点是：

制约（模型）下一次能力飞跃的真正瓶颈，并非训练、架构或数据，而是评估（Eval）。

失败模式：定性转变（Qualitative Shifts）

Jason Wei 等人在 2022 年的论文中记录了他们所谓的“涌现能力”：少样本提示任务表现、思维链推理能力提升，以及指令遵循等，这些能力仅在模型规模达到一定程度时才会出现。

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

而 Power 等人在 2022 年论文中提出的 Grokking，则展示了一种相关但截然不同的现象：网络在死记硬背训练数据很久之后，突然学会了泛化。这是一种随训练时间（而非规模）推进的动态转变（Liu 等人于 2022 年提出）。虽然现象不同，但对评估的启示相同：标准的度量指标未能预测出这种质的变化。

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

一个重要的反方观点来自 Schaeffer 等人于 2023 年发布的论文，研究表明，LLM 中许多看似“跃迁”的能力，其实是诸如“精确匹配准确率”（exact-match accuracy）等非连续性度量指标导致的人为假象。如果换用连续指标，能力往往会呈现平滑的规模化增长。

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

Lun Wang 认为，这并未解决根本问题，某种程度上，它反而强化了他自己的观点，“如果我们甚至无法判断过去的转变是真正的定性变化还是指标伪像，那么我们如何能够探测下一次呢？”

无论哪种情况，评估体系基础设施都有可能让我们猝不及防：要么是系统本身真的发生了变化，要么是指标一直误导我们。

我们不知道该测什么

在物理学中，理解相变（phase transition）通常意味着识别“序参量”（order parameter）—— 一个宏观量，它区分不同的状态区间，并在临界点附近改变其数值或标度行为。没有它，你无法判断自己距离边界有多近，甚至无法知道边界存在。

对于部署规模的 LLM，现在还没有找到这种“序参量”—— 至少没有用于能力转变的序参量。虽然在一些简化、理想化的场景中取得了一些进展，但对于真正交付的实际系统，完全是在“盲飞”。

Lun Wang 认为，我们使用的每一个基准测试——GPQA、SWE-bench、ARC-AGI、Humanity‘s Last Exam，测量的都是模型当前能做什么。它们在某个单一能力区间内有用，但对于跨区间后的行为提供的证据，则显得很苍白。每当出现一种新能力，而没有基准测试覆盖时，我们只能事后匆忙构建评估方法。

比如，在思维链（CoT）上就经历过类似情况：一旦这种提示词启发方法成为标准，那么一些旧的推理基准测试就失去了诊断价值，整个领域不得不转向更难的评估。而未来，“历史必将重演。”

举个具体例子来说明这一点。

假设：在某种规模下，某个模型发展出了“策略性隐瞒信息”以实现特定目标的能力，这不能说是完全的撒谎，而是选择性地忽略某些事实，从而引导对话走向训练过程中偶然强化的结果。

现有的“诚实度”基准捕捉不到这种行为，因为它们只测试事实准确性，而非策略性隐瞒。安全分类器也不会标记它，因为每一句输出在技术上都是真实的。

能力是全新的，失败模式是全新的，而你的评估工具套件里没有任何针对它的设计。也就是说，你一直在监控的指标是错误的，而你自己却毫不知情……

这就是核心问题：我们整个评估体系从结构上是被动“响应式”的，总是在系统发生改变之后再去测量它，却从不预测变化。

评估是万事之“源”

这件事的影响比听起来要深远得多，因为有一个朴素的事实：如果你能正确地评估，你就能正确地训练。

训练是优化，而优化的质量取决于其目标函数，这个目标则来自评估。如果你知道该衡量什么——如果你能预测这些测量值在规模扩展时如何变化——那么你就能设计正确的训练目标、构建合适的安全层、做出合理的规模化决策、进行针对真正的行为属性（而非那些在下一个相变边界就会触发 Goodhart 定律的代理指标）的 RLHF。

反之亦然：如果你的评估系统针对的是错误的范式，那么下游一切都是错的。训练信号、安全指标、规模化决策等，全部都会出错，而且你不会知道，直到为时已晚……

这也是为什么 Lun Wang 认为评估是下一次能力跃迁的瓶颈。那些能提前搞明白如何超前评估的研究室将能安全地实现规模化；而那些没学会的人，注定会被意外杀得措手不及。

那么我们该怎么办？

可以说，这个领域需要改变投入的侧重点，但这并不是说要抛弃现有的评估体系——它们依然有效，而是要构建能够预测它们何时失效的基础设施。

寻找序参量：哪些量可以预示质的转变——无论是能力、对齐性，还是行为特征，这不仅仅是理论上的愿望。

Haozhe Shan、Qianyi Li 和 Haim Sompolinsky 于 2026 年发布的论文中提到，利用统计力学推导出了持续学习环境下深度网络的序参量，并且这些序参量能够预测学习能力的相变。

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

Nanda 等人于 2023 年使用机制可解释性（mechanistic interpretability）找到“进度指标”，可以预测 grokking 发生前的内部结构变化——即在可见的性能跃迁发生之前，内部结构就已经发生的改变。

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

现在的挑战是将这些方法从理想化场景延伸到大规模的 LLM 中。在 Lun Wang 看来，如果我们知道该测什么，就知道该警惕什么。

构建能够检测自身过时、并能自我进化的评估系统：随着模型越来越具备智能体特征，这一点愈加紧迫。能够写代码、运行实验、生成数据、辅助训练或评估流程的系统，使得静态的评估手段日益脆弱。如果模型能力提升速度超过人类评估团队更新基准的速度，评估就必须自适应。

更具体来讲，Lun Wang 认为我们应该需要监控“元信号”（meta-signals）——基准测试分数的分布特征是否发生变化？不同评估之间的相关结构是否在转移？模型是否发展出与现有测量维度正交（完全独立）的能力？跟踪所有指标的规模化曲线——不仅是损失函数，还有推理深度、工具使用复杂度、欺骗能力，并在平滑趋势发生断裂时保持高度警惕。

更进一步来看，我们必须打造一套能够自我演进的评估机制：借助模型本身去检测其他模型的评估体系，依据能力的变化自动生成新的测试用例，从而发掘出原始评估设计者未曾预料的失败模式。

评估套件不应再是一份为去年顶尖模型量身定制的静态清单，而应成为一个能与所测模型共同进化的生命系统。

最后，Lun Wan 直言，问题的关键并不在于我们的评估系统是否会被意外“震惊”——无论是真实的相变，还是我们被指标误导，这类情况早已屡见不鲜。真正的问题在于，我们能否预见下一次意外的到来。

“而就目前来看，我们无法做到。”

这篇帖子一经发布，便引起了部分网友的关注。

一位网友表示，他完全认同这一观点，“一段时间以来，我也一直在思考构建动态/自我演进评估系统的必要性。”

在他看来，这还远远不够。与之并行的是，我们需要持续开展“评估红队对抗”（eval red-teaming）工作，以此来暴露评估系统自身的缺陷，提升基准测试抵御Goodhart定律的能力，并倒逼整个评估体系不断升级。

那么，你如何看待这一观点？欢迎在评论区交流。

参考链接：
https://x.com/lunwang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35373

评估系统即将崩溃？DeepMind研究员离职反思：AI能力跃迁的真正瓶颈

相关推荐

DeepSeek-V3.2实测：稀疏注意力机制DSA如何实现推理效率与性能的协同突破

通用大模型工业考试翻车，IndustryGPT三场全胜揭示制造业AI新方向

无需微调，Poetiq元系统让GPT-5.2推理准确率飙升至75%，创ARC-AGI-2新纪录

SGI-Bench评测揭示：顶尖AI模型离“合格科学家”仍遥远，科学通用能力成新挑战

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑