基础设施配置如何让Agent评测分数波动6%:Anthropic揭示基准测试的隐藏变量

摘要 :Anthropic发现,Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果,并给出了具体建议。


问题的发现

SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几个百分点。这些分数常被视为模型相对能力的精确测量,并越来越多地影响着模型部署决策。

然而,Anthropic在内部实验中发现,仅基础设施配置的差异就能产生超过这些差距的分数变化。在Terminal-Bench 2.0上,资源最充足和最受限的配置之间的差距达到了6个百分点(p < 0.01)。

静态基准测试直接对模型输出评分,运行时环境不影响结果。但Agent编程评测不同:模型被赋予一个完整环境,在其中编写程序、运行测试、安装依赖,并进行多轮迭代。运行时环境不再是被动的容器,而是问题解决过程的组成部分。

资源预算和时间限制不同的两个Agent,实际上并不是在做同一份测试。评测开发者已经开始考虑这个问题。例如,Terminal-Bench 2.0在最新的版本中按任务指定了推荐的CPU和RAM。但是,指定资源不等于一致地执行它们。而且Anthropic发现,执行方法本身会改变基准测试实际测量的内容。

问题是如何被发现的

Anthropic在Google Kubernetes Engine集群上运行Terminal-Bench 2.0。在校准设置时,他们注意到分数与基准测试的官方排行榜不匹配,而且基础设施错误率出奇地高:多达6%的任务因为pod错误而失败,其中大多数与模型解决任务的能力无关。

分数差异归结于执行方式的不同。Kubernetes实现将每个任务的资源规格同时作为下限和硬性上限:每个容器保证获得指定的资源,但一旦超过就会被终止。容器运行时通过两个独立参数来执行资源限制:保证分配(预先保留的资源)和硬性限制(容器被终止的阈值)。当这两个值设置相同时,瞬时峰值就没有任何余量:短暂的内存波动就可能导致一个本可以成功的容器被OOM-kill(内存溢出终止)。

为了解决这个问题,Terminal-Bench的排行榜使用了不同的沙箱提供商,其实现更加宽松,允许临时超额分配而不终止容器,以保障基础设施稳定性。这一发现引出了一个更大的疑问:资源配置对评测分数的影响究竟有多大?

实验设计与结果

为了量化框架的影响,Anthropic在六种资源配置下运行了Terminal-Bench 2.0,从严格执行每个任务的规格(1x,即 Requests 等于 Limits,同时作为下限和上限)到完全不设上限。其他所有条件保持不变:相同的Claude模型、相同的框架、相同的任务集。

实验结果显示,成功率随资源余量增加而上升。这主要是因为基础设施错误率在每一步都单调下降,从严格执行时的5.8%降到不设上限时的0.5%。从严格执行到3倍余量的下降(5.8%到2.1%)在p < 0.001水平上显著。更多余量意味着更少的容器因超出分配而被终止。

从1x到3x,成功分数在噪声范围内波动(p=0.40)。在1x时崩溃的大多数任务无论如何都会失败——这是他们在数据中观察到的。Agent探索、碰到资源墙、被抢占,但它本来就不在通往正确解决方案的路上。

然而从大约3x开始,这一趋势发生了变化:成功率的上升速度超过了基础设施错误的下降速度。从3x到不设上限,基础设施错误又下降了1.6个百分点,而成功率跃升了近4个百分点。额外的资源使Agent能够尝试只有在资源充足时才能工作的方法,比如拉取大型依赖、生成昂贵的子进程、运行内存密集型测试套件。在不设资源上限时,相对于1x的总提升达到了+6个百分点(p < 0.01)。

这对测量意味着什么

大约到3倍Terminal-Bench规格为止,额外资源修复的是基础设施可靠性问题,即瞬时资源峰值。Terminal-Bench维护者使用的沙箱提供商在幕后隐式地做着同样的事情;评测变得更稳定,但没有变得更容易。

然而超过3x标记后,额外资源开始积极帮助Agent解决它以前无法解决的问题,这表明限制实际上会改变评测所测量的内容。紧凑的限制无意中奖励非常高效的策略,而宽松的限制则更加包容,奖励那些能更好利用所有可用资源的Agent。

一个编写精简高效代码且速度很快的Agent在紧凑约束下会表现良好。一个用重量级工具暴力解决问题的Agent在宽松条件下会表现良好。两者都是合理的测试内容,但如果不指定资源配置就将它们折叠成单一分数,差异和现实世界的可推广性就变得难以解释。

一个具体的例子

在bn-fit-modify这个Terminal-Bench任务中,需要进行贝叶斯网络拟合,一些模型的第一步是安装标准的Python数据科学栈:pandas、networkx、scikit-learn及其所有工具链。在宽松限制下,这行得通。在紧凑限制下,pod在安装过程中就耗尽内存,Agent还没写一行解决方案代码。

存在更精简的策略(仅使用标准库从头实现数学计算),有些模型确实默认采用这种方式,有些则不会。不同的模型有不同的默认方法,资源配置决定了哪些方法恰好能成功。

Anthropic在不同的Anthropic模型上复制了核心发现,效应方向一致,幅度有所不同。同样的趋势似乎也适用于Claude以外的模型,但他们没有严格测试。

他们还在Terminal-Bench之外的评测上测试了这一模式,在SWE-bench上进行了交叉实验。在227个问题上将总可用RAM提高到基准的5倍,每个问题10个样本。同样的效应成立,尽管幅度较小:分数再次随RAM单调增加,但5x时仅比1x高1.54个百分点。SWE-bench任务资源密集度较低,所以较小的效应是预期的,但这表明资源分配在那里也不是中性的。 基础设施配置如何让Agent评测分数波动6%:Anthropic揭示基准测试的隐藏变量

其他方差来源

资源分配不是唯一的隐藏变量。在某些配置中,时间限制也开始起作用。原则上,评测设置的每个元素都可能影响最终分数,从集群健康状况到硬件规格,从并发级别到出口带宽。Agent评测本质上是端到端的系统测试,该系统的任何组件都可能成为混淆因素。

Anthropic观察到,通过率随一天中的时间而波动,可能是因为API延迟随流量模式和事件而变化。他们没有正式量化这一效应,但它说明了一个更大的观点:“模型能力”和“基础设施行为”之间的边界比单一基准分数所暗示的更加模糊。

模型提供商可以通过专用硬件来屏蔽其评测基础设施免受这种影响,但外部评测者无法轻易做到同样的事情。公共基准测试通常旨在测量纯粹的模型能力,但实际上它们有将能力与基础设施怪癖混为一谈的风险。有时这可能是可取的,因为它能对整个技术栈进行端到端测试,但更多时候不是。对于打算公开分享的编程评测,在多个时间和多天运行有助于平均掉噪声。

Anthropic的建议

理想情况是在完全相同的硬件条件下运行每个评测——包括运行评测的框架和推理栈——这将确保全面的完美可复现性。然而,这可能并不总是实际可行的。

鉴于容器运行时实际执行资源的方式——通过保证分配和单独的硬性终止阈值——Anthropic建议评测应为每个任务指定这两个参数,而不是单一的固定值。单一的精确规格将保证分配设置为等于终止阈值,不留任何余量:他们在1x时记录的瞬时内存峰值足以使评测不稳定。

分离这两个参数可以给容器足够的呼吸空间以避免虚假的OOM终止,同时仍然执行防止分数膨胀的硬性上限。两者之间的区间应该校准,使得下限和上限的分数落在彼此的噪声范围内。

例如,在Terminal-Bench 2.0中,相对于每个任务规格的3倍上限将基础设施错误率降低了大约三分之二(5.8%到2.1%,p < 0.001),同时保持分数提升适度且在噪声范围内(p = 0.40)。这是一个合理的权衡:基础设施混淆因素在很大程度上被中和,而没有消除有意义的资源压力。确切的倍数会因基准测试和任务分布而异,因此应该报告,但经验校准原则是通用的。

为什么这很重要

基准分数正日益成为决策的重要依据,但这种关注度和依赖性的提升,并未同步带来对评测运行与报告方式的严谨审视。当前,排行榜上2分的领先优势,可能源于模型能力的真实差距,也可能仅仅是因为评测在更强大的硬件上运行,或是在更“幸运”的时间段执行,抑或是两者共同作用的结果。

若缺乏公开或标准化的配置设置,外界将难以辨别差异的根源,除非相关方投入额外精力,在完全相同的条件下复现结果。因此,对于Anthropic这类研究机构而言,应将Agent评测的资源配置视为与提示格式、采样温度同等重要的一级实验变量,予以严格记录和控制。

对于基准测试的维护者,发布推荐的资源规格(如Terminal-Bench 2.0的做法)能提供极大帮助,而进一步明确执行方法将有效弥合现有差距。对于所有参考基准测试结果的用户,核心启示在于:Agent评测中微小的分数差异,其背后蕴含的不确定性远大于报告数字本身的精度所暗示的范围——部分混淆因素本身就极难控制。

在资源方法实现标准化之前,Anthropic的数据表明,对于排行榜上低于3个百分点的差异,在评测配置未被充分记录和匹配的情况下,应持审慎态度。在Terminal-Bench的中等资源配置范围内,观察到的分数分布差异已接近2个百分点。基础的二项式置信区间本身就已涵盖1-2个百分点的波动;而他们记录到的基础设施混淆因素,是叠加在此统计不确定性之上的额外变量。在资源配置范围的极端情况下,分数分布差异甚至可高达6个百分点。

简而言之,几分的领先可能标志着真实的能力突破——也可能仅仅意味着使用了更强大的虚拟机。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20665

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

    百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…

    2026年1月24日
    9100
  • 谷歌Gemini-3-Flash-Preview实测:成本仅为Pro版1/4,性能超越上代Pro,中文评测排名跃升至第5

    谷歌本周发布了Gemini 3 Flash Preview新版本,官方称其“以不到Gemini 3 Pro四分之一的成本提供强大性能”,并声称“在许多基准测试中超越了2.5 Pro”。我们对Gemini 3 Flash Preview和上一代Gemini 2.5 Flash进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差…

    2025年12月19日
    48700
  • GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

    智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…

    2025年10月17日
    57000
  • 百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

    百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界 AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。 百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭…

    2026年1月23日
    7900
  • Gemini 3 Pro深度评测:多模态推理模型如何重塑AI生产力边界

    昨晚,谷歌发布了Gemini 3 Pro,并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环,但对于一线用户而言,核心问题在于:它是否真正能提升生产力? 我们设计了一系列体验场景,这些测试的共同点是:不追求理论分数,而是要求模型生成可直接运行的代码或可交付的成果。 以下是具体的体验情况。 场景1…

    2025年11月19日
    11000