资源限制

AI产业动态

基础设施配置如何让Agent评测分数波动6%：Anthropic揭示基准测试的隐藏变量

摘要：Anthropic发现，Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果，并给出了具体建议。问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…

2026年2月7日
348000