Agent评测

基础设施配置如何让Agent评测分数波动6%：Anthropic揭示基准测试的隐藏变量

摘要：Anthropic发现，Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果，并给出了具体建议。问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…

2026年2月7日

118000

AI产业动态

超越能跑就行：Agent评测的三层四维框架与实战指南

传统 Agent 评测的三大盲区当前主流的 Agent 评测方式，主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区：盲区一：只评结果，不评过程Agent 完成了任务，但中间调用了多次不必要的工具、走了弯路，这种「低效完成」和「高效完成」在传统评测中得分相同。盲区二：只评能力，不评工程化Agent 在实验环境表现优秀，但无法部署到生产环境、无…

2026年2月1日

331000