Agent评测
-
基础设施配置如何让Agent评测分数波动6%:Anthropic揭示基准测试的隐藏变量
摘要 :Anthropic发现,Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果,并给出了具体建议。 问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…
-
超越能跑就行:Agent评测的三层四维框架与实战指南
传统 Agent 评测的三大盲区 当前主流的 Agent 评测方式,主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区: 盲区一:只评结果,不评过程Agent 完成了任务,但中间调用了多次不必要的工具、走了弯路,这种「低效完成」和「高效完成」在传统评测中得分相同。 盲区二:只评能力,不评工程化Agent 在实验环境表现优秀,但无法部署到生产环境、无…
