Terminal-Bench
-
华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%
「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」 开源完整自动化数据构建算法 构建 1655 个高可靠 CLI 任务环境镜像 通过 291 条轨迹数据带来 20% 解决率提升 在 Agentic Coding 领域,基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中,业界涌现了大量相关工作,例如 …
-
基础设施配置如何让Agent评测分数波动6%:Anthropic揭示基准测试的隐藏变量
摘要 :Anthropic发现,Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果,并给出了具体建议。 问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…
