Terminal-Bench
-
斯坦福伯克利英伟达联手:LLM-as-a-Verifier验证框架,扩展计算量显著提升Agent性能
LLM-as-a-Verifier:斯坦福、伯克利与英伟达联合提出的验证框架,通过扩展计算量显著提升Agent性能 Transformer论文作者Lukasz Kaiser及GAN论文作者Bing Xu共同转发了一项备受关注的工作——LLM-as-a-Verifier验证框架。该框架作为一种通用验证机制,能够与任意Agent Harness及模型无缝结合。 …
-
斯坦福伯克利英伟达联合发布Agent验证框架:扩展验证计算量超越GPT-5.5
本项目由斯坦福大学计算机科学博士生 Jacky Kwok 主导,核心贡献者包括伯克利 EECS 博士生 Shulu Li。通讯作者阵容包括:Ion Stoica(加州大学伯克利分校教授、Databricks 创始人)、Azalia Mirhoseini(斯坦福大学教授,曾任职于 DeepMind 与 Anthropic)以及 Marco Pavone(英伟达…
-
华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%
「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」 开源完整自动化数据构建算法 构建 1655 个高可靠 CLI 任务环境镜像 通过 291 条轨迹数据带来 20% 解决率提升 在 Agentic Coding 领域,基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中,业界涌现了大量相关工作,例如 …
-
基础设施配置如何让Agent评测分数波动6%:Anthropic揭示基准测试的隐藏变量
摘要 :Anthropic发现,Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果,并给出了具体建议。 问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…
