Terminal-Bench

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier：斯坦福、伯克利与英伟达联合提出的验证框架，通过扩展计算量显著提升Agent性能 Transformer论文作者Lukasz Kaiser及GAN论文作者Bing Xu共同转发了一项备受关注的工作——LLM-as-a-Verifier验证框架。该框架作为一种通用验证机制，能够与任意Agent Harness及模型无缝结合。 …

2026年4月27日

195000

AI产业动态

斯坦福伯克利英伟达联合发布Agent验证框架：扩展验证计算量超越GPT-5.5

本项目由斯坦福大学计算机科学博士生 Jacky Kwok 主导，核心贡献者包括伯克利 EECS 博士生 Shulu Li。通讯作者阵容包括：Ion Stoica（加州大学伯克利分校教授、Databricks 创始人）、Azalia Mirhoseini（斯坦福大学教授，曾任职于 DeepMind 与 Anthropic）以及 Marco Pavone（英伟达…

2026年4月26日

277000

大模型工程

华为CLI-Gym：首个公开的Terminal-Bench环境交互任务数据规模化方案，解决率提升20%

「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布！」开源完整自动化数据构建算法构建 1655 个高可靠 CLI 任务环境镜像通过 291 条轨迹数据带来 20% 解决率提升在 Agentic Coding 领域，基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中，业界涌现了大量相关工作，例如 …

2026年2月25日

413000

AI产业动态

基础设施配置如何让Agent评测分数波动6%：Anthropic揭示基准测试的隐藏变量

摘要：Anthropic发现，Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果，并给出了具体建议。问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…

2026年2月7日

348000