斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

19小时前 • AI产业动态 • 阅读 52

LLM-as-a-Verifier：斯坦福、伯克利与英伟达联合提出的验证框架，通过扩展计算量显著提升Agent性能

Transformer论文作者Lukasz Kaiser及GAN论文作者Bing Xu共同转发了一项备受关注的工作——LLM-as-a-Verifier验证框架。该框架作为一种通用验证机制，能够与任意Agent Harness及模型无缝结合。

此项研究由斯坦福大学、加州大学伯克利分校与英伟达联合完成。研究发现，通过扩展验证阶段的计算量（scaling verification compute） ，可以显著提升Agent的整体性能。在最具影响力的AI编程基准测试Terminal-Bench上，该框架的表现超越了Claude Mythos和GPT-5.5。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier在AI编程基准Terminal-Bench和SWE-Bench Verified上均取得了当前最优（SOTA）性能。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

方法

大多数Agent Harness实际上已经具备了解决问题的能力。当我们多次运行同一个Agent（例如运行100次），它在某一次尝试中往往能够生成正确答案。然而，问题在于这些Agent无法判断哪一个答案才是正确的。这一问题在长时序任务（long-horizon tasks）中尤为突出。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier通过扩展评分token的细粒度（score granularity）、多次评估（repeated verification）以及评价标准的分解（criteria decomposition），显著提升了验证能力，并进一步提高了下游任务的成功率。此外，团队发现随着评分token细粒度的提升，正负样本之间的得分区分度会进一步拉大。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

核心问题：LLM-as-a-Judge的局限性

标准的LLM-as-a-Judge方法通过提示模型输出一个评分结果（例如1到8之间的分数），并选择概率最高的评分作为最终的离散分数。然而，这种方法往往存在评分粒度过于粗糙的问题。在比较长时序Agent轨迹（trajectories）时，LLM-as-a-Judge通常会为不同的轨迹分配相同的分数（例如两条轨迹都被评为4分），从而导致平局，无法有效区分它们。这种粗粒度的评分机制在Terminal-Bench上出现了27% 的平局情况，这严重限制了评判的精确性和区分能力。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier：从判分到验证的范式转变

从定义上讲，judge（裁判者）是对整体情况形成总体判断并给出结论的人；而verifier（验证者）则是对具体事项进行真实及正确性核验的人，因此需要更细致、更具体的评估。为此，团队提出了LLM-as-a-Verifier。它通过扩展以下三个维度来提供细粒度反馈：

评分token的粒度（granularity of score tokens）
重复验证的次数（repeated verifications）
评估标准的分解（decomposition of evaluation criteria）

给定任务t以及两条候选轨迹，LLM-as-a-Verifier构造评分prompt，并通过从和中提取top logprobs，得到对应的条件分布：

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier将轨迹的奖励表示为：

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

其中：
* C = 评估标准的数量
* K = 重复验证的次数
* G = 评分token的数量（粒度等级）
*

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

是模型对评分token的概率
*

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

= 每个评分token映射为标量数值的函数
*

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

= 离散评分token集合

在选择最佳轨迹时，我们采用循环赛（round-robin tournament）：对每一对候选轨迹(i, j)，验证器都会利用上述公式计算其reward。奖励更高的轨迹获得胜利，而在全部比较中胜场数最多的轨迹，将被选为最终结果。

实验结果

在Terminal-Bench 2.0和SWE-Bench Verified等复杂的长时序基准任务中，LLM-as-a-Verifier的表现全面超越了前沿模型，并均取得了当前最优（SOTA）性能。所有实验结果均来源于官方排行榜。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier能够在不同的Agent Harness框架中实现无缝集成，其通用性已在以下三个基准任务中得到验证：

ForgeCode：验证准确率提升至86.4%
Terminus-Kira：准确率提升至79.4%
Terminus 2：准确率增加至71.2%

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

这表明，无论针对何种Agent Harness或模型，该验证方法皆可高效兼容并提升性能。

LLM-as-a-Verifier在验证准确率和消除平局方面全面领先于传统的LLM-as-a-Judge。即使在增加重复验证次数的情况下（如k=16），Verifier方法依然保持了至少7%的验证准确率优势。此外，它完全消除了平局现象。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

试验结果表明，增加评分token的粒度（granularity）以及提高重复验证次数（repeated verifications）均能显著提高验证准确率。此外，在评分token维度的细化分级（1→20）中，量化误差得到了极大降低，从而更接近真实奖励。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

LLM-as-a-Verifier放弃了传统的单一评分机制，采用将轨迹验证解构为三个可组合的评估标准：

规范合规性（Specification）：轨迹是否符合所有任务要求（路径、命名等）。
输出格式（Output Format）：验证输出的格式是否符合预期结果。
错误检测（Error Checking）：轨迹中是否存在明显的错误信号。

斯坦福伯克利英伟达联手：LLM-as-a-Verifier验证框架，扩展计算量显著提升Agent性能

相比传统的LLM-as-a-Judge方法，LLM-as-a-Verifier框架利用更细致的评分粒度、重复验证以及评估标准分解，实现了更高的验证准确率和更精确的区分能力，消除了评分平局现象，不仅提升了Agent性能，还显著增强了模型在长时序任务中的安全性和稳定性。

团队介绍

本项目由斯坦福大学CS博士生Jacky Kwok负责。主要贡献者包括伯克利EECS博士生Shulu Li。通讯作者有Ion Stoica（UC伯克利教授、Databricks创始人）、Azalia Mirhoseini（斯坦福教授，曾任职于DeepMind与Anthropic）以及Marco Pavone（英伟达AI与自动驾驶研究总监）。

博客：llm-as-a-verifier.notion.site
代码：llm-as-a-verifier.github.io
联系方式：jackykwok@stanford.edu

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/32372

Agent LLM-as-a-Verifier Terminal-Bench 计算量扩展验证框架

赞 (0)

0 0

阿里HappyHorse 1.0正式上线：免费体验，视频生成效果惊艳，动作与镜头语言全面升级

上一篇 19小时前

突破极端边缘计算极限：AI引擎如何让科学推理性能飙升4倍，打破FPGA部署瓶颈

下一篇 19小时前

AI产业动态

玄武CLI：国产开源框架实现Clawdbot本地一键部署，原生适配国产芯片

Clawdbot的火爆与成本挑战 Clawdbot（现名为OpenClaw）近期引发了现象级的关注。上线不到一周，其GitHub仓库便收获了12万 Star，相关硬件一度售罄，多家头部科技公司迅速跟进集成，各类应用教程也广泛传播。其热度之高，甚至促使Anthropic官方两次要求其更名。 Clawdbot的核心吸引力在于，它不再是一个简单的对话机器人，而是…

2026年2月3日
505000
AI产业动态

从AI作曲到智能创作中心：酷睿Ultra如何重塑PC的AI生产力边界

在数字内容创作日益普及的今天，AI技术正以前所未有的深度渗透到创意生产的各个环节。近期，QQ音乐推出的“AI作歌”功能，凭借其简洁的操作流程和本地化推理能力，引发了广泛关注。用户只需点击界面中的AI作歌按钮，输入创作灵感并选择曲风，系统便能在几分钟内生成包含完整结构的歌词与旋律。这一功能不仅降低了音乐创作的门槛，更揭示了AI PC作为新一代计算平台在重塑个人…

2025年12月16日
312000
AI产业动态

TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代

关键词： TileRT、大语言模型、推理引擎、低延迟、编译器副标题： 600 tokens/s！TileRT 让千亿参数模型推理进入毫秒时代 TileRT v0.1.3 是一次里程碑式的发布，标志着 TileRT 从仅支持 DeepSeek-V3.2 单一模型扩展为多模型架构支持。本版本新增了对最新 GLM-5 模型的完整推理支持，并在 8× NVIDIA…

2026年2月14日
979000
AI产业动态

DeepSeek-V4预览版发布：百万级上下文与混合注意力架构，开源引领新突破

终于，全球 AI 圈等待了几个月的 DeepSeek V4，它终于来了！今天上午，DeepSeek API 文档上线，让我们看到了新版本的「庐山真面目」。此次，DeepSeek V4 按大小会有两个版本，分别是 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。上下文长度大家此前已经知道了，是 100 万 tokens。同时，输出长…

4天前
400000
AI产业动态

AI生成Mermaid代码的渲染难题：beautiful-mermaid工具如何让图表在终端中“活”起来

现在用 AI 工具生成 Mermaid，已经成了很多人的日常。无论是 ChatGPT、Claude，还是各类 Copilot 或 Agent，只需一句话，就能生成流程图、时序图或系统架构图的 Mermaid 代码——效率极高。但很快会遇到一个现实问题： AI 把图“写”出来了，但你很难把它“好看地展示”出来。问题不在生成，而在渲染 Mermaid 默认…

2026年2月11日
894000