Reagent框架：为AI智能体引入“过程分”奖励机制，破解稀疏奖励难题

在许多大模型与智能体的训练范式中，普遍存在一种“唯结果论”的做法：仅根据最终答案的正确与否给予奖励，正确则得分，错误则得零分。

在单轮问答场景中，这种“只看结果”的机制尚可勉强应对。然而，当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时，仅用一个比特（对/错）来概括整条复杂的行为轨迹，就显得过于粗糙。

其后果是：那些仅差一步就能成功的尝试，与从一开始就方向错误的尝试，在奖励机制看来毫无区别。训练过程无法区分不同失败的价值，而依赖人工编写规则或进行细粒度打分，又难以覆盖开放环境、多模态交互等复杂情况。

港中文与美团的研究团队在这项工作中，正是瞄准了这一核心矛盾：智能体需要长程、细粒度的反馈来指导学习，但我们通常只能提供终局对错这类粗粒度的奖励信号。

论文标题：Exploring Reasoning Reward Model for Agents
论文链接：https://arxiv.org/pdf/2601.22154
项目地址：https://github.com/kxfan2002/Reagent

为解决这一矛盾，作者首先构建了一个“懂推理、能理解工具调用”的评审模型，为智能体的完整行为轨迹打出“过程分”并提供“评语”，再将这份反馈用于训练。

这也是 Reagent 框架的核心出发点：让智能体不再只对最终结果负责，也要为其思考过程和工具调用行为负责。

为智能体的思路打分

这项工作的关键一步，在于不再仅关注智能体最终是否答对问题，而是开始系统性地为整个思考过程评分。

研究团队首先构建了一套面向智能体的“思考评分”数据集：其中收集了各种真实的智能体行为轨迹，包括推理顺畅但执行失误的、一路乱猜却侥幸蒙对的，以及工具使用混乱的案例。每条轨迹都被标注为一份“阅卷意见”，既指出思路的合理之处与明显偏差，也给出一个0到1之间的整体分数。

基于这套数据，他们训练了一个专门的“思考评分模型”——Agent-RRM。该模型不会只检查最终答案，而是通览整个过程，然后输出三部分内容：一段内部分析、一小段给智能体看的批评意见，以及一个综合分数。

举例而言：
* 两条轨迹最终都答对了，但其中一条逻辑跳跃严重、工具滥用，只是误打误撞得到正确答案，Agent-RRM 可能只给0.3分；
* 另一条从一开始就分析清晰，明确何时该搜索、何时点击网页、如何利用信息，这种思路就可能获得0.9分。

这类似于老师批改试卷，不仅看最终选择了哪个选项，还会审视中间的演算步骤，给出“过程分”。此举目标明确：教会智能体“如何思考”与“如何使用工具”，而非仅仅“如何猜对答案”。

统一文本批评与奖励信号：Reagent 框架

拥有了能打“思维分”的 Agent-RRM 后，还需解决如何将这些反馈有效用于智能体训练的问题。这正是 Reagent 框架的使命：将“文字点评”与“分数奖励”统一起来，应用于智能体训练。

作者设计了三种应用方式，可理解为三种不同程度的“加持”：

① 仅添加点评，不修改模型（Reagent-C）
这是最轻量级的方式：不改变智能体参数，仅在推理时增加一个“听取讲评”的步骤。
大致流程是：智能体先尝试解题，Agent-RRM 审阅后提供一小段批评意见，指出关键问题，然后智能体基于此点评重新作答。这相当于为任何现有的大模型外挂一个“老师帮你看一眼再交卷”的过程。

② 为奖励添加“过程分”（Reagent-R）
更进一步，是将 Agent-RRM 打出的分数作为额外奖励引入训练。
以往的训练仅关注“做对/做错”的最终信号，现在则变为“结果对错”与“过程好坏”两条奖励线并行计算：即使最终未能完全做对，只要思路清晰、工具使用合理，也不会被当作无效样本完全否定。这对于长链条、多工具的任务尤为重要，有助于缓解“一不小心就全是零分”的奖励稀疏问题。

③ 将“初次尝试”与“批评后重试”一同训练（Reagent-U）
这是文章重点强调的最强模式——Reagent-U。它同时利用两种反馈：
* 一方面，让智能体学会在初次尝试时就减少低级错误；
* 另一方面，也教会它“在听取批评后，如何更聪明地修正答案”。

训练时，同一个问题会产生“首次回答”和“听取点评后再回答”两条轨迹，它们都获得“结果奖励+过程分数”，并一同放入训练循环中进行优化。这样做的好处是：模型不会仅在单一模式下优化，而是整体学习“如何想清楚”、“如何用好工具”以及“如何根据反馈自我修正”。

在实际部署时，Reagent-U 无需再依赖外部的 Agent-RRM 提供点评，可直接像普通智能体一样使用——那些“老师改卷时说过的话”，已被内化到模型参数之中。

实际效果如何？

在实验中，作者主要评估了三方面：文本点评本身是否有效、过程分数能否帮助强化学习取得更好效果、以及统一框架后是否带来整体提升。

首先，在最轻量的“仅添加文本点评”模式下，实验表明，在多项数学和搜索任务上，“听取一段 Agent-RRM 的批评意见后重答”，确实能稳定提升正确率。

其次，将过程分数加入训练后，智能体不再仅仅迎合最终的对错信号，而是更倾向于选择那些“虽然本次未完全成功，但整体思路正确”的行为方向。

最后，当文本批评与奖励分数在 Reagent-U 中统一起来时，提升更为显著：
在通用智能体基准 GAIA 的文本子集上，基于 8B 参数的 Reagent-U 模型，能将平均成绩提升至 43.7%，基本追上甚至部分超越了某些参数量更大的开源智能体。在 WebWalkerQA、HLE、xbench 等其他复杂任务上，其表现也普遍比“仅看终局奖励”的版本更稳定，更不易被“瞎蒙对”或“无效忙碌”的样本带偏。

作者还测试了模型在 GAIA 全集上的表现，面对多模态的通用智能体任务，Reagent-U 同样具备竞争力。

港中文与美团联合提出的 Reagent 框架，将“为思考过程打分”的理念切实引入了智能体训练。结果表明，只要能够理解并评价思考过程，即使是 8B 参数级别的智能体，也有机会在诸多复杂任务上取得与更大模型相媲美的表现。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21966

Reagent框架：为AI智能体引入“过程分”奖励机制，破解稀疏奖励难题

为智能体的思路打分

统一文本批评与奖励信号：Reagent 框架

实际效果如何？

相关推荐

SuperOffload：解锁超级芯片潜能，4芯片训练50B模型，吞吐量提升2.5倍，实现55% MFU

英伟达GDPO：突破GRPO局限，精准优化多奖励强化学习

万亿参数训练不再难：GraphPP用图变换彻底消除流水线气泡，加速70%

NCCLbpf：用eBPF为GPU集群通信插上安全与性能的双翼，破解AI训练可靠性难题

大模型训练可靠性革命：Decoupled DiLoCo将有效算力从40%飙升至86%，CAP定理颠覆SPMD范式