在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。
其后果是:那些仅差一步就能成功的尝试,与从一开始就方向错误的尝试,在奖励机制看来毫无区别。训练过程无法区分不同失败的价值,而依赖人工编写规则或进行细粒度打分,又难以覆盖开放环境、多模态交互等复杂情况。
港中文与美团的研究团队在这项工作中,正是瞄准了这一核心矛盾:智能体需要长程、细粒度的反馈来指导学习,但我们通常只能提供终局对错这类粗粒度的奖励信号。

- 论文标题:Exploring Reasoning Reward Model for Agents
- 论文链接:https://arxiv.org/pdf/2601.22154
- 项目地址:https://github.com/kxfan2002/Reagent
为解决这一矛盾,作者首先构建了一个“懂推理、能理解工具调用”的评审模型,为智能体的完整行为轨迹打出“过程分”并提供“评语”,再将这份反馈用于训练。
这也是 Reagent 框架的核心出发点:让智能体不再只对最终结果负责,也要为其思考过程和工具调用行为负责。
为智能体的思路打分
这项工作的关键一步,在于不再仅关注智能体最终是否答对问题,而是开始系统性地为整个思考过程评分。
研究团队首先构建了一套面向智能体的“思考评分”数据集:其中收集了各种真实的智能体行为轨迹,包括推理顺畅但执行失误的、一路乱猜却侥幸蒙对的,以及工具使用混乱的案例。每条轨迹都被标注为一份“阅卷意见”,既指出思路的合理之处与明显偏差,也给出一个0到1之间的整体分数。
基于这套数据,他们训练了一个专门的“思考评分模型”——Agent-RRM。该模型不会只检查最终答案,而是通览整个过程,然后输出三部分内容:一段内部分析、一小段给智能体看的批评意见,以及一个综合分数。
举例而言:
* 两条轨迹最终都答对了,但其中一条逻辑跳跃严重、工具滥用,只是误打误撞得到正确答案,Agent-RRM 可能只给0.3分;
* 另一条从一开始就分析清晰,明确何时该搜索、何时点击网页、如何利用信息,这种思路就可能获得0.9分。
这类似于老师批改试卷,不仅看最终选择了哪个选项,还会审视中间的演算步骤,给出“过程分”。此举目标明确:教会智能体“如何思考”与“如何使用工具”,而非仅仅“如何猜对答案”。
统一文本批评与奖励信号:Reagent 框架
拥有了能打“思维分”的 Agent-RRM 后,还需解决如何将这些反馈有效用于智能体训练的问题。这正是 Reagent 框架的使命:将“文字点评”与“分数奖励”统一起来,应用于智能体训练。

作者设计了三种应用方式,可理解为三种不同程度的“加持”:
① 仅添加点评,不修改模型(Reagent-C)
这是最轻量级的方式:不改变智能体参数,仅在推理时增加一个“听取讲评”的步骤。
大致流程是:智能体先尝试解题,Agent-RRM 审阅后提供一小段批评意见,指出关键问题,然后智能体基于此点评重新作答。这相当于为任何现有的大模型外挂一个“老师帮你看一眼再交卷”的过程。
② 为奖励添加“过程分”(Reagent-R)
更进一步,是将 Agent-RRM 打出的分数作为额外奖励引入训练。
以往的训练仅关注“做对/做错”的最终信号,现在则变为“结果对错”与“过程好坏”两条奖励线并行计算:即使最终未能完全做对,只要思路清晰、工具使用合理,也不会被当作无效样本完全否定。这对于长链条、多工具的任务尤为重要,有助于缓解“一不小心就全是零分”的奖励稀疏问题。
③ 将“初次尝试”与“批评后重试”一同训练(Reagent-U)
这是文章重点强调的最强模式——Reagent-U。它同时利用两种反馈:
* 一方面,让智能体学会在初次尝试时就减少低级错误;
* 另一方面,也教会它“在听取批评后,如何更聪明地修正答案”。
训练时,同一个问题会产生“首次回答”和“听取点评后再回答”两条轨迹,它们都获得“结果奖励+过程分数”,并一同放入训练循环中进行优化。这样做的好处是:模型不会仅在单一模式下优化,而是整体学习“如何想清楚”、“如何用好工具”以及“如何根据反馈自我修正”。
在实际部署时,Reagent-U 无需再依赖外部的 Agent-RRM 提供点评,可直接像普通智能体一样使用——那些“老师改卷时说过的话”,已被内化到模型参数之中。
实际效果如何?
在实验中,作者主要评估了三方面:文本点评本身是否有效、过程分数能否帮助强化学习取得更好效果、以及统一框架后是否带来整体提升。


首先,在最轻量的“仅添加文本点评”模式下,实验表明,在多项数学和搜索任务上,“听取一段 Agent-RRM 的批评意见后重答”,确实能稳定提升正确率。
其次,将过程分数加入训练后,智能体不再仅仅迎合最终的对错信号,而是更倾向于选择那些“虽然本次未完全成功,但整体思路正确”的行为方向。
最后,当文本批评与奖励分数在 Reagent-U 中统一起来时,提升更为显著:
在通用智能体基准 GAIA 的文本子集上,基于 8B 参数的 Reagent-U 模型,能将平均成绩提升至 43.7%,基本追上甚至部分超越了某些参数量更大的开源智能体。在 WebWalkerQA、HLE、xbench 等其他复杂任务上,其表现也普遍比“仅看终局奖励”的版本更稳定,更不易被“瞎蒙对”或“无效忙碌”的样本带偏。
作者还测试了模型在 GAIA 全集上的表现,面对多模态的通用智能体任务,Reagent-U 同样具备竞争力。

港中文与美团联合提出的 Reagent 框架,将“为思考过程打分”的理念切实引入了智能体训练。结果表明,只要能够理解并评价思考过程,即使是 8B 参数级别的智能体,也有机会在诸多复杂任务上取得与更大模型相媲美的表现。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21966
