Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。

在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。

其后果是:那些仅差一步就能成功的尝试,与从一开始就方向错误的尝试,在奖励机制看来毫无区别。训练过程无法区分不同失败的价值,而依赖人工编写规则或进行细粒度打分,又难以覆盖开放环境、多模态交互等复杂情况。

港中文与美团的研究团队在这项工作中,正是瞄准了这一核心矛盾:智能体需要长程、细粒度的反馈来指导学习,但我们通常只能提供终局对错这类粗粒度的奖励信号。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题
  • 论文标题:Exploring Reasoning Reward Model for Agents
  • 论文链接:https://arxiv.org/pdf/2601.22154
  • 项目地址:https://github.com/kxfan2002/Reagent

为解决这一矛盾,作者首先构建了一个“懂推理、能理解工具调用”的评审模型,为智能体的完整行为轨迹打出“过程分”并提供“评语”,再将这份反馈用于训练。

这也是 Reagent 框架的核心出发点:让智能体不再只对最终结果负责,也要为其思考过程和工具调用行为负责。

为智能体的思路打分

这项工作的关键一步,在于不再仅关注智能体最终是否答对问题,而是开始系统性地为整个思考过程评分。

研究团队首先构建了一套面向智能体的“思考评分”数据集:其中收集了各种真实的智能体行为轨迹,包括推理顺畅但执行失误的、一路乱猜却侥幸蒙对的,以及工具使用混乱的案例。每条轨迹都被标注为一份“阅卷意见”,既指出思路的合理之处与明显偏差,也给出一个0到1之间的整体分数。

基于这套数据,他们训练了一个专门的“思考评分模型”——Agent-RRM。该模型不会只检查最终答案,而是通览整个过程,然后输出三部分内容:一段内部分析、一小段给智能体看的批评意见,以及一个综合分数。

举例而言:
* 两条轨迹最终都答对了,但其中一条逻辑跳跃严重、工具滥用,只是误打误撞得到正确答案,Agent-RRM 可能只给0.3分;
* 另一条从一开始就分析清晰,明确何时该搜索、何时点击网页、如何利用信息,这种思路就可能获得0.9分。

这类似于老师批改试卷,不仅看最终选择了哪个选项,还会审视中间的演算步骤,给出“过程分”。此举目标明确:教会智能体“如何思考”与“如何使用工具”,而非仅仅“如何猜对答案”。

统一文本批评与奖励信号:Reagent 框架

拥有了能打“思维分”的 Agent-RRM 后,还需解决如何将这些反馈有效用于智能体训练的问题。这正是 Reagent 框架的使命:将“文字点评”与“分数奖励”统一起来,应用于智能体训练。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

作者设计了三种应用方式,可理解为三种不同程度的“加持”:

① 仅添加点评,不修改模型(Reagent-C)
这是最轻量级的方式:不改变智能体参数,仅在推理时增加一个“听取讲评”的步骤。
大致流程是:智能体先尝试解题,Agent-RRM 审阅后提供一小段批评意见,指出关键问题,然后智能体基于此点评重新作答。这相当于为任何现有的大模型外挂一个“老师帮你看一眼再交卷”的过程。

② 为奖励添加“过程分”(Reagent-R)
更进一步,是将 Agent-RRM 打出的分数作为额外奖励引入训练。
以往的训练仅关注“做对/做错”的最终信号,现在则变为“结果对错”与“过程好坏”两条奖励线并行计算:即使最终未能完全做对,只要思路清晰、工具使用合理,也不会被当作无效样本完全否定。这对于长链条、多工具的任务尤为重要,有助于缓解“一不小心就全是零分”的奖励稀疏问题。

③ 将“初次尝试”与“批评后重试”一同训练(Reagent-U)
这是文章重点强调的最强模式——Reagent-U。它同时利用两种反馈:
* 一方面,让智能体学会在初次尝试时就减少低级错误;
* 另一方面,也教会它“在听取批评后,如何更聪明地修正答案”。

训练时,同一个问题会产生“首次回答”和“听取点评后再回答”两条轨迹,它们都获得“结果奖励+过程分数”,并一同放入训练循环中进行优化。这样做的好处是:模型不会仅在单一模式下优化,而是整体学习“如何想清楚”、“如何用好工具”以及“如何根据反馈自我修正”。

在实际部署时,Reagent-U 无需再依赖外部的 Agent-RRM 提供点评,可直接像普通智能体一样使用——那些“老师改卷时说过的话”,已被内化到模型参数之中。

实际效果如何?

在实验中,作者主要评估了三方面:文本点评本身是否有效、过程分数能否帮助强化学习取得更好效果、以及统一框架后是否带来整体提升。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题
Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

首先,在最轻量的“仅添加文本点评”模式下,实验表明,在多项数学和搜索任务上,“听取一段 Agent-RRM 的批评意见后重答”,确实能稳定提升正确率。

其次,将过程分数加入训练后,智能体不再仅仅迎合最终的对错信号,而是更倾向于选择那些“虽然本次未完全成功,但整体思路正确”的行为方向。

最后,当文本批评与奖励分数在 Reagent-U 中统一起来时,提升更为显著:
在通用智能体基准 GAIA 的文本子集上,基于 8B 参数的 Reagent-U 模型,能将平均成绩提升至 43.7%,基本追上甚至部分超越了某些参数量更大的开源智能体。在 WebWalkerQA、HLE、xbench 等其他复杂任务上,其表现也普遍比“仅看终局奖励”的版本更稳定,更不易被“瞎蒙对”或“无效忙碌”的样本带偏。

作者还测试了模型在 GAIA 全集上的表现,面对多模态的通用智能体任务,Reagent-U 同样具备竞争力。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

港中文与美团联合提出的 Reagent 框架,将“为思考过程打分”的理念切实引入了智能体训练。结果表明,只要能够理解并评价思考过程,即使是 8B 参数级别的智能体,也有机会在诸多复杂任务上取得与更大模型相媲美的表现。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21966

(0)
上一篇 2026年2月20日 上午7:40
下一篇 2026年2月20日 上午8:52

相关推荐

  • 2026年LLM微调全指南:从基础概念到实战应用的完整路径

    这不是一篇“速读”文章,但如果你能读到最后,作为一名 AI 从业者,你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然,本文无法涵盖所有细节;对各个概念、方法与工具的详略安排,均基于其重要性与相关性。 LLM finetuning 是什么?LLM(Large Language Model)是在海量通用文本上预训练的语言模型。➡ LLM …

    2026年1月4日
    28101
  • SuperOffload:超级芯片时代LLM训练的革命性卸载系统,吞吐量提升2.5倍,解锁百万token序列训练

    关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

    2025年12月21日
    26100
  • 斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

    昨日,斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后,相关视频与资料迅速公开,系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。 在答辩中,Zitong Yang 重点阐…

    2026年3月5日
    35200
  • 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

    论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…

    2026年3月13日
    18300
  • 自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?

    自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力? 当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。 在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学…

    2026年3月30日
    16300