Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。

在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。

其后果是:那些仅差一步就能成功的尝试,与从一开始就方向错误的尝试,在奖励机制看来毫无区别。训练过程无法区分不同失败的价值,而依赖人工编写规则或进行细粒度打分,又难以覆盖开放环境、多模态交互等复杂情况。

港中文与美团的研究团队在这项工作中,正是瞄准了这一核心矛盾:智能体需要长程、细粒度的反馈来指导学习,但我们通常只能提供终局对错这类粗粒度的奖励信号。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题
  • 论文标题:Exploring Reasoning Reward Model for Agents
  • 论文链接:https://arxiv.org/pdf/2601.22154
  • 项目地址:https://github.com/kxfan2002/Reagent

为解决这一矛盾,作者首先构建了一个“懂推理、能理解工具调用”的评审模型,为智能体的完整行为轨迹打出“过程分”并提供“评语”,再将这份反馈用于训练。

这也是 Reagent 框架的核心出发点:让智能体不再只对最终结果负责,也要为其思考过程和工具调用行为负责。

为智能体的思路打分

这项工作的关键一步,在于不再仅关注智能体最终是否答对问题,而是开始系统性地为整个思考过程评分。

研究团队首先构建了一套面向智能体的“思考评分”数据集:其中收集了各种真实的智能体行为轨迹,包括推理顺畅但执行失误的、一路乱猜却侥幸蒙对的,以及工具使用混乱的案例。每条轨迹都被标注为一份“阅卷意见”,既指出思路的合理之处与明显偏差,也给出一个0到1之间的整体分数。

基于这套数据,他们训练了一个专门的“思考评分模型”——Agent-RRM。该模型不会只检查最终答案,而是通览整个过程,然后输出三部分内容:一段内部分析、一小段给智能体看的批评意见,以及一个综合分数。

举例而言:
* 两条轨迹最终都答对了,但其中一条逻辑跳跃严重、工具滥用,只是误打误撞得到正确答案,Agent-RRM 可能只给0.3分;
* 另一条从一开始就分析清晰,明确何时该搜索、何时点击网页、如何利用信息,这种思路就可能获得0.9分。

这类似于老师批改试卷,不仅看最终选择了哪个选项,还会审视中间的演算步骤,给出“过程分”。此举目标明确:教会智能体“如何思考”与“如何使用工具”,而非仅仅“如何猜对答案”。

统一文本批评与奖励信号:Reagent 框架

拥有了能打“思维分”的 Agent-RRM 后,还需解决如何将这些反馈有效用于智能体训练的问题。这正是 Reagent 框架的使命:将“文字点评”与“分数奖励”统一起来,应用于智能体训练。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

作者设计了三种应用方式,可理解为三种不同程度的“加持”:

① 仅添加点评,不修改模型(Reagent-C)
这是最轻量级的方式:不改变智能体参数,仅在推理时增加一个“听取讲评”的步骤。
大致流程是:智能体先尝试解题,Agent-RRM 审阅后提供一小段批评意见,指出关键问题,然后智能体基于此点评重新作答。这相当于为任何现有的大模型外挂一个“老师帮你看一眼再交卷”的过程。

② 为奖励添加“过程分”(Reagent-R)
更进一步,是将 Agent-RRM 打出的分数作为额外奖励引入训练。
以往的训练仅关注“做对/做错”的最终信号,现在则变为“结果对错”与“过程好坏”两条奖励线并行计算:即使最终未能完全做对,只要思路清晰、工具使用合理,也不会被当作无效样本完全否定。这对于长链条、多工具的任务尤为重要,有助于缓解“一不小心就全是零分”的奖励稀疏问题。

③ 将“初次尝试”与“批评后重试”一同训练(Reagent-U)
这是文章重点强调的最强模式——Reagent-U。它同时利用两种反馈:
* 一方面,让智能体学会在初次尝试时就减少低级错误;
* 另一方面,也教会它“在听取批评后,如何更聪明地修正答案”。

训练时,同一个问题会产生“首次回答”和“听取点评后再回答”两条轨迹,它们都获得“结果奖励+过程分数”,并一同放入训练循环中进行优化。这样做的好处是:模型不会仅在单一模式下优化,而是整体学习“如何想清楚”、“如何用好工具”以及“如何根据反馈自我修正”。

在实际部署时,Reagent-U 无需再依赖外部的 Agent-RRM 提供点评,可直接像普通智能体一样使用——那些“老师改卷时说过的话”,已被内化到模型参数之中。

实际效果如何?

在实验中,作者主要评估了三方面:文本点评本身是否有效、过程分数能否帮助强化学习取得更好效果、以及统一框架后是否带来整体提升。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题
Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

首先,在最轻量的“仅添加文本点评”模式下,实验表明,在多项数学和搜索任务上,“听取一段 Agent-RRM 的批评意见后重答”,确实能稳定提升正确率。

其次,将过程分数加入训练后,智能体不再仅仅迎合最终的对错信号,而是更倾向于选择那些“虽然本次未完全成功,但整体思路正确”的行为方向。

最后,当文本批评与奖励分数在 Reagent-U 中统一起来时,提升更为显著:
在通用智能体基准 GAIA 的文本子集上,基于 8B 参数的 Reagent-U 模型,能将平均成绩提升至 43.7%,基本追上甚至部分超越了某些参数量更大的开源智能体。在 WebWalkerQA、HLE、xbench 等其他复杂任务上,其表现也普遍比“仅看终局奖励”的版本更稳定,更不易被“瞎蒙对”或“无效忙碌”的样本带偏。

作者还测试了模型在 GAIA 全集上的表现,面对多模态的通用智能体任务,Reagent-U 同样具备竞争力。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

港中文与美团联合提出的 Reagent 框架,将“为思考过程打分”的理念切实引入了智能体训练。结果表明,只要能够理解并评价思考过程,即使是 8B 参数级别的智能体,也有机会在诸多复杂任务上取得与更大模型相媲美的表现。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21966

(0)
上一篇 22小时前
下一篇 21小时前

相关推荐

  • Self-E框架:无需教师蒸馏,实现任意步数高质量文生图

    尽管扩散模型与流匹配方法已将文本到图像生成推向了更高的视觉质量与可控性,但它们通常在推理时需要数十步网络迭代,这限制了其在需要低延迟或实时响应的应用场景中的潜力。 为了降低推理步数,现有方法通常依赖于知识蒸馏:首先训练一个多步的教师模型,然后将能力迁移到少步的学生模型。然而,这条路径的代价同样显著——它既依赖于预训练的教师模型,又引入了额外的训练开销,并且在…

    2026年1月15日
    10100
  • 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

    Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…

    2026年1月7日
    11400
  • LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统

    不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架—— Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。 不…

    2025年10月20日
    21000
  • SuperOffload:解锁超级芯片潜能,4芯片训练50B模型,吞吐量提升2.5倍,实现55% MFU

    关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

    2025年12月21日
    15200
  • Self-Distillation:大模型持续学习的破局之道与2026三大突破

    2026年伊始,大模型领域的研究者们似乎达成了一种默契。翻开近期arXiv上备受关注的论文,一个词汇频繁出现:Self-Distillation(自蒸馏)。 近年来,基础模型在语言、视觉、机器人等领域取得了显著成功,为AI应用提供了强大支持。然而,在模型真正落地与长期使用的过程中,研究者们逐渐发现一个关键瓶颈:如何让模型在持续吸收新知识的同时,不遗忘已有的核…

    2026年2月10日
    11200