Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。

在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。

其后果是:那些仅差一步就能成功的尝试,与从一开始就方向错误的尝试,在奖励机制看来毫无区别。训练过程无法区分不同失败的价值,而依赖人工编写规则或进行细粒度打分,又难以覆盖开放环境、多模态交互等复杂情况。

港中文与美团的研究团队在这项工作中,正是瞄准了这一核心矛盾:智能体需要长程、细粒度的反馈来指导学习,但我们通常只能提供终局对错这类粗粒度的奖励信号。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题
  • 论文标题:Exploring Reasoning Reward Model for Agents
  • 论文链接:https://arxiv.org/pdf/2601.22154
  • 项目地址:https://github.com/kxfan2002/Reagent

为解决这一矛盾,作者首先构建了一个“懂推理、能理解工具调用”的评审模型,为智能体的完整行为轨迹打出“过程分”并提供“评语”,再将这份反馈用于训练。

这也是 Reagent 框架的核心出发点:让智能体不再只对最终结果负责,也要为其思考过程和工具调用行为负责。

为智能体的思路打分

这项工作的关键一步,在于不再仅关注智能体最终是否答对问题,而是开始系统性地为整个思考过程评分。

研究团队首先构建了一套面向智能体的“思考评分”数据集:其中收集了各种真实的智能体行为轨迹,包括推理顺畅但执行失误的、一路乱猜却侥幸蒙对的,以及工具使用混乱的案例。每条轨迹都被标注为一份“阅卷意见”,既指出思路的合理之处与明显偏差,也给出一个0到1之间的整体分数。

基于这套数据,他们训练了一个专门的“思考评分模型”——Agent-RRM。该模型不会只检查最终答案,而是通览整个过程,然后输出三部分内容:一段内部分析、一小段给智能体看的批评意见,以及一个综合分数。

举例而言:
* 两条轨迹最终都答对了,但其中一条逻辑跳跃严重、工具滥用,只是误打误撞得到正确答案,Agent-RRM 可能只给0.3分;
* 另一条从一开始就分析清晰,明确何时该搜索、何时点击网页、如何利用信息,这种思路就可能获得0.9分。

这类似于老师批改试卷,不仅看最终选择了哪个选项,还会审视中间的演算步骤,给出“过程分”。此举目标明确:教会智能体“如何思考”与“如何使用工具”,而非仅仅“如何猜对答案”。

统一文本批评与奖励信号:Reagent 框架

拥有了能打“思维分”的 Agent-RRM 后,还需解决如何将这些反馈有效用于智能体训练的问题。这正是 Reagent 框架的使命:将“文字点评”与“分数奖励”统一起来,应用于智能体训练。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

作者设计了三种应用方式,可理解为三种不同程度的“加持”:

① 仅添加点评,不修改模型(Reagent-C)
这是最轻量级的方式:不改变智能体参数,仅在推理时增加一个“听取讲评”的步骤。
大致流程是:智能体先尝试解题,Agent-RRM 审阅后提供一小段批评意见,指出关键问题,然后智能体基于此点评重新作答。这相当于为任何现有的大模型外挂一个“老师帮你看一眼再交卷”的过程。

② 为奖励添加“过程分”(Reagent-R)
更进一步,是将 Agent-RRM 打出的分数作为额外奖励引入训练。
以往的训练仅关注“做对/做错”的最终信号,现在则变为“结果对错”与“过程好坏”两条奖励线并行计算:即使最终未能完全做对,只要思路清晰、工具使用合理,也不会被当作无效样本完全否定。这对于长链条、多工具的任务尤为重要,有助于缓解“一不小心就全是零分”的奖励稀疏问题。

③ 将“初次尝试”与“批评后重试”一同训练(Reagent-U)
这是文章重点强调的最强模式——Reagent-U。它同时利用两种反馈:
* 一方面,让智能体学会在初次尝试时就减少低级错误;
* 另一方面,也教会它“在听取批评后,如何更聪明地修正答案”。

训练时,同一个问题会产生“首次回答”和“听取点评后再回答”两条轨迹,它们都获得“结果奖励+过程分数”,并一同放入训练循环中进行优化。这样做的好处是:模型不会仅在单一模式下优化,而是整体学习“如何想清楚”、“如何用好工具”以及“如何根据反馈自我修正”。

在实际部署时,Reagent-U 无需再依赖外部的 Agent-RRM 提供点评,可直接像普通智能体一样使用——那些“老师改卷时说过的话”,已被内化到模型参数之中。

实际效果如何?

在实验中,作者主要评估了三方面:文本点评本身是否有效、过程分数能否帮助强化学习取得更好效果、以及统一框架后是否带来整体提升。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题
Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

首先,在最轻量的“仅添加文本点评”模式下,实验表明,在多项数学和搜索任务上,“听取一段 Agent-RRM 的批评意见后重答”,确实能稳定提升正确率。

其次,将过程分数加入训练后,智能体不再仅仅迎合最终的对错信号,而是更倾向于选择那些“虽然本次未完全成功,但整体思路正确”的行为方向。

最后,当文本批评与奖励分数在 Reagent-U 中统一起来时,提升更为显著:
在通用智能体基准 GAIA 的文本子集上,基于 8B 参数的 Reagent-U 模型,能将平均成绩提升至 43.7%,基本追上甚至部分超越了某些参数量更大的开源智能体。在 WebWalkerQA、HLE、xbench 等其他复杂任务上,其表现也普遍比“仅看终局奖励”的版本更稳定,更不易被“瞎蒙对”或“无效忙碌”的样本带偏。

作者还测试了模型在 GAIA 全集上的表现,面对多模态的通用智能体任务,Reagent-U 同样具备竞争力。

Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

港中文与美团联合提出的 Reagent 框架,将“为思考过程打分”的理念切实引入了智能体训练。结果表明,只要能够理解并评价思考过程,即使是 8B 参数级别的智能体,也有机会在诸多复杂任务上取得与更大模型相媲美的表现。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21966

(0)
上一篇 2026年2月20日 上午7:40
下一篇 2026年2月20日 上午8:52

相关推荐

  • SuperOffload:解锁超级芯片潜能,4芯片训练50B模型,吞吐量提升2.5倍,实现55% MFU

    关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

    2025年12月21日
    39300
  • 英伟达GDPO:突破GRPO局限,精准优化多奖励强化学习

    GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 然而,随着语言模型能力的不断提升,用户对它们的期待也在发生变化:不仅要回答正确,还要在各种不同场景下表现出符合多样化人类偏好的行为。为此,强化学习训练流程开始引入多种奖励信号,每一种奖励对应一种不同的偏好,用来共…

    2026年1月11日
    52400
  • 万亿参数训练不再难:GraphPP用图变换彻底消除流水线气泡,加速70%

    随着模型参数规模跨越万亿大关,分布式训练已演变为深度学习领域的“基础设施新范式”。然而,流水线并行在突破单张GPU显存极限的同时,也引入了一个棘手的性能杀手——“气泡”问题:GPU在等待跨阶段依赖时大量陷入空转,严重稀释了昂贵算力的实际投入。 上图揭示了大模型训练中一个核心的权衡循环(Tradeoff Cycle),清晰展现了模型规模增长所引发的连锁式挑战。…

    大模型训练 2026年4月29日
    19100
  • NCCLbpf:用eBPF为GPU集群通信插上安全与性能的双翼,破解AI训练可靠性难题

    关键词:NCCL、eBPF、GPU集群通信、安全扩展、性能优化 在AI训练集群中,NCCL插件导致的崩溃占故障的30%以上,而一次策略更新往往意味着整个训练任务的重启。NCCLbpf通过将eBPF的验证机制引入GPU通信库,以80-130纳秒的极低开销,实现了插件的安全执行与原子热更新,在8-GPU NVLink环境下提升AllReduce吞吐量高达27%。…

    2026年3月29日
    35000
  • 大模型训练可靠性革命:Decoupled DiLoCo将有效算力从40%飙升至86%,CAP定理颠覆SPMD范式

    一、大模型预训练的可靠性危机:从 SPMD 的致命缺陷说起 1.1 SPMD 范式的紧耦合本质与可靠性瓶颈 论文明确指出:“随着计算规模的扩大,原本罕见的硬件故障变成了日常事件。对于需要运行数月的大模型预训练任务而言,频繁的中断会导致大量的停机时间和计算浪费。” 这一论断精准揭示了当前大模型训练基础设施的核心痛点。 当训练集群从数千芯片扩展到数十万甚至数百万…

    大模型训练 2天前
    4800