RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

近年来,大模型在数学推理、代码生成等任务上取得突破,其背后一个关键技术是RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习

简单来说,RLVR并非让模型被动接受人工评分,而是让模型主动生成多种解法,并依据可验证的客观规则(如答案是否正确)进行自我改进。这种通过反复试错来提升性能的模式,已被广泛应用于当前最先进的推理模型训练中。

在实际训练中,为了稳定学习过程并避免引入额外的价值网络,许多RLVR方法(如GRPO)会对同一问题生成一组回答,并在组内进行相对比较。模型评估的不是“这个回答的绝对质量”,而是“它在当前这组回答中的相对优劣”。这种组内优势估计(group-relative advantage) 是几乎所有基于组的强化学习方法的核心设计。优势估计不仅是一个评估指标,更是直接决定策略梯度更新方向的核心信号。

然而,一个长期被忽视的关键问题在于:组内优势估计并非如通常直觉所认为的那样是“近似无偏”的

相反,来自北航、北大、UCB和美团的最新研究揭示,这种组内优势估计在统计意义上存在明确且系统性的方向性偏差:困难题目的优势会被持续低估,而简单题目的优势则被不断高估

RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

  • 论文地址:https://arxiv.org/pdf/2601.08521

这一偏差的后果往往十分隐蔽,却极具破坏性。训练过程中,损失曲线在表面上可能呈现“稳定收敛”,但模型实际上正在逐渐回避困难问题、转而偏好简单样本。随着训练的推进,探索与利用之间的平衡被悄然打破,模型的泛化能力与长期训练稳定性也随之下降。

更关键的是,这并非一个可以通过简单调整超参数来缓解的问题,而是组内优势估计这一设计在统计结构层面本身就存在的内在缺陷

定义

为清晰阐述后续的核心发现,我们首先引入若干必要的定义。我们从最常用的组内相对优势估计的数学定义开始。

组内相对优势估计(Group-relative Advantage)
在一个训练回合中,对于一个给定的提示(prompt)$x$,算法从当前策略 $pi_theta$ 中独立采样 $G$ 个响应 ${y_i}{i=1}^G$,并获得对应的 $G$ 个奖励 ${r_i}{i=1}^G$。随后,将组内的平均奖励 $bar{r} = frac{1}{G} sum_{i=1}^G r_i$ 作为 baseline:
$$bar{r} = frac{1}{G} sum_{i=1}^G r_i$$
并据此计算每个响应 $y_i$ 的组内相对优势估计 $hat{A}_i$:
$$hat{A}_i = r_i – bar{r}$$
为便于阐述理论结论,下文中我们忽略标准化项。为了分析组内优势估计的统计性质,我们需要引入策略在给定提示下的真实期望表现和优势,并将其作为后续讨论的参照基准。

期望奖励
在RLVR设定下,考虑一个给定的提示 $x$,在0-1奖励假设下,我们将策略 $pi_theta$ 在该提示上的期望奖励定义为
$$mu(x) = mathbb{E}{y sim pitheta(cdot|x)}[r(y)]$$
由此构造的组内平均奖励 $bar{r}$,可被视为 $mu(x)$ 的一个有限样本经验估计。

期望优势
基于此,对于每一个响应 $y_i$ 和其奖励 $r_i$,其真实(期望)优势定义为
$$A_i = r_i – mu(x)$$
在RLVR中,$A_i$ 表示响应 $y_i$ 在真实期望意义下的优势,而 $hat{A}_i$ 则是通过有限组内采样得到的优势经验估计量。

为了刻画不同提示在训练中所处的难易程度,并分析偏差在不同难度区域的行为差异,我们引入如下基于期望奖励的题目难度定义。

题目难度
对于一个提示 $x$,如果其期望奖励 $mu(x) < 0.5$,我们认为它是一个难题;反之,如果 $mu(x) > 0.5$,我们认为它是一个简单题

最后,在基于组的策略优化方法中,并非所有采样组都会对参数更新产生有效贡献。为聚焦于真正驱动学习的情形,我们需要显式排除那些导致梯度消失的退化情况。

非退化梯度事件
令 $R = sum_{i=1}^G r_i$ 表示组内奖励总和,则组内优势估计也可以表示为 $hat{A}_i = r_i – R/G$。在基于组的策略优化方法中,当某一提示 $x$ 的 $G$ 个采样响应全部错误($R=0$)或全部正确($R=G$)时,组内相对优势满足 $hat{A}_i = 0$,从而导致梯度消失,参数不发生更新。实践中,这类退化组不提供有效学习信号,通常被GRPO及其变体显式或隐式地忽略。
因此,我们将分析聚焦于实际驱动学习的有效更新区间,即至少存在一个非零优势的情形。形式化地,定义非退化事件
$$S = {0 < R < G}$$
对事件 $S$ 进行条件化并不会改变优化目标或训练轨迹,而仅刻画那些真正参与参数更新的样本子集,使我们能够精确分析组相对优势估计中的系统性偏差。

核心发现

重要发现 1:

RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

定理1揭示了组相对优势估计的一个根本性质。在非退化事件 $S$ 条件下,基于组的优势估计 $hat{A}$ 对不同难度的提示表现出系统性偏差:
* 对于困难提示($mu(x) < 0.5$),其期望值系统性低于真实优势 $A$(即真实优势被低估)。
* 对于简单提示($mu(x) > 0.5$),其期望值系统性高于真实优势 $A$(即真实优势被高估)。
* 仅当 $mu(x) = 0.5$ 时,组相对优势估计才是无偏的。

这一结论表明,组相对优势的偏差并非由有限采样噪声引起,而是源自其相对优势估计机制本身,且与提示难度密切相关。

RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

同时,我们对这种优势估计偏差进行了系统性的可视化分析。如图所示,在非退化事件 $S$ 条件下,组相对优势估计的偏差 $mathbb{E}[hat{A} | S] – A$ 随提示难度 $mu(x)$ 呈现出明显的结构性变化:
* 当 $mu(x)$ 偏离0.5越远(即提示越困难或越简单)时,优势估计的偏差越大。
在相同的提示难度下,采样组大小 $G$ 越小,优势估计偏差越大;随着 $G$ 的增加,偏差虽有所缓解,但在有限采样范围内仍然不可忽略。

举例 1:
假设一个非常难的问题,模型原本做对的概率只有1%($mu(x)=0.01$)。如果你采样了8次,按照1%的概率,模型大概率生成全错的回答,这些数据因梯度为零而被丢弃。但是,一旦这8个回答中至少有1个正确,此时组内的Baseline $bar{r}$ 就会瞬间被拉高到至少0.125并参与梯度更新,这与原本的 $mu(x)=0.01$ 差距巨大。这导致计算出的优势估计值 $hat{A} le 0.875$,与真实的优势 $A=0.99$ 产生巨大偏差,即优势被显著低估。

举例 2:

RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

该图展示了在MATH数据集上,对于同一道困难题目,组相对优势估计在不同回答采样数量下的表现差异。当采用8次采样时,对正确回答所计算得到的优势为 $hat{A}=2.65$;而当采样数量提升至128次时,所估计的优势增大至 $hat{A}=3.64$,更接近其真实优势值。

重要发现 2:

RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

为进一步刻画优势估计的偏差,论文给出了其概率化描述。如推论1所示,在实际常用的组大小G=8时,组相对优势估计以较高概率对不同难度的提示产生系统性偏差:对于困难提示(RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱 <0.5),其优势被低估的概率超过0.63;对于简单提示(RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱 >0.5),其优势被高估的概率同样超过0.63。当提示难度进一步加剧时,这一概率上界可提升至0.78甚至100%,表明偏差随难度加深而显著放大。

论文也提供了具体的偏差量估计:
RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

总结

综上所述,组相对优势估计在理论上除RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱 = 0.5外均是有偏的。这是因为GRPO/Group-based PO的优势估计机制将样本限制在子集S上,相当于对原始样本全集进行了加权,导致加权后的优势估计存在偏差。

具体而言,该估计方法会对困难提示系统性地低估真实优势,而对简单提示系统性地高估真实优势。对于极其困难的提示,优势估计必然被低估;对于极其简单的提示,则必然被高估。

尽管上述分析主要基于0–1二值奖励的设定(该假设覆盖了大量依赖硬判别验证器的RLVR推理任务),但真实应用中的奖励信号往往更加一般。为此,论文在附录D.5中将分析推广至连续且有界的奖励分布。结果表明,组相对优势估计中的核心偏差现象并非Bernoulli奖励假设的偶然产物,而是在更广泛的有界奖励模型中同样普遍存在。

影响与启示

这一发现对RLVR训练具有直接而深远的影响。组相对优势估计的系统性偏差会导致不同难度提示在学习过程中收到不平衡的梯度信号:困难提示的优势被低估,梯度更新较小,学习进展缓慢;简单提示的优势被高估,模型容易对其过度强化。这种不对称性会抑制有效探索,使训练过程偏向于反复强化简单样本,而忽视真正具有挑战性的提示。

基于上述分析,优势估计应根据提示难度进行自适应调整:对于困难提示,应适当放大其估计优势以鼓励探索;对于简单提示,则应抑制其优势以防止过度利用。

为在实践中判定提示难度,论文提出算法HA-DW,引入短期历史平均奖励作为动态锚点,通过将新提示与该锚点对比来判断其相对难度,并据此对优势估计进行自适应重加权。
RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

上图展示了在对组相对优势估计进行校正后,模型在不同难度提示上的性能变化。可以观察到,引入优势校正机制(GRPO+HA-DW)后,模型在困难提示(Hard)上的性能提升最为显著,相比原始GRPO提升了3.4%。

结论

GRPO/Group-based PO的问题不仅在于方差(variance),更在于偏差(bias)。这项工作释放了一个重要信号:大语言模型的强化学习正从“工程上能跑出效果就行”,回归到“估计是否准确”这一根本问题与可解释性。未来在RLVR领域,偏差分析与估计器正确性评估很可能成为标准配置。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19747

(0)
上一篇 2026年1月30日 下午4:25
下一篇 2026年1月30日 下午4:38

相关推荐

  • 决战性能之巅!MLSys 2026 CUDA 内核优化大赛开启,用代码挑战 B200 GPU 极限

    关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习 一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…

    2026年1月25日
    28900
  • REAP框架:稀疏混合专家模型的动态瘦身革命与性能平衡的艺术

    在人工智能模型规模不断膨胀的今天,稀疏混合专家模型(Sparse Mixture of Experts,SMoE)作为一种高效架构,通过动态路由机制将输入分配给少数专家处理,显著降低了计算成本。然而,这种架构面临一个根本性矛盾:虽然每次推理只需激活少量专家,但所有专家的参数都必须常驻内存,导致内存开销居高不下。这就像运营一个拥有数百名专家的咨询公司,每次项目…

    2025年11月16日
    20400
  • Real Deep Research:AI研究自动化革命,让机器读懂整个学科

    在人工智能研究呈现指数级增长的今天,科研人员面临着一个日益严峻的挑战:如何从海量文献中高效追踪前沿动态、识别关键趋势并发现跨领域机遇?传统的人工文献综述方法已难以跟上研究产出的速度,而现有的自动化工具又往往缺乏领域深度和专家洞察。加州大学圣迭戈分校与Nvidia等机构联合提出的Real Deep Research(RDR)系统,正试图通过系统化的自动化流程与…

    2025年11月2日
    17200
  • 国产AI算力池迈入规模化落地新纪元:3万卡超集群开启千行百业应用新时代

    国内智算基础设施迈过关键分水岭 2月5日,由中科曙光提供的3套scaleX万卡超集群,在国家超算互联网核心节点同时上线试运行。由此,全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池正式形成。 过去,万卡集群更像是头部玩家的实力勋章。如今,当万卡规模的算力开始实现“多套并行、同时落地、即刻应用”,国产超集群便跨过了单点突破的阶段,正式步入规模化落地的…

    2026年2月6日
    11400
  • 性能飙升8倍!Vortex RISC-V GPGPU通过解耦控制流与内存访问实现革命性突破

    关键词: RISC-V GPGPU 、Vortex、控制流管理、 解耦内存访问 、硬件优化 、性能加速 从开源 GPU 的机遇与挑战说起。在当今计算领域,图形处理器(GPU)已从专为图形渲染设计的硬件,演变为支撑人工智能、科学计算和高性能计算的关键通用计算平台。 然而,绝大多数 GPU 研究依赖于 NVIDIA 等商业 GPU 的模拟框架,这些框架虽然功能强…

    2026年1月19日
    30900