强化学习的范式迁移:从监督走向无监督
强化学习正持续拓展大模型的能力边界。从 OpenAI o3 到 DeepSeek-R1、Gemini 3,顶尖模型正通过大规模 RLVR(可验证奖励强化学习)不断刷新推理任务的上限。然而,纯监督式训练的局限性日益凸显:人工标注成本呈指数级增长,在专业领域获取可靠标注愈发困难。当模型能力逼近甚至超越人类专家时,可靠的评估者从何而来?
在此背景下,无监督 RLVR(Unsupervised RLVR)应运而生,旨在让模型摆脱对人工标注的依赖,实现自主进化。这不仅是出于降本增效的现实需求,更是迈向更高级智能形态的潜在路径。正如预训练利用海量无标注数据孕育了 GPT,无监督 RLVR 能否复现这一奇迹,开启强化学习的新篇章?

- 论文链接: https://arxiv.org/abs/2603.08660
- GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
- X Thread: https://x.com/HBX_hbx/status/2031406636930338828
清华大学的一项最新研究,为这幅看似美好的图景勾勒出了第一条清晰的边界。研究者系统剖析了无监督 RLVR 的内在机制,发现所有基于模型自身信号构建内在奖励的方法——无论是多数投票、基于熵的奖励还是其他变体——都遵循着相似的轨迹:训练初期性能快速攀升,但在达到某个临界点后,便开始不可逆转地滑落。
这并非特定方法的缺陷,而是其固有机制的宿命。这些方法本质上都在“锐化”模型已有的偏好,如同一个回声室,让模型不断强化其初始信念。如果初始信念恰好正确,效果显著;一旦初始信念存在偏差,性能的坍塌便只是时间问题。
然而,这并不意味着内在奖励毫无价值。研究表明,在小规模测试时训练中,它仍能稳定提升模型性能。即使模型初始答案全错,也能在自我驱动的纠偏过程中实现进化。更重要的是,研究者找到了一个“预言指标”,可在投入大规模训练前,预判模型的可训练性,从而避免运行完整的训练曲线。
当内在奖励受限于模型自身的“回声”时,基于外部信息(如利用生成与验证过程的不对称性)的奖励方法开始展现出不同的潜力。这类方法正在尝试突破内在奖励的天花板,推动无监督强化学习走向真正的可扩展性。
通往更高级智能的道路上,我们需要的并非盲目相信模型能够自我进化,而是清晰地知道:何时应让它倾听自己的“回声”,何时又必须将其推向真实世界的验证。

内在奖励方法:繁荣表象下的深层困境
过去一年,各类“内在奖励”方法密集涌现。从多数投票到基于模型置信度或熵的变体,它们利用模型的内在信号构造代理奖励,在训练前期往往能带来性能的飙升,甚至一度超越有监督方法。
研究者根据奖励信号的来源,将这些方法归纳为两类:一类基于确定性,直接取模型在推理轨迹上的置信度指标作为奖励;另一类基于集成,利用多次 rollout 后的集成结果(如多数投票)来锚定正确答案。

虽然奖励信号本身是“免费”的,但其代价却可能十分昂贵。在早期性能飙升之后,持续训练往往会触发典型的“奖励破解”现象:
* 代理奖励持续上涨,真实性能却开始崩溃。
* 模型表现得越来越自信,但给出的答案却越来越离谱。
* 不同的内在奖励方法在不同模型上的表现差异巨大,且缺乏可解释性。
最关键的是,此前无人能清晰阐明这些方法为何有效,又为何最终失效。
研究目标:拆解黑箱,界定边界
本研究的目标并非简单地“提出新方法以刷新指标”,而是旨在回答那个悬而未决的根本问题:无监督 RLVR 的扩展上限究竟在哪里?如果存在上限,其边界又该如何界定?
为此,我们开展了以下五个层面的工作:
1. 建立统一理论框架:将看似各异的内在奖励方法归入同一机制之下,揭示其“殊途同归”的本质——锐化模型的初始分布,并给出理论上的收敛边界。
2. 进行大规模实证分析:在 11 个模型、5 种内在奖励方法上进行超参数扫描,用数据证实“先升后降”并非偶然,而是一种普遍规律。
3. 划定安全应用区:并非所有场景都会导致崩溃。研究发现,在小规模测试时训练中,内在奖励可以安全使用,即使初始答案全错,模型也能稳定进化。
4. 化陷阱为路标:“上升与跌落”曲线本身蕴含信息。我们据此提炼出模型先验指示器,无需运行完整的强化学习曲线,即可预判一个基础模型是否适合进行强化学习微调。
5. 探索替代方案:既然内在奖励存在天花板,我们便将目光投向外部奖励。初步探索了基于生成-验证不对称性的外部奖励方法,检验其能否真正突破内在奖励的扩展极限。
核心发现
🔍 发现一:成败取决于“置信度-正确性”对齐程度
我们建立了内在奖励方法的统一理论,揭示所有这类方法的本质是分布锐化,即放大模型已有的偏好,而非创造新知识。该机制具有一个关键特性:
* 若模型初始倾向正确 → 锐化有效,性能提升。
* 若模型初始倾向错误 → 锐化有害,加速崩溃。
我们定义模型的初始倾向(或称模型先验)为 “置信度-正确性”对齐程度。它衡量的是,当我们仅提升模型的自一致性(使其更自信)时,有多大可能直接提高其答题的正确率。换言之,一个先验较强的模型,本身已掌握了解决问题所需的大部分知识,只是不够自信而无法稳定输出正确答案。
通过对 11 个模型、5 种方法、4个常用超参数组合的测试,结论指向一个可能的事实:性能崩溃难以避免,只是时间早晚问题。即使是最稳定的配置也撑不过几个训练周期。这暗示问题可能并非出自工程实现,而是数学上的必然。

左图:成败取决于置信度-正确性对齐程度;右图:单条数据上置信度与正确性随训练的演化
✅ 发现二:小规模场景中反而安全
“上升后跌落”虽是普遍规律,但其适用范围有限。
当训练数据量足够少时,例如在测试时训练这种针对特定领域的小规模场景中,内在奖励方法反而表现出难得的稳定性。原因很直观:仅在少量样本上优化置信度,模型的优化空间有限。即便它在这些样本上变得“超级自信”,也难以引发全局性的策略偏移,其在分布外任务上的准确率依然能够保持稳定。
一个更有趣的极端实验是:研究者刻意选取了 32 条模型初始答案全错的样本作为训练集。这意味着,内在奖励给出的代理奖励从一开始就是错误的。然而,结果却显示,模型在分布外测试集上的性能仍在稳步提升。
这说明,内在奖励训练并非在教导模型“什么是对的”,而是在教导它“更加相信自己”。即使信错了,这种自我强化也被限制在局部范围内,难以掀起大的风浪。

左图:小规模测试时训练稳定提升,未发生崩溃;右图:不同训练集规模下策略的KL散度偏移
🎯 发现三:预判模型的“强化学习可训练性”
“上升与跌落”曲线不仅是风险信号,其本身也承载着有价值的信息。
既然内在奖励的成败取决于模型初始的“置信度-正确性”对齐程度,那么能否利用这一对齐度,提前判断一个基础模型是否适合进行强化学习微调?毕竟,运行一次大规模强化学习的成本高昂,而学术界一直缺乏一个轻量级的预判指标。
研究者找到了一把“尺子”:模型坍塌步数,用于衡量一个模型在内在奖励训练下,能坚持多少步才完全崩溃。逻辑很简单:崩溃发生得越晚,说明模型的初始先验越好,其本身已掌握更多正确知识,只是不够自信。而这种先验,恰恰是标准的有监督强化学习能够有效放大的特质。换言之,内在奖励下的崩溃点,可以作为模型“强化学习可训练性”的天然指示器。
实验结果印证了这一点。像 Qwen 这样公认“适合强化学习”的模型系列,在内在奖励训练下坚持的时间更长。更有意义的是,这一指标无需任何真实标注,其预测准确率甚至超过了传统的 pass@k 指标。
这实现了将失败曲线转化为导航路标,将昂贵的试错过程转变为轻量级的预判工具。

发现四:外部奖励是可扩展的关键方向
如果内在奖励存在固有上限,那么出路何在?
问题的核心在于奖励信号的来源。内在奖励方法依赖于模型自身的置信度来驱动自我训练,这形成了一个封闭的反馈循环。奖励信号始终受限于模型已有的认知范畴,因此难以引导模型学习其真正未知的知识。
然而,无监督强化学习的探索不止于此。我们将外部奖励方法归纳为两类更具扩展性的路径:
- 利用无标注数据:从海量语料中自动挖掘奖励信号。数据规模越大,潜在的奖励信号就越丰富,不会因模型自身能力的提升而枯竭。
- 利用生成-验证的不对称性:让模型生成解答(如代码、证明),然后借助外部工具(如编译器、证明器、模拟器)进行客观验证并提供环境反馈。这些验证器的判断标准独立于模型,不会随模型变强而失效。
初步的自验证方法测试结果揭示了一条不同的性能曲线:模型表现持续改进,未出现崩溃。其根本原因在于,奖励不再源于“模型有多自信”,而是取决于“答案能否通过客观验证”。生成正确答案可能困难,但验证对错往往相对简单。这种不对称性将模型的进化锚定在真实世界的客观规律上,而非其自身的认知回音室中。
内在奖励追问的是“你相信自己吗?”,而外部奖励追问的是“这是真的吗?”。通往可扩展的无监督强化学习,答案或许在于后者。

结语:边界之外
我们详细探讨了无监督强化学习当前的内在奖励边界。然而,绘制这张边界地图的价值,从来不是为了宣告“此路不通”,而是为了回答:在何种条件下,哪一条路径是可行的。
一个系统能否通过自我审视获得提升,取决于其初始判断的准确性。内在奖励方法的失败与成功,源于同一机制:自我强化。区别仅在于被强化的是真理还是偏见。
当我们认清内在奖励的固有局限,才能真正展望外部奖励所展现的广阔前景。构建可扩展的无监督强化学习系统,需要的并非盲目相信模型能够自我进化,而是明智地判断何时应让它倾听内部回声,何时又必须将其推向真实世界的客观验证。
内在奖励与外部奖励并非对立,而是工具箱中的不同工具。厘清边界,不是为了止步,而是为了在边界内自如创造,并向边界之外探寻新的可能。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26772


