无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

强化学习的范式迁移：从监督走向无监督

强化学习正持续拓展大模型的能力边界。从 OpenAI o3 到 DeepSeek-R1、Gemini 3，顶尖模型正通过大规模 RLVR（可验证奖励强化学习）不断刷新推理任务的上限。然而，纯监督式训练的局限性日益凸显：人工标注成本呈指数级增长，在专业领域获取可靠标注愈发困难。当模型能力逼近甚至超越人类专家时，可靠的评估者从何而来？

在此背景下，无监督 RLVR（Unsupervised RLVR）应运而生，旨在让模型摆脱对人工标注的依赖，实现自主进化。这不仅是出于降本增效的现实需求，更是迈向更高级智能形态的潜在路径。正如预训练利用海量无标注数据孕育了 GPT，无监督 RLVR 能否复现这一奇迹，开启强化学习的新篇章？

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

论文链接: https://arxiv.org/abs/2603.08660
GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
X Thread: https://x.com/HBX_hbx/status/2031406636930338828

清华大学的一项最新研究，为这幅看似美好的图景勾勒出了第一条清晰的边界。研究者系统剖析了无监督 RLVR 的内在机制，发现所有基于模型自身信号构建内在奖励的方法——无论是多数投票、基于熵的奖励还是其他变体——都遵循着相似的轨迹：训练初期性能快速攀升，但在达到某个临界点后，便开始不可逆转地滑落。

这并非特定方法的缺陷，而是其固有机制的宿命。这些方法本质上都在“锐化”模型已有的偏好，如同一个回声室，让模型不断强化其初始信念。如果初始信念恰好正确，效果显著；一旦初始信念存在偏差，性能的坍塌便只是时间问题。

然而，这并不意味着内在奖励毫无价值。研究表明，在小规模测试时训练中，它仍能稳定提升模型性能。即使模型初始答案全错，也能在自我驱动的纠偏过程中实现进化。更重要的是，研究者找到了一个“预言指标”，可在投入大规模训练前，预判模型的可训练性，从而避免运行完整的训练曲线。

当内在奖励受限于模型自身的“回声”时，基于外部信息（如利用生成与验证过程的不对称性）的奖励方法开始展现出不同的潜力。这类方法正在尝试突破内在奖励的天花板，推动无监督强化学习走向真正的可扩展性。

通往更高级智能的道路上，我们需要的并非盲目相信模型能够自我进化，而是清晰地知道：何时应让它倾听自己的“回声”，何时又必须将其推向真实世界的验证。

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

内在奖励方法：繁荣表象下的深层困境

过去一年，各类“内在奖励”方法密集涌现。从多数投票到基于模型置信度或熵的变体，它们利用模型的内在信号构造代理奖励，在训练前期往往能带来性能的飙升，甚至一度超越有监督方法。

研究者根据奖励信号的来源，将这些方法归纳为两类：一类基于确定性，直接取模型在推理轨迹上的置信度指标作为奖励；另一类基于集成，利用多次 rollout 后的集成结果（如多数投票）来锚定正确答案。

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

虽然奖励信号本身是“免费”的，但其代价却可能十分昂贵。在早期性能飙升之后，持续训练往往会触发典型的“奖励破解”现象：
* 代理奖励持续上涨，真实性能却开始崩溃。
* 模型表现得越来越自信，但给出的答案却越来越离谱。
* 不同的内在奖励方法在不同模型上的表现差异巨大，且缺乏可解释性。

最关键的是，此前无人能清晰阐明这些方法为何有效，又为何最终失效。

研究目标：拆解黑箱，界定边界

本研究的目标并非简单地“提出新方法以刷新指标”，而是旨在回答那个悬而未决的根本问题：无监督 RLVR 的扩展上限究竟在哪里？如果存在上限，其边界又该如何界定？

为此，我们开展了以下五个层面的工作：
1. 建立统一理论框架：将看似各异的内在奖励方法归入同一机制之下，揭示其“殊途同归”的本质——锐化模型的初始分布，并给出理论上的收敛边界。
2. 进行大规模实证分析：在 11 个模型、5 种内在奖励方法上进行超参数扫描，用数据证实“先升后降”并非偶然，而是一种普遍规律。
3. 划定安全应用区：并非所有场景都会导致崩溃。研究发现，在小规模测试时训练中，内在奖励可以安全使用，即使初始答案全错，模型也能稳定进化。
4. 化陷阱为路标：“上升与跌落”曲线本身蕴含信息。我们据此提炼出模型先验指示器，无需运行完整的强化学习曲线，即可预判一个基础模型是否适合进行强化学习微调。
5. 探索替代方案：既然内在奖励存在天花板，我们便将目光投向外部奖励。初步探索了基于生成-验证不对称性的外部奖励方法，检验其能否真正突破内在奖励的扩展极限。

核心发现

🔍 发现一：成败取决于“置信度-正确性”对齐程度

我们建立了内在奖励方法的统一理论，揭示所有这类方法的本质是分布锐化，即放大模型已有的偏好，而非创造新知识。该机制具有一个关键特性：
* 若模型初始倾向正确 → 锐化有效，性能提升。
* 若模型初始倾向错误 → 锐化有害，加速崩溃。

我们定义模型的初始倾向（或称模型先验）为 “置信度-正确性”对齐程度。它衡量的是，当我们仅提升模型的自一致性（使其更自信）时，有多大可能直接提高其答题的正确率。换言之，一个先验较强的模型，本身已掌握了解决问题所需的大部分知识，只是不够自信而无法稳定输出正确答案。

通过对 11 个模型、5 种方法、4个常用超参数组合的测试，结论指向一个可能的事实：性能崩溃难以避免，只是时间早晚问题。即使是最稳定的配置也撑不过几个训练周期。这暗示问题可能并非出自工程实现，而是数学上的必然。

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱
左图：成败取决于置信度-正确性对齐程度；右图：单条数据上置信度与正确性随训练的演化

✅ 发现二：小规模场景中反而安全

“上升后跌落”虽是普遍规律，但其适用范围有限。

当训练数据量足够少时，例如在测试时训练这种针对特定领域的小规模场景中，内在奖励方法反而表现出难得的稳定性。原因很直观：仅在少量样本上优化置信度，模型的优化空间有限。即便它在这些样本上变得“超级自信”，也难以引发全局性的策略偏移，其在分布外任务上的准确率依然能够保持稳定。

一个更有趣的极端实验是：研究者刻意选取了 32 条模型初始答案全错的样本作为训练集。这意味着，内在奖励给出的代理奖励从一开始就是错误的。然而，结果却显示，模型在分布外测试集上的性能仍在稳步提升。

这说明，内在奖励训练并非在教导模型“什么是对的”，而是在教导它“更加相信自己”。即使信错了，这种自我强化也被限制在局部范围内，难以掀起大的风浪。

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱
左图：小规模测试时训练稳定提升，未发生崩溃；右图：不同训练集规模下策略的KL散度偏移

🎯 发现三：预判模型的“强化学习可训练性”

“上升与跌落”曲线不仅是风险信号，其本身也承载着有价值的信息。

既然内在奖励的成败取决于模型初始的“置信度-正确性”对齐程度，那么能否利用这一对齐度，提前判断一个基础模型是否适合进行强化学习微调？毕竟，运行一次大规模强化学习的成本高昂，而学术界一直缺乏一个轻量级的预判指标。

研究者找到了一把“尺子”：模型坍塌步数，用于衡量一个模型在内在奖励训练下，能坚持多少步才完全崩溃。逻辑很简单：崩溃发生得越晚，说明模型的初始先验越好，其本身已掌握更多正确知识，只是不够自信。而这种先验，恰恰是标准的有监督强化学习能够有效放大的特质。换言之，内在奖励下的崩溃点，可以作为模型“强化学习可训练性”的天然指示器。

实验结果印证了这一点。像 Qwen 这样公认“适合强化学习”的模型系列，在内在奖励训练下坚持的时间更长。更有意义的是，这一指标无需任何真实标注，其预测准确率甚至超过了传统的 pass@k 指标。

这实现了将失败曲线转化为导航路标，将昂贵的试错过程转变为轻量级的预判工具。

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

发现四：外部奖励是可扩展的关键方向

如果内在奖励存在固有上限，那么出路何在？

问题的核心在于奖励信号的来源。内在奖励方法依赖于模型自身的置信度来驱动自我训练，这形成了一个封闭的反馈循环。奖励信号始终受限于模型已有的认知范畴，因此难以引导模型学习其真正未知的知识。

然而，无监督强化学习的探索不止于此。我们将外部奖励方法归纳为两类更具扩展性的路径：

利用无标注数据：从海量语料中自动挖掘奖励信号。数据规模越大，潜在的奖励信号就越丰富，不会因模型自身能力的提升而枯竭。
利用生成-验证的不对称性：让模型生成解答（如代码、证明），然后借助外部工具（如编译器、证明器、模拟器）进行客观验证并提供环境反馈。这些验证器的判断标准独立于模型，不会随模型变强而失效。

初步的自验证方法测试结果揭示了一条不同的性能曲线：模型表现持续改进，未出现崩溃。其根本原因在于，奖励不再源于“模型有多自信”，而是取决于“答案能否通过客观验证”。生成正确答案可能困难，但验证对错往往相对简单。这种不对称性将模型的进化锚定在真实世界的客观规律上，而非其自身的认知回音室中。

内在奖励追问的是“你相信自己吗？”，而外部奖励追问的是“这是真的吗？”。通往可扩展的无监督强化学习，答案或许在于后者。

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

结语：边界之外

我们详细探讨了无监督强化学习当前的内在奖励边界。然而，绘制这张边界地图的价值，从来不是为了宣告“此路不通”，而是为了回答：在何种条件下，哪一条路径是可行的。

一个系统能否通过自我审视获得提升，取决于其初始判断的准确性。内在奖励方法的失败与成功，源于同一机制：自我强化。区别仅在于被强化的是真理还是偏见。

当我们认清内在奖励的固有局限，才能真正展望外部奖励所展现的广阔前景。构建可扩展的无监督强化学习系统，需要的并非盲目相信模型能够自我进化，而是明智地判断何时应让它倾听内部回声，何时又必须将其推向真实世界的客观验证。

内在奖励与外部奖励并非对立，而是工具箱中的不同工具。厘清边界，不是为了止步，而是为了在边界内自如创造，并向边界之外探寻新的可能。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/26772

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

强化学习的范式迁移：从监督走向无监督

内在奖励方法：繁荣表象下的深层困境

研究目标：拆解黑箱，界定边界

核心发现

🔍 发现一：成败取决于“置信度-正确性”对齐程度

✅ 发现二：小规模场景中反而安全

🎯 发现三：预判模型的“强化学习可训练性”

相关推荐

周末实战：7个可上线级Agentic AI项目，助你打造高含金量作品集

多模态模型视觉短板被攻克！UniPat AI用500行代码打造SWE-Vision，让AI学会“掏出Python尺子”自我验证，五大视觉基准全SOTA

SBTI人格测试爆火全网：一夜刷屏的社交狂欢，开发者48小时用Claude Code完成逆向复刻

自进化Text-to-SQL系统：基于Stanford ACE框架的智能查询优化革命

QwenLong-L1.5：一套配方三大法宝，让30B MoE模型长文本推理媲美GPT-5