无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

强化学习的范式迁移:从监督走向无监督

强化学习正持续拓展大模型的能力边界。从 OpenAI o3 到 DeepSeek-R1、Gemini 3,顶尖模型正通过大规模 RLVR(可验证奖励强化学习)不断刷新推理任务的上限。然而,纯监督式训练的局限性日益凸显:人工标注成本呈指数级增长,在专业领域获取可靠标注愈发困难。当模型能力逼近甚至超越人类专家时,可靠的评估者从何而来?

在此背景下,无监督 RLVR(Unsupervised RLVR)应运而生,旨在让模型摆脱对人工标注的依赖,实现自主进化。这不仅是出于降本增效的现实需求,更是迈向更高级智能形态的潜在路径。正如预训练利用海量无标注数据孕育了 GPT,无监督 RLVR 能否复现这一奇迹,开启强化学习的新篇章?

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

  • 论文链接: https://arxiv.org/abs/2603.08660
  • GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
  • X Thread: https://x.com/HBX_hbx/status/2031406636930338828

清华大学的一项最新研究,为这幅看似美好的图景勾勒出了第一条清晰的边界。研究者系统剖析了无监督 RLVR 的内在机制,发现所有基于模型自身信号构建内在奖励的方法——无论是多数投票、基于熵的奖励还是其他变体——都遵循着相似的轨迹:训练初期性能快速攀升,但在达到某个临界点后,便开始不可逆转地滑落。

这并非特定方法的缺陷,而是其固有机制的宿命。这些方法本质上都在“锐化”模型已有的偏好,如同一个回声室,让模型不断强化其初始信念。如果初始信念恰好正确,效果显著;一旦初始信念存在偏差,性能的坍塌便只是时间问题。

然而,这并不意味着内在奖励毫无价值。研究表明,在小规模测试时训练中,它仍能稳定提升模型性能。即使模型初始答案全错,也能在自我驱动的纠偏过程中实现进化。更重要的是,研究者找到了一个“预言指标”,可在投入大规模训练前,预判模型的可训练性,从而避免运行完整的训练曲线。

当内在奖励受限于模型自身的“回声”时,基于外部信息(如利用生成与验证过程的不对称性)的奖励方法开始展现出不同的潜力。这类方法正在尝试突破内在奖励的天花板,推动无监督强化学习走向真正的可扩展性。

通往更高级智能的道路上,我们需要的并非盲目相信模型能够自我进化,而是清晰地知道:何时应让它倾听自己的“回声”,何时又必须将其推向真实世界的验证。

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

内在奖励方法:繁荣表象下的深层困境

过去一年,各类“内在奖励”方法密集涌现。从多数投票到基于模型置信度或熵的变体,它们利用模型的内在信号构造代理奖励,在训练前期往往能带来性能的飙升,甚至一度超越有监督方法。

研究者根据奖励信号的来源,将这些方法归纳为两类:一类基于确定性,直接取模型在推理轨迹上的置信度指标作为奖励;另一类基于集成,利用多次 rollout 后的集成结果(如多数投票)来锚定正确答案。

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

虽然奖励信号本身是“免费”的,但其代价却可能十分昂贵。在早期性能飙升之后,持续训练往往会触发典型的“奖励破解”现象:
* 代理奖励持续上涨,真实性能却开始崩溃。
* 模型表现得越来越自信,但给出的答案却越来越离谱。
* 不同的内在奖励方法在不同模型上的表现差异巨大,且缺乏可解释性。

最关键的是,此前无人能清晰阐明这些方法为何有效,又为何最终失效。

研究目标:拆解黑箱,界定边界

本研究的目标并非简单地“提出新方法以刷新指标”,而是旨在回答那个悬而未决的根本问题:无监督 RLVR 的扩展上限究竟在哪里?如果存在上限,其边界又该如何界定?

为此,我们开展了以下五个层面的工作:
1. 建立统一理论框架:将看似各异的内在奖励方法归入同一机制之下,揭示其“殊途同归”的本质——锐化模型的初始分布,并给出理论上的收敛边界。
2. 进行大规模实证分析:在 11 个模型、5 种内在奖励方法上进行超参数扫描,用数据证实“先升后降”并非偶然,而是一种普遍规律。
3. 划定安全应用区:并非所有场景都会导致崩溃。研究发现,在小规模测试时训练中,内在奖励可以安全使用,即使初始答案全错,模型也能稳定进化。
4. 化陷阱为路标:“上升与跌落”曲线本身蕴含信息。我们据此提炼出模型先验指示器,无需运行完整的强化学习曲线,即可预判一个基础模型是否适合进行强化学习微调。
5. 探索替代方案:既然内在奖励存在天花板,我们便将目光投向外部奖励。初步探索了基于生成-验证不对称性的外部奖励方法,检验其能否真正突破内在奖励的扩展极限。

核心发现

🔍 发现一:成败取决于“置信度-正确性”对齐程度

我们建立了内在奖励方法的统一理论,揭示所有这类方法的本质是分布锐化,即放大模型已有的偏好,而非创造新知识。该机制具有一个关键特性:
* 若模型初始倾向正确 → 锐化有效,性能提升。
* 若模型初始倾向错误 → 锐化有害,加速崩溃。

我们定义模型的初始倾向(或称模型先验)为 “置信度-正确性”对齐程度。它衡量的是,当我们仅提升模型的自一致性(使其更自信)时,有多大可能直接提高其答题的正确率。换言之,一个先验较强的模型,本身已掌握了解决问题所需的大部分知识,只是不够自信而无法稳定输出正确答案。

通过对 11 个模型、5 种方法、4个常用超参数组合的测试,结论指向一个可能的事实:性能崩溃难以避免,只是时间早晚问题。即使是最稳定的配置也撑不过几个训练周期。这暗示问题可能并非出自工程实现,而是数学上的必然。

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱
左图:成败取决于置信度-正确性对齐程度;右图:单条数据上置信度与正确性随训练的演化

✅ 发现二:小规模场景中反而安全

“上升后跌落”虽是普遍规律,但其适用范围有限。

当训练数据量足够少时,例如在测试时训练这种针对特定领域的小规模场景中,内在奖励方法反而表现出难得的稳定性。原因很直观:仅在少量样本上优化置信度,模型的优化空间有限。即便它在这些样本上变得“超级自信”,也难以引发全局性的策略偏移,其在分布外任务上的准确率依然能够保持稳定。

一个更有趣的极端实验是:研究者刻意选取了 32 条模型初始答案全错的样本作为训练集。这意味着,内在奖励给出的代理奖励从一开始就是错误的。然而,结果却显示,模型在分布外测试集上的性能仍在稳步提升。

这说明,内在奖励训练并非在教导模型“什么是对的”,而是在教导它“更加相信自己”。即使信错了,这种自我强化也被限制在局部范围内,难以掀起大的风浪。

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱
左图:小规模测试时训练稳定提升,未发生崩溃;右图:不同训练集规模下策略的KL散度偏移

🎯 发现三:预判模型的“强化学习可训练性”

“上升与跌落”曲线不仅是风险信号,其本身也承载着有价值的信息。

既然内在奖励的成败取决于模型初始的“置信度-正确性”对齐程度,那么能否利用这一对齐度,提前判断一个基础模型是否适合进行强化学习微调?毕竟,运行一次大规模强化学习的成本高昂,而学术界一直缺乏一个轻量级的预判指标。

研究者找到了一把“尺子”:模型坍塌步数,用于衡量一个模型在内在奖励训练下,能坚持多少步才完全崩溃。逻辑很简单:崩溃发生得越晚,说明模型的初始先验越好,其本身已掌握更多正确知识,只是不够自信。而这种先验,恰恰是标准的有监督强化学习能够有效放大的特质。换言之,内在奖励下的崩溃点,可以作为模型“强化学习可训练性”的天然指示器。

实验结果印证了这一点。像 Qwen 这样公认“适合强化学习”的模型系列,在内在奖励训练下坚持的时间更长。更有意义的是,这一指标无需任何真实标注,其预测准确率甚至超过了传统的 pass@k 指标。

这实现了将失败曲线转化为导航路标,将昂贵的试错过程转变为轻量级的预判工具。

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

发现四:外部奖励是可扩展的关键方向

如果内在奖励存在固有上限,那么出路何在?

问题的核心在于奖励信号的来源。内在奖励方法依赖于模型自身的置信度来驱动自我训练,这形成了一个封闭的反馈循环。奖励信号始终受限于模型已有的认知范畴,因此难以引导模型学习其真正未知的知识。

然而,无监督强化学习的探索不止于此。我们将外部奖励方法归纳为两类更具扩展性的路径:

  • 利用无标注数据:从海量语料中自动挖掘奖励信号。数据规模越大,潜在的奖励信号就越丰富,不会因模型自身能力的提升而枯竭。
  • 利用生成-验证的不对称性:让模型生成解答(如代码、证明),然后借助外部工具(如编译器、证明器、模拟器)进行客观验证并提供环境反馈。这些验证器的判断标准独立于模型,不会随模型变强而失效。

初步的自验证方法测试结果揭示了一条不同的性能曲线:模型表现持续改进,未出现崩溃。其根本原因在于,奖励不再源于“模型有多自信”,而是取决于“答案能否通过客观验证”。生成正确答案可能困难,但验证对错往往相对简单。这种不对称性将模型的进化锚定在真实世界的客观规律上,而非其自身的认知回音室中。

内在奖励追问的是“你相信自己吗?”,而外部奖励追问的是“这是真的吗?”。通往可扩展的无监督强化学习,答案或许在于后者。

无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

结语:边界之外

我们详细探讨了无监督强化学习当前的内在奖励边界。然而,绘制这张边界地图的价值,从来不是为了宣告“此路不通”,而是为了回答:在何种条件下,哪一条路径是可行的。

一个系统能否通过自我审视获得提升,取决于其初始判断的准确性。内在奖励方法的失败与成功,源于同一机制:自我强化。区别仅在于被强化的是真理还是偏见。

当我们认清内在奖励的固有局限,才能真正展望外部奖励所展现的广阔前景。构建可扩展的无监督强化学习系统,需要的并非盲目相信模型能够自我进化,而是明智地判断何时应让它倾听内部回声,何时又必须将其推向真实世界的客观验证。

内在奖励与外部奖励并非对立,而是工具箱中的不同工具。厘清边界,不是为了止步,而是为了在边界内自如创造,并向边界之外探寻新的可能。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26772

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • 周末实战:5个能放进作品集的Agentic AI项目,助你求职脱颖而出

    人们常把“Agentic AI”描绘成只有大型实验室才能驾驭的高深技术。事实并非如此。 你完全可以在几天内,构建出真正能放进作品集的智能体项目。这些项目能解决实际问题,从而在求职时为你加分,而不是只会运行花哨提示词的玩具。 这里有五个你马上就可以动手实践的项目,即使你只有一台在卧室里、电量只剩一半的笔记本电脑。 我们将通过简单的示例逐一讲解,让你看清各个组件…

    2025年12月8日
    23300
  • 突破记忆瓶颈!MSA架构实现100M Token长时记忆,开启大模型终身记忆新纪元

    人的智能由推理能力与长期记忆能力构成。近年来,大模型的推理能力快速发展,但其长期记忆能力始终受限于上下文长度,难以突破。历史上,多种技术路线都试图解决这一问题,但均未能同时满足扩展性(Scality)、精度(Precision)与效率(Efficiency)的要求,形成了一个“不可能三角”。近期,论文《MSA: Memory Sparse Attention…

    1天前
    17000
  • MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

    MiniMax M2.7 重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽 MiniMax 在发布 M2.5 模型仅一个月后,再次推出了全新的 M2.7 模型。此次更新标志着模型在复杂任务处理与多智能体协作能力上实现了显著跃升。 M2.7 的推理与工程能力取得了质的飞跃,能够独立处理生产环境中棘手的故障排查任务。相较于以往仅能辅助编写代码…

    2天前
    21800
  • 阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

    阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…

    2026年2月21日
    59900
  • 如何使用 Knowledge Graph 和 LLM 构建构建问答系统

    基于模拟 FAQ 文档构建的知识图谱 本文将介绍一个基于知识图谱(使用上一篇文章介绍的方法构建)和大型语言模型(LLM,此处使用 Gemma3-4b-it-qat)的简易问答系统。选择 Gemma3-4b 是因为其模型尺寸适中,可在普通笔记本电脑上运行,且具备出色的指令遵循能力。 我们将以一个虚构智能手机产品的 FAQ 文本为例,复用上一篇文章的代码为其构建…

    2025年11月13日
    17100