ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

在人工智能领域,大语言模型(LLM)的数学推理能力一直是衡量其智能水平的重要标尺。近年来,基于可验证奖励的强化学习(RLVR)方法,如PPO、GRPO等,已成为提升模型推理能力的主流技术路径。然而,这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷:训练稳定性差、计算复杂度高、推理多样性丧失。

训练稳定性问题源于强化学习目标的非定常性。在优化过程中,模型极易因梯度爆炸或策略崩溃而失效。现有解决方案往往依赖复杂的技巧补丁,如KL正则化约束、重要性采样裁剪、熵监控等,但这些措施如同在悬崖边行走,稍有不慎就会导致“熵坍塌”——模型策略多样性骤降,陷入单一推理路径的僵局。

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

计算负担则是另一重挑战。PPO等方法需要维护独立的价值网络来预测状态价值,GRPO则需基模型计算KL散度。这种“重资产”模式不仅增加了内存和计算开销,还使调参过程变得异常复杂,严重制约了方法的可扩展性和实际部署效率。

最根本的矛盾在于推理多样性的流失。传统强化学习方法以奖励最大化为核心目标,这迫使模型过度追求单次推理正确率,却牺牲了策略探索能力。结果模型只会生成少数几种“安全”的推理路径,导致pass@k性能(即多次采样中至少一次正确的概率)提前饱和,无法通过增加采样次数获得显著提升。

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

面对这些困境,香港科技大学联合阶跃、快手等团队提出了一个颠覆性的解决方案:ROVER(Random Policy Valuation for Diverse Reasoning)。该方法的核心理念令人惊讶——只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。研究团队首先将LLM数学推理任务建模为有限时域马尔可夫决策过程(MDP),并识别出其三个关键特性:确定性状态转移、树状结构(每个状态有唯一父节点)、二元稀疏奖励(正确/错误)。这与传统RL任务中的随机状态转移、循环图结构、中间奖励等复杂设定形成鲜明对比。

在这一简化框架下,研究团队证明了数学上的突破性结论:均匀随机策略的Q值直接指向最优策略。设环境为有限时域、树形状态空间、二元奖励的MDP,

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

为均匀随机策略(每个动作选择概率为1/|A|),

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

为其Q值。则贪心策略就是最优策略!

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

证明的直观理解在于:在树形结构中,若某动作

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

的子树存在正确解答,则

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

;反之

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

。因此,贪心选择

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

值最大的动作,必然导向包含正确解答的路径。

基于这一理论洞察,ROVER将复杂的策略学习过程简化为三步极简流程:

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

第一步,Q值估计。ROVER通过广义贝尔曼方程计算均匀随机策略下状态-动作对的

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

值,方程用均值算子表达:

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

其中

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

为奖励,s’为执行动作a后的新状态,V为动作空间。

第二步,策略构建。虽然贪心选择可保证最优性,但可能丧失多样性。为此,ROVER引入基于

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

值的softmax采样:

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

其中

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

是温度系数,控制探索程度。这种方式既保留了高价值路径的优先级,又能探索多条有效推理路线,显著提升pass@k表现。

第三步,训练目标优化。在实际实现中,ROVER将

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

函数内化于LLM参数,无需训练额外价值网络:

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

这种“自监督”式参数化让模型学习“相对改进”而非“绝对价值”,既减少计算量,又提升稳定性。同时引入组内奖励中心化降低方差,即

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

,避免高方差奖励干扰

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

值学习,并将中心化奖励“广播”到生成的全序列token,实现细粒度信用分配。ROVER的损失函数可以表示为

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

,算法伪代码如下

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

实验验证方面,研究团队在数学推理基准(AIME24/25、HMMT25、AMC、MATH等)、Countdown任务以及O.O.D.任务GPQA-diamond上全面测试ROVER,覆盖Qwen3-8B/4B、DeepSeek-R1-1.5B等模型。结果堪称“降维打击”:在Qwen3-8B-Base模型上,ROVER的pass@1在AIME24达到30.6,相比传统方法提升8.2个百分点;pass@256提升16.8个百分点,多样性指标平均提升17.6%。更重要的是,ROVER无需维护价值网络或基模型计算KL散度,实现了极简架构下的高性能突破。

ROVER的意义远不止于性能提升。它挑战了强化学习必须依赖策略迭代的固有认知,为LLM推理优化开辟了全新范式。在AI模型日益复杂、计算成本不断攀升的今天,这种“少即是多”的设计哲学尤其珍贵。未来,ROVER的极简思想有望扩展到更广泛的序列决策任务中,推动AI系统在保持高性能的同时,实现更高的计算效率和更好的可解释性。

— 图片补充 —

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8617

(0)
上一篇 2025年10月31日 上午11:51
下一篇 2025年10月31日 上午11:56

相关推荐

  • Meta与博通签下五年AI芯片长约,目标为数十亿人打造个人超级智能

    硅谷传来重磅消息:Meta宣布,与博通的定制AI芯片合作将延续至2029年,初始承诺投入超过 1GW 的算力。 1GW算力规模庞大,相当于满足美国75万户家庭的日常用电需求。但这仅仅是开始。 Meta首席执行官马克·扎克伯格在声明中明确表示:此次合作将助力建设大规模计算基础设施,旨在为数十亿人提供个人超级智能。 这一宣言揭示了扎克伯格的终极愿景:让地球上的每…

    2026年4月15日
    39100
  • OpenAI星际之门项目搁浅:5000亿美元AI基建为何陷入停滞?

    OpenAI星际之门项目搁浅:5000亿美元AI基建为何陷入停滞? 2025年1月,OpenAI宣布与软银、甲骨文组建合资公司,计划在未来4年投入5000亿美元兴建数据中心,为自身获取10GW的算力。 然而,一年多过去,这个曾被寄予厚望的“星际之门”项目却陷入停滞:团队至今未能配齐,数据中心也尚未开工。 一度被誉为史上最大规模的AI基建项目,为何举步维艰? …

    2026年2月23日
    32800
  • 马斯克与奥特曼庭审互撕:承认蒸馏OpenAI,日记曝光10亿身家计划

    马斯克与奥特曼的这场世纪庭审,爆出的猛料实在太多,连续吃了三天都消化不完。 在马斯克这边,他公开承认xAI通过蒸馏技术使用了OpenAI的模型来训练Grok。 上午刚说“我不对人大喊”,下午就在法庭上高声争执。 律师Savitt追问捐款细节:承诺捐款10亿美元,实际到账3800万,兑现率不足4%。 马斯克急了,当庭大声反驳: “没有我,OpenAI根本不存在…

    2026年5月2日
    28000
  • 开源欧拉发布全球首个超节点操作系统:开启AI时代操作系统新纪元

    在人工智能浪潮席卷全球的当下,操作系统作为连接硬件与应用的核心基石,正迎来前所未有的变革机遇。2025年,以“智跃无界,开源致远”为主题的操作系统大会在北京中关村国际创新中心成功举办,标志着开源欧拉(openEuler)社区正式迈入面向超节点和AI时代的新发展阶段。 开源欧拉社区自成立以来,在开放原子开源基金会的运营孵化下,已发展成为全球最活跃的开源操作系统…

    2025年11月15日
    34700
  • Meta引领AI绩效革命:从工具依赖到能力量化的职场范式重构

    在硅谷的科技浪潮中,Meta近期宣布的一项内部政策变革,正引发业界对人工智能与职场生态关系的深度思考。该公司计划从2026年起,将AI使用情况正式纳入员工绩效考核体系,这不仅是技术应用的简单延伸,更是对现代工作价值评估机制的一次结构性重塑。 这一决策的核心逻辑在于构建“AI评估AI使用”的闭环系统:员工通过AI工具提升工作效率,而公司则通过AI系统量化员工对…

    2025年11月17日
    38700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注