ROVER：颠覆传统强化学习范式，随机策略价值评估开启LLM数学推理新纪元

2025年10月31日上午11:51 • AI产业动态 • 阅读 371

在人工智能领域，大语言模型（LLM）的数学推理能力一直是衡量其智能水平的重要标尺。近年来，基于可验证奖励的强化学习（RLVR）方法，如PPO、GRPO等，已成为提升模型推理能力的主流技术路径。然而，这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷：训练稳定性差、计算复杂度高、推理多样性丧失。

训练稳定性问题源于强化学习目标的非定常性。在优化过程中，模型极易因梯度爆炸或策略崩溃而失效。现有解决方案往往依赖复杂的技巧补丁，如KL正则化约束、重要性采样裁剪、熵监控等，但这些措施如同在悬崖边行走，稍有不慎就会导致“熵坍塌”——模型策略多样性骤降，陷入单一推理路径的僵局。

计算负担则是另一重挑战。PPO等方法需要维护独立的价值网络来预测状态价值，GRPO则需基模型计算KL散度。这种“重资产”模式不仅增加了内存和计算开销，还使调参过程变得异常复杂，严重制约了方法的可扩展性和实际部署效率。

最根本的矛盾在于推理多样性的流失。传统强化学习方法以奖励最大化为核心目标，这迫使模型过度追求单次推理正确率，却牺牲了策略探索能力。结果模型只会生成少数几种“安全”的推理路径，导致pass@k性能（即多次采样中至少一次正确的概率）提前饱和，无法通过增加采样次数获得显著提升。

面对这些困境，香港科技大学联合阶跃、快手等团队提出了一个颠覆性的解决方案：ROVER（Random Policy Valuation for Diverse Reasoning）。该方法的核心理念令人惊讶——只需对一个完全随机的策略进行价值评估，就足以找到最优推理路径。研究团队首先将LLM数学推理任务建模为有限时域马尔可夫决策过程（MDP），并识别出其三个关键特性：确定性状态转移、树状结构（每个状态有唯一父节点）、二元稀疏奖励（正确/错误）。这与传统RL任务中的随机状态转移、循环图结构、中间奖励等复杂设定形成鲜明对比。

在这一简化框架下，研究团队证明了数学上的突破性结论：均匀随机策略的Q值直接指向最优策略。设环境为有限时域、树形状态空间、二元奖励的MDP，

为均匀随机策略（每个动作选择概率为1/|A|），

为其Q值。则贪心策略就是最优策略！

证明的直观理解在于：在树形结构中，若某动作

的子树存在正确解答，则

；反之

。因此，贪心选择

值最大的动作，必然导向包含正确解答的路径。

基于这一理论洞察，ROVER将复杂的策略学习过程简化为三步极简流程：

第一步，Q值估计。ROVER通过广义贝尔曼方程计算均匀随机策略下状态-动作对的

值，方程用均值算子表达：

其中

为奖励，s’为执行动作a后的新状态，V为动作空间。

第二步，策略构建。虽然贪心选择可保证最优性，但可能丧失多样性。为此，ROVER引入基于

值的softmax采样：

其中

是温度系数，控制探索程度。这种方式既保留了高价值路径的优先级，又能探索多条有效推理路线，显著提升pass@k表现。

第三步，训练目标优化。在实际实现中，ROVER将

函数内化于LLM参数，无需训练额外价值网络：

这种“自监督”式参数化让模型学习“相对改进”而非“绝对价值”，既减少计算量，又提升稳定性。同时引入组内奖励中心化降低方差，即

，避免高方差奖励干扰

值学习，并将中心化奖励“广播”到生成的全序列token，实现细粒度信用分配。ROVER的损失函数可以表示为

，算法伪代码如下

。

实验验证方面，研究团队在数学推理基准（AIME24/25、HMMT25、AMC、MATH等）、Countdown任务以及O.O.D.任务GPQA-diamond上全面测试ROVER，覆盖Qwen3-8B/4B、DeepSeek-R1-1.5B等模型。结果堪称“降维打击”：在Qwen3-8B-Base模型上，ROVER的pass@1在AIME24达到30.6，相比传统方法提升8.2个百分点；pass@256提升16.8个百分点，多样性指标平均提升17.6%。更重要的是，ROVER无需维护价值网络或基模型计算KL散度，实现了极简架构下的高性能突破。

ROVER的意义远不止于性能提升。它挑战了强化学习必须依赖策略迭代的固有认知，为LLM推理优化开辟了全新范式。在AI模型日益复杂、计算成本不断攀升的今天，这种“少即是多”的设计哲学尤其珍贵。未来，ROVER的极简思想有望扩展到更广泛的序列决策任务中，推动AI系统在保持高性能的同时，实现更高的计算效率和更好的可解释性。

— 图片补充 —