SimKO算法突破RLVR探索困境：实现大模型推理中探索与利用的平衡

在DeepSeek-R1、Kimi1.5等模型相继展示强化学习对大型语言模型复杂推理能力的显著提升后，可验证强化学习（RLVR）在数学、逻辑与编程等领域的应用已成为研究热点。然而，现有RLVR方法在提升模型pass@1性能的同时，却导致pass@K（K>1）性能下降，这一矛盾现象揭示了当前强化学习范式的根本缺陷。

**RLVR的探索困境：概率分布的过度集中**

研究团队由西湖大学与浙江大学联培博士生彭若天、不列颠哥伦比亚大学博士任毅、香港中文大学博士生郁昼亮、香港中文大学计算机系助理教授刘威杨、西湖大学人工智能系助理教授温研东组成。他们发现，经过GRPO、DAPO等主流RLVR算法训练后的模型，普遍存在概率分布过度集中于单一推理路径的问题。这种机制虽然增强了模型对特定正确路径的「利用」能力，却严重削弱了对多样化正确解的「探索」能力。

**传统评估指标的局限性**

传统上，研究者使用熵（Entropy）作为衡量概率分布多样性的指标，但团队研究发现这一指标存在本质缺陷。如图2所示，两个具有相同熵值的概率分布可能呈现完全不同的形态：一个可能包含多个峰值，代表模型在多个推理路径间保持平衡；另一个则可能高度集中于单一峰值，表明模型已丧失探索能力。熵值无法区分这两种关键差异，因此无法准确反映模型在推理过程中的真实探索程度。

**创新分析指标揭示训练动态**

为解决这一问题，研究团队开发了全新的分析指标。该指标通过测量模型在生成过程中，对不同排名候选词（rank-k candidate）的平均对数概率，实现对概率分布演化动态的直接观测。这一创新方法使研究者能够精确追踪训练过程中模型概率分布的变化轨迹。

**系统性偏差的发现**

通过新指标的分析，团队揭示了RLVR训练机制的系统性偏差。如图3所示，现有RLVR算法会持续强化rank-1候选词的概率，同时显著抑制其他较低排名（rank-k, k>1）的候选路径，即使这些路径同样是正确的。这种偏差导致模型输出分布过度集中，概率质量汇聚于单一的推理路径，从而丧失了生成多样化正确答案的能力。更重要的是，实验数据明确显示，概率过度集中问题与pass@K性能下降之间存在强相关性：当模型概率分布越集中于rank-1答案，而rank-2和rank-3的概率越低时，其pass@K指标也随之降低。

**SimKO算法的核心机制**

为解决上述问题，研究团队提出了SimKO（Simple Pass@K Optimization）算法。该算法的核心在于对探索token实施非对称的梯度调节策略，如图4所示。SimKO包含三个关键设计：

首先，算法识别推理路径中具有高熵的token，这些token代表模型面临多个高概率选项的关键节点。SimKO的更新策略仅应用于这些关键节点，避免了对整个序列的无差别调节。

其次，对于正确路径，SimKO采用top-K标签平滑策略。传统GRPO方法仅提升被采样到的单个正确token的概率，由于采样过程偏向rank-1候选token，这直接导致概率过度集中。SimKO则将奖励均匀分配给关键节点处概率最高的top-K个候选token，防止概率分布集中在单一正确路径上，在强化正确路径的同时维持探索多样性。

第三，对于错误路径，SimKO实施非对称惩罚机制。传统方法对所有被采样到的错误token施加统一惩罚，这会导致「挤压效应」：当非rank-1的错误候选token被惩罚时，其概率会被rank-1候选token吸收，反而加剧概率集中。SimKO则对rank-1错误候选施加更强惩罚，对其他错误候选降低惩罚强度，既缓解了概率集中问题，又防止模型陷入单一错误推理模式。

**实验验证与性能分析**

研究团队在MATH500、AIME 2024/25、Minerva Math、OlympiadBench、AMC23等多个数学推理基准上对Llama和Qwen模型进行了系统性评估。如表1所示，SimKO策略在显著提升pass@K性能的同时，成功保持（或略微提升）了pass@1准确率，实现了「探索」与「利用」的有效平衡。

进一步的分析表明，SimKO有效缓解了概率分布过度集中的问题。使用新提出的分析指标追踪训练过程发现，采用SimKO训练的模型在关键节点上保持了更均衡的概率分布，rank-2和rank-3候选词的概率得到合理保留，这正是pass@K性能提升的根本原因。

**技术实现与开源贡献**

SimKO算法的实现简洁高效，研究团队已在GitHub开源完整代码（https://github.com/CLR-Lab/SimKO），论文详细技术细节发表于arXiv（https://arxiv.org/abs/2510.14807），项目主页提供完整文档和示例（https://spherelab.ai/simko/）。该算法与现有RLVR框架兼容，只需修改梯度计算部分即可集成，为大规模语言模型的训练优化提供了实用工具。

**行业影响与未来展望**

SimKO算法的提出不仅解决了RLVR训练中的探索困境，更为大模型推理能力的全面提升提供了新思路。在需要多样化解决方案的实际应用场景中，如代码生成、数学问题求解、逻辑推理等，保持模型的探索能力至关重要。SimKO通过创新的梯度调节策略，在强化学习框架内实现了探索与利用的平衡，这一突破将对大模型训练方法论产生深远影响。未来，研究团队计划将SimKO扩展到更复杂的多模态推理任务中，进一步验证其在更广泛场景下的有效性。

— 图片补充 —