探索增强

大模型训练

I²B-LPO：突破RLVR探索瓶颈，高熵节点注入潜变量分支，数学推理准确率提升5.3%

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架，它通过改进 rollout 策略，引导模型生成更多样化的推理轨迹，将探索行为从“重复采样”推进到“在关键节点生成更具区分度的推理轨迹”。在多个数学基准上，该方法同时提升了准确率与语义多样性，最高分别达到 5.3% 和 7.4%。该工作已被 ACL 2026 Main 接收，来自阿里达摩院智能决策团队…

7小时前
21000