探索增强
-
I²B-LPO:突破RLVR探索瓶颈,高熵节点注入潜变量分支,数学推理准确率提升5.3%
I²B-LPO 是一个面向 RLVR 后训练的探索增强框架,它通过改进 rollout 策略,引导模型生成更多样化的推理轨迹,将探索行为从“重复采样”推进到“在关键节点生成更具区分度的推理轨迹”。在多个数学基准上,该方法同时提升了准确率与语义多样性,最高分别达到 5.3% 和 7.4%。该工作已被 ACL 2026 Main 接收,来自阿里达摩院智能决策团队…