一篇发表于 ICML 2026 主会的论文,其核心作者包括北京通用人工智能研究院(通研院)的研究员吴桐、刘洋和白骏,通讯作者为通研院语言交互实验室的研究员贾子夏及实验室主任郑子隆。
近年来,大语言模型在“写得更长、更流畅”方面取得了显著进展。然而,当任务升级为真正复杂的推理场景——需要多路径探索、自我反思与相互验证,以及在不同线索间进行汇总与取舍时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易被早期判断误导,发散能力不足,自我纠错能力薄弱,且顺序生成的模式天然限制了效率。
针对这些瓶颈,北京通用人工智能研究院(BIGAI)语言交互实验室(NLCo)推出了最新研究成果——原生并行推理器(Native Parallel Reasoner,简称NPR)。其核心思路是:让智能体在一次思考过程中,同时生成并维护多条候选推理路径,在关键节点进行“分支与聚合”,最终像拼图一样汇总所有线索,合成出最优解。
更为关键的是,NPR的突破点并非仅仅是“并行生成的工程技巧”,而是提出了一套包含“自蒸馏与并行强化学习”的三阶段训练范式,并配备了专门的并行推理引擎。其最终目标是让并行推理从一种外部策略,内化为模型的原生认知能力。

- 论文标题:Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
- 论文链接:https://arxiv.org/abs/2512.07461
- 代码实现:https://github.com/bigai-nlco/Native-Parallel-Reasoner
- 项目主页:https://bigai-nlco.github.io/Native-Parallel-Reasoner
当前,对语言智能体(Language Agent)的研究焦点,已从“单一思维链的扩展”转向了“多步深度推理”。模型能进行更深层次的推理固然令人兴奋,但未来的超级智能真正需要的,是能够更广泛地并行探索多条可能的思考路径——即在一次推理过程中同时尝试多种解法,然后将结果进行合并与校验。这种类似于MapReduce[2]的分而治之思想,对于进一步拓展智能体在测试时计算[3]的能力边界至关重要。然而,要将这种能力自然地整合进一个智能体中,仍面临着巨大挑战。
- 算法与架构不匹配
现有的推理引擎和强化学习算法很难原生支持“分支与聚合”操作。推理引擎通常无法高效调度并行分支;而常用的强化学习技术则可能截断或削弱那些触发并行结构的特殊词元的梯度,从而阻碍模型学习严格的并行控制逻辑。 - 低效的手工并行机制
早期将并行思路内化的尝试,多依赖于手工设计的分治规则。这些方法无法充分复用共享的KV Cache状态,导致每个分支都进行重复计算,时间复杂度退化为线性O(N),难以满足实时或大规模部署的效率要求。 - 对强监督蒸馏的依赖
像Multiverse[4]这类方法虽能实现并行,但高度依赖于从强教师模型中蒸馏出的示例,无法通过自举方式扩展自身的智能边界。学生模型不过是在模仿教师的串行拓扑,并将其“塞入”并行格式,结果是将教师的局限性也一并继承。这使得模型在短时间内难以产生新的、自身固有的并行策略,从而达到了当前的“智能瓶颈”。
背景与痛点:为什么我们迫切需要并行推理?
人们对智能体的期待,正从“能多想一步”的单一思维链,升级到“能多维思考”的深度推理。未来更强大的智能体,必须具备广泛探索多条思考路径的能力——这很像经典的MapReduce[2]思想:将复杂问题拆解后并行处理,再聚合结果以做出全局最优决策。
然而,要让模型真正掌握这种“分身术”,现实中通常面临三大障碍:
- 并行思考数据极难获得:对强教师蒸馏的过度依赖
现有不少并行推理工作需要强教师模型提供高质量的并行轨迹(如Multiverse[4]类方法)。问题在于:- 学生模型更多是在模仿教师的串行拓扑,再“塞进并行格式”。
- 结果是将教师的局限性一并继承,难以通过自举方式扩展智能边界。
- 很难真正涌现出“模型自身固有的并行策略”,形成新的智能瓶颈。
- 低效的手工并行机制:分支之间难以共享,重复计算严重
早期模型并行常依赖手工设计的分治规则:每条路径按既定模式推理或生成。由于缺乏对共享步骤的有效复用,常常出现每个分支都重复计算公共前缀的情况,效率很难满足实时推理和大规模部署需求。 - 基础设施与算法对并行架构支持不足:分支与聚合“学不会”
现有推理引擎和强化学习算法对“分支-聚合”结构往往缺乏原生支持:- 推理引擎难以高效调度并行分支。
- 常用的强化学习技术可能会截断或削弱触发并行结构的特殊控制词元梯度,从而阻碍模型学习严格的并行控制逻辑。
NPR的核心理念:把“并行性”升维成模型的原生能力
NPR的关键词在于“原生”二字。研究团队试图在零外部监督(不依赖强教师并行轨迹)的条件下,探索一条让模型自我进化出并行推理能力的路径。
整体思路是一个渐进式的三阶段训练范式,让模型从“会用并行格式写出来”,逐步过渡到“在计算图层面真正并行执行”。
三阶段训练范式:从“并行外形”到“并行大脑”
- 阶段一:并行格式学习——先学会“怎么写成并行”
第一步不追求一步到位地“真正并行”,而是让模型先掌握并行推理的表达结构:如何标记分支、如何组织多条候选路径、如何定义聚合点。 - 阶段二:自蒸馏——内化“并行思考逻辑”,摆脱外部老师
在具备并行表达能力后,NPR使用自蒸馏方式,让模型用自己的生成结果反过来训练自己。通过筛选与沉淀,让模型逐步内化“多分支探索—相互印证—汇总收敛”的推理规律,而不是照搬教师的串行偏好与局限。 - 阶段三:并行感知强化学习——从“模仿并行”迈向“执行并行”
最后一步是关键跃迁。利用并行感知的强化学习,让模型学到何时该分叉、分叉多少、如何在聚合点进行比较与合并,使并行不再停留在文本表面,而是真正成为推理过程中可执行的控制逻辑。这一步将“并行性”从工程技巧,推进到了模型的原生能力层面。
如下图所示,经过三个阶段的训练,NPR的准确率从约17%持续爬升,最终达到50.4%(中间两条学习曲线分别对应第一阶段的格式学习与第三阶段的并行强化学习);与传统推理方式相比,NPR实现了约4.6倍的生成加速(右侧柱状图)。

NPR具体实现细节
NPR训练范式
- Stage 1:Format-following Reinforcement Learning(NPR-ZERO)
- 目标: 在没有任何外部并行示例或教师模型的情况下,让模型学会生成结构化的并行格式(例如
<guideline>、<plan>、<step>、<takeaway>等结构化标签),并尽量保证答案正确性。 - 方法: 以格式合规与答案正确为奖励信号,对初始指令微调模型进行DAPO[6]风格的强化学习,从而得到能产出并行格式轨迹的生成器(NPR-ZERO)。这一步为后续的自蒸馏提供原始候选轨迹。
- 目标: 在没有任何外部并行示例或教师模型的情况下,让模型学会生成结构化的并行格式(例如
- Stage 2:Rejection Sampling + Parallel Warmup(NPR-BETA)
- 目标: 将Stage 1的“格式化产物”转变为高质量的训练数据,并让模型在并行语义上保持稳定。
Stage 2: 基于自蒸馏的并行SFT冷启动
- 核心方法:首先,对NPR-ZERO模型生成的推理结果进行拒绝采样[7],并应用严格的筛选条件——候选轨迹必须同时满足“格式完全符合并行规范”与“最终答案正确”这两项硬性标准。通过这种方式,我们筛选出高质量的、具备自蒸馏特性的并行推理轨迹。接着,利用这些精选数据对模型进行冷启动阶段的并行SFT(监督微调)预热。在此微调过程中,我们创新性地引入了并行注意力掩码(Parallel Attention Mask)和并行位置编码(Parallel Positional Encoding),使模型内部能够原生地支持多个并行分支的独立计算,并实现KV Cache的重用,从而避免重复计算带来的开销。
Stage 3: 原生并行强化学习(PAPO)
- 核心目标:在并行执行引擎之上,直接利用强化学习来优化模型生成并行分支的策略。目标是让模型不仅学会“书写”并行格式,更学会“计算”并得出并行结果。
- 核心方法:我们提出并实现了并行感知策略优化(Parallel-Aware Policy Optimization, PAPO)。这是一种专为并行语义修改的策略优化方法,其关键设计包括:使用基于并行Rollout的NPR-Engine推理引擎来保证生成轨迹的结构正确性;在批次层级(Batch-level)进行优势归一化;保留特殊结构化Token的梯度;并放弃重要性采样,以维持稳定的同策略(On-Policy)梯度更新[8]。PAPO能够直接在并行计算图内优化分支策略,让模型通过不断的试错,学会有效的问题拆解与结果合并策略。

关键技术细节
1. 自蒸馏与严格筛选(Rejection Sampling)
从NPR-ZERO生成大量符合并行格式的候选轨迹后,我们采用两条硬性筛选规则,只保留高质量样本进入接受集 (D_{accept}):
- 结果正确性(Outcome Correctness):模型生成的候选轨迹所解析出的最终答案必须与真实标签(Ground Truth)完全一致。
- 结构并行性(Structured Parallelism):输出必须严格遵循并行格式的Schema(包括标签、块边界等)。
只有当候选轨迹同时满足以上两条规则时,才会被接受,用于冷启动阶段的并行SFT(即NPR-BETA)。这一策略显著减少了训练数据中的噪声,确保了训练语料的并行性和可学习性。
2. 并行注意力掩码与并行位置编码
为了在单次前向传递中同时容纳多条推理路径(Reasoning Path),NPR采用了类似Multiverse风格的并行注意力掩码以及专门设计的并行位置编码(对应论文中的Algorithm 2伪代码)。这种设计保证了不同分支之间相互隔离,同时又能共享上下文KV Cache[8],从而实现了KV Cache的重用,避免了每条分支重复计算上下文的开销。此外,该编码机制允许通过标签Token来明确标识分支、步骤或指南块,便于引擎解析。
3. 并行感知策略优化(PAPO)
直接套用经典的PPO[9]或DAPO算法到并行语义下,会遇到特殊Token被剪裁、重要性采样不稳定等问题。PAPO的主要设计包括:
- 并行Rollout:使用NPR-Engine生成严格遵守并行Schema的轨迹,确保样本的合法性。
- 结构化过滤:在进入优化阶段前,剔除格式违规的样本,并将奖励简化为纯准确性指标(+1/-1)。
- 批次级优势归一化(Batch-level Normalization):由于格式违规样本被移除,组内方差会塌缩。因此,我们使用更大范围(批次内多组)的统计标准差来稳定优势估计。
- 保留特殊Token的梯度 & 放弃重要性采样:为了防止触发并行结构的特殊标签被裁剪掉,PAPO在Token级别保留了梯度流。同时,放弃重要性采样,采用严格的同策略目标函数,避免了重采样比带来的不稳定性。

AI Infra 工程化改进:NPR-Engine
实验证明,将并行语义部署到生产环境的并行强化学习中,会暴露出大量的工程问题(例如:KV Cache重复释放导致的内存泄漏、并行Token计数导致的超长生成、非法并行Schema导致的未定义状态等)。论文在引擎层面做了几项关键修复:
- 预算感知的KV回收:为避免Radix-Tree KV路径的机会性回收(Opportunistic Recycling)导致的双重释放(Double-Free),引入了预算感知的确定性回收机制与内存刷新策略。
- 分支感知的Token累积策略:将全局Token预算从“只看最长分支”改为“按活跃分支因子累计”,从而避免超出
max_new_tokens的限制。 - 格式预检与轻量不变性:在分支展开前增加一层格式合法性检查,快速拒绝潜在的非法分支,以保证系统的确定性和稳定性。
这些工程改进和实现是确保能够稳定进行并行强化学习训练,进而获得并行思考智能体的前提。
主要实验与结论
评测基准与度量
我们在8个推理型基准上进行了评测:AIME24/25、HMMT25、OlympiadBench、Minerva-Math、ZebraLogic、AMC23、MATH500等。对于小规模竞赛类数据,我们使用avg@8(采样8条解答的平均正确率);对于大规模或单答案设置,则使用avg@1。
训练数据优势:性能提升的关键
性能提升的关键在于用自行提炼的数据集(NPR-BETA的ORZ-8k)替换了Multiverse的训练语料库(MV-4B的s1.1-8k)。尽管两个流程在实现细节上略有不同,但它们都依赖于并行式的SFT,因此比较结果具有意义。数据替换的影响清晰且一致:AIME24的性能从46.7提升至50.8(+4.1),ZebraLogic从60.2提升至76.1(+15.9),AMC23从75.0提升至85.9(+10.9),MATH500从81.6提升至91.6(+10.0)。总体而言,平均得分从50.1提升至59.0(+8.9)。
并行SFT的优势
从顺序SFT(例如SR-BETA)切换到并行SFT方法(NPR-BETA),能够显著提升各种推理基准测试的性能。顺序SFT引入了较强的步骤依赖性先验,限制了任务分解的灵活性。相比之下,并行SFT在训练过程中使模型能够接触到结构上并行的轨迹,从而实现更独立的子问题探索。具体而言,AIME25从37.1提升至42.9(+5.8),OlympiadBench从56.3提升至60.1(+3.8),HMMT25从22.5提升至23.3(+0.8),ZebraLogic从72.8提升至76.1(+3.3)。整体性能从58.2提升至59.0(+0.8),仅在少数基准测试中出现轻微退步。
并行强化学习优势
基于NPR-BETA,应用并行强化学习算法可获得进一步的性能提升,并始终优于顺序强化学习(NPR与SR相比)。这些改进是广泛而系统的:AIME24从57.1提升至63.3(+6.2),HMMT25从26.3提升至30.8(+4.5),Minerva-Math从38.2提升至43.0(+4.8)。其他基准测试也显示出稳步提升,AIME25(+1.2)、OlympiadBench(+1.5)、ZebraLogic(+2.8)、AMC23(+2.2)和MATH500(+0.8)。总体而言,平均得分从62.0提升至65.0(+3.0)。

并行率差异与领域敏感性
Multiverse-32B在不同数据集上的并行率差异显著,表明其并行推理的采用高度依赖于数据集。尤其是在ZebraLogic等逻辑密集型任务上,其性能明显低于多个数学竞赛数据集,这表明从顺序行为逐步过渡到并行行为的Multiverse训练范式,导致并行策略的内化不一致,并且对领域特征非常敏感。
对比与效率:NPR的全面领先
相比之下,NPR模型在全部八个数据集上都实现了100.0%的并行触发率。这一高度的一致性表明,端到端的NPR训练流程能够更可靠地将并行推理固化为模型的默认问题解决模式,且不受数据集领域或复杂度的干扰。换言之,NPR不仅更频繁地触发了并行推理,更能在各类评估数据集上稳健地达成这一目标。

在所有五个基准测试中,NPR均取得了最优效率,始终优于Multiverse(加速比在1.3倍至2.4倍之间)以及自回归基线,充分证实了该方法具备稳健的泛化能力。关键之处在于,加速比会随任务难度同步提升:在较难的问题上(如AIME25达到4.6倍,HMMT25达到4.1倍),NPR的加速效果远超较简单的问题(如AMC23为2.9倍)。这表明,当需要更深入地探索解路径时,NPR的优势愈发凸显,证明它不仅能提升准确率,更在需要并行探索多种解题策略的场景下尤为高效。

案例解析
论文提供了若干具体题目的并行解法示例,其典型模式如下:
<guideline>:并行生成多个独立的计划(每个计划对应一句战术);<step>:每个计划独立并行地展开具体的推理步骤;<takeaway>:进行整合与交叉验证,得出最终结论并给出简短答案(boxed answer)。
举例来说,对于域函数或几何题,某些计划会分别采用不同的分解方式(如代数、数值检验、几何角度关系)。最终,<takeaway> 步骤会将各分支结果进行比对,剔除不一致项,并输出最终答案。这种“多角度并行 + 汇总”的策略能显著减少因单一路径假设错误而导致的无效开销。


结语
本文提出了一种简单且可扩展的框架,用于构建原生并行推理器。该推理器无需依赖外部教师模型,即可自主学习自适应分解、多样化的并行规划以及可靠的聚合。通过将自提炼的并行SFT与智能体并行RL相结合,NPR能够生成真正的并行推理策略,而非模拟或脚本化的策略。
在八个推理基准测试上的实验表明,与Multiverse数据集、自回归训练和直接强化学习相比,该方法均取得了显著改进。论文中的分析进一步证明,该方法能够显著加速推理、增强测试时的可扩展性,并且不存在伪并行行为。
案例研究展示了该模型如何根据问题难度调整其并行性,从而实现结构化探索和稳健的验证。这些结果表明,原生并行推理是实现更通用、可扩展智能的一个有前景的方向。
参考文献
[1] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
[2] Dean et al. MapReduce: Simplified Data Processing on Large Clusters. OSDI’04: Sixth Symposium on Operating System Design and Implementation 2004.
[3] Snell et al. Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Parameters for Reasoning. ICLR 2025.
[4] Yang et al. Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation. NeurIPS 2025.
[5] Zhao et al. Absolute Zero: Reinforced Self-play Reasoning with Zero Data. NeurIPS 2025.
[6] Yu et al. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. NeurIPS 2025.
[7] Gilks et al. Adaptive Rejection Sampling for Gibbs Sampling. Journal of the Royal Statistical Society Series C: Applied Statistics 2018.
[8] Sutton et al. Policy gradient methods for reinforcement learning with function approximation. NeurIPS 1999.
[9] Zheng et al. SGLang: Efficient Execution of Structured Language Model Programs. NeurIPS 2024.
[10] Schulman et al. Proximal Policy Optimization Algorithms. arXiv 2017.
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35359

