近年来,大语言模型在文本生成的流畅度和长度上进步显著。然而,当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易受早期判断误导、思维发散不足、自我纠错能力弱,并且其顺序生成的特性在效率上存在天然瓶颈。
北京通用人工智能研究院(BIGAI)语言交互实验室(NLCo)的最新研究成果——原生并行推理器(Native Parallel Reasoner, NPR),正是为了突破此类瓶颈而生。其核心目标是让智能体在一次思考过程中,能够同时衍生并维护多条候选推理路径,在关键决策点进行“分支”与“聚合”,最终像拼图一样整合线索,合成最优解。
更重要的是,NPR 的突破点不仅在于“并行生成的工程技巧”,而是提出了一套“自蒸馏 + 并行强化学习”的三阶段训练范式,并配套了专门的并行推理引擎,旨在让并行推理从一种外部附加能力,转变为模型内生的原生认知能力。

- 论文标题:Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
- 论文链接:https://arxiv.org/pdf/2512.07461
- 项目主页:https://bigai-nlco.github.io/Native-Parallel-Reasoner
语言智能体的研究焦点已从“扩展单一思维链”转向了“深化多步推理”。虽然模型能够进行更深层次的思考令人振奋,但未来的超级智能真正需要的是更广泛地并行探索多种可能性——即在同一推理过程中同时尝试多种解法,再合并验证结果。这种类似 MapReduce“分而治之”的思想,对于扩展智能体在推理时的计算边界至关重要,但要将其原生地整合进模型中,却面临巨大挑战。
1. 算法与架构不匹配
现有的推理引擎和强化学习算法难以原生支持“分支-聚合”操作。推理引擎通常无法高效调度并行分支;而常用的强化学习技术可能会截断或削弱触发并行结构的特殊控制词元的梯度,从而阻碍模型学习严格的并行控制逻辑。
2. 低效的手工并行机制
早期将并行思路内化的尝试多依赖于手工设计的分治规则,无法充分复用共享的 KV Cache 状态,导致每个分支重复计算公共前缀,时间复杂度退化为线性 O(N),难以满足实时或大规模部署的效率要求。
3. 对强监督蒸馏的依赖
部分现有方法虽能实现并行,但高度依赖强教师模型蒸馏出的示例,无法通过自举方式扩展智能边界。学生模型只是在模仿教师的串行思维拓扑并将其“塞入”并行格式,结果是将教师的局限性一并继承,难以涌现出模型自身固有的新并行策略,形成了当前的“智能瓶颈”。
核心理念:将“并行性”升维为原生能力
NPR 的关键在于“原生”二字。研究团队旨在探索一条不依赖外部强监督(即无需教师模型的并行轨迹)、让模型自我进化出并行推理能力的路径。其整体思路是一个渐进式的三阶段训练范式,使模型从“学会用并行格式书写”,逐步过渡到“在计算图层面真正并行执行”。
三阶段训练范式:从“并行外形”到“并行大脑”
阶段一:并行格式学习——先学会“怎么写”
此阶段不要求真正的并行执行,而是让模型首先掌握并行推理的表达结构,例如如何标记分支、组织多条候选路径以及定义聚合点。
阶段二:自蒸馏——内化“并行思考逻辑”
在具备并行表达能力后,NPR 采用自蒸馏方式,让模型用自己的生成结果来训练自身。通过筛选与沉淀,模型逐步内化“多分支探索-相互印证-汇总收敛”的推理规律,从而摆脱对外部教师模型串行偏好与局限的依赖。
阶段三:并行感知强化学习——从“模仿”迈向“执行”
这是关键跃迁的一步。利用并行感知的强化学习,模型学习在何时分叉、分叉多少、以及如何在聚合点进行比较与合并。这使得并行不再仅仅是文本表面的格式,而真正成为推理过程中可执行的控制逻辑,将“并行性”从工程技巧推进到模型的原生能力层面。
如下图所示,经过三阶段训练,NPR 的准确率从约 17% 持续提升至 50.4%(图中两条学习曲线分别对应第一阶段的格式学习与第三阶段的并行强化学习);与传统推理方式相比,NPR 实现了约 4.6 倍的生成加速(右侧柱状图)。

NPR 具体实现细节
NPR 训练范式
Stage 1:格式遵循强化学习(NPR-ZERO)
* 目标:在没有任何外部并行示例或教师的情况下,让模型学会生成结构化的并行格式(如 <guideline>、<plan>、<step>、<takeaway> 等标签),并尽可能保证答案正确。
* 方法:以格式合规与答案正确作为奖励信号,对经过初始指令微调的模型进行 DAPO 风格的强化学习,从而得到一个能产出并行格式轨迹的生成器(NPR-ZERO)。此阶段为后续的自蒸馏提供原始候选轨迹。
Stage 2:拒绝采样与并行预热(NPR-BETA)
* 目标:将 Stage 1 的“格式化产物”转化为高质量的训练数据,并使模型在并行语义上稳定。
* 方法:对 NPR-ZERO 进行拒绝采样,并应用严格的筛选器(必须同时满足“格式合规”与“答案正确”),保留高质量的并行推理轨迹用于自蒸馏。随后,在此基础上进行冷启动的并行有监督微调预热,同时引入并行注意力掩码与并行位置编码,使模型内部能够支持并行分支的独立计算,并实现 KV Cache 重用以避免重复计算。
Stage 3:原生并行强化学习(PAPO)
* 目标:在并行执行引擎上,使用强化学习直接优化并行分支策略,使模型不仅会“写”并行格式,也真正会“算”并行结果。
关键技术细节
1. 自蒸馏与严格筛选(Rejection Sampling)
从 NPR-ZERO 生成大量并行格式的候选轨迹后,采用两条硬性筛选规则只保留高质量样本进入 D_accept:
* 结果正确性:模型生成的候选轨迹的解析答案与标准答案一致。
* 结构化并行性:输出严格遵循并行格式的 Schema(标签、块边界等)。
当且仅当同时满足以上两条规则的采样轨迹被接受,用于冷启动并行监督微调(NPR-BETA)。此策略显著减少了噪声,并保证了训练语料的并行性与可学习性。

2. 并行注意力掩码与并行位置编码
为了在单次前向传递中同时存在多条推理路径,NPR 采用了 Multiverse 风格的并行注意力掩码与专门设计的并行位置编码(对应论文 Algorithm 2 的伪代码)。这保证了不同分支互相隔离但共享上下文的 KV Cache,从而实现 KV Cache 重用,并避免每条分支重复计算上下文带来的开销。该编码也允许通过标签 Token 来标明分支、步骤或指南块,便于引擎解析。
3. Parallel-Aware Policy Optimization(PAPO)
在并行语义下直接套用经典的 PPO 或 DAPO 会遇到特殊 Token 被剪裁、重要性采样不稳定等问题。PAPO 的主要设计包括:
* 并行 Rollout:使用 NPR-Engine 产生严格遵守并行 Schema 的轨迹,保证样本的合法性。
* 结构化过滤:格式违规的样本在进入优化前被剔除,其奖励退化为纯准确性(+1 / -1)。
* 批次级优势归一化:由于格式违规样本被移除,组内方差塌缩,因此采用更大范围(批次内多组)统计的标准差来稳定优势估计。
* 保留特殊 Token 的梯度并放弃重要性采样:为防止触发并行结构的特殊标签被裁剪掉,PAPO 在 Token 级别保留梯度流;同时放弃重要性采样,采用严格的 On-policy 目标,避免重采样比带来的不稳定。

4. AI 基础设施工程化改进:NPR-Engine
实验证明,将并行语义应用于生产环境的并行强化学习会暴露出大量工程问题(如 KV Cache 重复释放导致的内存泄漏、并行 Token 计数导致的超长生成、非法并行 Schema 导致的未定义状态等)。论文在引擎层面做了几项关键修复:
* 预算感知的 KV 回收:避免 Radix-Tree KV 路径的机会性回收导致双重释放,引入了预算感知的确定性回收机制与内存刷新策略。
* 分支感知的 Token 累积策略:将全局 Token 预算从“只看最长分支”改为“按活跃分支因子累计”,避免超出 max_new_tokens 限制。
* 格式预检与轻量不变性:在分支展开前增加一层格式合法性检查,快速拒绝潜在的非法分支以保证确定性。
这些工程改进是实现稳定并行强化学习训练,进而获得具备并行思考能力智能体的前提。
主要实验与结论
评测基准与度量
在 8 个推理型基准上进行了评测:AIME24/25、HMMT25、OlympiadBench、Minerva-Math、ZebraLogic、AMC23、MATH500 等。对小规模竞赛类数据使用 avg@8(采样 8 条解答的平均正确率),对大规模或单答设置使用 avg@1。
训练数据优势
性能提升的关键在于用自行提炼的数据集(NPR-BETA 的 ORZ-8k)替换了 Multiverse 的训练语料库(MV-4B 的 s1.1-8k)。尽管两个流程在实现细节上略有不同,但都依赖于并行式的监督微调,因此比较结果具有意义。数据替换的影响清晰且一致:
* AIME24 的性能从 46.7 提升至 50.8(+4.1)
* ZebraLogic 从 60.2 提升至 76.1(+15.9)
* AMC23 从 75.0 提升至 85.9(+10.9)
* MATH500 从 81.6 提升至 91.6(+10.0)
总体而言,平均得分从 50.1 提升至 59.0(+8.9)。
并行监督微调的优势
从顺序监督微调(例如 SR-BETA)切换到并行监督微调方法(NPR-BETA)能够显著提升各种推理基准测试的性能。顺序监督微调引入了较强的步骤依赖性先验,限制了任务分解的灵活性。相比之下,并行监督微调在训练过程中使模型能够接触到结构上并行的轨迹,从而实现更独立的子问题探索。具体而言:
* AIME25 从 37.1 提升至 42.9 (+5.8)
* OlympiadBench 从 56.3 提升至 60.1 (+3.8)
* HMMT25 从 22.5 提升至 23.3 (+0.8)
* ZebraLogic 从 72.8 提升至 76.1 (+3.3)
整体性能从 58.2 提升至 59.0 (+0.8),仅在少数基准测试中出现轻微退步。
并行强化学习优势
基于 NPR-BETA,应用并行强化学习算法可获得进一步的性能提升,并始终优于顺序强化学习(NPR 与 SR 相比)。这些改进是广泛而系统的:
* AIME24 从 57.1 提升至 63.3(+6.2)
* HMMT25 从 26.3 提升至 30.8(+4.5)
* Minerva-Math 从 38.2 提升至 43.0(+4.8)
其他基准测试也显示出稳步提升:AIME25(+1.2)、OlympiadBench(+1.5)、ZebraLogic(+2.8)、AMC23(+2.2)和 MATH500(+0.8)。总体而言,平均得分从 62.0 提升至 65.0(+3.0)。

Multiverse-32B 在不同数据集上的并行率差异显著,表明其并行推理的采用高度依赖于数据集。尤其是在 ZebraLogic 等逻辑密集型任务上,其性能明显低于多个数学竞赛数据集。这表明从顺序行为逐步过渡到并行行为的 Multiverse 训练范式,导致并行策略的内化不一致,并且对领域特征非常敏感。
相比之下,NPR 模型在所有八个数据集上均达到了 100.0% 的并行触发率。这种一致性意味着端到端的 NPR 训练流程能够更可靠地将并行推理作为模型的默认问题解决模式,而不受数据集领域或复杂性的影响。实际上,这意味着 NPR 不仅能更频繁地触发并行推理,而且能够在不同的评估数据集上稳健地实现这一点。

NPR 在所有五个基准测试中均取得了最佳效率,始终优于 Multiverse(1.3 倍至 2.4 倍)和自回归基线,这表明该方法具有稳健的泛化能力。重要的是,加速比随任务难度而增加:NPR 在较难的问题(AIME25:4.6 倍;HMMT25:4.1 倍)上观察到的加速比在较容易的问题(AMC23:2.9 倍)上更大。这表明当需要更深入地探索解路径时,NPR 的优势日益凸显,证明了 NPR 既能提高准确率,而且在可以并行探索多种解策略时尤其有效。

案例解析
论文给出了若干具体题目的并行解法示例,典型模式为:
1. <guideline>:并行产生若干独立的解题计划(每个计划一句战术)。
<step>:每个规划独立并行展开具体推理步骤;<takeaway>:整合与交叉验证,得出最终结论并给出简短答案(boxed answer)。
举例:对于域函数或几何题,某些规划会分别进行不同的分解(如代数、数值检验、几何角度关系),最后在 <takeaway> 阶段将各分支结果进行比对、剔除不一致项并输出最终答案。这种“多角度并行 + 汇总”的机制能显著减少因单一路径假设错误导致的推理偏差。


结语
本文提出了一种简洁且可扩展的框架,用于构建原生并行推理器。该推理器无需依赖外部教师模型,即可学习自适应分解、多样化并行规划及可靠聚合。通过结合自提炼的并行监督微调与智能体并行强化学习,NPR 能够生成真正的并行推理策略,而非模拟或脚本化的策略。在八个推理基准测试上的实验表明,相较于 Multiverse 数据集、自回归训练和直接强化学习,该方法均取得了显著改进。论文中的分析进一步证明,该方法能够有效加速推理、增强测试时的可扩展性,且不存在伪并行行为。案例研究展示了模型如何根据问题难度动态调整并行度,从而实现结构化探索与稳健验证。这些结果表明,原生并行推理是实现更通用、可扩展智能的一个极具前景的方向。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15479
