DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升

关键词：分治推理、强化学习、测试时可扩展性、链式思维、大语言模型训练

近年来，大型语言模型（LLMs）在复杂推理任务上展现出惊人能力，尤其是基于链式思维（Chain-of-Thought, CoT） 的逐步推理方法，已成为解决数学、逻辑与编程问题的标准范式。

然而，随着问题难度提升至竞赛级别（如国际数学奥林匹克、高阶定理证明等），传统 CoT 往往显得力不从心，其严格序列化的推理结构 也限制了在测试时的扩展性。

一个直观且经典的替代方案是分治（Divide-and-Conquer, DAC）推理，即 先将复杂问题分解为若干子问题，分别求解后再合并得到最终答案。尽管已有一些研究尝试在推理阶段引入类似思路（如 Tree-of-Thought、DeAR 等），但这些方法通常仅停留在推理阶段，依赖复杂的提示工程， 并未在训练层面与模型的通用后训练对齐，导致其潜力未能完全释放。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability
https://arxiv.org/pdf/2602.02477
代码：https://github.com/MasterVito/DAC-RL
9000 字，阅读 30 分钟，播客 15 分钟

今天要解读的是 UCLA 和微软近期发表的《Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability》，正是针对这一关键问题，提出了一个端到端的强化学习框架 DAC-RL， 首次将分治（Divide-and-Conquer, DAC）推理的训练过程整合到模型优化中。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 1 | LLM 训练后流程概述、DAC 与 CoT 风格推理的对比，以及我们提出的 DAC 训练后方法。若缺乏专门训练，DAC 推理始终无法发挥作用；而针对 DAC 的特定训练后方法，能让这种先进的推理范式在下游任务中保持稳健性能。上图整体清晰呈现了 LLM 在不同训练模式下的推理能力差异。左侧为传统训练后流程，模型在处理简单和复杂任务时仅依赖 CoT 推理，面对 DAC 推理时因无专门训练而效果不佳；右侧为引入 DAC 训练后的流程，模型在各类任务中均能有效运用 DAC 推理。这一对比直观证明了 DAC 专项训练对解锁模型先进推理能力的必要性，为后续 DAC-RL 框架的提出奠定了视觉化理论基础。

实验表明，经过 DAC-RL 训练的模型在多个竞赛级数学推理基准上显著超越传统 CoT，尤其是在性能上限与测试时可扩展性 方面展现出明显优势。

本文目录

零、关键问题
- 问题一：训练与推理不一致的根本原因
- 问题二：奖励设计的有效性与潜在偏差
一、背景：从链式思维到分治思维
- 1.1 链式思维的优势与局限
- 1.2 分治推理的潜力与现状
- 1.3 核心问题：训练与推理的不匹配
二、方法论：DAC-RL 训练框架
- 2.1 整体流程：分而治之的两阶段推理
- 2.2 分解阶段的奖励设计
- 2.3 征服阶段的奖励设计
三、训练算法与实现细节
- 3.1 强化学习优化策略
- 3.2 训练流程伪代码
- 3.3 关键超参数设置和训练配置
四、实验结果与分析
- 4.1 基准数据集与模型
- 4.2 主要结果：DAC 显著提升性能上限
- 4.3 深度 DAC 训练：针对极难问题的进一步优化
五、深入分析：为什么 DAC 更有效？
- 5.1 减少推理冗余
- 5.2 测试时配置优化
- 5.3 对齐代价的权衡
六、相关工作
- 6.1 分治推理在 LLM 中的应用
- 6.2 强化学习用于 LLM 推理
- 6.3 本文的核心贡献
七、总结与展望

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升

零、关键问题

问题一：训练与推理不一致的根本原因

论文指出，通用的后训练，尤其是基于CoT的训练与DAC（Divide-and-Conquer）式推理之间存在“根本性不一致”，导致即使是在简单问题上，模型也难以直接发挥DAC的推理潜力。这种不一致性具体源于哪些方面？

是训练数据中缺乏结构化分解的样本，导致模型无法学习到“何时分解”与“如何分解”的能力？
还是优化目标（如最大似然训练）与DAC所需的“动态规划”或“递归求解”思维模式本质上不匹配？
抑或是模型架构本身，如Transformer的序列建模机制难以自然地支持“分治”这种层次化、多分支的推理结构？

论文指出，通用后训练尤其是CoT训练，与DAC推理之间存在“根本性不一致”， 这种不一致性主要体现在以下三个方面：

| 维度 | 具体内容 |
| :— | :— |
| 训练数据的局限性 | 现有后训练数据多为逐步链式推理（CoT）形式，缺乏显式的结构化分解样本，模型未学习过“将问题分解为子问题并分别求解”的模式，无法自发产生有效分治策略；
实验图 2 见后文，可以证实， 未经专门DAC训练的模型直接使用DAC推理，性能低于标准CoT推理，模型未内化分治思维。 |
| 优化目标的不匹配 | 传统最大似然训练目标鼓励生成连续、单调的推理序列，侧重局部token预测准确性；
DAC推理是动态、多分支的规划过程，需全局问题分解与子问题整合能力 ，二者目标差异导致模型难以掌握分解、停止分解的决策点。 |
| 模型架构的约束 | 1. Transformer固有的顺序生成机制不天然支持树状或图状推理结构；
2. 现有DAC推理（如Tree-of-Thought）依赖外部提示工程模拟分治，模型无对应训练，生成低效且易偏离结构；
3. DAC-RL框架通过强化学习整合分治策略至训练，未改动底层架构，仍存在结构偏差。 |

核心矛盾在于，模型在训练中被灌输的是“线性推理”习惯，而DAC要求“层次化推理”，这种思维模式的切换必须通过专门的训练范式 如本文的DAC-RL才能实现。

问题二：奖励设计的有效性与潜在偏差

间接奖励的潜在风险与局限

论文使用最终答案的正确性作为子问题求解的替代奖励，并基于此设计分治阶段的奖励机制。这种间接奖励是否足以引导模型学习到真正有意义的分解策略？

是否存在模型通过“表面合理的分解”来规避真正困难子问题，却仍能偶然得到正确答案的情况？
如果子问题的真实答案不可得，是否可能存在“分解得越细，最终答案正确率越高”的虚假相关性，从而鼓励模型进行过度分解？
论文在实验中是否设计了对照实验，如人工标注子问题质量来验证所学分解策略的逻辑合理性，而非仅依赖最终答案的正确性？

论文使用最终答案的正确性作为子问题求解的间接奖励，该设计虽然在理论上有一定合理性（引理2.1），但仍存在以下潜在偏差和局限：

| 维度 | 具体内容 |
| :— | :— |
| 间接奖励可能导致表面分解 | 模型可能学会生成形式上合理但逻辑无关的子问题，只要这些子问题偶然引导至正确答案，就能获得奖励。
论文坦承，早期尝试直接用征服阶段的准确率作为分治奖励时，模型倾向于在分治阶段直接输出解决方案，而非真正的分解，这说明奖励设计容易诱导模型“走捷径”。 |
| 过度分解与虚假相关性 | 论文通过设定最小子问题数量来鼓励分解，但无法保证分解的质量与必要性。
理论上，模型可能通过“过度分解”来增加获得正奖励的机会，因为更多的子问题组合意味着更多的尝试机会。尽管作者要求每个子问题组至少产生一个正确解，但这仍可能鼓励模型生成大量冗余子问题，而非精炼的分解。 |
| 缺乏对子问题质量的直接评估 | 论文的奖励机制未引入人工标注或逻辑验证来评估子问题本身是否正确或合理。实验评估主要依赖最终答案的正确性（Pass@1/Pass@32），未设计专门的对照实验（如人工评判子问题逻辑连贯性）。
尽管作者探讨了格式约束的影响，发现强制严格的子问题回答格式会损害性能——“对齐税”，这暗示模型可能并未真正学会逻辑分解，而是依赖于最终答案的统计相关性。 |

奖励设计的根本困境：在子问题缺乏真实答案的情况下，最终答案的正确性是一种弱监督信号，可能无法精准传递分解质量的反馈。论文通过“松弛奖励”（仅要求子问题组至少产生一个正确解）来缓解贪婪优化，但这仍是一种折中方案，并未从根本上解决子问题评估的难题。

本文的DAC-RL框架在提升最终性能上表现显著，但其奖励机制仍依赖于最终答案的间接反馈，存在诱导表面策略的风险。未来的工作需要更精细的子问题质量评估方法，以确保证模型学到真正有逻辑的分治推理。

一、背景：从链式思维到分治思维

1.1 链式思维的优势与局限

链式思维（CoT）通过让模型生成一系列中间推理步骤，逐步引导至最终答案，显著提升了模型在数学、常识推理等任务上的表现。典型代表如 OpenAI O1、DeepSeek-R1 等模型，已能解决 AIME（美国数学邀请赛）等中高难度问题。

然而，CoT 存在两个根本性局限：

序列化瓶颈：推理过程严格顺序执行，难以并行探索多条路径；
天花板效应：对于超出模型单步推理能力的极难问题，CoT 往往无法突破性能上限。

1.2 分治推理的潜力与现状

分治是一种经典算法设计思想，适用于 LLM 推理时表现为：

分解：将原问题拆解为若干逻辑相关的子问题；
解决：逐个或并行求解子问题；
合并：基于子问题解答合成最终答案。

早期工作如 Tree-of-Thought（Yao et al., 2023）、DeAR（Xue et al., 2024）等尝试在推理阶段引入分治结构，近期 Seed-Prover、DeepSeek-Prover-V2 等也将其用于前沿数学任务。然而，这些方法仅用于推理，未在训练阶段对齐，导致模型在“分治推理模式”下表现反而不如 CoT。

1.3 核心问题：训练与推理的不匹配

论文通过实验揭示了一个关键现象：在相同模型上，直接使用 DAC （Divide-and-Conquer）推理的性能往往低于 CoT 如下表所示。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
表 1 | 在六个基准测试中，报告了不同模型的基准模型结果与本文提出的 DAC 策略结果。为确保评估更稳定、精准，Pass@1 指标取 32 次运行的平均值。RL-D 指 3.2 节所述的深度 DAC 设置下的基准模型结果。最佳结果以加粗字体突出显示。该表对比了 Qwen2.5-7B-Instruct、Qwen3-4B-Instruct-2507 及其深度训练版本在四大竞赛级基准的性能。可见未经训练时，模型 DAC 推理性能普遍低于 CoT（如 Qwen2.5-7B 初始 DAC 平均准确率仅 0.4%）；经 DAC-RL 训练后，两款模型 Pass@1 和 Pass@32 均显著提升，Qwen3-4B 深度训练版平均 Pass@32 达 81.6%，远超 CoT-RL，印证了 DAC 训练对突破 CoT 性能天花板的有效性。

这说明通用后训练（通常基于 CoT 风格）与 DAC 推理之间存在严重不匹配，仅靠推理阶段的提示工程无法完全激发 DAC 的潜力。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 2 | 我们在四个竞赛级基准测试集（表 1）上，对通用指令型和推理型训练后模型的 CoT 与 DAC Pass@32 性能进行了评估。右侧面板展示了 Qwen2.5-7B-Instruct 和 Qwen3-4B-Instruct-2507 模型在特定任务 RL 训练前后的 Pass@32 性能。

上图通过多模型、多基准的对比实验，揭示了 DAC 推理性能的关键问题。

左侧及中间部分数据显示，多数未经 DAC 专项训练的模型，其 DAC 推理性能，如 Qwen2.5-7B-Instruct 初始 DAC 准确率仅 0.4% 显著低于 CoT 推理，印证了通用训练与 DAC 推理的错位；
右侧面板则凸显了 RL 训练的作用，经过训练后，两款模型的 DAC 性能均有提升，尤其 Qwen3-4B-Instruct-2507 的 DAC 性能逐步超越 CoT，为 DAC-RL 框架的有效性提供了早期实验支撑。

二、方法论：DAC-RL 训练框架

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 3 | 以案例研究形式展示 DAC 风格推理及训练中的奖励分配概述。策略将原始问题分解为一组子问题，并行采样候选征服解，并利用其正确性计算用于优化问题分解的分解决策奖励。该图以算术序列问题为例，完整呈现 DAC 推理流程：先将原问题分解为 5 个有序子问题（如求公差、计算特定值等），再逐个求解子问题并整合结果。训练中，通过征服解的正确性（如标注 “✔️” 的解对应 R (yc³)=1）反向计算分解决策奖励，既体现了论文 “分解与征服统一纳入 RL 训练” 的设计，也解释了如何通过奖励引导模型生成有效子问题。

2.1 整体流程：分而治之的两阶段推理

本文将 DAC 推理形式化为两个阶段：

分解阶段（Division）：给定输入问题 (x)，模型生成一组子问题 (S = {s_1, s_2, …, s_k})。
征服阶段（Conquering）：基于子问题集合 (S) 与原问题 (x)，模型依次求解各子问题，并最终合成原问题的解答 (y)。

整个训练过程在一个统一的强化学习框架中进行，优化目标为：
[
J(theta) = mathbb{E}{(x, y^*)} left[ R{text{div}}(S) + R_{text{conq}}(y) right]
]
其中 (R_{text{div}}) 和 (R_{text{conq}}) 分别为分解与征服阶段的奖励。

2.2 分解阶段的奖励设计

分解阶段的目标是生成有帮助、格式正确、数量足够的子问题。奖励函数由三部分组成：

格式有效性：子问题必须可通过正则表达式解析；
数量有效性：生成的子问题数量不低于设定阈值 (k_{min})；
帮助性：基于子问题在征服阶段的求解准确率评估其是否有助于解决原问题。

具体奖励公式如下：
[
R_{text{div}}(S) = R_{text{format}}(S) + R_{text{count}}(S) + lambda cdot R_{text{helpful}}(S)
]
其中 (R_{text{helpful}}(S)) 表示基于该组子问题在征服阶段的正确率。

2.3 征服阶段的奖励设计

由于子问题通常没有标注答案，论文采用最终答案的正确性作为征服阶段的替代奖励。其理论基础是：

引理 2.1：若子问题正确性与最终答案正确性之间存在因果关联，则优化最终答案奖励会隐式地推动子问题正确率的提升。

奖励定义为：
[
R(y_c) = mathbb{1}{text{Extract}(y_c) = a}
]
其中 (a) 是原问题的标准答案。

三、训练算法与实现细节

3.1 强化学习优化策略

论文采用 GRPO（Group Relative Policy Optimization） 作为基础优化算法，并结合 Clip-Higher 与 Token-Level Loss 技术提升训练稳定性。

GRPO 的特点是不需额外价值网络，直接基于组内奖励归一化计算优势函数：
[
A(s, a) = frac{R(s, a) – mu_{text{group}}}{sigma_{text{group}}}
]

3.2 训练流程伪代码

DAC-RL 框架的核心流程，聚焦“分解 – 征服”全链路 RL 训练。以下是 DAC-RL 的核心训练算法：

pseudocode 1: 初始化经验池 B ← ∅ 2: for t = 1 to T do 3: 从数据集采样小批量 D 4: for 每个问题-答案对 (x, a) in D do 5: 生成 Gd 组子问题 {P_g} ← π_θ(x) 6: for 每组子问题 P_g do 7: 生成 Gc 个征服阶段候选解 {y_g,v} 8: 计算征服奖励 R(y_g,v) 9: 存入经验池 10: end for 11: 计算分解奖励 R(P_g) 12: 存入经验池 13: end for 14: 使用经验池 B 更新策略 π_θ 15: 清空经验池 16: end for

整体流程可以描述为：初始化经验缓冲区后，每轮先采样问题批次，让策略生成多组子问题（分解阶段），再为每组子问题生成多个征服解并计算奖励，将征服与分解数据存入缓冲区。通过格式、数量校验和征服准确性计算分解奖励后，用缓冲区数据更新策略，清除缓冲区后进入下一轮，确保分解与征服能力协同优化。

3.3 关键超参数设置和训练配置

四、实验结果与分析

4.1 基准数据集与模型

实验在四个竞赛级数学推理基准上进行：
* AIME 2024 & 2025（美国数学邀请赛）
* Beyond-AIME（字节跳动 Seed 数据集）
* HMMT-25（哈佛-麻省理工数学竞赛）

使用模型包括：
* Qwen2.5-7B-Instruct
* Qwen3-4B-Instruct-2507

4.2 主要结果：DAC 显著提升性能上限

下表展示了 DAC-RL 与 CoT 基线的对比结果：

注：DAC-RL 在所有基准上均优于或接近 CoT 基线，尤其在较难任务上提升显著。

关键发现：
* DAC 训练提升 CoT 推理能力：即使评估时使用 CoT 推理，经过 DAC-RL 训练的模型在 CoT 风格下表现也更优。
* 测试时可扩展性更强：在固定生成预算下，DAC 通过增加子问题多样性显著提升 Pass@k 性能。

4.3 深度 DAC 训练：针对极难问题的进一步优化

论文还提出 Deep DAC 训练，仅针对模型初始准确率低于 50% 的极难问题进行训练。实验表明，Deep DAC 可进一步提升模型在竞赛难题上的表现，且明显优于单纯增加 CoT 训练预算的方法。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 4 | 在 DAC-RL 和 CoT-RL 训练过程中，对所有四个基准测试集的中间评估结果。中间图：使用 Qwen3-4B-Instruct-2507 进行实验时，在第 400 次迭代后将训练集更新为困难子集。右侧图：深度 DAC 训练实验的结果，额外包含了训练时每个问题采用 32 次 rollout 的 CoT-RL 基准对比。

注：在训练中后期，DAC 性能持续上升，而 CoT 已接近饱和。

上图通过追踪训练过程中的性能变化，揭示了DAC与CoT推理的性能天花板差异。

左侧和中间图显示，两款模型初始DAC性能均低于CoT，但随着训练推进，DAC性能增长速率显著高于CoT，且Qwen3-4B-Instruct-2507在切换到困难子集训练后，DAC优势进一步扩大；
右侧深度DAC训练结果则表明，即便增加CoT的rollout预算，其性能仍无明显提升，而DAC训练仍能实现4.7%的Pass@32提升，有力证明了DAC推理在突破性能瓶颈、提升测试时可扩展性方面的优势。

五、深入分析：为什么DAC更有效？

5.1 减少推理冗余

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 9 | 来自DAPO-Math-17k数据集的原始问题及DAC推理中的分解子问题。该图展示了高质量DAC分解的典型案例。分解后的5个子问题遵循“问题转化 – 变量替换 – 求解 – 还原 – 计算”的逻辑链条，每个子问题均为解决原始问题的必要环节，且粒度适中（如将“解方程组”拆分为“转化”“求解”“还原”等步骤）。这种结构化分解不仅降低了原始复杂代数问题的求解难度，还为后续征服阶段的有序推理提供了清晰框架。对比图11中CoT推理的冗余步骤（如重复验证中间结果），此案例直观体现了DAC推理在结构化与简洁性上的优势。

通过案例研究可清晰看到，DAC推理通过结构化分解，避免了CoT中常见的重复推导与自我修正，从而生成更紧凑、高效的推理轨迹。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 10 | DAC征服阶段针对图9所示问题生成的部分解。该部分解展示了DAC征服阶段的高效推理过程。模型严格遵循图9的子问题分解逻辑，在SUBPROBLEM 2（引入辅助变量）和SUBPROBLEM 3（求解变量）环节，通过定义x=ab、y=bc、z=ac，将原始非线性方程组转化为简单的线性系统（x+z=5、x+y=10、y+z=13），并快速求解出x=1、y=9、z=4。整个推导过程无冗余步骤，每一步均直接服务于子问题目标。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 11 | CoT风格推理针对图9所示问题生成的部分解。该CoT解存在明显冗余：模型多次重复验证中间结果（如反复确认ab+bc+ca=14），且在定义变量时出现笔误（如“z=a”应为“z=ac”），需后续修正。这种“重复验证 + 自我纠错”的模式导致推理长度冗长，与图10的DAC解形成鲜明对比。

注：DAC推理直接对应子问题结构，逻辑清晰；CoT则包含大量重复验证与回溯。

5.2 测试时配置优化

在固定生成总预算k的情况下，调整子问题组数n与每组候选解数m（满足n×m=k），发现增加子问题多样性（更大n）通常带来更好的性能表现。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 6 | 在固定总预算k=1024的情况下，不同分解与征服分配方式下的Pass@k性能。CoT基准对应1024次独立生成。实验通过调整子问题组数（n）和每组征服解数量（m）（保持n×m=1024）发现，增加子问题组数（即n增大、m减小）能持续提升各基准测试集的Pass@1024性能（如AIME 24&25中，DAC推理性能达85.8%，高于CoT的83.9%）。这一结果表明，更多样化的子问题分解能扩大模型的探索空间，提高发现正确推理轨迹的概率。

注：更多子问题组（即更多样的问题分解方式）能有效提升模型探索空间与最终正确率。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
图 7 | 训练中Qwen3-4B模型的批次平均响应长度、中间rollout的裁剪比例以及策略熵。此图从推理效率与探索多样性两个关键维度，对比了DAC与CoT训练的差异。左侧图显示，DAC训练生成的响应长度显著短于CoT，减少了因长度限制导致的rollout裁剪（中间图裁剪比例更低），降低了正轨迹被截断的假阴性率，同时提升了训练效率；右侧图则表明，DAC训练的策略熵更高，说明其在压缩推理长度的同时，并未牺牲探索多样性，反而通过更精准的子问题分解，保留并增强了对解空间的有效探索。

5.3 对齐代价的权衡

论文还尝试在征服阶段强制模型按“子问题1：…；子问题2：…”格式输出，结果发现虽然模型学会了严格遵循格式，但下游性能反而下降。这与已有研究中“对齐税”结论一致：过于严格的格式约束可能损害模型的实际推理能力。

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升
表 3 | 评估在征服阶段强制严格子问题回答格式对格式遵循率和模型性能的对齐税影响。FC指在强化学习中施加格式约束。该表揭示了格式约束的“对齐税”效应：施加约束后（RL w.i. FC），模型格式遵循率从42.6%提升至92.1%，但性能显著下降，平均Pass@1从51.3%降至45.2%，AIME 2024 Pass@32从91.6%降至86.3%。这表明严格格式约束虽增强指令遵循性，但会损耗下游推理性能。

六、相关工作

6.1 分治推理在LLM中的应用

早期工作如Least-to-Most Prompting（Zhou et al., 2022）、Parsel（Zelikman et al., 2023）等通过提示策略引导模型分解问题。
Tree-of-Thoughts（Yao et al., 2023）则通过树状结构扩展推理路径。
近期Seed-Prover、DeepSeek-Prover-V2等将分治用于自动定理证明。

这些方法均未在训练层面与DAC对齐。

6.2 强化学习用于LLM推理

大规模RL已显著提升LLM在复杂推理上的表现，如PPO、GRPO、DAPO等算法。DeepSeek-R1、OpenAI O1等也依赖RL进行后训练。然而，这些方法未针对分治推理结构进行专门优化，也未解决CoT在极难问题上的天花板效应。

6.3 本文的核心贡献

首次系统揭示通用后训练与DAC推理之间的不匹配问题；
提出统一RL框架，将分解与征服两阶段训练整合至端到端优化中；
实验证明DAC推理具备更高性能上限与更强测试时可扩展性。

七、总结与展望

本文通过DAC-RL框架，首次在训练层面实现大语言模型的分治推理能力优化。实验表明，该方法不仅能显著提升模型在竞赛级数学问题上的表现，还能增强其测试时的可扩展性与推理效率。

未来方向包括：
* 将DAC-RL扩展至更多领域，如编程、科学推理；
* 研究更灵活的子问题合并机制；
* 探索分治推理与多模态任务的结合。

这项工作为大语言模型的高阶推理训练提供了一条新路径，也为解决“模型能力天花板”问题提供了切实可行的思路。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20456

DAC-RL：首个分治推理强化学习训练框架，突破链式思维局限，实现6.3%推理性能跃升

本文目录

零、关键问题

问题一：训练与推理不一致的根本原因

问题二：奖励设计的有效性与潜在偏差

间接奖励的潜在风险与局限

一、背景：从链式思维到分治思维

1.1 链式思维的优势与局限

1.2 分治推理的潜力与现状

1.3 核心问题：训练与推理的不匹配

二、方法论：DAC-RL 训练框架

2.1 整体流程：分而治之的两阶段推理

2.2 分解阶段的奖励设计

2.3 征服阶段的奖励设计

三、训练算法与实现细节

3.1 强化学习优化策略

3.2 训练流程伪代码

3.3 关键超参数设置和训练配置

四、实验结果与分析

4.1 基准数据集与模型

4.2 主要结果：DAC 显著提升性能上限

4.3 深度 DAC 训练：针对极难问题的进一步优化

五、深入分析：为什么DAC更有效？

5.1 减少推理冗余

5.2 测试时配置优化

5.3 对齐代价的权衡

六、相关工作

6.1 分治推理在LLM中的应用

6.2 强化学习用于LLM推理

6.3 本文的核心贡献

七、总结与展望

相关推荐

350M小模型精度性能双超ChatGPT！靶向微调方案大幅提升智能体工具调用能力

尤洋教授深度剖析：算力转化瓶颈与AGI突破路径

马斯克Colossus 2超算集群震撼上线：1GW算力创世界纪录，Grok 5训练加速，但电网危机隐现

DeepSeek突破残差连接瓶颈：流形约束超连接架构让千亿参数模型训练更稳定

Self-E框架：无需教师蒸馏，实现任意步数高质量文生图