DynaAct：从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

2025年11月29日下午5:01 • AI产业动态 • 阅读 318

在R1与O1引领的“深度推理”浪潮之后，大模型推理领域正迎来一个关键的分叉点。这一变革的核心，源于计算范式从训练时扩展（train-time scaling）向推理时扩展（test-time scaling, TTS）的深刻转变。传统的long CoT方法通过大幅延长思维链来换取精度提升，但这本质上是一种“暴力计算”思路——它假设性能瓶颈在于“算得不够多”。然而，来自蚂蚁集团与香港大学自然语言处理研究团队的最新工作DynaAct，却提出了一个颠覆性的观点：推理效率的真正瓶颈，或许不在于“计算量”，而在于“选择的质量”。

DynaAct的核心创新，在于将推理过程重新定义为一系列结构化决策。与传统逐词生成的CoT不同，DynaAct在每一步推理中，并非直接生成下一个token，而是动态构建一个“动作候选集合”，并通过优化算法从中选择最优动作来执行。这相当于为模型配备了一个“决策导航系统”——它不再盲目地延长思考路径，而是学会在每一步主动规划最有效的下一步。这种以“动作空间优化”为核心的TTS范式，标志着大模型推理从“生成式思维”向“决策式思维”的范式跃迁。

为什么优化动作空间如此关键？当前主流的long CoT方法虽然通过增加思考长度提升了性能，但也带来了两个显著问题：搜索空间指数级爆炸与大量冗余思考。许多额外的计算消耗在无效或低效的推理分支上，导致计算资源利用率低下。DynaAct团队敏锐地指出，推理的本质不是“生成什么”，而是“选择执行什么”。因此，他们将研究焦点从“延长思维链”转向“优化决策空间”，致力于让模型在每一步都能在一个“更小但更精”的动作集合中做出更明智的选择。

DynaAct的方法论建立在两条核心原则之上：一是“数据驱动”，即动作候选完全从真实推理数据中学习得到，而非依赖人工预设的规则模板，这保证了动作空间的实用性与泛化能力；二是“完备且紧凑”，即动作空间既要尽可能覆盖潜在的解决方案路径，又要严格避免冗余动作，在表达力与效率之间取得最佳平衡。为实现这一目标，团队创新性地将动作空间学习问题转化为一个“集合选择问题”，并引入子模优化（Submodular Optimization）这一数学工具。子模函数的“边际收益递减”特性，使得算法能够以线性复杂度贪心地构建一个近似最优的动作子集。DynaAct定义的子模函数包含“效用”与“多样性”两个部分：效用部分度量动作与当前推理状态的匹配度，确保动作的针对性；多样性部分则控制动作之间的冗余度，避免功能重叠。通过Q-learning对动作和状态的嵌入表示进行优化，模型最终学会构建出能最大化整体推理回报的动作空间。

在系统实现层面，DynaAct的另一个亮点是开源了基于vLLM的高性能蒙特卡洛树搜索框架。该框架针对节点扩展、模拟推演与奖励计算等关键环节进行了深度优化，显著提升了MCTS在大型语言模型推理场景中的执行效率。这不仅为DynaAct本身提供了强大的计算支撑，也为整个TTS研究社区贡献了一个通用的加速方案，降低了后续研究的技术门槛。

实验结果表明，DynaAct在GSM8K、MATH、AQuA等6项核心数学推理基准测试上，均显著超越了CoT、RAP、rStar等现有方法。这充分验证了“优化动作空间”这一思路的有效性——更聪明的搜索策略，确实能带来更优质的推理结果。进一步的分析揭示了更深刻的规律：随着MCTS推演次数的增加，DynaAct呈现出稳定且平滑的test-time scaling曲线，即性能随着推理时计算资源的增加而持续提升。与此同时，其动作空间的大小得到有效控制，推理延迟几乎没有明显上升。这证明DynaAct成功实现了“增效不增耗”的设计目标。

展望未来，DynaAct的意义远不止于一项具体的性能提升。它为大模型推理的发展指明了一个新方向：TTS的未来，不在于无限制地堆砌计算量，而在于发展更智能、更高效的搜索与决策机制。研究团队计划沿着三个方向持续探索：一是将动态动作空间范式扩展至多智能体协同规划等更复杂的场景；二是深化子模优化与强化学习的结合，探索端到端的自适应推理策略学习；三是进一步完善并开源高性能MCTS工具包，赋能更广泛的开源社区与产业应用。DynaAct的出现，或许正标志着大模型推理从“蛮力计算时代”迈向“智能决策时代”的转折点。