
在R1与O1引领的“深度推理”浪潮之后,大模型推理领域正迎来一个关键的分叉点。这一变革的核心,源于计算范式从训练时扩展(train-time scaling)向推理时扩展(test-time scaling, TTS)的深刻转变。传统的long CoT方法通过大幅延长思维链来换取精度提升,但这本质上是一种“暴力计算”思路——它假设性能瓶颈在于“算得不够多”。然而,来自蚂蚁集团与香港大学自然语言处理研究团队的最新工作DynaAct,却提出了一个颠覆性的观点:推理效率的真正瓶颈,或许不在于“计算量”,而在于“选择的质量”。

DynaAct的核心创新,在于将推理过程重新定义为一系列结构化决策。与传统逐词生成的CoT不同,DynaAct在每一步推理中,并非直接生成下一个token,而是动态构建一个“动作候选集合”,并通过优化算法从中选择最优动作来执行。这相当于为模型配备了一个“决策导航系统”——它不再盲目地延长思考路径,而是学会在每一步主动规划最有效的下一步。这种以“动作空间优化”为核心的TTS范式,标志着大模型推理从“生成式思维”向“决策式思维”的范式跃迁。

为什么优化动作空间如此关键?当前主流的long CoT方法虽然通过增加思考长度提升了性能,但也带来了两个显著问题:搜索空间指数级爆炸与大量冗余思考。许多额外的计算消耗在无效或低效的推理分支上,导致计算资源利用率低下。DynaAct团队敏锐地指出,推理的本质不是“生成什么”,而是“选择执行什么”。因此,他们将研究焦点从“延长思维链”转向“优化决策空间”,致力于让模型在每一步都能在一个“更小但更精”的动作集合中做出更明智的选择。



DynaAct的方法论建立在两条核心原则之上:一是“数据驱动”,即动作候选完全从真实推理数据中学习得到,而非依赖人工预设的规则模板,这保证了动作空间的实用性与泛化能力;二是“完备且紧凑”,即动作空间既要尽可能覆盖潜在的解决方案路径,又要严格避免冗余动作,在表达力与效率之间取得最佳平衡。为实现这一目标,团队创新性地将动作空间学习问题转化为一个“集合选择问题”,并引入子模优化(Submodular Optimization)这一数学工具。子模函数的“边际收益递减”特性,使得算法能够以线性复杂度贪心地构建一个近似最优的动作子集。DynaAct定义的子模函数包含“效用”与“多样性”两个部分:效用部分度量动作与当前推理状态的匹配度,确保动作的针对性;多样性部分则控制动作之间的冗余度,避免功能重叠。通过Q-learning对动作和状态的嵌入表示进行优化,模型最终学会构建出能最大化整体推理回报的动作空间。

在系统实现层面,DynaAct的另一个亮点是开源了基于vLLM的高性能蒙特卡洛树搜索框架。该框架针对节点扩展、模拟推演与奖励计算等关键环节进行了深度优化,显著提升了MCTS在大型语言模型推理场景中的执行效率。这不仅为DynaAct本身提供了强大的计算支撑,也为整个TTS研究社区贡献了一个通用的加速方案,降低了后续研究的技术门槛。

实验结果表明,DynaAct在GSM8K、MATH、AQuA等6项核心数学推理基准测试上,均显著超越了CoT、RAP、rStar等现有方法。这充分验证了“优化动作空间”这一思路的有效性——更聪明的搜索策略,确实能带来更优质的推理结果。进一步的分析揭示了更深刻的规律:随着MCTS推演次数的增加,DynaAct呈现出稳定且平滑的test-time scaling曲线,即性能随着推理时计算资源的增加而持续提升。与此同时,其动作空间的大小得到有效控制,推理延迟几乎没有明显上升。这证明DynaAct成功实现了“增效不增耗”的设计目标。


展望未来,DynaAct的意义远不止于一项具体的性能提升。它为大模型推理的发展指明了一个新方向:TTS的未来,不在于无限制地堆砌计算量,而在于发展更智能、更高效的搜索与决策机制。研究团队计划沿着三个方向持续探索:一是将动态动作空间范式扩展至多智能体协同规划等更复杂的场景;二是深化子模优化与强化学习的结合,探索端到端的自适应推理策略学习;三是进一步完善并开源高性能MCTS工具包,赋能更广泛的开源社区与产业应用。DynaAct的出现,或许正标志着大模型推理从“蛮力计算时代”迈向“智能决策时代”的转折点。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5956


