DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

在R1与O1引领的“深度推理”浪潮之后,大模型推理领域正迎来一个关键的分叉点。这一变革的核心,源于计算范式从训练时扩展(train-time scaling)向推理时扩展(test-time scaling, TTS)的深刻转变。传统的long CoT方法通过大幅延长思维链来换取精度提升,但这本质上是一种“暴力计算”思路——它假设性能瓶颈在于“算得不够多”。然而,来自蚂蚁集团与香港大学自然语言处理研究团队的最新工作DynaAct,却提出了一个颠覆性的观点:推理效率的真正瓶颈,或许不在于“计算量”,而在于“选择的质量”。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct的核心创新,在于将推理过程重新定义为一系列结构化决策。与传统逐词生成的CoT不同,DynaAct在每一步推理中,并非直接生成下一个token,而是动态构建一个“动作候选集合”,并通过优化算法从中选择最优动作来执行。这相当于为模型配备了一个“决策导航系统”——它不再盲目地延长思考路径,而是学会在每一步主动规划最有效的下一步。这种以“动作空间优化”为核心的TTS范式,标志着大模型推理从“生成式思维”向“决策式思维”的范式跃迁。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

为什么优化动作空间如此关键?当前主流的long CoT方法虽然通过增加思考长度提升了性能,但也带来了两个显著问题:搜索空间指数级爆炸与大量冗余思考。许多额外的计算消耗在无效或低效的推理分支上,导致计算资源利用率低下。DynaAct团队敏锐地指出,推理的本质不是“生成什么”,而是“选择执行什么”。因此,他们将研究焦点从“延长思维链”转向“优化决策空间”,致力于让模型在每一步都能在一个“更小但更精”的动作集合中做出更明智的选择。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct的方法论建立在两条核心原则之上:一是“数据驱动”,即动作候选完全从真实推理数据中学习得到,而非依赖人工预设的规则模板,这保证了动作空间的实用性与泛化能力;二是“完备且紧凑”,即动作空间既要尽可能覆盖潜在的解决方案路径,又要严格避免冗余动作,在表达力与效率之间取得最佳平衡。为实现这一目标,团队创新性地将动作空间学习问题转化为一个“集合选择问题”,并引入子模优化(Submodular Optimization)这一数学工具。子模函数的“边际收益递减”特性,使得算法能够以线性复杂度贪心地构建一个近似最优的动作子集。DynaAct定义的子模函数包含“效用”与“多样性”两个部分:效用部分度量动作与当前推理状态的匹配度,确保动作的针对性;多样性部分则控制动作之间的冗余度,避免功能重叠。通过Q-learning对动作和状态的嵌入表示进行优化,模型最终学会构建出能最大化整体推理回报的动作空间。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

在系统实现层面,DynaAct的另一个亮点是开源了基于vLLM的高性能蒙特卡洛树搜索框架。该框架针对节点扩展、模拟推演与奖励计算等关键环节进行了深度优化,显著提升了MCTS在大型语言模型推理场景中的执行效率。这不仅为DynaAct本身提供了强大的计算支撑,也为整个TTS研究社区贡献了一个通用的加速方案,降低了后续研究的技术门槛。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

实验结果表明,DynaAct在GSM8K、MATH、AQuA等6项核心数学推理基准测试上,均显著超越了CoT、RAP、rStar等现有方法。这充分验证了“优化动作空间”这一思路的有效性——更聪明的搜索策略,确实能带来更优质的推理结果。进一步的分析揭示了更深刻的规律:随着MCTS推演次数的增加,DynaAct呈现出稳定且平滑的test-time scaling曲线,即性能随着推理时计算资源的增加而持续提升。与此同时,其动作空间的大小得到有效控制,推理延迟几乎没有明显上升。这证明DynaAct成功实现了“增效不增耗”的设计目标。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

展望未来,DynaAct的意义远不止于一项具体的性能提升。它为大模型推理的发展指明了一个新方向:TTS的未来,不在于无限制地堆砌计算量,而在于发展更智能、更高效的搜索与决策机制。研究团队计划沿着三个方向持续探索:一是将动态动作空间范式扩展至多智能体协同规划等更复杂的场景;二是深化子模优化与强化学习的结合,探索端到端的自适应推理策略学习;三是进一步完善并开源高性能MCTS工具包,赋能更广泛的开源社区与产业应用。DynaAct的出现,或许正标志着大模型推理从“蛮力计算时代”迈向“智能决策时代”的转折点。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5956

(0)
上一篇 2025年11月29日 下午2:38
下一篇 2025年11月29日 下午5:05

相关推荐

  • 突破AI人像生成瓶颈:复旦大学与阶跃星辰联合推出WithAnyone,实现身份一致性与场景多样性的完美平衡

    在人工智能图像生成领域,个性化人像合成一直是技术攻关的难点。传统方法往往陷入“复制粘贴”的困境——生成结果高度依赖输入图像的表情、角度和姿态,缺乏自然的变化与多样性。近日,复旦大学与阶跃星辰的研究团队联合发布全新AI合照生成模型WithAnyone,通过创新的数据策略与训练框架,成功打破了这一技术瓶颈,实现了身份一致性(ID Consistency)与身份可…

    2025年11月16日
    28100
  • 腾讯青云奖学金首秀:姚顺雨亲颁百万奖金,揭秘AI人才培养新战略

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖,竟然偶遇了姚顺雨。 这位27岁的腾讯首席AI科学家,在腾讯大楼的线下公开亮相,不是发布重磅产品,也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。 上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。 为更值得的探索 青云奖学金是…

    2026年1月31日
    13200
  • VisPlay:突破视觉语言模型的数据困境,开启自进化强化学习新纪元

    在Vision-Language Model(VLM)领域,提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制,这不仅带来高昂的经济成本和时间成本,更关键的是难以实现规模化扩展。随着模型参数量的指数级增长,人工标注的速度已远远跟不上模型演化的需求,形成了制约VLM发展的“数据困境”。 最新研究成果VisPlay首次提出了一种…

    2025年12月1日
    19100
  • ReSeek框架:赋予搜索智能体动态自我修正能力,突破推理链中的连锁错误瓶颈

    在人工智能技术快速发展的今天,搜索智能体(Search Agent)作为连接大语言模型与实时信息世界的关键桥梁,正面临两大核心挑战:知识的实时性与推理的复杂性。传统的检索增强生成(RAG)技术虽然能够引入外部知识,但其本质上仍是被动的信息检索过程。而搜索智能体的革命性突破在于,它能够通过与实时搜索引擎进行多轮交互,主动分解并执行复杂的多步任务。这种能力在人物…

    2025年11月18日
    16800
  • 快手CroPS:跨视角正样本引擎打破搜索信息茧房,AAAI 2026 Oral成果引领向量检索新范式

    短视频搜索是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。 针对这一问题,快手搜索团队提出了一套全新的检索数据引擎 CroPS(Cross-Perspective Positive Samples)。该方法通过引入用户换 Query 数据、推荐流数据以及…

    2026年1月12日
    14600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注