DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

在R1与O1引领的“深度推理”浪潮之后,大模型推理领域正迎来一个关键的分叉点。这一变革的核心,源于计算范式从训练时扩展(train-time scaling)向推理时扩展(test-time scaling, TTS)的深刻转变。传统的long CoT方法通过大幅延长思维链来换取精度提升,但这本质上是一种“暴力计算”思路——它假设性能瓶颈在于“算得不够多”。然而,来自蚂蚁集团与香港大学自然语言处理研究团队的最新工作DynaAct,却提出了一个颠覆性的观点:推理效率的真正瓶颈,或许不在于“计算量”,而在于“选择的质量”。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct的核心创新,在于将推理过程重新定义为一系列结构化决策。与传统逐词生成的CoT不同,DynaAct在每一步推理中,并非直接生成下一个token,而是动态构建一个“动作候选集合”,并通过优化算法从中选择最优动作来执行。这相当于为模型配备了一个“决策导航系统”——它不再盲目地延长思考路径,而是学会在每一步主动规划最有效的下一步。这种以“动作空间优化”为核心的TTS范式,标志着大模型推理从“生成式思维”向“决策式思维”的范式跃迁。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

为什么优化动作空间如此关键?当前主流的long CoT方法虽然通过增加思考长度提升了性能,但也带来了两个显著问题:搜索空间指数级爆炸与大量冗余思考。许多额外的计算消耗在无效或低效的推理分支上,导致计算资源利用率低下。DynaAct团队敏锐地指出,推理的本质不是“生成什么”,而是“选择执行什么”。因此,他们将研究焦点从“延长思维链”转向“优化决策空间”,致力于让模型在每一步都能在一个“更小但更精”的动作集合中做出更明智的选择。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct的方法论建立在两条核心原则之上:一是“数据驱动”,即动作候选完全从真实推理数据中学习得到,而非依赖人工预设的规则模板,这保证了动作空间的实用性与泛化能力;二是“完备且紧凑”,即动作空间既要尽可能覆盖潜在的解决方案路径,又要严格避免冗余动作,在表达力与效率之间取得最佳平衡。为实现这一目标,团队创新性地将动作空间学习问题转化为一个“集合选择问题”,并引入子模优化(Submodular Optimization)这一数学工具。子模函数的“边际收益递减”特性,使得算法能够以线性复杂度贪心地构建一个近似最优的动作子集。DynaAct定义的子模函数包含“效用”与“多样性”两个部分:效用部分度量动作与当前推理状态的匹配度,确保动作的针对性;多样性部分则控制动作之间的冗余度,避免功能重叠。通过Q-learning对动作和状态的嵌入表示进行优化,模型最终学会构建出能最大化整体推理回报的动作空间。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

在系统实现层面,DynaAct的另一个亮点是开源了基于vLLM的高性能蒙特卡洛树搜索框架。该框架针对节点扩展、模拟推演与奖励计算等关键环节进行了深度优化,显著提升了MCTS在大型语言模型推理场景中的执行效率。这不仅为DynaAct本身提供了强大的计算支撑,也为整个TTS研究社区贡献了一个通用的加速方案,降低了后续研究的技术门槛。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

实验结果表明,DynaAct在GSM8K、MATH、AQuA等6项核心数学推理基准测试上,均显著超越了CoT、RAP、rStar等现有方法。这充分验证了“优化动作空间”这一思路的有效性——更聪明的搜索策略,确实能带来更优质的推理结果。进一步的分析揭示了更深刻的规律:随着MCTS推演次数的增加,DynaAct呈现出稳定且平滑的test-time scaling曲线,即性能随着推理时计算资源的增加而持续提升。与此同时,其动作空间的大小得到有效控制,推理延迟几乎没有明显上升。这证明DynaAct成功实现了“增效不增耗”的设计目标。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式

展望未来,DynaAct的意义远不止于一项具体的性能提升。它为大模型推理的发展指明了一个新方向:TTS的未来,不在于无限制地堆砌计算量,而在于发展更智能、更高效的搜索与决策机制。研究团队计划沿着三个方向持续探索:一是将动态动作空间范式扩展至多智能体协同规划等更复杂的场景;二是深化子模优化与强化学习的结合,探索端到端的自适应推理策略学习;三是进一步完善并开源高性能MCTS工具包,赋能更广泛的开源社区与产业应用。DynaAct的出现,或许正标志着大模型推理从“蛮力计算时代”迈向“智能决策时代”的转折点。

DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/5956

(0)
上一篇 2025年11月29日 下午2:38
下一篇 2025年11月29日 下午5:05

相关推荐

  • 智谱华章登陆港交所:全球大模型第一股,市值528亿港元开启AGI新纪元

    「全球大模型第一股」来了! 2026年1月8日,北京智谱华章科技股份有限公司(02513.HK)正式在香港联合交易所挂牌上市。 至此,全球首家以通用人工智能(AGI)基座模型为核心业务的上市公司花落中国。 智谱首日开盘价120港元/股,市值528.28亿港元。 在本次IPO发行中,智谱香港公开发售获1159.46倍认购,国际发售获15.28倍认购。以每股11…

    2026年1月8日
    41100
  • Visionary:基于WebGPU与ONNX的下一代世界模型渲染平台,全面超越SparkJS

    该工作由上海人工智能实验室钟志航团队联合四川大学、东京大学、上海交通大学、西北工业大学共同完成。 在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。 Marble 所依赖的基于 WebGL 的 3D Gaussia…

    2025年12月21日
    41000
  • RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

    在具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战: 模仿学习在推理过程中产生的长序列误差累积问题; 真机强化学习成本高昂,难以规模化部署。 针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思…

    2026年3月17日
    47100
  • AI时代的认知危机:当思考外包成为常态,我们的大脑正在悄然退化

    在人工智能技术飞速发展的今天,一个不容忽视的现象正在悄然发生:越来越多的人开始将思考过程外包给AI系统。这种被称为“认知卸载”的行为,表面上提升了效率,实则可能对人类认知能力造成深远影响。本文将从认知科学、社会伦理和技术发展三个维度,深入剖析AI如何重塑人类思维模式,并探讨其潜在的长期后果。 认知卸载的概念最早源于认知心理学,指的是将认知任务转移到外部工具或…

    2025年11月1日
    45900
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    35500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注