告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升

来自复旦大学、上海交通大学及上海人工智能实验室的研究者共同完成了这项工作。第一作者江书洋是复旦大学与上海人工智能实验室的联合培养博士生,目前在实验室担任见习研究员,师从上海交通大学人工智能学院的王钰教授与张娅教授。

以DeepSeek-R1和OpenAI GPT Thinking为代表的大型推理模型,凭借长达数千token的“思维链”,在各类复杂推理任务中展现了卓越的性能。然而,这些模型普遍存在一个核心问题——“过度思考”(overthinking):即便已经得出正确答案,模型在推理过程中仍会反复出现“wait…”“let me check…”“alternatively…”等自我修正和回溯性表达,导致大量冗余计算和毫无意义的计算开销。

这一现象已引起学术界和工业界的广泛关注。一种直观的解决方案是引入“对长推理的惩罚机制”,即在强化学习训练中加入针对过长推理序列的长度惩罚奖励项,从而促使模型生成更简洁的推理路径。

但实际操作中面临显著挑战:加大惩罚力度时,模型倾向于省略必要的推理步骤,导致性能明显下降;而减轻惩罚力度时,冗余推理依然存在,效率难以提升。因此,推理效率与性能之间难以实现有效平衡。

在ICLR 2026的Oral论文中,来自复旦大学、上海交通大学和上海人工智能实验室的研究团队首次从理论层面系统揭示了“长度惩罚”策略的根本局限性,并基于此提出了一套全新的训练框架DECS。在五项域内基准和两项域外基准测试中,DECS实现了推理长度减少超过50%的显著成效,同时模型准确率不降反升。

告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升

  • 论文地址:https://openreview.net/forum?id=kdeiRledV6
  • 项目地址:https://pixas.github.io/decs-iclr26-site/

长度惩罚为何总是“误伤好人”?

研究团队对当前主流强化学习框架(如GRPO)中的序列长度惩罚机制进行了深入的理论分析,相关证明详见论文原文。结论揭示了两项此前从未被系统性指出的致命缺陷:

缺陷一:对高熵探索token的无差别攻击。 模型在推理过程中生成的“wait”“however”“alternatively”等高熵token,本质上是逻辑衔接的“状态转移”,是找到正确答案所必需的探索行为。然而,序列级的长度惩罚不区分token类型,一条正确的长推理链上的所有token都会均匀地收到负面梯度信号。当训练数据中简单题占多数、且各题回答长度差异较大时,这种对高熵token的压制会不断累积,最终导致模型丧失探索能力,过早收敛到次优策略。

缺陷二:对局部冗余的“变相奖励”。 团队引入了一个极为关键的概念——必要推理前缀(Necessary Reasoning Prefix, NRP),即从推理开始到首次得出正确答案所需的最短token序列。在NRP之后多出来的所有token,本质上都是冗余。然而,现有的序列级奖励机制中,一条已经包含了NRP的较短回答,其NRP之后的冗余token可能仍然会收到正奖励,因为整条序列在组内相对较短。这种“奖励冗余”的信号严重扭曲了优化方向,让模型学不会在该停的时候停下来。

告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升

图1:序列长度惩罚的两个副作用

DECS:一次“解耦”如何根治过度思考

基于上述两个理论发现,DECS从两个维度对训练过程进行了精准重构:

第一步:解耦token级奖励,精准识别并惩罚冗余。

团队训练了一个轻量级的NRP检测器(judge model),用于定位推理链中从起始到第一个包含正确答案的“块”之间的所有token。一旦确定了NRP的边界,DECS就会对奖励函数进行“解耦”:NRP范围内的必要推理token永远不受惩罚;而NRP之后出现的每一个冗余推理token,都会恒定为负奖励。

通过解耦必要token和冗余token,算法确保了模型只被禁止“画蛇添足”,而非在推理的每一步都进行无效思考,但并不影响模型通过反思和多样化推理推导得到正确答案。

第二步:课程式批次调度,保护探索能力不受伤。

惩罚冗余虽然直接,但也存在一个隐忧:在训练早期,惩罚信号可能无意中波及到那些看似冗余、实为探索的高熵token。DECS的做法是动态调整训练batch中简单题的比例:当模型当前的平均NRP占比较低(即冗余还比较多)时,就少放简单题;随着训练推进、冗余逐步减少,再逐渐提高简单题的比重。

这套课程数据调度策略本质上是一个缓冲机制,在确保冗余被充分压缩的同时,给模型留出充足的探索空间,避免“一刀切”式的惩罚扼杀了推理的多样性。

告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升

图2:DECS训练示意图

实验验证:多个数据集推理长度砍半,性能反升

实验覆盖了DeepSeek-R1-Distill-1.5B、7B以及Qwen3-4B三个主流基座模型,在AIME2024/2025、MATH500、GPQA-Diamond、LiveCodeBench-v6等七个数学、科学与编程基准上进行了系统评估。

结果令人瞩目:在1.5B模型上,DECS将平均推理token数量削减了57.17%,而Pass@1准确率反而提升了2.48个百分点;在更成熟的7B模型上,尽管模型本身的过度思考程度较轻,DECS依然砍掉了49.50%的思考token,同时带来0.8个百分点的准确率增益。在与ThinkPrune、TLMRE、LC-R1等主流基线方法的对比中,DECS在效率-性能综合指标(AES score)上分别以0.12和0.14的优势显著领先。

更关键的是跨域泛化能力:DECS的NRP检测器仅使用数学语料训练,但其效率优势却强有力地迁移到了科学推理(GPQA-Diamond,56.33% token缩减)和编程任务(LiveCodeBench-v6,33.52% token缩减)上。

这验证了一个更深层的洞见——过度思考是一个跨领域的系统性现象,而DECS的机制足够本质,可以无差别地将模型从冗余推理中解放。

告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升

表1:DECS性能对比

消融实验进一步验证了两个核心组件的互补关系:去掉课程式调度,模型在压缩推理的同时出现了显著的性能退化,印证了文章中揭示的探索抑制问题;而单独去掉解耦奖励,模型仍然残留约25%的冗余token,佐证了序列级奖励无法消除全部冗余的结论。

告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升

图3:消融实验对比:解耦奖励和课程调度都至关重要

意义与启示

DECS这项工作的核心价值,并不在于其几乎无损的压缩指标本身,而在于它所提出的问题以及从理论视角证明的结论。

当前,业界普遍聚焦于“如何让模型更善于思考”,却鲜有研究从系统性与理论层面回答两个更为根本的问题:“什么不值得思考?”以及“何时应当停止思考?”

DECS通过严谨的理论分析与扎实的实验验证,证明了高效推理的真正瓶颈并非模型的能力边界,而在于训练目标的精妙设计。

对于那些正受困于推理大模型高昂成本与延迟的部署者而言,DECS提供了一套无需牺牲精度、完全开源的技术方案,相关代码已开源于GitHub。

同时,DECS入选ICLR 2026 Oral的认可也进一步印证:要从根本上缓解“过度思考”问题,优化必须回归奖励函数的本质,从策略梯度的底层机制入手,在源头消除冗余推理token。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34317

(0)
上一篇 17小时前
下一篇 12小时前

相关推荐