
魏熙林是本文的第一作者,复旦大学博士生,师从林达华教授,研究方向主要为多模态大语言模型与高效人工智能。他目前在上海人工智能实验室实习,指导老师为臧宇航与王佳琦。
本文介绍隐式思维链(Implicit Chain-of-Thought)的最新进展——SIM-CoT(Supervised Implicit Chain-of-Thought)。该方法直击了隐式CoT长期以来的核心痛点:当隐式token数量增加时,训练过程容易塌缩到同质化的潜在状态,导致推理语义丢失。
SIM-CoT的关键创新在于引入了一个即插即用的步级监督模块。在训练时,该模块通过一个辅助解码器将每个隐式潜在token“拉回”到可对齐的推理步骤上。这一设计不仅稳定了优化过程,避免了塌缩,还首次实现了隐式推理的真正可解释性——每个隐式token都可以被解码为人类可读的中间推理步骤。
更重要的是,在推理阶段,该辅助解码器被移除,实现了零额外开销。实验结果表明,该方法效果显著:在GPT-2上,相比监督式CoT、Coconut和CODI,分别取得了+2.1%、+8.2%和+4.3%的性能提升。在更大的LLaMA模型(1B/3B/8B)上,也能稳定带来+1.5%至+9.0%的提升,并且在8-16个隐式token这种前人方法容易失效的设置下依然表现稳定。
这项研究已被顶会ICLR 2026接收,论文、代码及模型权重均已开源。
- Paper: https://arxiv.org/pdf/2509.20317
- Code: https://github.com/InternLM/SIM-CoT
- Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought


图 1:(a) 潜变量不稳定:隐式token增多起初能提升精度,但训练会变得不稳定,甚至塌缩。(b) 信息丢失:失败模型(5个隐式token)在隐式表示中丢失关键运算符信息(如+、−),导致复杂推理无法进行。(c) 距离偏移:失败模型的潜在表示间距离收缩、彼此过于相似,同时逐渐偏离词表嵌入空间中心。(d) 语义同质化:失败模型的潜在表征趋同,解码结果分布变窄,输出多为数字;正常模型则能生成更丰富的内容。
从显式CoT到隐式CoT:潜在变量稳定性与监督对齐的挑战
复杂推理任务(如数学、符号、代码推理)长期以来依赖显式思维链(CoT):模型将中间推理步骤逐一写出,这既能提升正确率,也便于人类检查与纠错。
然而,随着推理需求增长,显式CoT的两大瓶颈日益凸显:在成本方面,长思维链会显著增加token开销与推理时延;在效果方面,显式步骤容易受数据格式影响,导致“模板化推理”或冗长无效的“自说自话”。
这些局限性推动研究者转向一种更“节省token”的新范式——隐式CoT。它不再完整写出推理步骤,而是利用少量隐式token或潜在变量在模型内部完成多步推理,理论上既能保留推理能力,又能显著降低开销。
但实现稳定、高效的隐式CoT远比想象中困难,核心挑战在于:隐式token究竟学到了什么?如何确保它学到的是“有效的推理”而非“投机的捷径”?
一个典型现象是潜在变量不稳定:当尝试增加隐式token数量以“扩展推理容量”时,模型训练往往变得不稳定甚至直接塌缩。塌缩后的隐式token会出现明显的信息丢失,尤其是对符号推理至关重要的运算符信息(+、−、×、÷等)被抹去。同时,潜在表示之间会越来越相似,出现语义同质化:不同token学到的内容高度重合,最终解码出的内容范围变窄,常常只剩下数字或单一片段,导致复杂推理无法进行。
现有隐式CoT方法在监督粒度上差异很大:Coconut基本只进行答案级监督,模型仅被要求“最终答对”,中间潜在变量学什么几乎不受约束;CODI虽然引入了蒸馏信号,将显式CoT的信息压缩到连续潜在变量中,但更多是轨迹或整体路径级的粗粒度对齐。
SIM-CoT的关键突破正在于引入了步级监督:训练时通过辅助解码器将每个隐式潜在变量对齐到对应的推理步骤,从根本上稳定并丰富了潜在推理空间,同时在推理阶段不增加任何开销。

图 2: 框架对比:Coconut(左上)、CODI(右上)与 SIM-CoT(下)。Coconut/CODI仅在答案或轨迹层面进行粗粒度监督;SIM-CoT引入解码器将隐式潜在变量与逐步推理对齐,在不增加推理开销的前提下提升性能。
监督设计新思路:优质隐式推理应能被“逐步解码”回显式思维链
为解决隐式CoT在扩展隐式token时易出现不稳定与塌缩(潜在变量语义同质化、运算符信息丢失、复杂推理失效)这一关键难题,作者团队提出了一个新视角:隐式推理的质量,与其“可对齐的逐步语义”成正比。换言之,如果每个隐式潜在变量确实在进行第k步推理,那么它就应该能被一个轻量解码器“翻译”回对应的显式步骤(例如产生关键运算符、关系或子目标),从而使潜在变量不再是黑盒的连续向量,而是具备可控的推理结构。
基于此动机,作者团队提出了SIM-CoT的训练框架:在训练阶段引入一个辅助解码器,将每个隐式潜在变量与对应的步级推理进行对齐监督(而非像Coconut那样只监督答案,或像CODI那样进行更偏向轨迹或整体级的粗粒度对齐)。
这样一来,模型在学习“如何答对”的同时,也被强约束去学习“每一步该想什么”,从根源上抑制了语义坍缩。更重要的是,在推理阶段直接移除解码器,保持零额外开销,同时仍可在分析时将隐式步骤解码出来进行中间推理可视化,从而获得更强的性能与更稳定的token扩展效果。

SIM-CoT实验结果
作者团队对SIM-CoT带来的收益进行了系统评估,结论明确:更准、更稳、更省token。
-
在GPT-2上:首次实现“隐式CoT超越显式CoT”,且token更省。
在领域内数据集GSM8k-Aug上,以Coconut为骨干的SIM-CoT将准确率从36.6%提升至44.8%(+8.2%),也超过了显式SFT-CoT的42.7%。同时,它保持了隐式推理的低token开销(平均token数远低于SFT-CoT),论文总结其token效率是后者的2.3倍。 -
领域外泛化更稳定:整体平均提升显著。
在GSM-Hard、MultiArith、SVAMP三个领域外数据集上,以Coconut为骨干的SIM-CoT的领域外平均准确率从42.6%提升至46.9%(+4.3%),表明其并非“只会记忆训练域步骤”,而是确实构建了扎实的潜在空间推理能力。 -
在更强的隐式基线及更大模型上仍有增益,并显著提升稳定性。
在 GPT-2 上,SIM-CoT 叠加于 CODI 方法之上仍能带来性能提升(领域内 +0.6,领域外平均 +0.3);当扩展到 LLaMA 3.2 3B 模型时,该方法依然稳定有效,实现了领域内 +1.5 和领域外平均 +0.7 的提升;论文还报告了在 LLaMA-3.1 8B 模型上对 CODI 方法带来 +3.0 的性能提升。
推理效率无损:由于辅助解码器仅在训练阶段使用,在推理阶段会被移除,因此 SIM-CoT 的推理效率与其他隐式推理方法保持一致。实验表明,在 GPT-2 上,其推理速度相较于显式思维链方法仍具有明显优势。



图三:研究团队在 GPT-2 以及 LLaMA 1B/3B/8B 模型上系统验证了 SIM-CoT 的性能提升。结果表明,该方法在不同模型规模下均能稳定带来显著效果。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19395
