SIM-CoT：隐式推理新突破，零开销实现可解释的AI内部思考

魏熙林是本文的第一作者，复旦大学博士生，师从林达华教授，研究方向主要为多模态大语言模型与高效人工智能。他目前在上海人工智能实验室实习，指导老师为臧宇航与王佳琦。

本文介绍隐式思维链（Implicit Chain-of-Thought）的最新进展——SIM-CoT（Supervised Implicit Chain-of-Thought）。该方法直击了隐式CoT长期以来的核心痛点：当隐式token数量增加时，训练过程容易塌缩到同质化的潜在状态，导致推理语义丢失。

SIM-CoT的关键创新在于引入了一个即插即用的步级监督模块。在训练时，该模块通过一个辅助解码器将每个隐式潜在token“拉回”到可对齐的推理步骤上。这一设计不仅稳定了优化过程，避免了塌缩，还首次实现了隐式推理的真正可解释性——每个隐式token都可以被解码为人类可读的中间推理步骤。

更重要的是，在推理阶段，该辅助解码器被移除，实现了零额外开销。实验结果表明，该方法效果显著：在GPT-2上，相比监督式CoT、Coconut和CODI，分别取得了+2.1%、+8.2%和+4.3%的性能提升。在更大的LLaMA模型（1B/3B/8B）上，也能稳定带来+1.5%至+9.0%的提升，并且在8-16个隐式token这种前人方法容易失效的设置下依然表现稳定。

这项研究已被顶会ICLR 2026接收，论文、代码及模型权重均已开源。

Paper: https://arxiv.org/pdf/2509.20317
Code: https://github.com/InternLM/SIM-CoT
Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought

图 1：(a) 潜变量不稳定：隐式token增多起初能提升精度，但训练会变得不稳定，甚至塌缩。(b) 信息丢失：失败模型（5个隐式token）在隐式表示中丢失关键运算符信息（如+、−），导致复杂推理无法进行。(c) 距离偏移：失败模型的潜在表示间距离收缩、彼此过于相似，同时逐渐偏离词表嵌入空间中心。(d) 语义同质化：失败模型的潜在表征趋同，解码结果分布变窄，输出多为数字；正常模型则能生成更丰富的内容。

从显式CoT到隐式CoT：潜在变量稳定性与监督对齐的挑战

复杂推理任务（如数学、符号、代码推理）长期以来依赖显式思维链（CoT）：模型将中间推理步骤逐一写出，这既能提升正确率，也便于人类检查与纠错。

然而，随着推理需求增长，显式CoT的两大瓶颈日益凸显：在成本方面，长思维链会显著增加token开销与推理时延；在效果方面，显式步骤容易受数据格式影响，导致“模板化推理”或冗长无效的“自说自话”。

这些局限性推动研究者转向一种更“节省token”的新范式——隐式CoT。它不再完整写出推理步骤，而是利用少量隐式token或潜在变量在模型内部完成多步推理，理论上既能保留推理能力，又能显著降低开销。

但实现稳定、高效的隐式CoT远比想象中困难，核心挑战在于：隐式token究竟学到了什么？如何确保它学到的是“有效的推理”而非“投机的捷径”？

一个典型现象是潜在变量不稳定：当尝试增加隐式token数量以“扩展推理容量”时，模型训练往往变得不稳定甚至直接塌缩。塌缩后的隐式token会出现明显的信息丢失，尤其是对符号推理至关重要的运算符信息（+、−、×、÷等）被抹去。同时，潜在表示之间会越来越相似，出现语义同质化：不同token学到的内容高度重合，最终解码出的内容范围变窄，常常只剩下数字或单一片段，导致复杂推理无法进行。

现有隐式CoT方法在监督粒度上差异很大：Coconut基本只进行答案级监督，模型仅被要求“最终答对”，中间潜在变量学什么几乎不受约束；CODI虽然引入了蒸馏信号，将显式CoT的信息压缩到连续潜在变量中，但更多是轨迹或整体路径级的粗粒度对齐。

SIM-CoT的关键突破正在于引入了步级监督：训练时通过辅助解码器将每个隐式潜在变量对齐到对应的推理步骤，从根本上稳定并丰富了潜在推理空间，同时在推理阶段不增加任何开销。

图 2: 框架对比：Coconut（左上）、CODI（右上）与 SIM-CoT（下）。Coconut/CODI仅在答案或轨迹层面进行粗粒度监督；SIM-CoT引入解码器将隐式潜在变量与逐步推理对齐，在不增加推理开销的前提下提升性能。

监督设计新思路：优质隐式推理应能被“逐步解码”回显式思维链

为解决隐式CoT在扩展隐式token时易出现不稳定与塌缩（潜在变量语义同质化、运算符信息丢失、复杂推理失效）这一关键难题，作者团队提出了一个新视角：隐式推理的质量，与其“可对齐的逐步语义”成正比。换言之，如果每个隐式潜在变量确实在进行第k步推理，那么它就应该能被一个轻量解码器“翻译”回对应的显式步骤（例如产生关键运算符、关系或子目标），从而使潜在变量不再是黑盒的连续向量，而是具备可控的推理结构。

基于此动机，作者团队提出了SIM-CoT的训练框架：在训练阶段引入一个辅助解码器，将每个隐式潜在变量与对应的步级推理进行对齐监督（而非像Coconut那样只监督答案，或像CODI那样进行更偏向轨迹或整体级的粗粒度对齐）。

这样一来，模型在学习“如何答对”的同时，也被强约束去学习“每一步该想什么”，从根源上抑制了语义坍缩。更重要的是，在推理阶段直接移除解码器，保持零额外开销，同时仍可在分析时将隐式步骤解码出来进行中间推理可视化，从而获得更强的性能与更稳定的token扩展效果。

SIM-CoT实验结果

作者团队对SIM-CoT带来的收益进行了系统评估，结论明确：更准、更稳、更省token。

在GPT-2上：首次实现“隐式CoT超越显式CoT”，且token更省。
在领域内数据集GSM8k-Aug上，以Coconut为骨干的SIM-CoT将准确率从36.6%提升至44.8%（+8.2%），也超过了显式SFT-CoT的42.7%。同时，它保持了隐式推理的低token开销（平均token数远低于SFT-CoT），论文总结其token效率是后者的2.3倍。
领域外泛化更稳定：整体平均提升显著。
在GSM-Hard、MultiArith、SVAMP三个领域外数据集上，以Coconut为骨干的SIM-CoT的领域外平均准确率从42.6%提升至46.9%（+4.3%），表明其并非“只会记忆训练域步骤”，而是确实构建了扎实的潜在空间推理能力。
在更强的隐式基线及更大模型上仍有增益，并显著提升稳定性。

在 GPT-2 上，SIM-CoT 叠加于 CODI 方法之上仍能带来性能提升（领域内 +0.6，领域外平均 +0.3）；当扩展到 LLaMA 3.2 3B 模型时，该方法依然稳定有效，实现了领域内 +1.5 和领域外平均 +0.7 的提升；论文还报告了在 LLaMA-3.1 8B 模型上对 CODI 方法带来 +3.0 的性能提升。

推理效率无损：由于辅助解码器仅在训练阶段使用，在推理阶段会被移除，因此 SIM-CoT 的推理效率与其他隐式推理方法保持一致。实验表明，在 GPT-2 上，其推理速度相较于显式思维链方法仍具有明显优势。