SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

魏熙林是本文的第一作者,复旦大学博士生,师从林达华教授,研究方向主要为多模态大语言模型与高效人工智能。他目前在上海人工智能实验室实习,指导老师为臧宇航与王佳琦。

本文介绍隐式思维链(Implicit Chain-of-Thought)的最新进展——SIM-CoT(Supervised Implicit Chain-of-Thought)。该方法直击了隐式CoT长期以来的核心痛点:当隐式token数量增加时,训练过程容易塌缩到同质化的潜在状态,导致推理语义丢失。

SIM-CoT的关键创新在于引入了一个即插即用的步级监督模块。在训练时,该模块通过一个辅助解码器将每个隐式潜在token“拉回”到可对齐的推理步骤上。这一设计不仅稳定了优化过程,避免了塌缩,还首次实现了隐式推理的真正可解释性——每个隐式token都可以被解码为人类可读的中间推理步骤。

更重要的是,在推理阶段,该辅助解码器被移除,实现了零额外开销。实验结果表明,该方法效果显著:在GPT-2上,相比监督式CoT、Coconut和CODI,分别取得了+2.1%、+8.2%和+4.3%的性能提升。在更大的LLaMA模型(1B/3B/8B)上,也能稳定带来+1.5%至+9.0%的提升,并且在8-16个隐式token这种前人方法容易失效的设置下依然表现稳定。

这项研究已被顶会ICLR 2026接收,论文、代码及模型权重均已开源。

  • Paper: https://arxiv.org/pdf/2509.20317
  • Code: https://github.com/InternLM/SIM-CoT
  • Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought

SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

图 1:(a) 潜变量不稳定:隐式token增多起初能提升精度,但训练会变得不稳定,甚至塌缩。(b) 信息丢失:失败模型(5个隐式token)在隐式表示中丢失关键运算符信息(如+、−),导致复杂推理无法进行。(c) 距离偏移:失败模型的潜在表示间距离收缩、彼此过于相似,同时逐渐偏离词表嵌入空间中心。(d) 语义同质化:失败模型的潜在表征趋同,解码结果分布变窄,输出多为数字;正常模型则能生成更丰富的内容。

从显式CoT到隐式CoT:潜在变量稳定性与监督对齐的挑战

复杂推理任务(如数学、符号、代码推理)长期以来依赖显式思维链(CoT):模型将中间推理步骤逐一写出,这既能提升正确率,也便于人类检查与纠错。

然而,随着推理需求增长,显式CoT的两大瓶颈日益凸显:在成本方面,长思维链会显著增加token开销与推理时延;在效果方面,显式步骤容易受数据格式影响,导致“模板化推理”或冗长无效的“自说自话”。

这些局限性推动研究者转向一种更“节省token”的新范式——隐式CoT。它不再完整写出推理步骤,而是利用少量隐式token或潜在变量在模型内部完成多步推理,理论上既能保留推理能力,又能显著降低开销。

但实现稳定、高效的隐式CoT远比想象中困难,核心挑战在于:隐式token究竟学到了什么?如何确保它学到的是“有效的推理”而非“投机的捷径”?

一个典型现象是潜在变量不稳定:当尝试增加隐式token数量以“扩展推理容量”时,模型训练往往变得不稳定甚至直接塌缩。塌缩后的隐式token会出现明显的信息丢失,尤其是对符号推理至关重要的运算符信息(+、−、×、÷等)被抹去。同时,潜在表示之间会越来越相似,出现语义同质化:不同token学到的内容高度重合,最终解码出的内容范围变窄,常常只剩下数字或单一片段,导致复杂推理无法进行。

现有隐式CoT方法在监督粒度上差异很大:Coconut基本只进行答案级监督,模型仅被要求“最终答对”,中间潜在变量学什么几乎不受约束;CODI虽然引入了蒸馏信号,将显式CoT的信息压缩到连续潜在变量中,但更多是轨迹或整体路径级的粗粒度对齐。

SIM-CoT的关键突破正在于引入了步级监督:训练时通过辅助解码器将每个隐式潜在变量对齐到对应的推理步骤,从根本上稳定并丰富了潜在推理空间,同时在推理阶段不增加任何开销。

SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

图 2: 框架对比:Coconut(左上)、CODI(右上)与 SIM-CoT(下)。Coconut/CODI仅在答案或轨迹层面进行粗粒度监督;SIM-CoT引入解码器将隐式潜在变量与逐步推理对齐,在不增加推理开销的前提下提升性能。

监督设计新思路:优质隐式推理应能被“逐步解码”回显式思维链

为解决隐式CoT在扩展隐式token时易出现不稳定与塌缩(潜在变量语义同质化、运算符信息丢失、复杂推理失效)这一关键难题,作者团队提出了一个新视角:隐式推理的质量,与其“可对齐的逐步语义”成正比。换言之,如果每个隐式潜在变量确实在进行第k步推理,那么它就应该能被一个轻量解码器“翻译”回对应的显式步骤(例如产生关键运算符、关系或子目标),从而使潜在变量不再是黑盒的连续向量,而是具备可控的推理结构。

基于此动机,作者团队提出了SIM-CoT的训练框架:在训练阶段引入一个辅助解码器,将每个隐式潜在变量与对应的步级推理进行对齐监督(而非像Coconut那样只监督答案,或像CODI那样进行更偏向轨迹或整体级的粗粒度对齐)。

这样一来,模型在学习“如何答对”的同时,也被强约束去学习“每一步该想什么”,从根源上抑制了语义坍缩。更重要的是,在推理阶段直接移除解码器,保持零额外开销,同时仍可在分析时将隐式步骤解码出来进行中间推理可视化,从而获得更强的性能与更稳定的token扩展效果。

SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

SIM-CoT实验结果

作者团队对SIM-CoT带来的收益进行了系统评估,结论明确:更准、更稳、更省token。

  1. 在GPT-2上:首次实现“隐式CoT超越显式CoT”,且token更省。
    在领域内数据集GSM8k-Aug上,以Coconut为骨干的SIM-CoT将准确率从36.6%提升至44.8%(+8.2%),也超过了显式SFT-CoT的42.7%。同时,它保持了隐式推理的低token开销(平均token数远低于SFT-CoT),论文总结其token效率是后者的2.3倍。

  2. 领域外泛化更稳定:整体平均提升显著。
    在GSM-Hard、MultiArith、SVAMP三个领域外数据集上,以Coconut为骨干的SIM-CoT的领域外平均准确率从42.6%提升至46.9%(+4.3%),表明其并非“只会记忆训练域步骤”,而是确实构建了扎实的潜在空间推理能力。

  3. 在更强的隐式基线及更大模型上仍有增益,并显著提升稳定性。

在 GPT-2 上,SIM-CoT 叠加于 CODI 方法之上仍能带来性能提升(领域内 +0.6,领域外平均 +0.3);当扩展到 LLaMA 3.2 3B 模型时,该方法依然稳定有效,实现了领域内 +1.5 和领域外平均 +0.7 的提升;论文还报告了在 LLaMA-3.1 8B 模型上对 CODI 方法带来 +3.0 的性能提升。

推理效率无损:由于辅助解码器仅在训练阶段使用,在推理阶段会被移除,因此 SIM-CoT 的推理效率与其他隐式推理方法保持一致。实验表明,在 GPT-2 上,其推理速度相较于显式思维链方法仍具有明显优势。

SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考
SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考
SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

图三:研究团队在 GPT-2 以及 LLaMA 1B/3B/8B 模型上系统验证了 SIM-CoT 的性能提升。结果表明,该方法在不同模型规模下均能稳定带来显著效果。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19395

(0)
上一篇 2026年2月1日 上午11:50
下一篇 2026年2月1日 下午12:15

相关推荐

  • AI智能体能力动态化革命:Skills系统架构解析与Minion开源实现

    在人工智能技术快速演进的当下,AI智能体(Agent)正从简单的指令执行者向具备专业能力的智能助手转变。最近,Claude推出的Skills系统标志着这一转变的关键里程碑——它让AI智能体能够像人类专家一样,在需要时动态加载专业能力,而非将所有知识预先装入有限的上下文窗口。这一设计理念不仅解决了传统AI智能体开发中的核心矛盾,更为开源社区提供了可复用的架构模…

    2025年12月15日
    51500
  • 马斯克帝国整合:SpaceX、xAI、特斯拉或合并,10万亿IPO创纪录

    据彭博社报道,埃隆·马斯克(Elon Musk)旗下的三家公司——商业航天公司SpaceX、人工智能公司xAI以及电动汽车制造商特斯拉——正在考虑合并。消息传出后,美国东部时间1月29日,特斯拉股价在盘后交易中一度飙升4.5%。 ▲美国东部时间1月29日特斯拉股价变化(图源:谷歌财经) 目前讨论的核心合并方案主要有两种:其一是SpaceX与特斯拉合并;其二是…

    2026年1月30日
    44200
  • 突破硬件限制:ONNX Runtime GenAI实现LLM本地CPU推理新范式

    有时小模型就足够了,而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由:有时你就是没有 GPU;或者你希望数据留在本地;又或者你只是想保持架构简单。 这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型:有 GPU 就用 GPU,没有就跑 CPU,而且无需改一行代码。本文将展示它如何工作。所有示…

    2026年2月7日
    74700
  • 彼得·蒂尔20亿美元押注AI牛项圈:虚拟围栏颠覆传统养殖,60万头牛已戴上智能项圈

    最近,硅谷著名投资人彼得·蒂尔计划领投一轮高达20亿美元的融资,其投资对象竟是一款为奶牛设计的智能项圈。 彼得·蒂尔:为何是他? 彼得·蒂尔是硅谷风险投资界的标志性人物,PayPal的联合创始人,也是最早发现并投资Facebook的远见者之一。他参与创立了大数据公司Palantir,并早期押注了SpaceX。其“竞争是失败者的游戏”等投资理念在创投领域影响深…

    2026年3月23日
    49900
  • 上海具身智能产业生态全景:从政策赋能到技术突变的工业级跃迁

    2025年12月,上海张江科学会堂即将成为全球具身智能发展的焦点。即将举行的「GDPS 2025全球开发者先锋大会」不仅是一场技术竞赛,更是中国具身智能产业从概念验证迈向工业级成熟的关键里程碑。智元、傅利叶、青龙等企业代表的中国具身军团,将在工业、服务、救援三大赛道进行「实弹演习」,展示硅基生命走向物理世界的实质性突破。 站在2025年的技术前沿,上海为何能…

    2025年12月5日
    35900