自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力

当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。

在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学生模型生成更优质、更简洁的回答。

这种方法在诸多领域取得了显著成功,尤其在化学问答、代码生成等任务中,它不仅显著提升了模型性能,还大幅缩短了输出长度,实现了“更快、更强”的双重飞跃。然而,当我们将目光投向更需要严密逻辑和深度思考的数学推理领域时,一个令人困惑的悖论出现了。

如图 1 所示,在化学领域,自我蒸馏(以 SDPO 算法为代表)与传统的 GRPO 方法相比,在缩短响应长度的同时,模型得分飞速提升(图 1a)。但在数学领域,同样的方法却导致了截然相反的结果:尽管响应长度在训练过程中持续下降,模型性能却出现了断崖式下跌,降幅高达 40%(图 1b)。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图 1 (a) 基于 SDPO 的 Wandb 日志,GRPO 与自蒸馏(SDPO)在化学领域的训练分数和响应长度变化;(b) GRPO 与 SDPO 在 DAPO-Math-17k 数据集上的训练分数和响应长度变化。

这不禁让我们发问:为什么看似完美的“向正确答案学习”的训练目标,有时反而会适得其反,损害模型最核心的推理能力?

微软研究院与 KAIST、首尔国立大学的研究团队在论文《Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?》中,为我们揭开了这个谜题的一角。他们的核心发现是:自我蒸馏过程无意中压制了模型的“认知性语言表达”(Epistemic Verbalization)——即模型在推理过程中表达不确定性的能力。

当教师模型被“喂”以正确答案后,它会生成一种过度自信、简洁的推理轨迹,学生模型模仿这种风格,最终学到的不是如何思考,而是如何“假装知道”。当面对分布外(OOD)或更复杂的未见问题时,这种“伪自信”的推理风格便暴露了其脆弱性,导致性能严重下滑。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图 2 (a) 带有认知语言化的推理过程 (b) 无指导生成与教师指导生成的推理模式对比。

这项研究不仅揭示了自我蒸馏的潜在风险,更深刻地指出了在追求模型效率的同时,必须警惕其对模型推理行为的“隐形塑造”。本文将从信息论视角出发,解读这篇论文的核心发现、实验设计及其对 AI 领域未来的启示。

一、自我蒸馏:一个看似完美的“自学习”范式

在深入探讨问题之前,让我们先厘清“自我蒸馏”的基本原理。与传统的知识蒸馏(用一个大型、复杂的教师模型来训练一个轻量级的学生模型)不同,自我蒸馏中,教师和学生是同一个模型,唯一的区别在于它们所接触到的上下文信息。

1.1 核心原理:基于上下文信息的自我学习

给定一个输入问题 (x),学生模型 (pi_s) 首先生成一个回答序列 (y)。而教师模型则是在一个更“丰富”的上下文 (c) 的指导下生成的。这个 (c) 可以包含标准答案、环境反馈等额外信息,即 (pi_t(y|x, c))。训练的目标是让学生模型的输出分布尽可能接近教师模型的输出分布,通过最小化 KL 散度:

[
mathcal{L}{SD} = D{KL}(pi_s(y|x) parallel pi_t(y|x, c))
]

这个公式的精妙之处在于,它让学生模型在没有正确答案的情况下,也能模仿“看到答案后”的思考方式。在实践中,常用的算法如 SDPO(Reinforcement Learning via Self-Distillation)正是基于这一思想,通过比较学生和教师模型的输出差异来提供奖励信号,从而优化模型。

1.2 问题的根源:信息丰富度如何影响推理行为?

那么,这个看似完美的机制,问题出在哪里呢?作者首先探讨了一个关键问题:当模型被提供不同丰富度的上下文信息时,其推理行为会发生怎样的变化?

为此,他们设计了一个巧妙的实验。在 DeepSeek-R1-Distill-Qwen-7B 模型上,他们定义了四种信息丰富度递增的上下文生成条件,并用条件互信息 (I(Y; C|X)) 来衡量信息量:

一、实验设计:四种信息丰富度的生成条件

为了探究外部信息如何影响模型的推理表达,研究设置了四种信息丰富度递增的生成条件:

  1. 无引导生成:模型仅基于原始问题生成答案,无任何额外信息。
  2. 解-无思考内容引导:为模型提供去除思考过程标签后的最终解决方案。
  3. 再生引导:为模型提供一个由“全解引导”条件生成的、正确的历史回答作为参考。
  4. 全解引导:为模型提供包含完整思考过程的标注标准答案。

从信息论角度看,这四种条件的信息量依次递增。

实验结果显示,随着信息丰富度的增加,模型的回答长度和“认知性语言表达”的数量均呈现单调递减趋势(见表1)。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
表1:不同信息丰富度条件下的模型响应特征对比。该表格量化了四种生成设置下模型的得分、响应长度和认知标记数,验证了信息丰富度与认知语言化的负相关。无引导生成的认知标记数高达182.5,而全解引导下仅为8.8,但得分却接近满分。这表明外部信息使模型变得“过度自信”,并压制了其不确定性表达。这一结果为后续分析自蒸馏在数学推理中因信息富集导致性能退化提供了基础实证,也印证了认知标记并非冗余,而是推理过程的重要信号。

:这里的“认知性语言表达”指模型在推理中用于表达不确定性的词语,如“wait”、“hmm”、“perhaps”、“maybe”等。作者定义了一个包含10个词的集合(具体见图9)。这些看似无关紧要的词语,在相关研究中被证明是模型进行自我纠错和探索性思考的关键信号。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图9:四种生成设置下认知标记的逐token使用情况分解。每个柱状代表单个认知标记在每次响应中的平均出现次数。所有标记的使用频率均随信息丰富度提升而下降,其中“wait”、“maybe”、“perhaps”等标记的变化幅度最大。该分析表明,信息富集对认知语言化的压制是全局性的,而非针对个别标记,从而排除了“特定标记冗余”的可能性,证明所有认知标记都是模型表达不确定性的载体。

核心发现1:上下文信息越丰富,模型输出越简洁、越“自信”,但同时其表达不确定性的能力也显著下降。

二、压制不确定性:从“思考”到“模仿”的代价

发现上述现象后,一个核心问题随之产生:这种“自信”的风格仅仅是表面的,还是真的会损害模型的推理能力?

为回答此问题,作者进行了一组关键的监督微调实验。他们构建了两个数据集,各包含800个正确回答:
* 数据集A:由“无引导生成”产生的回答,其特征是篇幅较长且充满认知性表达。
* 数据集B:由“全解引导”产生的回答,其特征是篇幅简短且几乎不含认知性表达。

实验结果令人震惊(见表2)。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
表2:基础模型DeepSeek-R1-Distill-Qwen-7B及其在无引导、全解引导数据集上微调后的数学基准性能对比。表格显示,在全解引导数据集B上微调后,模型在各数学基准上的性能出现断崖式下跌(如AIME24得分从54.79降至20.21);而在无引导数据集A上微调,性能基本保持稳定。这表明,即便训练数据均为正确的推理轨迹,强行压制认知性语言表达、让模型学习一种“过度自信”的风格,也会严重损害其自主探索和纠错能力,从而削弱真正的推理性能。

核心发现2:在监督微调中,即便使用正确轨迹进行训练,过度压制认知性表达也会严重损害模型的推理性能。

三、在线自我蒸馏:一场关于“自信”的反馈循环

接下来,研究转向更常见的在线自我蒸馏场景,对比了GRPO和SDPO算法在数学数据集上的表现,并使用了三种不同的基座模型。

3.1 不同模型的“脆弱性”

1. DeepSeek-R1-Distill-Qwen-7B(高推理能力模型)
* GRPO训练小幅提升了模型性能,并略微增加了响应长度和认知标记。
* 然而,SDPO导致了性能和认知标记使用的双重退化。尤其是当教师模型提供信息丰富的完整解时,AIME24准确率暴跌约40%。这验证了认知语言化与数学推理性能的正相关。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图3:DeepSeek-R1-Distill-Qwen-7B的在线自蒸馏结果。

2. Qwen3-8B(开启思考模式)
* 该模型初始认知表达水平较高。GRPO温和地减少了部分认知表达,但性能保持稳定。
* SDPO则进行了更激进的压制,导致更严重的分布外性能退化。有趣的是,当降低教师信息丰富度后,模型会出现补偿性增加认知语言化的现象,这证明认知表达是模型推理的内在需求。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图4:Qwen3-8B(思考模式开启)的在线自蒸馏结果。

3. Qwen3-8B(关闭思考模式)
* 该模型基线较弱,初始响应短且认知表达少。
* GRPO通过鼓励模型“多思考”(提升认知语言化和响应长度),显著提升了性能
* SDPO则继续压制认知表达,导致性能提升缓慢,甚至在更难的任务上出现轻微退化。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图5:Qwen3-8B(思考模式关闭)的在线自蒸馏结果。

3.2 教师更新策略:放大压制的“反馈循环”

一个关键发现是:在SDPO中,如果使用随时间更新的教师模型(如指数移动平均EMA),会形成一个有害的正反馈循环

因为教师模型自身也在训练中变得越来越“自信”,其输出会更简短、更少不确定性。学生模型模仿这个“加强版”的教师,会进一步压制自身的认知表达,如此循环,最终导致认知表达的彻底消失和性能的急剧恶化。

实验证实,将教师模型固定在初始策略(即不更新)能获得最好的效果,这阻止了上述反馈循环的放大。

四、任务覆盖度:何时压制有益,何时有害?

回到最初的核心问题:为什么自我蒸馏在数学领域会导致性能下降,而在化学或代码领域却能提升性能? 作者提出了一个关键的解释框架:任务覆盖度

他们对比了三个领域的数据集特征,如表3所示:

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
表3:不同领域数据集的问题总数、构成及训练-评估划分对比。揭示了任务覆盖度的差异是自蒸馏效果分野的核心原因。

  • ScienceQ&A (化学):数据量虽大,但问题类型仅有6种,且训练集与测试集分布高度重合。
  • LiveCodeBench v6 (代码):问题相对多样,但总数极少(仅131个),训练集与测试集几乎相同。
  • DAPO-Math-17k (数学):包含14,000个不同的数学问题,且评估集(如AIME24)是模型从未见过的新问题类型

这种对比表明,在任务覆盖度低(问题类型少、训练与测试高度相似)的领域,模型可以“背诵”有限模式,简洁的推理是高效的。而在任务覆盖度高(问题多样且新颖)的领域,模型需要泛化能力,此时保留探索和纠错机制变得至关重要。

为了验证“任务覆盖度”假说,作者设计了一个精巧的实验:从DAPO-Math-17k中随机抽取不同数量(1, 8, 64, 128, 512)的问题进行训练,并观察GRPO与SDPO在未知问题(AIME24, MATH500)上的表现。结果如图7与图8所示:

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图7:不同训练问题数量下,GRPO与SDPO的训练分数和响应长度对比。

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
图8:不同训练问题数量下,模型在AIME24和MATH500上的评估性能及响应长度变化。

实验结论非常清晰:
* 当训练问题很少(≤128)时:SDPO效率惊人,能快速提升训练分数并大幅缩短响应长度。此时,压制认知性表达、专注于有限的解题模式是有益的。
* 当训练问题增多(如512)时:GRPO的性能随数据量稳步提升,响应长度(认知性表达)也相应增加。模型需要通过“思考”来应对多样化问题。而SDPO则力不从心,其过度自信和简洁的响应,在面对需要探索的新问题时成为缺陷,导致性能甚至低于基座模型。

核心启示:认知性表达的价值与任务的泛化需求直接相关。在重复、低覆盖度的任务中,它可能是冗余的;在多样、需要泛化的任务中,它则是不可或缺的探索与纠错机制。

五、相关工作与未来展望

本研究并非孤立,它深化了关于大语言模型推理能力的一系列探讨:
* 不确定性在推理中的作用:已有研究从信息分配角度阐明,认知性语言表达如何帮助模型在不确定性下保持多重假设,实现更鲁棒的推理。本文则揭示了在“自我蒸馏”这一特定语境下,该机制如何被无意破坏。
* 自我蒸馏算法的演进:SDPO等算法在多个领域证明了其高效性。本文通过跨领域对比,为其有效性边界提供了重要的补充和警示。
* 强化学习与推理:本文对比指出,GRPO等基于奖励的算法能自然地保留甚至鼓励模型的探索行为,而SDPO因直接模仿教师输出,易收敛于过度自信的局部最优。

展望未来,这项工作为AI基础架构与算法研究提出了新的方向:
1. 设计不确定性感知的训练目标:未来的训练算法需构建能保留并引导认知性表达的奖励或损失函数,而非仅优化最终答案的正确性。
2. 构建更具挑战性的评估基准:像AIME这样需要深度探索与泛化能力的基准,应成为评估模型推理能力的核心标准。
3. 硬件与框架的适配:支持更长、更具认知性的推理轨迹,对计算、存储和延迟提出了更高要求。如何在系统层面平衡这种“更耗资源但更聪明”的推理模式与效率,是未来的设计挑战。
4. 动态策略调整:或许可以根据任务难度与覆盖度,动态调整模型的推理风格,在简单问题上保持高效,在复杂问题上激活深度思考。

结语:高效不等于聪明,速度不等于深度

这项研究通过严谨的实验揭示了一个在追求效率时易被忽视的真相:我们训练AI的方式,正在塑造AI的思维方式。在自我蒸馏追求“短、平、快”的过程中,模型可能丢失了人类智慧中一种核心能力——在面对不确定性时的审慎与探索

这不仅是对从业者的警示,更是启发。它提醒我们,算法设计不能仅以最终答案为导向,而需深入理解并优化模型的推理行为本身。一个会犹豫、会检查、会说“再想想”的模型,或许在某些测试中稍慢,但在面对未知的复杂现实问题时,可能拥有更强大的适应力与鲁棒性。

这项研究指明了新的方向:真正的通用人工智能,或许并非建立在消除一切不确定性的“绝对自信”之上,而是建立在能够驾驭复杂性、在信息中优雅思考的“认知智慧”之上。我们需要的是超越单纯强化正确答案的、更深层次的推理行为优化。

在追求更快、更短的 AI 竞赛中,让我们偶尔停下来,问一问我们的模型:“你是在真正地思考,还是在假装知道?”

自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27890

(0)
上一篇 2天前
下一篇 2天前

相关推荐