Self-Distillation：大模型持续学习的破局之道与2026三大突破

2026年伊始，大模型领域的研究者们似乎达成了一种默契。翻开近期arXiv上备受关注的论文，一个词汇频繁出现：Self-Distillation（自蒸馏）。

近年来，基础模型在语言、视觉、机器人等领域取得了显著成功，为AI应用提供了强大支持。然而，在模型真正落地与长期使用的过程中，研究者们逐渐发现一个关键瓶颈：如何让模型在持续吸收新知识的同时，不遗忘已有的核心能力——即“持续学习”问题。

传统的依赖外部强教师的范式，因成本高昂和数据依赖性强，难以适应模型高频次持续进化的需求。Self-Distillation随之成为破局的关键思路——通过合理的上下文引导或反馈机制，模型可以构建出一个比当前自身更“聪明”的临时版本，从而在没有外部强教师的情况下实现内生性增长。

基于这一深刻洞察，一个由MIT、ETH Zurich、Meta及斯坦福等顶尖机构组成的紧密学术圈，在2026年1月密集发布了三项重要研究成果。

在持续学习领域，传统的监督微调常因导致“灾难性遗忘”而备受诟病：当模型学习新知识时，其原有的代码能力或常识推理能力往往会发生断崖式下跌。

该研究团队提出了一种自蒸馏微调方法。该方法假设预训练模型已具备强大的上下文学习潜力。在学习新知识时，首先构造包含少量专家演示的上下文，诱导模型生成高质量的“教师”概率分布；随后，模型在不带演示的情况下，通过自蒸馏去拟合这一分布。

Self-Distillation：大模型持续学习的破局之道与2026三大突破
SDFT 机制概览

技术突破：该方法将持续学习转化为一个“策略内对齐”问题。由于训练信号源于模型自身的上下文学习状态，它能最大限度地保持模型原始的概率分布，避免参数在微调过程中产生剧烈漂移，从而有效缓解了灾难性遗忘。

Self-Distillation：大模型持续学习的破局之道与2026三大突破

在技能学习和知识获取任务中，SDFT的表现一致优于传统SFT：不仅实现了更高的新任务准确率，还显著减少了遗忘。在顺序学习实验中，SDFT使单一模型能够随时间累积多种技能而不会出现性能退化，证明了同策略蒸馏是实现持续学习的一条有效路径。

Self-Distillation：大模型持续学习的破局之道与2026三大突破

当前的强化学习通常只能获得二值反馈，这在长程推理任务中会导致严重的“信用分配”问题。此外，在某些算法中，如果模型在一组尝试中全部失败，学习信号就会消失，导致进化停滞。

研究团队认为，问题的关键在于常见的二值反馈信息密度极低，无法为长逻辑链条提供精细指导。为此，他们提出了SDPO框架，旨在将环境中的“富反馈”转化为高效的学习信号。

Self-Distillation：大模型持续学习的破局之道与2026三大突破
RLVR 与 RLRF 强化学习范式对比

核心机制：SDPO引入了“富反馈”环境。当模型生成错误答案时，环境会返回具体的报错信息。模型将这些信息重新注入上下文，作为一个“自省教师”来重新审视并校准之前的错误尝试。

技术突破：该方法通过自蒸馏机制，将原本模糊的标量奖励转化为Token级别的密集监督信号。通过对比“反馈后分布”与“初始分布”的差异，SDPO能精准定位导致失败的关键Token，指引模型调整概率分布。

Self-Distillation：大模型持续学习的破局之道与2026三大突破

在极难任务中，SDPO展现了极高的采样效率，仅需约三分之一尝试次数即可达到其他算法的解发现率。在整体训练中，它能以更少的样本量快速收敛。在LiveCodeBench等竞赛级编程测试中，SDPO仅需传统算法四分之一生成样本量即可达到同等精度，证明了利用环境反馈进行深度自省可打破标量奖励的进化僵局。

Self-Distillation：大模型持续学习的破局之道与2026三大突破

论文标题：Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
论文链接：https://arxiv.org/pdf/2601.18734

在复杂推理任务中，大模型面临搜索空间过大、奖励信号稀疏的问题。尽管强化学习能提升模型上限，但在没有外部“强教师”的在线学习场景中，模型很难快速找到深层逻辑路径。

研究团队提出了OPSD框架，通过在同一模型内部构建“信息不对称”来引导自我进化。

Self-Distillation：大模型持续学习的破局之道与2026三大突破
OPSD 框架概览

核心机制：该框架将模型配置为两种状态。“教师”策略在输入中包含“特权信息”，能够产生高质量的概率分布；“学生”策略则仅凭题目进行作答。

技术突破：OPSD采用策略内采样，核心训练目标是最小化学生分布与教师分布之间的KL散度。这种设计强制模型通过内生分布的对齐，学会从题目直接推导出具有逻辑深度的推理链路。

Self-Distillation：大模型持续学习的破局之道与2026三大突破

在MATH和GSM8K等高难度推理基准测试中，OPSD展现了极高的学习效率，其Token利用率比传统算法高出4-8倍。实验证明，OPSD能够进一步挖掘模型内在的“推理潜力”，表明通过特权信息诱导的自我博弈是实现推理能力飞跃的有效途径。

这三项研究的核心逻辑高度一致：利用模型已有的内生能力，通过不同的上下文构造“信息差”，实现自驱动的闭环升级。Self-Distillation正在成为大模型后训练阶段的关键技术。

2026年，我们或许不再需要教模型如何变强，而只需为它设计一个能够“持续学习”的机制。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21069