
2026年伊始,大模型领域的研究者们似乎达成了一种默契。翻开近期arXiv上备受关注的论文,一个词汇频繁出现:Self-Distillation(自蒸馏)。
近年来,基础模型在语言、视觉、机器人等领域取得了显著成功,为AI应用提供了强大支持。然而,在模型真正落地与长期使用的过程中,研究者们逐渐发现一个关键瓶颈:如何让模型在持续吸收新知识的同时,不遗忘已有的核心能力——即“持续学习”问题。
传统的依赖外部强教师的范式,因成本高昂和数据依赖性强,难以适应模型高频次持续进化的需求。Self-Distillation随之成为破局的关键思路——通过合理的上下文引导或反馈机制,模型可以构建出一个比当前自身更“聪明”的临时版本,从而在没有外部强教师的情况下实现内生性增长。
基于这一深刻洞察,一个由MIT、ETH Zurich、Meta及斯坦福等顶尖机构组成的紧密学术圈,在2026年1月密集发布了三项重要研究成果。
1. Self-Distillation Enables Continual Learning

- 论文标题:Self-Distillation Enables Continual Learning
- 论文链接:https://www.alphaxiv.org/abs/2601.19897
- 代码链接:https://github.com/idanshen/Self-Distillation
在持续学习领域,传统的监督微调常因导致“灾难性遗忘”而备受诟病:当模型学习新知识时,其原有的代码能力或常识推理能力往往会发生断崖式下跌。
该研究团队提出了一种自蒸馏微调方法。该方法假设预训练模型已具备强大的上下文学习潜力。在学习新知识时,首先构造包含少量专家演示的上下文,诱导模型生成高质量的“教师”概率分布;随后,模型在不带演示的情况下,通过自蒸馏去拟合这一分布。

SDFT 机制概览
技术突破:该方法将持续学习转化为一个“策略内对齐”问题。由于训练信号源于模型自身的上下文学习状态,它能最大限度地保持模型原始的概率分布,避免参数在微调过程中产生剧烈漂移,从而有效缓解了灾难性遗忘。

在技能学习和知识获取任务中,SDFT的表现一致优于传统SFT:不仅实现了更高的新任务准确率,还显著减少了遗忘。在顺序学习实验中,SDFT使单一模型能够随时间累积多种技能而不会出现性能退化,证明了同策略蒸馏是实现持续学习的一条有效路径。
2. Reinforcement Learning via Self-Distillation

- 论文标题:Reinforcement Learning via Self-Distillation
- 论文链接:https://arxiv.org/pdf/2601.20802
- 代码链接:https://github.com/lasgroup/SDPO
当前的强化学习通常只能获得二值反馈,这在长程推理任务中会导致严重的“信用分配”问题。此外,在某些算法中,如果模型在一组尝试中全部失败,学习信号就会消失,导致进化停滞。
研究团队认为,问题的关键在于常见的二值反馈信息密度极低,无法为长逻辑链条提供精细指导。为此,他们提出了SDPO框架,旨在将环境中的“富反馈”转化为高效的学习信号。

RLVR 与 RLRF 强化学习范式对比
核心机制:SDPO引入了“富反馈”环境。当模型生成错误答案时,环境会返回具体的报错信息。模型将这些信息重新注入上下文,作为一个“自省教师”来重新审视并校准之前的错误尝试。
技术突破:该方法通过自蒸馏机制,将原本模糊的标量奖励转化为Token级别的密集监督信号。通过对比“反馈后分布”与“初始分布”的差异,SDPO能精准定位导致失败的关键Token,指引模型调整概率分布。

在极难任务中,SDPO展现了极高的采样效率,仅需约三分之一尝试次数即可达到其他算法的解发现率。在整体训练中,它能以更少的样本量快速收敛。在LiveCodeBench等竞赛级编程测试中,SDPO仅需传统算法四分之一生成样本量即可达到同等精度,证明了利用环境反馈进行深度自省可打破标量奖励的进化僵局。
3. Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

- 论文标题:Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
- 论文链接:https://arxiv.org/pdf/2601.18734
在复杂推理任务中,大模型面临搜索空间过大、奖励信号稀疏的问题。尽管强化学习能提升模型上限,但在没有外部“强教师”的在线学习场景中,模型很难快速找到深层逻辑路径。
研究团队提出了OPSD框架,通过在同一模型内部构建“信息不对称”来引导自我进化。

OPSD 框架概览
核心机制:该框架将模型配置为两种状态。“教师”策略在输入中包含“特权信息”,能够产生高质量的概率分布;“学生”策略则仅凭题目进行作答。
技术突破:OPSD采用策略内采样,核心训练目标是最小化学生分布与教师分布之间的KL散度。这种设计强制模型通过内生分布的对齐,学会从题目直接推导出具有逻辑深度的推理链路。

在MATH和GSM8K等高难度推理基准测试中,OPSD展现了极高的学习效率,其Token利用率比传统算法高出4-8倍。实验证明,OPSD能够进一步挖掘模型内在的“推理潜力”,表明通过特权信息诱导的自我博弈是实现推理能力飞跃的有效途径。
这三项研究的核心逻辑高度一致:利用模型已有的内生能力,通过不同的上下文构造“信息差”,实现自驱动的闭环升级。Self-Distillation正在成为大模型后训练阶段的关键技术。
2026年,我们或许不再需要教模型如何变强,而只需为它设计一个能够“持续学习”的机制。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21069
