近期,苹果公司公布了一项具有工程价值的关键技术进展:将性能强大但成本高昂的 Transformer 架构,改造为成本更低且性能损失极小的 Mamba 架构。这项升级类似于从高成本的特供能源,切换到普惠的基础设施。
为什么要进行这种改造?
核心原因在于,尽管 Transformer 在过去十年主导了深度学习领域,但其计算成本随序列长度呈平方级增长。处理短文本时尚可,一旦涉及长上下文任务(如代码生成、智能体、多轮推理),成本会急剧攀升,难以承受。

为此,业界一直在探索替代方案,例如线性注意力、RWKV 以及近年兴起的 Mamba。这些模型的共同目标是,将平方级复杂度降为线性,从而实现更快的速度、更低的显存占用和更流畅的推理。然而,它们的主要短板在于性能,尤其是在模型规模增大后,与 Transformer 仍有明显差距。这便形成了一个两难局面:
要性能,选 Transformer(但成本高);
要成本,选 Mamba(但性能弱)。
那么,是否存在“既要又要”的可能性?能否在不重新训练的情况下,将 Transformer 的能力直接迁移到 Mamba 上?

直接进行知识蒸馏会导致性能崩溃。Transformer 像一位可以随时查阅资料的“开卷学霸”,而 Mamba 更像一位完全依赖记忆的“闭卷考生”。强行让后者进行闭卷考试而不给过渡期,结果将是灾难性的。

苹果并未选择硬碰硬,而是采用了一套“两步走”策略:
- 构建中间形态:首先,将 Transformer 简化成一个更接近 Mamba 架构的版本。
- 结构转换:然后,从这个中间版本转换到最终的 Mamba 模型。

具体而言,他们将 Transformer 中计算成本极高的 Softmax Attention,替换为更高效的 Mamba 模块。中间引入了一个过渡形态:先将 Attention 转化为一种通过学习得到的线性注意力(Hedgehog),再与 Mamba 结合,最终形成一个名为 HedgeMamba 的混合模块。
第一步:从 Softmax Attention 到线性注意力
这一步的目标是将原始的 Softmax Attention 替换为线性注意力,同时尽量保持性能不降。传统线性注意力与 Softmax Attention 的性能差距较大。为弥补这一差距,研究者基于 Mercer 定理,采用名为 Hedgehog 的方法,使用一个小型神经网络(MLP)来学习一种特征映射,使线性注意力尽可能地模仿原始行为。
随后,通过余弦相似度蒸馏,使这个新结构的输出与原始 Transformer 对齐。完成这一步后,便得到了一个“更便宜但表现仍像 Transformer”的中间模型。

第二步:从线性注意力到 Mamba
接下来,将已经对齐好的线性注意力进一步嵌入到 Mamba 结构中。关键的一步是:将注意力机制中的核心计算方式,对应映射到 Mamba 的内部参数上。这样,Mamba 在初始化时的行为就已经接近前一阶段的模型,而非从零开始学习。这本质上是进行结构对齐。
此外,由于原始注意力自带归一化机制,而线性版本没有,研究者额外增加了一步归一化,使输出形式更接近原始注意力,同时不破坏计算效率。
完成这些准备后,才进入真正的训练阶段。他们对整个模型进行微调,使用标准的交叉熵损失函数,并重新激活 Mamba 原本的能力,如卷积和门控机制。这一步的目的是让模型不仅模仿,更要用自己的方式重新习得能力。
这套方法的关键不在于单一技巧,而在于其路径本身:先在“表达方式”上对齐两种模型,再进行结构转换,最后通过训练恢复能力。正是这种分步处理,避免了直接蒸馏常见的性能崩溃问题。

效果如何?性能几乎无损,成本逻辑已变。
论文中最关键的一张表对比了三类 1B 参数的模型:Transformer 教师模型(Pythia)、传统蒸馏基线(Hedgehog)以及新方法(HedgeMamba)。在仅使用 10B tokens(约占教师模型训练数据的 2.7%)的情况下,结果非常明确:
- 教师模型的困惑度为 13.86。
- 基线方法降至 14.89。
- HedgeMamba 则将其拉回至 14.11,已非常接近教师模型。

他们用一个约 10B token 训练出的 1B 模型进行实验,最终得到的 Mamba 模型能够保留原始 Pythia-1B Transformer 在下游任务中的性能。其困惑度保持在 14.11,接近教师模型的 13.86。
这项工作的意义十分重大。
过去,业界默认将 Transformer 换成其他架构会导致性能明显下降。而这篇论文表明,这个损失可以被大幅追回。不仅在语言建模指标上表现优异,在 ARC、PIQA、BoolQ、RACE、LogiQA 等下游任务中,HedgeMamba 也全面超越基线,整体表现逼近教师模型。这说明它保留下来的不仅是表面的概率分布,更包括相当的推理能力和语义结构。
更关键的是,这种效果有方法论支撑。研究者尝试过最直接的方法——从 Transformer 一步蒸馏到 Mamba,结果困惑度直接飙升至 100 以上,几乎不可用。换言之,两阶段蒸馏在这里并非优化选项,而是绕不开的结构性必要条件。

后续的消融和分析实验,进一步解释了这条路径为何有效。
- 架构方面:真正起作用的不是简单堆叠模块,而是门控机制——让模型学会该记住什么、该遗忘什么。
- 训练策略:两阶段的数据分配并非平均最优,而是明显偏向第二阶段。这表明中间表示仅为过渡,真正的能力迁移发生在后半段。
- 数据规模:从 1B 到 10B token,性能稳定提升,未出现不收敛或震荡的情况。这证明该路线具备规模化放大的潜力。

架构消融实验表明,让 Mamba 好用的关键不是简单堆叠结构,而是门控机制。

蒸馏的两步(S1 和 S2)中,数据分配的最优策略是“轻 S1 + 重 S2”。

蒸馏过程中 token 数量对效果的影响:只要提供足够多的蒸馏数据,Mamba 的性能可以逼近 Transformer。
综合来看,这项工作的价值不在于“又做了一个更好的模型”,而在于提供了一种全新的工程可能性。
过去几年积累的大量 Transformer 模型,并不需要全部推倒重来,而是有机会通过一套流程,被“转制”为更高效的形态。如果这一方法能稳定复现,那么整个开源模型生态,甚至许多公司的自研模型,都将迎来一次整体降本重构的机遇。
参考链接
https://arxiv.org/abs/2604.14191
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31424

