苹果新招：把Transformer的性能塞进Mamba，成本大降

近期，苹果公司公布了一项具有工程价值的关键技术进展：将性能强大但成本高昂的 Transformer 架构，改造为成本更低且性能损失极小的 Mamba 架构。这项升级类似于从高成本的特供能源，切换到普惠的基础设施。

为什么要进行这种改造？

核心原因在于，尽管 Transformer 在过去十年主导了深度学习领域，但其计算成本随序列长度呈平方级增长。处理短文本时尚可，一旦涉及长上下文任务（如代码生成、智能体、多轮推理），成本会急剧攀升，难以承受。

苹果新招：把Transformer的性能塞进Mamba，成本大降

为此，业界一直在探索替代方案，例如线性注意力、RWKV 以及近年兴起的 Mamba。这些模型的共同目标是，将平方级复杂度降为线性，从而实现更快的速度、更低的显存占用和更流畅的推理。然而，它们的主要短板在于性能，尤其是在模型规模增大后，与 Transformer 仍有明显差距。这便形成了一个两难局面：

要性能，选 Transformer（但成本高）；
要成本，选 Mamba（但性能弱）。

那么，是否存在“既要又要”的可能性？能否在不重新训练的情况下，将 Transformer 的能力直接迁移到 Mamba 上？

苹果新招：把Transformer的性能塞进Mamba，成本大降

直接进行知识蒸馏会导致性能崩溃。Transformer 像一位可以随时查阅资料的“开卷学霸”，而 Mamba 更像一位完全依赖记忆的“闭卷考生”。强行让后者进行闭卷考试而不给过渡期，结果将是灾难性的。

苹果新招：把Transformer的性能塞进Mamba，成本大降

苹果并未选择硬碰硬，而是采用了一套“两步走”策略：

构建中间形态：首先，将 Transformer 简化成一个更接近 Mamba 架构的版本。
结构转换：然后，从这个中间版本转换到最终的 Mamba 模型。

苹果新招：把Transformer的性能塞进Mamba，成本大降

具体而言，他们将 Transformer 中计算成本极高的 Softmax Attention，替换为更高效的 Mamba 模块。中间引入了一个过渡形态：先将 Attention 转化为一种通过学习得到的线性注意力（Hedgehog），再与 Mamba 结合，最终形成一个名为 HedgeMamba 的混合模块。

第一步：从 Softmax Attention 到线性注意力

这一步的目标是将原始的 Softmax Attention 替换为线性注意力，同时尽量保持性能不降。传统线性注意力与 Softmax Attention 的性能差距较大。为弥补这一差距，研究者基于 Mercer 定理，采用名为 Hedgehog 的方法，使用一个小型神经网络（MLP）来学习一种特征映射，使线性注意力尽可能地模仿原始行为。

随后，通过余弦相似度蒸馏，使这个新结构的输出与原始 Transformer 对齐。完成这一步后，便得到了一个“更便宜但表现仍像 Transformer”的中间模型。

苹果新招：把Transformer的性能塞进Mamba，成本大降

第二步：从线性注意力到 Mamba

接下来，将已经对齐好的线性注意力进一步嵌入到 Mamba 结构中。关键的一步是：将注意力机制中的核心计算方式，对应映射到 Mamba 的内部参数上。这样，Mamba 在初始化时的行为就已经接近前一阶段的模型，而非从零开始学习。这本质上是进行结构对齐。

此外，由于原始注意力自带归一化机制，而线性版本没有，研究者额外增加了一步归一化，使输出形式更接近原始注意力，同时不破坏计算效率。

完成这些准备后，才进入真正的训练阶段。他们对整个模型进行微调，使用标准的交叉熵损失函数，并重新激活 Mamba 原本的能力，如卷积和门控机制。这一步的目的是让模型不仅模仿，更要用自己的方式重新习得能力。

这套方法的关键不在于单一技巧，而在于其路径本身：先在“表达方式”上对齐两种模型，再进行结构转换，最后通过训练恢复能力。正是这种分步处理，避免了直接蒸馏常见的性能崩溃问题。

苹果新招：把Transformer的性能塞进Mamba，成本大降

效果如何？性能几乎无损，成本逻辑已变。

论文中最关键的一张表对比了三类 1B 参数的模型：Transformer 教师模型（Pythia）、传统蒸馏基线（Hedgehog）以及新方法（HedgeMamba）。在仅使用 10B tokens（约占教师模型训练数据的 2.7%）的情况下，结果非常明确：

教师模型的困惑度为 13.86。
基线方法降至 14.89。
HedgeMamba 则将其拉回至 14.11，已非常接近教师模型。

苹果新招：把Transformer的性能塞进Mamba，成本大降

他们用一个约 10B token 训练出的 1B 模型进行实验，最终得到的 Mamba 模型能够保留原始 Pythia-1B Transformer 在下游任务中的性能。其困惑度保持在 14.11，接近教师模型的 13.86。

这项工作的意义十分重大。

过去，业界默认将 Transformer 换成其他架构会导致性能明显下降。而这篇论文表明，这个损失可以被大幅追回。不仅在语言建模指标上表现优异，在 ARC、PIQA、BoolQ、RACE、LogiQA 等下游任务中，HedgeMamba 也全面超越基线，整体表现逼近教师模型。这说明它保留下来的不仅是表面的概率分布，更包括相当的推理能力和语义结构。

更关键的是，这种效果有方法论支撑。研究者尝试过最直接的方法——从 Transformer 一步蒸馏到 Mamba，结果困惑度直接飙升至 100 以上，几乎不可用。换言之，两阶段蒸馏在这里并非优化选项，而是绕不开的结构性必要条件。

苹果新招：把Transformer的性能塞进Mamba，成本大降