苹果新招:把Transformer的性能塞进Mamba,成本大降

近期,苹果公司公布了一项具有工程价值的关键技术进展:将性能强大但成本高昂的 Transformer 架构,改造为成本更低且性能损失极小的 Mamba 架构。这项升级类似于从高成本的特供能源,切换到普惠的基础设施。

为什么要进行这种改造?

核心原因在于,尽管 Transformer 在过去十年主导了深度学习领域,但其计算成本随序列长度呈平方级增长。处理短文本时尚可,一旦涉及长上下文任务(如代码生成、智能体、多轮推理),成本会急剧攀升,难以承受。

苹果新招:把Transformer的性能塞进Mamba,成本大降

为此,业界一直在探索替代方案,例如线性注意力、RWKV 以及近年兴起的 Mamba。这些模型的共同目标是,将平方级复杂度降为线性,从而实现更快的速度、更低的显存占用和更流畅的推理。然而,它们的主要短板在于性能,尤其是在模型规模增大后,与 Transformer 仍有明显差距。这便形成了一个两难局面:

要性能,选 Transformer(但成本高);
要成本,选 Mamba(但性能弱)。

那么,是否存在“既要又要”的可能性?能否在不重新训练的情况下,将 Transformer 的能力直接迁移到 Mamba 上?

苹果新招:把Transformer的性能塞进Mamba,成本大降

直接进行知识蒸馏会导致性能崩溃。Transformer 像一位可以随时查阅资料的“开卷学霸”,而 Mamba 更像一位完全依赖记忆的“闭卷考生”。强行让后者进行闭卷考试而不给过渡期,结果将是灾难性的。

苹果新招:把Transformer的性能塞进Mamba,成本大降

苹果并未选择硬碰硬,而是采用了一套“两步走”策略:

  1. 构建中间形态:首先,将 Transformer 简化成一个更接近 Mamba 架构的版本。
  2. 结构转换:然后,从这个中间版本转换到最终的 Mamba 模型。

苹果新招:把Transformer的性能塞进Mamba,成本大降

具体而言,他们将 Transformer 中计算成本极高的 Softmax Attention,替换为更高效的 Mamba 模块。中间引入了一个过渡形态:先将 Attention 转化为一种通过学习得到的线性注意力(Hedgehog),再与 Mamba 结合,最终形成一个名为 HedgeMamba 的混合模块。

第一步:从 Softmax Attention 到线性注意力

这一步的目标是将原始的 Softmax Attention 替换为线性注意力,同时尽量保持性能不降。传统线性注意力与 Softmax Attention 的性能差距较大。为弥补这一差距,研究者基于 Mercer 定理,采用名为 Hedgehog 的方法,使用一个小型神经网络(MLP)来学习一种特征映射,使线性注意力尽可能地模仿原始行为。

随后,通过余弦相似度蒸馏,使这个新结构的输出与原始 Transformer 对齐。完成这一步后,便得到了一个“更便宜但表现仍像 Transformer”的中间模型。

苹果新招:把Transformer的性能塞进Mamba,成本大降

第二步:从线性注意力到 Mamba

接下来,将已经对齐好的线性注意力进一步嵌入到 Mamba 结构中。关键的一步是:将注意力机制中的核心计算方式,对应映射到 Mamba 的内部参数上。这样,Mamba 在初始化时的行为就已经接近前一阶段的模型,而非从零开始学习。这本质上是进行结构对齐。

此外,由于原始注意力自带归一化机制,而线性版本没有,研究者额外增加了一步归一化,使输出形式更接近原始注意力,同时不破坏计算效率。

完成这些准备后,才进入真正的训练阶段。他们对整个模型进行微调,使用标准的交叉熵损失函数,并重新激活 Mamba 原本的能力,如卷积和门控机制。这一步的目的是让模型不仅模仿,更要用自己的方式重新习得能力。

这套方法的关键不在于单一技巧,而在于其路径本身:先在“表达方式”上对齐两种模型,再进行结构转换,最后通过训练恢复能力。正是这种分步处理,避免了直接蒸馏常见的性能崩溃问题。

苹果新招:把Transformer的性能塞进Mamba,成本大降

效果如何?性能几乎无损,成本逻辑已变。

论文中最关键的一张表对比了三类 1B 参数的模型:Transformer 教师模型(Pythia)、传统蒸馏基线(Hedgehog)以及新方法(HedgeMamba)。在仅使用 10B tokens(约占教师模型训练数据的 2.7%)的情况下,结果非常明确:

  • 教师模型的困惑度为 13.86
  • 基线方法降至 14.89
  • HedgeMamba 则将其拉回至 14.11,已非常接近教师模型。

苹果新招:把Transformer的性能塞进Mamba,成本大降

他们用一个约 10B token 训练出的 1B 模型进行实验,最终得到的 Mamba 模型能够保留原始 Pythia-1B Transformer 在下游任务中的性能。其困惑度保持在 14.11,接近教师模型的 13.86

这项工作的意义十分重大。

过去,业界默认将 Transformer 换成其他架构会导致性能明显下降。而这篇论文表明,这个损失可以被大幅追回。不仅在语言建模指标上表现优异,在 ARC、PIQA、BoolQ、RACE、LogiQA 等下游任务中,HedgeMamba 也全面超越基线,整体表现逼近教师模型。这说明它保留下来的不仅是表面的概率分布,更包括相当的推理能力和语义结构。

更关键的是,这种效果有方法论支撑。研究者尝试过最直接的方法——从 Transformer 一步蒸馏到 Mamba,结果困惑度直接飙升至 100 以上,几乎不可用。换言之,两阶段蒸馏在这里并非优化选项,而是绕不开的结构性必要条件。

苹果新招:把Transformer的性能塞进Mamba,成本大降

后续的消融和分析实验,进一步解释了这条路径为何有效。

  • 架构方面:真正起作用的不是简单堆叠模块,而是门控机制——让模型学会该记住什么、该遗忘什么。
  • 训练策略:两阶段的数据分配并非平均最优,而是明显偏向第二阶段。这表明中间表示仅为过渡,真正的能力迁移发生在后半段。
  • 数据规模:从 1B 到 10B token,性能稳定提升,未出现不收敛或震荡的情况。这证明该路线具备规模化放大的潜力。

苹果新招:把Transformer的性能塞进Mamba,成本大降

架构消融实验表明,让 Mamba 好用的关键不是简单堆叠结构,而是门控机制。

苹果新招:把Transformer的性能塞进Mamba,成本大降

蒸馏的两步(S1 和 S2)中,数据分配的最优策略是“轻 S1 + 重 S2”。

苹果新招:把Transformer的性能塞进Mamba,成本大降

蒸馏过程中 token 数量对效果的影响:只要提供足够多的蒸馏数据,Mamba 的性能可以逼近 Transformer。

综合来看,这项工作的价值不在于“又做了一个更好的模型”,而在于提供了一种全新的工程可能性。

过去几年积累的大量 Transformer 模型,并不需要全部推倒重来,而是有机会通过一套流程,被“转制”为更高效的形态。如果这一方法能稳定复现,那么整个开源模型生态,甚至许多公司的自研模型,都将迎来一次整体降本重构的机遇。

参考链接

https://arxiv.org/abs/2604.14191


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31424

(0)
上一篇 3天前
下一篇 2天前

相关推荐

  • 快手AI人才地震:大模型掌舵人离职,华为搜索实验室主任加盟,两年间9位高管变动

    AI人才换挡期来了? 据多个独立信源透露,快手科技副总裁、基础大模型及推荐模型负责人周国睿即将离职。其内部系统状态已显示为休假,签名改为“Log Out”。有消息称其或将加入Meta,也有传闻指向TikTok。 职场平台脉脉信息显示,周国睿于2021年加入快手,此前曾在阿里妈妈担任高级算法专家。在快手期间,他先后负责直播、本地生活推荐业务,并于2024年升任…

    2025年12月31日
    46800
  • 腾讯开源Sherry三元量化方案:1.25bit登顶LLM边缘推理,3:4稀疏榨干硬件性能

    关键词:三元量化、细粒度稀疏、3:4稀疏模式、权重陷阱、退火残余突触 大语言模型(LLM)的部署正面临一个根本性矛盾:模型规模持续扩大与终端硬件资源受限之间的矛盾。云端推理虽然强大,但数据隐私、网络延迟、服务成本等问题日益突出,将LLM推向边缘设备已成为必然趋势。 在众多模型压缩技术中,权重量化因其直接降低模型尺寸和计算开销而备受关注。然而,大多数现有量化方…

    2026年2月16日
    28800
  • OpenClaw狂潮下的AI自主执行时代:机遇、挑战与安全困境

    我确实对运行 OpenClaw 持相当怀疑的态度。…… 整个生态给人的感觉就像是一个彻底的狂野西部,在安全性上简直是一场噩梦。 —— Andrej Karpathy OpenClaw 已彻底从开发者和科技爱好者的小圈子中破圈而出。 自其首个代表性项目 Clawdbot 诞生以来,OpenClaw 在 GitHub 上已狂揽 352k stars,其飞涨速度超…

    2026年4月8日
    21100
  • 工业智算2026:万亿规模下的技术融合与生态突围

    在第四次工业革命纵深推进的背景下,工业智算作为连接人工智能与实体经济的核心枢纽,正从技术探索阶段迈入规模化应用的关键周期。 本报告基于全球工业智算产业发展现状,结合2025-2026年最新行业数据与技术突破,系统阐释工业智算的核心内涵、技术架构与产业价值,深度剖析美欧等发达国家产业链布局与发展路径,全面梳理我国工业智算在市场规模、技术创新、国产替代等方面的进…

    2026年1月26日
    48100
  • Gemini负责人揭秘:Pro模型竟是Flash的“蒸馏器”,后训练与持续学习成AI进化新战场

    2025年底,AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度,其智能表现不仅全面超越了前代Gemini 2.5 Pro,甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2,表现令人惊艳。 就在近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean…

    2025年12月21日
    37600