注意力残差:对残差连接的结构性改进
引言:一个基础性的问题
现代大型语言模型普遍采用深度神经网络架构,信息从输入层开始,逐层向上传递并接受加工,最终产生输出。然而,随着网络层数的增加,训练过程面临一个根本性挑战:梯度信号在反向传播过程中,经过数十甚至上百层的传递后,可能严重衰减或消失,导致底层参数难以得到有效更新。
2015年,何恺明团队在《Deep Residual Learning for Image Recognition》一文中提出的残差连接(Residual Connections)是解决这一问题的关键设计。其核心思想是为每一层网络增加一条“直连通道”,将输入信息原封不动地传递并与该层的变换输出相加。这使得梯度在反向传播时能够绕过复杂的非线性变换,直接流向底层,从而让训练极深的网络成为可能。残差连接自此成为深度学习,尤其是Transformer架构模型不可或缺的基石。
然而,标准的残差连接采用一种固定的、无差别的信息聚合方式:将当前层的输入与变换输出简单相加。这导致了一个被称为 “PreNorm稀释” 的问题:随着网络深度增加,每一层自身的贡献在累积的、不断增大的信息总量中占比越来越小。为了使其输出在后续计算中仍能被“听见”,深层网络往往需要输出数值更大的激活值。已有研究表明,大模型中相当一部分层即使被移除,对模型整体性能也影响甚微,这暗示着许多中间层的实际贡献有限。
Attention Residuals:一次方向性的“旋转”
月之暗面(Kimi)团队在技术报告《Attention Residuals》中,针对上述问题提出了一种新颖的改进方案。其核心洞察源于一个优雅的类比:残差连接在深度方向上遇到的信息聚合问题,与循环神经网络(RNN)在序列方向上遇到的长期依赖问题,在数学结构上高度相似。
Transformer中的注意力机制成功解决了RNN的长期记忆问题:模型在处理序列中任一位置时,都能通过注意力权重动态地回顾并聚合历史信息。Attention Residuals(AttnRes)的核心理念,正是将这一机制从序列维度“旋转”应用到深度维度。
具体而言,在传统的Transformer中,注意力机制作用于同一网络层内不同词元(Token)之间(序列维度)。而AttnRes则为每一网络层引入一个可学习的“查询向量”。该层在计算时,会以其查询向量为指引,对前面所有网络层(针对同一词元)的输出状态计算注意力权重,从而动态地、有选择性地聚合历史层信息,而非进行简单的等权相加。

这一设计带来了根本性的改变:
1. 主动性:每一层可以主动决定从历史层中汲取多少信息,以及更依赖哪些层。
2. 动态性:聚合权重并非固定参数,而是根据网络当前处理的内容动态生成。
3. 轻量性:每层仅增加一个查询向量和一个归一化操作,参数量增加几乎可忽略不计。
工程实现:从理论到大规模训练的务实路径
尽管全量AttnRes(每一层都能关注所有历史层)在小规模实验中效果显著,但在大规模模型训练中,其需要存储和传输所有中间层输出的特性,会带来难以承受的内存与通信开销。
为此,Kimi团队提出了实用的 “分块注意力残差” 方案。

- 分块设计:将整个网络划分为若干个连续的块(Block)。块内部仍使用传统的残差连接,保持局部信息流的稳定性与高效性;块与块之间则应用AttnRes机制,允许信息在关键的网络段落之间进行动态的、有选择的跳跃式传递。
- 效果与开销平衡:实验表明,将网络划分为约8个块,即可保留全量AttnRes绝大部分的性能增益,同时将需要全局通信的数据量从“层数”级别降至“块数”级别,大幅降低了开销。
- 工程优化:
- 训练端:设计了跨阶段缓存机制,在流水线并行训练中优化数据传输,使整体训练额外开销控制在4%以内。
- 推理端:采用两阶段计算策略,将块内计算打包处理,摊销内存访问成本,最终推理延迟增加不超过2%。
实验效果与分析
研究团队在多个模型规模上验证了Block AttnRes的有效性。
1. 性能提升
在总参数量为480亿(激活参数量30亿)的Kimi Linear架构模型上进行实验,Block AttnRes在相同的计算预算下,达到了基线模型(使用标准PreNorm残差)需要消耗1.25倍算力才能达到的验证损失水平。在15项主流评测基准上,其表现均持平或优于基线模型,尤其在需要深度推理的任务上提升显著(如GPQA-Diamond提升7.5%)。

2. 缓解梯度稀释
训练过程可视化显示,基线模型的各层输出数值随网络深度单调递增,印证了PreNorm稀释问题的存在。而采用AttnRes的模型,其输出数值在块边界处得到“重置”,呈现周期性变化,各层的梯度分布也更加均匀,表明更多的网络层真正参与了有效学习。

3. 学到的注意力模式
对训练后模型注意力权重的可视化分析揭示了一些有趣模式:
* 局部性主导:每一层最依赖的仍是其直接前一层。
* 存在跳跃连接:某些层会稳定地关注到网络早期甚至最初的嵌入层。
* 层类型差异:注意力层倾向于关注更广泛的历史层,而MLP层则更依赖近邻层,这与它们的功能分工相符。
4. 对模型架构设计的启示
研究还发现,在固定总计算量和参数量的约束下,标准残差连接偏好“更宽、更浅”的模型,而AttnRes的最优点则偏向“更窄、更深”的模型。这表明AttnRes能够更高效地利用网络深度,让增加层数带来实质性的性能回报,而非边际效益递减,为未来的大模型架构设计提供了新的参考维度。

讨论与展望
Attention Residuals的提出,其意义不仅在于一项具体的性能改进。它代表了一种研发范式的回归:不再满足于在现有Transformer“大厦”上进行内部装修(如改进注意力变体、路由策略等),而是敢于重新审视并改造那些被视为“已解决”或“不可触碰”的基础组件。
残差连接自2015年确立以来,已成为深度学习最稳固的基石之一。Kimi此项工作表明,即使是这样的基础结构,仍有从第一性原理出发进行重构和优化的空间。这自然引向更广泛的思考:优化器、归一化方法、位置编码等其他基础组件,是否也存在类似的改进可能?
当然,该技术仍有待进一步验证,例如在千亿乃至万亿参数规模的模型上,其增益能否持续保持;在经过指令微调、人类反馈强化学习等后训练流程后,其优势是否会被稀释等。然而,一个仅需约百行代码改动、增加有限开销的轻量级修改,能在中等规模模型上带来显著提升,已足以令人对其潜力抱有期待。
当此类旨在提升Token计算效率的基础创新,与超长上下文窗口、智能体协作等前沿方向结合时,可能催生出新的范式转变。在人工智能快速发展的进程中,既有向上添砖加瓦的激烈竞争,也需要向下深挖地基的潜心探索。Attention Residuals正是后者的一个有力例证。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26372


