注意力残差：对残差连接的结构性改进

引言：一个基础性的问题

现代大型语言模型普遍采用深度神经网络架构，信息从输入层开始，逐层向上传递并接受加工，最终产生输出。然而，随着网络层数的增加，训练过程面临一个根本性挑战：梯度信号在反向传播过程中，经过数十甚至上百层的传递后，可能严重衰减或消失，导致底层参数难以得到有效更新。

2015年，何恺明团队在《Deep Residual Learning for Image Recognition》一文中提出的残差连接（Residual Connections）是解决这一问题的关键设计。其核心思想是为每一层网络增加一条“直连通道”，将输入信息原封不动地传递并与该层的变换输出相加。这使得梯度在反向传播时能够绕过复杂的非线性变换，直接流向底层，从而让训练极深的网络成为可能。残差连接自此成为深度学习，尤其是Transformer架构模型不可或缺的基石。

然而，标准的残差连接采用一种固定的、无差别的信息聚合方式：将当前层的输入与变换输出简单相加。这导致了一个被称为 “PreNorm稀释” 的问题：随着网络深度增加，每一层自身的贡献在累积的、不断增大的信息总量中占比越来越小。为了使其输出在后续计算中仍能被“听见”，深层网络往往需要输出数值更大的激活值。已有研究表明，大模型中相当一部分层即使被移除，对模型整体性能也影响甚微，这暗示着许多中间层的实际贡献有限。

Attention Residuals：一次方向性的“旋转”

月之暗面（Kimi）团队在技术报告《Attention Residuals》中，针对上述问题提出了一种新颖的改进方案。其核心洞察源于一个优雅的类比：残差连接在深度方向上遇到的信息聚合问题，与循环神经网络（RNN）在序列方向上遇到的长期依赖问题，在数学结构上高度相似。

Transformer中的注意力机制成功解决了RNN的长期记忆问题：模型在处理序列中任一位置时，都能通过注意力权重动态地回顾并聚合历史信息。Attention Residuals（AttnRes）的核心理念，正是将这一机制从序列维度“旋转”应用到深度维度。

具体而言，在传统的Transformer中，注意力机制作用于同一网络层内不同词元（Token）之间（序列维度）。而AttnRes则为每一网络层引入一个可学习的“查询向量”。该层在计算时，会以其查询向量为指引，对前面所有网络层（针对同一词元）的输出状态计算注意力权重，从而动态地、有选择性地聚合历史层信息，而非进行简单的等权相加。

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

这一设计带来了根本性的改变：
1. 主动性：每一层可以主动决定从历史层中汲取多少信息，以及更依赖哪些层。
2. 动态性：聚合权重并非固定参数，而是根据网络当前处理的内容动态生成。
3. 轻量性：每层仅增加一个查询向量和一个归一化操作，参数量增加几乎可忽略不计。

工程实现：从理论到大规模训练的务实路径

尽管全量AttnRes（每一层都能关注所有历史层）在小规模实验中效果显著，但在大规模模型训练中，其需要存储和传输所有中间层输出的特性，会带来难以承受的内存与通信开销。

为此，Kimi团队提出了实用的 “分块注意力残差” 方案。

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

分块设计：将整个网络划分为若干个连续的块（Block）。块内部仍使用传统的残差连接，保持局部信息流的稳定性与高效性；块与块之间则应用AttnRes机制，允许信息在关键的网络段落之间进行动态的、有选择的跳跃式传递。
效果与开销平衡：实验表明，将网络划分为约8个块，即可保留全量AttnRes绝大部分的性能增益，同时将需要全局通信的数据量从“层数”级别降至“块数”级别，大幅降低了开销。
工程优化：
- 训练端：设计了跨阶段缓存机制，在流水线并行训练中优化数据传输，使整体训练额外开销控制在4%以内。
- 推理端：采用两阶段计算策略，将块内计算打包处理，摊销内存访问成本，最终推理延迟增加不超过2%。

实验效果与分析

研究团队在多个模型规模上验证了Block AttnRes的有效性。

1. 性能提升
在总参数量为480亿（激活参数量30亿）的Kimi Linear架构模型上进行实验，Block AttnRes在相同的计算预算下，达到了基线模型（使用标准PreNorm残差）需要消耗1.25倍算力才能达到的验证损失水平。在15项主流评测基准上，其表现均持平或优于基线模型，尤其在需要深度推理的任务上提升显著（如GPQA-Diamond提升7.5%）。

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

2. 缓解梯度稀释
训练过程可视化显示，基线模型的各层输出数值随网络深度单调递增，印证了PreNorm稀释问题的存在。而采用AttnRes的模型，其输出数值在块边界处得到“重置”，呈现周期性变化，各层的梯度分布也更加均匀，表明更多的网络层真正参与了有效学习。

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

3. 学到的注意力模式
对训练后模型注意力权重的可视化分析揭示了一些有趣模式：
* 局部性主导：每一层最依赖的仍是其直接前一层。
* 存在跳跃连接：某些层会稳定地关注到网络早期甚至最初的嵌入层。
* 层类型差异：注意力层倾向于关注更广泛的历史层，而MLP层则更依赖近邻层，这与它们的功能分工相符。

4. 对模型架构设计的启示
研究还发现，在固定总计算量和参数量的约束下，标准残差连接偏好“更宽、更浅”的模型，而AttnRes的最优点则偏向“更窄、更深”的模型。这表明AttnRes能够更高效地利用网络深度，让增加层数带来实质性的性能回报，而非边际效益递减，为未来的大模型架构设计提供了新的参考维度。

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

讨论与展望

Attention Residuals的提出，其意义不仅在于一项具体的性能改进。它代表了一种研发范式的回归：不再满足于在现有Transformer“大厦”上进行内部装修（如改进注意力变体、路由策略等），而是敢于重新审视并改造那些被视为“已解决”或“不可触碰”的基础组件。

残差连接自2015年确立以来，已成为深度学习最稳固的基石之一。Kimi此项工作表明，即使是这样的基础结构，仍有从第一性原理出发进行重构和优化的空间。这自然引向更广泛的思考：优化器、归一化方法、位置编码等其他基础组件，是否也存在类似的改进可能？

当然，该技术仍有待进一步验证，例如在千亿乃至万亿参数规模的模型上，其增益能否持续保持；在经过指令微调、人类反馈强化学习等后训练流程后，其优势是否会被稀释等。然而，一个仅需约百行代码改动、增加有限开销的轻量级修改，能在中等规模模型上带来显著提升，已足以令人对其潜力抱有期待。

当此类旨在提升Token计算效率的基础创新，与超长上下文窗口、智能体协作等前沿方向结合时，可能催生出新的范式转变。在人工智能快速发展的进程中，既有向上添砖加瓦的激烈竞争，也需要向下深挖地基的潜心探索。Attention Residuals正是后者的一个有力例证。

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/26372

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

注意力残差：对残差连接的结构性改进

引言：一个基础性的问题

Attention Residuals：一次方向性的“旋转”

工程实现：从理论到大规模训练的务实路径

实验效果与分析

讨论与展望

相关推荐

AutoPPA：让机器自主发现RTL优化知识，性能超越人类工程师19%

Wattchmen：突破GPU能耗建模瓶颈，指令级归因误差降至14%以下

上下文工程：AI长任务性能优化的核心策略

LLM 大模型工程师：AI 时代的弄潮儿

跨越模态边界：构建真正理解图像、表格与文本的多模态RAG系统