Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

注意力残差:对残差连接的结构性改进

引言:一个基础性的问题

现代大型语言模型普遍采用深度神经网络架构,信息从输入层开始,逐层向上传递并接受加工,最终产生输出。然而,随着网络层数的增加,训练过程面临一个根本性挑战:梯度信号在反向传播过程中,经过数十甚至上百层的传递后,可能严重衰减或消失,导致底层参数难以得到有效更新。

2015年,何恺明团队在《Deep Residual Learning for Image Recognition》一文中提出的残差连接(Residual Connections)是解决这一问题的关键设计。其核心思想是为每一层网络增加一条“直连通道”,将输入信息原封不动地传递并与该层的变换输出相加。这使得梯度在反向传播时能够绕过复杂的非线性变换,直接流向底层,从而让训练极深的网络成为可能。残差连接自此成为深度学习,尤其是Transformer架构模型不可或缺的基石。

然而,标准的残差连接采用一种固定的、无差别的信息聚合方式:将当前层的输入与变换输出简单相加。这导致了一个被称为 “PreNorm稀释” 的问题:随着网络深度增加,每一层自身的贡献在累积的、不断增大的信息总量中占比越来越小。为了使其输出在后续计算中仍能被“听见”,深层网络往往需要输出数值更大的激活值。已有研究表明,大模型中相当一部分层即使被移除,对模型整体性能也影响甚微,这暗示着许多中间层的实际贡献有限。

Attention Residuals:一次方向性的“旋转”

月之暗面(Kimi)团队在技术报告《Attention Residuals》中,针对上述问题提出了一种新颖的改进方案。其核心洞察源于一个优雅的类比:残差连接在深度方向上遇到的信息聚合问题,与循环神经网络(RNN)在序列方向上遇到的长期依赖问题,在数学结构上高度相似。

Transformer中的注意力机制成功解决了RNN的长期记忆问题:模型在处理序列中任一位置时,都能通过注意力权重动态地回顾并聚合历史信息。Attention Residuals(AttnRes)的核心理念,正是将这一机制从序列维度“旋转”应用到深度维度。

具体而言,在传统的Transformer中,注意力机制作用于同一网络层内不同词元(Token)之间(序列维度)。而AttnRes则为每一网络层引入一个可学习的“查询向量”。该层在计算时,会以其查询向量为指引,对前面所有网络层(针对同一词元)的输出状态计算注意力权重,从而动态地、有选择性地聚合历史层信息,而非进行简单的等权相加。

Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

这一设计带来了根本性的改变:
1. 主动性:每一层可以主动决定从历史层中汲取多少信息,以及更依赖哪些层。
2. 动态性:聚合权重并非固定参数,而是根据网络当前处理的内容动态生成。
3. 轻量性:每层仅增加一个查询向量和一个归一化操作,参数量增加几乎可忽略不计。

工程实现:从理论到大规模训练的务实路径

尽管全量AttnRes(每一层都能关注所有历史层)在小规模实验中效果显著,但在大规模模型训练中,其需要存储和传输所有中间层输出的特性,会带来难以承受的内存与通信开销。

为此,Kimi团队提出了实用的 “分块注意力残差” 方案。

Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

  • 分块设计:将整个网络划分为若干个连续的块(Block)。块内部仍使用传统的残差连接,保持局部信息流的稳定性与高效性;块与块之间则应用AttnRes机制,允许信息在关键的网络段落之间进行动态的、有选择的跳跃式传递。
  • 效果与开销平衡:实验表明,将网络划分为约8个块,即可保留全量AttnRes绝大部分的性能增益,同时将需要全局通信的数据量从“层数”级别降至“块数”级别,大幅降低了开销。
  • 工程优化
    • 训练端:设计了跨阶段缓存机制,在流水线并行训练中优化数据传输,使整体训练额外开销控制在4%以内。
    • 推理端:采用两阶段计算策略,将块内计算打包处理,摊销内存访问成本,最终推理延迟增加不超过2%。

实验效果与分析

研究团队在多个模型规模上验证了Block AttnRes的有效性。

1. 性能提升
在总参数量为480亿(激活参数量30亿)的Kimi Linear架构模型上进行实验,Block AttnRes在相同的计算预算下,达到了基线模型(使用标准PreNorm残差)需要消耗1.25倍算力才能达到的验证损失水平。在15项主流评测基准上,其表现均持平或优于基线模型,尤其在需要深度推理的任务上提升显著(如GPQA-Diamond提升7.5%)。

Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

2. 缓解梯度稀释
训练过程可视化显示,基线模型的各层输出数值随网络深度单调递增,印证了PreNorm稀释问题的存在。而采用AttnRes的模型,其输出数值在块边界处得到“重置”,呈现周期性变化,各层的梯度分布也更加均匀,表明更多的网络层真正参与了有效学习。

Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

3. 学到的注意力模式
对训练后模型注意力权重的可视化分析揭示了一些有趣模式:
* 局部性主导:每一层最依赖的仍是其直接前一层。
* 存在跳跃连接:某些层会稳定地关注到网络早期甚至最初的嵌入层。
* 层类型差异:注意力层倾向于关注更广泛的历史层,而MLP层则更依赖近邻层,这与它们的功能分工相符。

4. 对模型架构设计的启示
研究还发现,在固定总计算量和参数量的约束下,标准残差连接偏好“更宽、更浅”的模型,而AttnRes的最优点则偏向“更窄、更深”的模型。这表明AttnRes能够更高效地利用网络深度,让增加层数带来实质性的性能回报,而非边际效益递减,为未来的大模型架构设计提供了新的参考维度。

Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

讨论与展望

Attention Residuals的提出,其意义不仅在于一项具体的性能改进。它代表了一种研发范式的回归:不再满足于在现有Transformer“大厦”上进行内部装修(如改进注意力变体、路由策略等),而是敢于重新审视并改造那些被视为“已解决”或“不可触碰”的基础组件。

残差连接自2015年确立以来,已成为深度学习最稳固的基石之一。Kimi此项工作表明,即使是这样的基础结构,仍有从第一性原理出发进行重构和优化的空间。这自然引向更广泛的思考:优化器、归一化方法、位置编码等其他基础组件,是否也存在类似的改进可能?

当然,该技术仍有待进一步验证,例如在千亿乃至万亿参数规模的模型上,其增益能否持续保持;在经过指令微调、人类反馈强化学习等后训练流程后,其优势是否会被稀释等。然而,一个仅需约百行代码改动、增加有限开销的轻量级修改,能在中等规模模型上带来显著提升,已足以令人对其潜力抱有期待。

当此类旨在提升Token计算效率的基础创新,与超长上下文窗口智能体协作等前沿方向结合时,可能催生出新的范式转变。在人工智能快速发展的进程中,既有向上添砖加瓦的激烈竞争,也需要向下深挖地基的潜心探索。Attention Residuals正是后者的一个有力例证。

Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26372

(0)
上一篇 2小时前
下一篇 2026年3月10日 上午11:54

相关推荐

  • Python开发者必备:12个能解决大问题的小型库

    小工具,大作用。 Python 工具带:12 个能解决大问题的小型库 发现一打容易被忽视的 Python 库,它们安静地让开发更顺滑、更高效、更聪明——一次优雅的 import 就够。 如果你是有经验的 Python 开发者,你的工具箱里可能已经装满了 requests、pandas、flask 和 numpy 这样的“大腕”。但在这些明星库之下,还隐藏着一…

    2025年12月4日
    18800
  • Ollama Launch 实测:一键启动 Claude Code、Codex 与 OpenCode,告别繁琐配置

    忘掉配置的烦恼吧,Ollama Launch 是启动 Claude Code、Codex、OpenCode、Moltbot 或任意其他 CLI 工具的全新简易方式。 Ollama v0.15 引入了名为 ollama launch 的新命令,可使用本地或云端模型,自动完成 Claude Code、OpenCode、Codex 等常用编码工具的配置与启动。 如…

    2026年2月25日
    43600
  • 如何使用 Knowledge Graph 和 LLM 构建构建问答系统

    基于模拟 FAQ 文档构建的知识图谱 本文将介绍一个基于知识图谱(使用上一篇文章介绍的方法构建)和大型语言模型(LLM,此处使用 Gemma3-4b-it-qat)的简易问答系统。选择 Gemma3-4b 是因为其模型尺寸适中,可在普通笔记本电脑上运行,且具备出色的指令遵循能力。 我们将以一个虚构智能手机产品的 FAQ 文本为例,复用上一篇文章的代码为其构建…

    2025年11月13日
    16800
  • 智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

    GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。 论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。 正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(…

    2026年2月25日
    10300
  • 清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架

    给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…

    2026年3月11日
    8500