AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注

著名 AI 技术作家 Sebastian Raschka 近期发布了一份「LLM 架构画廊」，在 AI 社区内获得了高度关注和广泛赞誉。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 1：LLM 架构图库及其视觉模型卡片概览。

该图库广受欢迎，Raschka 也已开始与合作伙伴生产实体海报，目前销量可观。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 2：带有用于对比大小的随机物体的架构图库海报版本。

时隔仅一周多，Raschka 又发布了一篇重磅博客《现代 LLM 中注意力变体的可视化指南》。他在文章中系统回顾了近年来开发并在知名开放权重架构中使用的所有注意力变体。他表示：“我的目标是使这个集合既能作为参考资料，又能作为轻量级的学习资源。”

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注

现在，让我们进入这篇博客的核心内容：

1. 多头注意力 (MHA)

自注意力机制允许序列中的每个 token 关注其他所有可见的 token，为它们分配权重，并利用这些权重构建一个具有上下文感知的新输入表示。

多头注意力是 Transformer 中的标准实现。它并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 3：以 Olmo 2 为例的 MHA 架构。

以下部分首先简要介绍自注意力机制，为理解后续相关的注意力概念（如分组查询注意力、滑动窗口注意力等）奠定基础。

示例架构：GPT-2、OLMo 2 7B 和 OLMo 3 7B。

1.2 历史背景与注意力机制的起源

注意力机制的出现早于 Transformer 和 MHA。其直接背景是用于机器翻译的编码器-解码器 RNN 架构。

在这些早期系统中，编码器 RNN 逐个 token 读取源句子，并将其压缩为一个隐藏状态序列，或简化为一个最终状态。解码器 RNN 则需从这个有限的摘要中生成目标句子。这种方法对于简短简单的句子有效，但一旦生成下一个输出词所需的信息位于输入句子的其他位置，就会形成明显的瓶颈。

简言之，其局限性在于隐藏状态无法存储无限的信息或上下文，而直接回顾整个输入序列有时会非常有用。

下面的翻译示例展示了这种局限性。即使许多局部的词汇选择看起来合理，但由于句子级别的结构被忽视，翻译仍然可能失败（顶部面板展示了一个逐词翻译的夸张示例，其语法显然是错误的）。实际上，正确的下一个词取决于句子层面的结构以及在该步骤中哪些先前的源词是相关的。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 4：即使许多单独的词汇选择看起来很合理，翻译也可能因忽略句子结构而失败。

下图更直观地展示了注意力机制带来的改变。当解码器生成一个输出 token 时，它不再受限于单一的压缩记忆路径，而是能够直接回溯到更相关的输入 token。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 5：注意力机制通过让当前输出位置回顾整个输入序列，打破了 RNN 的瓶颈。

Transformer 保留了这种改进版注意力 RNN 的核心思想，同时移除了循环结构。在经典的《Attention Is All You Need》论文中，注意力机制本身成为了主要的序列处理机制，取代了以往作为 RNN 编码器和解码器附属部分的角色。

在 Transformer 中，这种机制被称为自注意力，序列中的每个 token 会计算与其他所有 token 的权重，并利用这些权重将信息混合成一个新的表示。多头注意力则是并行运行多个这样的机制。

1.3 掩码注意力矩阵

对于一个包含 T 个 token 的序列，注意力机制需要为每个 token 生成一行权重，从而形成一个 T×T 的注意力矩阵。

每一行回答一个简单的问题：在更新当前 token 时，每个可见的 token 应该有多重要？在仅包含解码器的大型语言模型中，未来的位置会被掩码遮蔽，这就是为什么下图中矩阵的右上部分被置灰。

自注意力的本质是在因果掩码下学习这些 token 到 token 的权重模式，并利用它们构建具有上下文感知的 token 表示。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 6：一个具体的掩码注意力矩阵。每一行对应一个 token，每个条目是一个注意力权重，未来 token 的条目被因果掩码移除。

1.4 自注意力内部机制

下图展示了 Transformer 如何从输入嵌入 X 计算注意力矩阵 A，并利用它生成转换后的输入 Z。

其中，Q、K 和 V 分别代表查询、键和值。一个 token 的查询代表它正在寻找的内容，键代表每个 token 提供用于匹配的内容，而值则是在计算出注意力权重后将要混合到输出中的信息。

步骤如下：
* Wq、Wk 和 Wv 是将输入嵌入投影到 Q、K 和 V 的权重矩阵。
* QK^T 计算生成原始的 token 到 token 相关性得分。
* Softmax 函数将这些得分归一化为我们在上一节讨论的注意力矩阵 A。
* 将 A 应用于 V，生成输出矩阵 Z。

需要注意的是，注意力矩阵并非手动编写，而是由 Q、K 经过 Softmax 过程自然产生的。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 7：完整的单头注意力流水线，从输入嵌入 X 到归一化的注意力矩阵 A 和输出表示 Z。

下图展示了与上图相同的概念，区别在于注意力矩阵的计算被封装在“缩放点积注意力”框中，并且计算仅针对一个输入 token 展开，而非全部。这展示了单头自注意力的紧凑形式，随后将在下一节扩展为多头注意力。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 8：单注意力头机制示意图。一组学习到的投影生成一个注意力矩阵和一个具备上下文感知的输出流。

1.5 从单头到多头注意力

一组 Wq/Wk/Wv 矩阵定义了一个注意力头，产生一个注意力矩阵和一个输出矩阵 Z（上一节已说明此概念）。

多头注意力简单地通过使用不同的学习投影矩阵，并行运行多个这样的头。

这种做法非常有效，因为不同的头可以专门学习不同类型的 token 关系。例如，一个头可能专注于捕捉局部依赖，另一个头关注更广泛的语义联系，第三个头则可能关注位置或句法结构。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注

2. 分组查询注意力 (GQA)

分组查询注意力 (GQA) 是一种源自标准多头注意力 (MHA) 的变体，由 Joshua Ainslie 等人在 2023 年的论文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》中提出。

其核心设计是让多个查询头共享同一组键和值投影，而非为每个查询头配备独立的键和值头。这种做法显著降低了推理过程中键值 (KV) 缓存的内存开销，同时无需对解码器架构进行大幅修改。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 10：GQA 保持了与 MHA 相似的整体注意力模式，但通过跨多个查询头共享键值头来减少其数量。

示例架构
* 稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B、Tiny Aya 3.35B。
* 稀疏模型（混合专家）：Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B、Sarvam 30B。

2.1 GQA 流行的原因

在架构比较中，GQA 常被视为经典多头注意力 (MHA) 的新标准替代方案。标准 MHA 为每个头提供独立的键和值，建模能力更优，但在推理时需将所有状态存入 KV 缓存，成本高昂。

GQA 保留了较多的查询头，但减少了键值头的数量，并让多个查询头共享它们。这降低了参数总量和 KV 缓存的数据流量，且无需像多头潜在注意力 (MLA) 等方案那样进行复杂的实现改造。因此，对于希望在 MHA 的成本与 MLA 等新方案的实现复杂度之间取得平衡的研发团队而言，GQA 成为一个极具吸引力的选择。

2.2 GQA 的内存节省

GQA 通过减少每层需要缓存的键值头数量，显著节约了 KV 存储空间。随着序列长度的增加，这种节省效果愈发明显。

GQA 可以看作一个频谱：如果将键值头一路减少至仅有一组共享的键值，则演变为多查询注意力 (MQA)，其成本更低，但可能对建模质量造成更明显的影响。最佳平衡点通常位于 MQA（1个共享组）与 MHA（键值组数等于查询头数）之间，能在获得显著缓存节省的同时，将相对于 MHA 的性能损失控制在可接受范围内。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 11：KV 缓存开销对比（越低越好）。随着上下文窗口扩大，GQA 的节省优势更加明显。

2.3 GQA 的持续重要性

尽管 MLA 等更先进的变体因其在同等 KV 效率下可能提供更好的建模性能而日益流行，但它们也涉及更复杂的实现和注意力堆栈设计。

GQA 的优势在于其稳健性、易于实现和训练（通常需要调整的超参数更少）。因此，一些新发布的模型仍有意采用这种经典设计。例如，MiniMax M2.5 和 Nanbeige 4.1 就保持了仅使用 GQA 的简洁架构。Sarvam 的模型系列也提供了直观对比：其 30B 模型采用经典 GQA，而 105B 版本则升级到了 MLA。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 12：105B Sarvam（使用 MLA）、30B Sarvam（使用 GQA）与使用标准 MHA 的模型在总 KV 缓存大小上的对比。

3. 多头潜在注意力 (MLA)

多头潜在注意力 (MLA) 的动机与 GQA 相似，都旨在降低 KV 缓存的内存需求。两者的核心区别在于：GQA 通过减少存储的键值头数量来节省空间，而 MLA 则通过压缩缓存的内容来实现——它存储的是经过压缩的潜在表示，而非全分辨率的键和值张量。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 13：与 GQA 不同，MLA 并非通过对头进行分组来降低 KV 成本，而是通过缓存压缩的潜在表示来实现。图中为简化未显示其对查询的同样处理。

MLA 最初在 DeepSeek-V2 论文中提出，并成为 DeepSeek 系列模型的标志性设计。其实现和服务部署比 GQA 更复杂，但当模型规模和上下文长度增长到 KV 缓存流量成为主要瓶颈时，MLA 通常更具吸引力，因为它能在同等内存缩减下保持更优的建模性能。

示例架构：DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3、Sarvam 105B。

3.1 压缩机制

MLA 放弃了缓存全分辨率键值张量的做法，转而存储一种低维的潜在表示，并在需要时动态重建出用于注意力计算的状态。这实质上是一种内置于注意力机制中的缓存压缩策略。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 14：与缓存完整 K/V 张量的 MHA 相比，MLA 缓存潜在表示所带来的空间节省随上下文长度增加而变得非常显著。

3.2 MLA 的消融实验

DeepSeek-V2 论文中的消融实验表明，在建模性能上，GQA 通常逊于 MHA，而经过精心调优的 MLA 则能与 MHA 竞争，甚至略有超越。这为 MLA 的采用提供了比“节省内存”更强有力的理由。

换言之，MLA 成为 DeepSeek 首选注意力机制的原因，不仅在于其高效性，更在于它在大规模模型上是一种能保持模型质量的效率优化方案。（不过，有经验表明 MLA 在特定规模下效果最佳，对于小于约 100B 的模型，GQA 可能表现更好或更易于调优。）

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 15：DeepSeek-V2 论文中的消融实验结果。GQA 的性能降至 MHA 之下，而 MLA 保持竞争力甚至略微超越 MHA。

下图再次对比了 Sarvam 30B（GQA）与 105B（MLA）的不同选择。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 16：GQA 与 MLA 从不同方向解决同一瓶颈，其权衡在于实现的简单性与大型模型上更优的建模性能。

3.3 MLA 的后续影响

自 DeepSeek 在 V2、V3/R1 等版本中引入并标准化 MLA 设计后，该技术开始被其他架构采纳。例如，Kimi K2 沿用并扩展了该方案；GLM-5 结合了 MLA 与 DeepSeek 的稀疏注意力；Ling 2.5 将 MLA 与线性注意力混合架构结合。Sarvam 同时发布采用 GQA 的 30B 模型和采用 MLA 的 105B 模型，这一对比尤其具有参考价值，它表明 MLA 并非纯理论替代方案，而是模型家族扩展时一条切实的架构升级路径。

4. 滑动窗口注意力 (SWA)

4. 滑动窗口注意力

滑动窗口注意力通过限制每个位置可以关注的先前 token 数量，来降低长上下文推理的内存和计算成本。它摒弃了关注整个前缀的做法，每个 token 仅关注其位置周围近期 token 的固定窗口。由于注意力被限制在局部的 token 邻域，这种机制通常被称为局部注意力。

一些架构将这些局部层与偶尔的全局注意力层结合在一起，以便信息仍然可以在整个序列中传播。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 17：常规注意力（全局）与滑动窗口注意力（局部）的概念对比。全局注意力让每个 token 都能看到完整的前缀；滑动窗口注意力将许多层转变为局部注意力层。

示例架构：Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash 和 Tiny Aya。

4.1 以 Gemma 3 作为参考点

Gemma 3 是近期最清晰的滑动窗口注意力示例之一，因为它易于与 Gemma 2 进行比较。Gemma 2 已采用混合注意力设置，局部层与全局层的比例为 1:1，窗口大小为 4096 个 token。Gemma 3 将这一比例进一步推至 5:1，并将窗口大小减小到 1024。

关键发现并不在于局部注意力更便宜（这已是众所周知的），而是从 Gemma 3 的消融研究中得出的更有趣结论：更激进地使用这种方法对建模性能的影响微乎其微。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
Gemma 消融研究表明，较小的窗口和更激进的局部与全局比例对困惑度的影响很小。

4.2 比例与窗口大小

在实践中，称一个模型“使用滑动窗口注意力”并不意味着它仅依赖于此。通常，局部到全局的层比例和注意力窗口大小是关键参数。例如：
* Gemma 3 和 Xiaomi 使用 5:1 的局部到全局比例。
* OLMo 3 和 Arcee Trinity 使用 3:1 的比例。
* Xiaomi 使用 128 的窗口大小，比 Gemma 的 1024 小得多，因此策略更为激进。
* 滑动窗口注意力本质上是一个可以按需调整激进程度的“旋钮”。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 18：长上下文节省来自于将许多全注意力层转变为局部注意力层，这减少了这些层需要考虑的缓存上下文数量。

4.3 将滑动窗口注意力与分组查询注意力结合

滑动窗口注意力常与分组查询注意力一同出现，因为两者解决了同一推理问题的不同部分：滑动窗口注意力减少了局部层必须考虑的上下文数量，而分组查询注意力减少了每个 token 贡献给缓存的键值状态数量。

因此，许多最近的稠密模型会同时使用两者，而非将其视为替代方案。Gemma 3 再次是一个很好的参考点，它在同一架构中结合了滑动窗口注意力和分组查询注意力。

5. DeepSeek 稀疏注意力

DeepSeek 稀疏注意力是出现在 DeepSeek V3.2 系列中，并随后在 GLM-5 中再次出现的架构变化。具体来说，DeepSeek V3.2 将其与多头潜在注意力结合使用，GLM-5 采用相同组合也是出于在长上下文下降低推理成本的相同原因。

示例架构：DeepSeek V3.2 和 GLM-5。

5.1 相对于滑动窗口注意力的变化

与滑动窗口注意力类似，DeepSeek 稀疏注意力也限制每个 token 只关注先前 token 的一个子集。然而，所选取的 token 并非由固定宽度的局部窗口决定，而是使用了一种学习到的稀疏模式。简而言之，它采用索引器加选择器的设置：闪电索引器计算相关性得分，而 token 选择器仅保留一小部分得分较高的过去位置。

这是与滑动窗口注意力的主要区别：滑动窗口注意力将局部性硬编码，而 DeepSeek 稀疏注意力让模型动态决定哪些先前的 token 值得回顾。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 19：与滑动窗口注意力类似，DeepSeek 稀疏注意力也将每个 token 限制在先前 token 的一个子集内，但它通过学习的模式而非固定窗口来实现。

5.2 DeepSeek 稀疏注意力与多头潜在注意力

DeepSeek V3.2 同时使用了多头潜在注意力和 DeepSeek 稀疏注意力。前者通过压缩存储的内容来降低 KV 缓存成本，后者则减少了模型必须回顾的先前上下文数量。两者结合，一个优化了缓存表示，另一个优化了注意力模式。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 20：DeepSeek V3.2 是与稀疏注意力理念联系最紧密的模型家族。

其稀疏模式并非随机生成。第一阶段，闪电索引器利用多头潜在注意力压缩后的 token 表示，为每个新查询 token 对之前的 token 计算学习到的相似度得分并进行排名。第二阶段，token 选择器仅保留得分最高的 top-k 子集，并将其转换为稀疏注意力掩码。因此，其核心在于避开了硬编码的稀疏模式，转而学习应保留哪些过去的 token。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 21：该机制由一个为先前 token 评分的闪电索引器和一个仅保留较小子集用于注意力的选择器组成。

DeepSeek 稀疏注意力相对较新且实现复杂，这是它尚未像分组查询注意力那样被广泛采用的原因之一。

6. 门控注意力

将门控注意力理解为一个经过修改的全注意力块最为妥当，它并非一个独立的注意力家族。它通常出现在混合堆栈中，这些堆栈保留少量全注意力层用于精确的内容检索，但在标准的缩放点积注意力块之上添加了以稳定性为导向的修改。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图 22：Trinity Large 是一个有用的对比对象，展示了门控注意力（并不仅仅是 Qwen 的想法）如何在一个不同的长上下文架构中，于缩放点积注意力输出之后、输出投影之前应用门控。

6.1 门控注意力的应用位置

Qwen3-Next 和 Qwen3.5 等架构表明，最近的混合架构（下一节介绍）并未完全取代注意力。作为一种妥协，它们用更便宜的替代方案取代了大多数注意力层，并在堆栈中保留了较少数量的全注意力层。这些保留下来的全注意力层通常就是门控注意力出现的地方（例如，Qwen3-Next 和 Qwen3.5 将其与 Gated DeltaNet 以 3:1 的模式使用）。此外，如 Trinity 这样的非混合架构，也在更传统的注意力堆栈中使用了相关的门控理念。

6.2 门控注意力与标准注意力的比较

无论是 Qwen 风格的混合架构还是 Trinity 中的门控注意力块，本质上都是在标准缩放点积注意力之上增加了一些修改。在最初的门控注意力论文中，这些修改旨在使保留在混合堆栈中的全注意力层的行为更具可预测性。

该块看起来仍像标准的（全）注意力，但增加了：
1. 一个输出门，用于在将注意力结果加回残差之前对其进行缩放。
2. 一种中心为零的 QK-Norm 变体，取代了用于查询和键向量的标准 RMSNorm。
3. 局部 RoPE。

这些修改并未达到MLA或线性注意力的规模，它们本质上是应用于一个标准注意力块的、旨在提升稳定性和控制能力的调整。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图23：在Qwen3-Next和Qwen3.5中，门控注意力作为全注意力层出现，定期穿插在连续运行的Gated DeltaNet块之间。

请注意，上图也包含了Gated DeltaNet，我们将在后续小节进行介绍。

7. 混合注意力

混合注意力是一种超越单一机制的设计范式。其核心思想是保留类似Transformer的堆栈结构，但用计算成本更低的线性或状态空间序列模块，替换掉大部分昂贵的全注意力层。

其驱动力在于长上下文效率。全注意力的计算和内存成本随序列长度呈二次方增长，当模型上下文窗口扩展至128K、256K甚至1M token时，这一成本变得极为高昂。因此，在大多数层中使用更经济的序列模块，同时仅保留少量计算密集的检索层，成为一种更合理的选择（尽管这会在建模性能上带来一定权衡）。

在Qwen3-Next中，这种模式体现为Gated DeltaNet块与门控注意力块以3:1的比例混合。Gated DeltaNet与Mamba-2密切相关（可参考论文《Gated Delta Networks: Improving Mamba2 with Delta Rule》），该机制可理解为DeltaNet风格的快速权重更新与Mamba风格门控的结合。后续架构保留了相同的混合思路，但采用了其他轻量级序列混合器，如Kimi Delta Attention、Lightning Attention或标准的Mamba-2。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图24：基本的混合模式：多数块为廉价的序列混合器，每四个块中恢复一个计算密集的注意力层。

7.1 Qwen3-Next中的Gated DeltaNet

据我所知，首个采用混合注意力范式并接近旗舰级规模的LLM是2025年的Qwen3-Next。它并未完全摒弃注意力机制，而是将三个Gated DeltaNet块与一个门控注意力块混合使用。

其中，轻量级的Gated DeltaNet块承担了大部分长上下文处理工作，其内存增长曲线远比全注意力平缓。保留较重的门控注意力层，是因为DeltaNet在基于内容的精确检索方面能力不足。

在Gated DeltaNet块内部，模型会计算查询、键和值向量，并配合两个可学习的门控参数（α, β）。它利用delta规则更新一个小的快速权重内存，从而避免了构建传统的token-to-token注意力矩阵。简而言之，该内存存储了过去信息的压缩运行摘要，而门控参数则控制着新信息的添加量与旧状态的保留量。

这使得Gated DeltaNet成为一种线性注意力或循环风格的机制，而不仅仅是对多头注意力的微调。它与Mamba-2的密切联系在于同属线性时间门控序列模型家族，但Gated DeltaNet采用DeltaNet风格的快速权重内存更新，取代了Mamba的状态空间更新。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图25：混合架构的实际动机体现在内存曲线上。使用Gated DeltaNet的混合堆栈，其内存消耗随上下文长度增长的速度远低于普通的全注意力堆栈。

Qwen3.5将此前Qwen3-Next的混合架构引入了Qwen的主旗舰系列，这是一个值得关注的举措。这基本标志着混合策略的成功，未来我们可能会看到更多采用此类架构的模型。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图26：Qwen3.5展示了Qwen团队将先前Qwen3-Next的旁支架构提升至主要产品线，使其摆脱了作为一次性效率变体的地位。

7.2 Kimi Linear与改进的Delta Attention

Kimi Linear保留了相同的广义Transformer骨架和3:1混合模式，但改进了架构的两个组成部分。

在轻量级部分，Kimi Delta Attention是Gated DeltaNet的改进版本。Qwen3-Next为每个注意力头使用标量门控制内存衰减，而Kimi则采用了通道级门控，从而实现对内存更新更精细的控制。在重量级部分，Kimi使用门控MLA层替代了Qwen3-Next的门控注意力层。

因此，这仍然是与Qwen3-Next和Qwen3.5相同的广泛模式，但两个组件都进行了（轻微）变更。即，大多数层仍由更经济的线性风格机制处理，并周期性保留重型层以实现更强的检索能力。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图27：Kimi Linear保持了相同的整体混合模式，同时替换了堆栈中的轻量级部分和重型注意力部分。

7.3 Ling 2.5与Lightning Attention

Ling 2.5展示了轻量级部分的另一种替代方案。它放弃了Gated DeltaNet，转而使用一种称为Lightning Attention的、稍简化的循环线性注意力变体。在重型部分，它保留了来自DeepSeek的MLA。

其序列混合仍主要发生在更廉价的线性注意力块中，同时保留少量重型层以维持强检索能力。不同之处在于，其特定的轻量级机制现在是Lightning Attention，而非DeltaNet或Kimi Delta Attention。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图28：Ling 2.5和Qwen3.5均属线性注意力混合架构，但Ling采用了Lightning Attention和MLA，避开了Qwen的方案。

Ling 2.5更侧重于长上下文效率，其目标并非绝对的基准测试领先地位。据Ling团队报告，其在处理32K token时比Kimi K2快得多，这正是此类混合架构所追求的实际收益。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图29：Ling 2.5作为强大的效率升级版推出，在相同的1万亿参数规模下，其32K token的吞吐量远高于Kimi K2。

7.4 Nemotron与Mamba-2

Nemotron将这一模式进一步推离了Transformer基线。Nemotron 3 Nano是一个Mamba-Transformer混合架构，它将Mamba-2序列建模块与稀疏MoE层交错排列，并且仅在一小部分层中使用自注意力。

这是上述基本权衡的一个更极端版本。其中，轻量级序列模块是Mamba-2状态空间块，它取代了DeltaNet风格的快速权重更新，但基本的效率-性能权衡是相似的。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图30：Nemotron 3 Nano使用Mamba-2完成大部分序列建模工作，自注意力仅出现在一小部分层中。

更大的Nemotron 3 Super保留了Mamba-2混合注意力方法，并加入了其他以效率为导向的改进，例如潜在MoE和用于推测解码的共享权重多token预测。

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注
图31：Nemotron 3 Super保留了Mamba-2混合注意力模式，同时在此基础上增加了潜在MoE和共享权重多token预测。

结论

当然，在大量文献中还存在更多（主要是小众的）注意力变体本文未作介绍。本文重点聚焦于当前在最先进（开放权重）模型中实际使用的那些变体。

我特别期待：(1) 看到全新的Mamba-3层被集成到上述混合架构中（替代Gated DeltaNet）；(2) 注意力残差连接得到更广泛的应用。

在实践中，我们常被问及当前“最佳”的架构是什么。这个问题很难给出确切答案，因为目前缺乏在相同训练数据、同等条件下对不同架构进行系统对比的公开实验。

因此，更现实的讨论是：针对特定任务，应如何选择最优的（已训练）模型。在我看来，混合架构（如结合注意力与MLP的变体）目前仍属新兴事物，其主要优势在于（长上下文处理）效率的提升，而非单纯追求极致的建模性能。因此，我认为这类架构非常适合应用于智能体上下文管理等对效率要求较高的场景（例如 OpenClaw）。

另一方面，混合架构目前面临的挑战在于其推理技术栈尚未得到充分优化。就个人体验而言，使用更经典的架构配置（例如采用分组查询注意力的 GPT 类开源模型）在本地运行时，往往能获得更高的 token/秒吞吐量。

无论如何，我十分期待 DeepSeek V4 的发布。过去两年间，DeepSeek 系列模型一直是领域内可靠的技术趋势引领者，其新版本值得关注。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/27107

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注

1. 多头注意力 (MHA)

1.2 历史背景与注意力机制的起源

1.3 掩码注意力矩阵

1.4 自注意力内部机制

1.5 从单头到多头注意力

2. 分组查询注意力 (GQA)

2.1 GQA 流行的原因

2.2 GQA 的内存节省

2.3 GQA 的持续重要性

3. 多头潜在注意力 (MLA)

3.1 压缩机制

3.2 MLA 的消融实验

3.3 MLA 的后续影响

4. 滑动窗口注意力 (SWA)

4. 滑动窗口注意力

4.1 以 Gemma 3 作为参考点

4.2 比例与窗口大小

4.3 将滑动窗口注意力与分组查询注意力结合

5. DeepSeek 稀疏注意力

5.1 相对于滑动窗口注意力的变化

5.2 DeepSeek 稀疏注意力与多头潜在注意力

6. 门控注意力

6.1 门控注意力的应用位置

6.2 门控注意力与标准注意力的比较

7. 混合注意力

7.1 Qwen3-Next中的Gated DeltaNet

7.2 Kimi Linear与改进的Delta Attention

7.3 Ling 2.5与Lightning Attention

7.4 Nemotron与Mamba-2

结论

相关推荐

从抓取到通用智能：Google DeepMind前研究员揭秘人形机器人三大时代

OpenAI推出Codex for Open Source：龙虾之父亲自出马，为开源开发者免费送ChatGPT Pro

软硬一体：讯飞星火X1.5引领国产大模型进入物理世界的新纪元

深夜对决！谷歌Gemini 3.1 Flash-Lite与OpenAI GPT‑5.3 Instant同日发布，性价比与性能全面升级

600亿美元！马斯克旗下SpaceX收购编程神器Cursor