深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题（上）

过去十年，深度学习领域取得进展的方式出奇地一致：构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效：损失在降低，能力在增长，扩展定律（Scaling Law）精确地指引着研究团队需要投入多少资源。

然而，扩展的方向不同，其挑战和影响也截然不同。序列长度的扩展需要真正的创新，并催生了一系列新的注意力机制和系统工程。数据量的扩展则相对直接：数据越多，损失越低。让模型变得更宽或更深，表面上看起来和数据扩展一样简单。

但宽度和深度真的在同等程度上发挥作用吗？

事实并非如此。网络的深度在数量上增长了，但在质量上却没有同步提升。层与层之间的通信机制几乎没有发生根本性的变化。本文将探讨为何这一点至关重要，这不仅关乎网络深度本身，更触及了神经网络架构设计中一个长期存在的集体盲区。

上半场：成功的扩展与停滞的通信

要理解现状，首先需要审视哪些方面被成功地扩展了，以及是如何做到的。

序列长度的扩展是一个典范。早期的Transformer模型只能处理几百个标记（Token）。要实现处理128K以上标记的能力，需要在多个方向上持续创新：新的注意力模式（如稀疏、线性、混合注意力）、系统工程（如FlashAttention）、以及位置编码的改进（如RoPE缩放）。研究者和工程师共同构建了一个完整的生态系统，持续优化了标记之间的信息流动方式。其回报是丰厚的，研究团队不仅能够处理极长的文档，也为OpenAI的o1和深度求索的DeepSeek-R1等模型的长链推理能力奠定了坚实基础。这正是当团队认真投资于“信息在序列维度上的流动方式”时所取得的显著成果。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 现代大语言模型中参数与数据规模的迅速增长

参数和数据的扩展是最符合直觉的部分。从深度学习的早期开始，教科书就传授着同一套“配方”：更多的数据、更宽的层、更深的网络，自然会带来更好的表征能力。从GPT-2的15亿参数到如今的数万亿参数，这套配方一直有效。这似乎表明，大型模型团队无需引入新机制，只需持续沿着这些已验证的方向拓展即可。

然而，对网络而言，更宽和更深往往并非一回事。宽度的扩展是自然而然的：现代GPU天生擅长处理更宽的矩阵乘法，注意力机制也在不断演进以提升效率，这使得更宽的网络能够无缝集成到现有架构中。

深度则是另一个故事。模型确实变得更“深”了：从几十层增加到上百层。但层间通信的核心机制，本质上仍然是ResNet在2015年引入的深度残差连接，即“x + F(x)”。自诞生以来，围绕它有过诸多改进（如归一化位置、残差缩放、跨层连接），但没有任何改进真正撼动过那个深度残差中“+”号的决定性地位。

残差连接可以说是深度学习中最重要的基石之一。没有它，就没有百层Transformer，没有现代大语言模型，也没有扩展定律。但基础性方案有时会变得过于“隐形”，以至于人们不再去质疑它究竟是最优解，还是仅仅是探索出的第一个可行的方案。

一个类比：传话游戏
想象一个有特殊规则的传话游戏。在标准版本中，第1个人对第2个人耳语，第2个人再对第3个人耳语。传到第18个人时，信息可能已面目全非。这类似于没有残差连接的深层网络：每一层只能看到上一层的输出。

残差连接修复了这个问题：每个人在传达自己理解的同时，也将之前积累的原始信息原封不动地向下传递。第3个人既能听到第2个人的新解读，也能听到之前所有人的内容。原始信号始终被保留，成为不断壮大的“合唱”中的一个声部。

但到了第152个人，你同时听到的是152个声音的混合：原始信息加上之前151层叠加的内容。理论上，前面各层的声音依然存在，但它们已被严重稀释。如果第152个人需要知道第3个人具体说了什么，他必须费力地从这片宏大的“合唱”中将其分辨出来。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 在消息累加的传话游戏中，靠后的人难以分辨出所需的特定内容

通常，第152个人是做不到这一点的。

这就是信息稀释问题。每一层都面临两难：如果贡献新信息，可能会掩盖之前的内容；如果保守不动，则能保留已有信息，但失去了本层的价值。在这种情况下，许多层学会了“保持沉默”——它们几乎不向残差流中写入任何新内容。这样的深度网络在纸面上很深，但实际上却很“浅”。团队堆叠了152层，但其中许多层却未能有效参与计算。

这里的瓶颈不在于152层网络所需的算力，而在于信息穿过这些层的通信能力。这让人联想到几十年前CPU发展遇到的瓶颈：处理器速度越来越快，直到内存带宽成为制约，迫使整个行业转向缓存和通信优化。组织管理亦然：一群聪明人的创造力，也受限于他们之间的沟通与协作方式。深度学习正在经历自己的版本：十年来不断增强每一层的计算能力，而层与层之间的通信通道，本质上仍是2015年那条“单车道公路”。

那么，是否存在更好的机制？

现有“配方”及其局限

在本文介绍的研究之前，已有许多研究者注意到深度瓶颈问题。多年来，修补方案变得越来越精巧：

DenseNet（获评CVPR最佳论文）保留了每一层的输出，但带来了平方级的内存和计算开销。
DenseFormer、LIMe等方法使用可学习的加权方案来组合各层输出，降低了成本，但训练完成后权重就固定了，无法根据不同的输入（Token或上下文）动态调整。
字节跳动的Hyper-Connections和深度求索的mHC另辟蹊径，将通信通道拓宽到多个，层间使用混合矩阵连接，相当于在信息高速公路上增加车道。但信息仍然是逐层流动的，第152层无法直接回溯访问第3层的信息。
彩云公司的MUDDFormer实现了动态混合，根据每个Token的表征生成混合权重。这在方向上是对的：从每一层汲取多少信息本应取决于正在处理的内容。但同样存在局限：第152层在决定从第3层汲取多少信息时，只依赖于第152层自身的状态，它并不知道第3层实际包含了什么。它是在预测哪些层可能有用，而不是在查看。

以上每一步都修复了一个真实存在的缺陷，但鲜有方法从根本上质疑深度残差连接的框架本身。

不难发现，这些方法都有一个共同点。从DenseNet到Hyper-Connections，每个方法都在回答同一个隐含的问题：“如何才能更好地混合各层的输出？”——通过更好的系数、更多的通道、自适应的权重。但自始至终，核心操作都是“混合”，都是“累加”。

早期研究如ELMo已经表明，神经网络的不同层编码着截然不同的信息（例如，浅层编码句法，深层编码语义）。主流方法得出的结论是“学习更好的混合权重来平衡句法和语义”。然而，还有一条被忽视的道路：如果不同层持有不同信息，那么每一层或许应该能够根据内容（而非固定的层位置），从持有所需信息的特定层直接检索信息。

这就是一种范畴谬误：将层间通信视为累加（用学习或生成的系数组合信号），而非检索（通过基于内容的匹配来选择信息）。在累加框架下，即使是动态方法也只从当前层的状态生成混合权重，而不去查看信息源层实际包含的内容。在检索框架下，查询（Query）编码“我需要什么”，键（Key）编码“我有什么”，它们之间的运算决定了相关性。查询方和键方都应有发言权。

回到传话游戏的类比。之前所有的方法都在试图产生一个更清晰的“合唱”：改善发音、增加中继通道、自适应调节音量。但没有人质疑这个根本约束：所有声音必须累加成一个声音吗？也没有人问过：我们是否可以直接走回去，与之前的任何一个人进行当面对话呢？

研究团队认为，这种范畴谬误在架构设计中普遍存在。当某个方案足够好用时，人们往往不会去质疑其底层概念框架，而只会在框架内进行改进。经历了多年越来越精巧的修补之后，研究者们逐渐意识到：深度维度上的残差连接，需要的可能不是更好的混合系数，而是被一种根本不同的操作所替代。

一种在序列维度上已经成功解决了类似信息聚合问题的操作。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 因果注意力机制在序列维度（横向）上聚合信息

下半场：待续

（本文上半部分结束，下半部分将探讨研究团队提出的新思路及其潜在影响。）

一旦将层间通信理解为检索而非累加，一个自然的解决方案便是在深度维度上引入注意力机制。包括本研究团队在内的多个团队独立地收敛到了这一想法：谷歌的 DCA、华为的 MRLA、Hessian.AI 的 Dreamer、Kimi 的 AttnRes，以及本研究团队提出的 Flash Depth Attention & MoDA，都尝试在层间应用点积注意力。这种独立趋同本身就是一个强烈的信号：方向是正确的。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 深度注意力机制在深度维度（纵向）上聚合信息

然而，找对方向与做出可用成品是两回事。研究者自述：“第一次用 PyTorch 实现并运行深度注意力时，前向与反向传播总计耗时达到了 44,924 毫秒。44 秒！朋友们！这时间都够我喝完一瓶 500 毫升的冰红茶了！”
这意味着，在深度维度应用注意力的想法本身没有问题，但工程现实却极为残酷。现代 GPU 为大规模矩阵乘法做了大量优化，却不擅长处理数千个跨深度的、极小规模的注意力操作。深度注意力作为一个计算量不大的算法，实际运行却可能异常缓慢。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ PyTorch 原生实现的深度注意力（DepthRef）很慢；Flash Depth Attention（FDA）则很快。

至此，先前的方法陷入了两难：要么简化深度注意力以换取速度，但这会丢失其核心的完整选择性检索能力；要么保持完整的表达能力，却要承受无法接受的运算代价。研究团队找到了一条出路：不是简化算法，而是重新组织参与计算的数据布局，从而适配 GPU 硬件。Flash Depth Attention 使得具备完整表达能力的深度检索快到足以参与实际训练。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 混合深度注意力机制同时在序列维度（横向）和深度维度（纵向）上聚合信息

常规大模型的主干流水线为：残差连接 → 序列注意力 → 残差连接 → FFN（前馈网络）。

在引入高效的深度检索后，研究团队观察到网络主干流水线变为：深度注意力 → 序列注意力 → 深度注意力 → FFN。这三个连续的注意力操作作用于不同的 Key（K）和 Value（V），却共享着近乎相同的 Query（Q）。一个自然的做法便是将它们融合。

研究团队提出的混合深度注意力（Mixture-of-Depths Attention, MoDA）将深度检索与序列检索合并到一个统一的 softmax 操作中。每个注意力头同时关注当前层的序列 KV 对以及所有前序层的深度 KV 对。在同一个 softmax 下，模型可以自由决定何时关注序列中的其他 token，何时跨层检索自身的历史信息。通过一次操作，MoDA 便完成了两个维度的检索。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 左侧区域是序列 KV，右侧区域是深度 KV。颜色越黄，注意力越强。

回到传话游戏的类比。在残差连接的版本中，第 152 个人需要费力地从累加的合唱中辨认第 3 个人的声音。而有了深度检索，第 152 个人可以直接拍拍第 3 个人的肩膀询问：“你刚才说了什么？”没有中间人，没有累积的噪音。

可视化实验结果印证了这一预测：当模型获得通过深度 KV 从特定层进行选择性检索的能力后，它会持续且主动地使用这种能力。此前困扰研究者的“注意力沉没”（Attention Sink）现象——即模型将概率质量堆积在少数固定 token 上的行为——也随之减弱。这便是研究团队尝试发展层之间（而非仅层之内）信息流动所取得的有趣成果。

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 引入深度注意力后，传话游戏允许每个人用手机查看群聊记录。

大模型架构的上半场是关于扩展组件的。 研究者们扩展出更长的序列、更多的数据、更大的模型。这个阶段的核心问题是“如何把一切都做大？”。在上半场，这是正确且关键的问题，它将整个领域从 GPT-2 时代带到了 GPT-4 时代。下半场则是关于扩展通信的。 新的问题是：“组件之间的通信质量如何？”

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

△ 引入混合深度注意力后，在主流的开源基线（OLMo2）上全面提升了模型能力。

深度是最明显的例子，因为现有方案（累加）与潜在方案（选择性检索）之间的差距是巨大的。研究团队相信这一原则可以推广。凡是神经网络使用静态的、与数据无关的通道来传递信息的地方——包括层与层之间、模态与模态之间、时间步与时间步之间等——很可能都存在一个检索机制，等待着替代原有的累加操作。

全世界的研究者花了十年掌握 token 之间如何对话，现在是时候掌握层与层之间如何对话了。而最终，研究者将掌握神经网络中每个组件如何与其他任意组件对话。

深度残差中的“+”号引领我们走过了一段极为精彩的旅程，但现在，是时候升级这座阶梯了。

欢迎来到大模型架构的下半场。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/31045

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题（上）

上半场：成功的扩展与停滞的通信

△ 现代大语言模型中参数与数据规模的迅速增长

△ 在消息累加的传话游戏中，靠后的人难以分辨出所需的特定内容

现有“配方”及其局限

△ 因果注意力机制在序列维度（横向）上聚合信息

下半场：待续

△ 深度注意力机制在深度维度（纵向）上聚合信息

△ PyTorch 原生实现的深度注意力（DepthRef）很慢；Flash Depth Attention（FDA）则很快。

△ 混合深度注意力机制同时在序列维度（横向）和深度维度（纵向）上聚合信息

△ 左侧区域是序列 KV，右侧区域是深度 KV。颜色越黄，注意力越强。

△ 引入深度注意力后，传话游戏允许每个人用手机查看群聊记录。

△ 引入混合深度注意力后，在主流的开源基线（OLMo2）上全面提升了模型能力。

相关推荐

KlingAvatar2.0：时空级联框架与共推理导演系统，让数字人拥有生动灵魂与5分钟长视频生成能力

A2UI协议：开启AI原生交互新时代，让智能体“说”出动态界面

HermesAgent凭什么更胜一筹？四大进化算法协同，破解AI智能体Token黑洞难题

龙虾AI大更新：实现自我升级，插件、安全、交互全面进化

跨越模态边界：构建真正理解图像、表格与文本的多模态RAG系统