深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题(上)
过去十年,深度学习领域取得进展的方式出奇地一致:构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效:损失在降低,能力在增长,扩展定律(Scaling Law)精确地指引着研究团队需要投入多少资源。
然而,扩展的方向不同,其挑战和影响也截然不同。序列长度的扩展需要真正的创新,并催生了一系列新的注意力机制和系统工程。数据量的扩展则相对直接:数据越多,损失越低。让模型变得更宽或更深,表面上看起来和数据扩展一样简单。
但宽度和深度真的在同等程度上发挥作用吗?
事实并非如此。网络的深度在数量上增长了,但在质量上却没有同步提升。层与层之间的通信机制几乎没有发生根本性的变化。本文将探讨为何这一点至关重要,这不仅关乎网络深度本身,更触及了神经网络架构设计中一个长期存在的集体盲区。
上半场:成功的扩展与停滞的通信
要理解现状,首先需要审视哪些方面被成功地扩展了,以及是如何做到的。
序列长度的扩展是一个典范。早期的Transformer模型只能处理几百个标记(Token)。要实现处理128K以上标记的能力,需要在多个方向上持续创新:新的注意力模式(如稀疏、线性、混合注意力)、系统工程(如FlashAttention)、以及位置编码的改进(如RoPE缩放)。研究者和工程师共同构建了一个完整的生态系统,持续优化了标记之间的信息流动方式。其回报是丰厚的,研究团队不仅能够处理极长的文档,也为OpenAI的o1和深度求索的DeepSeek-R1等模型的长链推理能力奠定了坚实基础。这正是当团队认真投资于“信息在序列维度上的流动方式”时所取得的显著成果。

△ 现代大语言模型中参数与数据规模的迅速增长
参数和数据的扩展是最符合直觉的部分。从深度学习的早期开始,教科书就传授着同一套“配方”:更多的数据、更宽的层、更深的网络,自然会带来更好的表征能力。从GPT-2的15亿参数到如今的数万亿参数,这套配方一直有效。这似乎表明,大型模型团队无需引入新机制,只需持续沿着这些已验证的方向拓展即可。
然而,对网络而言,更宽和更深往往并非一回事。宽度的扩展是自然而然的:现代GPU天生擅长处理更宽的矩阵乘法,注意力机制也在不断演进以提升效率,这使得更宽的网络能够无缝集成到现有架构中。
深度则是另一个故事。模型确实变得更“深”了:从几十层增加到上百层。但层间通信的核心机制,本质上仍然是ResNet在2015年引入的深度残差连接,即“x + F(x)”。自诞生以来,围绕它有过诸多改进(如归一化位置、残差缩放、跨层连接),但没有任何改进真正撼动过那个深度残差中“+”号的决定性地位。
残差连接可以说是深度学习中最重要的基石之一。没有它,就没有百层Transformer,没有现代大语言模型,也没有扩展定律。但基础性方案有时会变得过于“隐形”,以至于人们不再去质疑它究竟是最优解,还是仅仅是探索出的第一个可行的方案。
一个类比:传话游戏
想象一个有特殊规则的传话游戏。在标准版本中,第1个人对第2个人耳语,第2个人再对第3个人耳语。传到第18个人时,信息可能已面目全非。这类似于没有残差连接的深层网络:每一层只能看到上一层的输出。
残差连接修复了这个问题:每个人在传达自己理解的同时,也将之前积累的原始信息原封不动地向下传递。第3个人既能听到第2个人的新解读,也能听到之前所有人的内容。原始信号始终被保留,成为不断壮大的“合唱”中的一个声部。
但到了第152个人,你同时听到的是152个声音的混合:原始信息加上之前151层叠加的内容。理论上,前面各层的声音依然存在,但它们已被严重稀释。如果第152个人需要知道第3个人具体说了什么,他必须费力地从这片宏大的“合唱”中将其分辨出来。

△ 在消息累加的传话游戏中,靠后的人难以分辨出所需的特定内容
通常,第152个人是做不到这一点的。
这就是信息稀释问题。每一层都面临两难:如果贡献新信息,可能会掩盖之前的内容;如果保守不动,则能保留已有信息,但失去了本层的价值。在这种情况下,许多层学会了“保持沉默”——它们几乎不向残差流中写入任何新内容。这样的深度网络在纸面上很深,但实际上却很“浅”。团队堆叠了152层,但其中许多层却未能有效参与计算。
这里的瓶颈不在于152层网络所需的算力,而在于信息穿过这些层的通信能力。这让人联想到几十年前CPU发展遇到的瓶颈:处理器速度越来越快,直到内存带宽成为制约,迫使整个行业转向缓存和通信优化。组织管理亦然:一群聪明人的创造力,也受限于他们之间的沟通与协作方式。深度学习正在经历自己的版本:十年来不断增强每一层的计算能力,而层与层之间的通信通道,本质上仍是2015年那条“单车道公路”。
那么,是否存在更好的机制?
现有“配方”及其局限
在本文介绍的研究之前,已有许多研究者注意到深度瓶颈问题。多年来,修补方案变得越来越精巧:
- DenseNet(获评CVPR最佳论文)保留了每一层的输出,但带来了平方级的内存和计算开销。
- DenseFormer、LIMe等方法使用可学习的加权方案来组合各层输出,降低了成本,但训练完成后权重就固定了,无法根据不同的输入(Token或上下文)动态调整。
- 字节跳动的Hyper-Connections和深度求索的mHC另辟蹊径,将通信通道拓宽到多个,层间使用混合矩阵连接,相当于在信息高速公路上增加车道。但信息仍然是逐层流动的,第152层无法直接回溯访问第3层的信息。
- 彩云公司的MUDDFormer实现了动态混合,根据每个Token的表征生成混合权重。这在方向上是对的:从每一层汲取多少信息本应取决于正在处理的内容。但同样存在局限:第152层在决定从第3层汲取多少信息时,只依赖于第152层自身的状态,它并不知道第3层实际包含了什么。它是在预测哪些层可能有用,而不是在查看。
以上每一步都修复了一个真实存在的缺陷,但鲜有方法从根本上质疑深度残差连接的框架本身。
不难发现,这些方法都有一个共同点。从DenseNet到Hyper-Connections,每个方法都在回答同一个隐含的问题:“如何才能更好地混合各层的输出?”——通过更好的系数、更多的通道、自适应的权重。但自始至终,核心操作都是“混合”,都是“累加”。
早期研究如ELMo已经表明,神经网络的不同层编码着截然不同的信息(例如,浅层编码句法,深层编码语义)。主流方法得出的结论是“学习更好的混合权重来平衡句法和语义”。然而,还有一条被忽视的道路:如果不同层持有不同信息,那么每一层或许应该能够根据内容(而非固定的层位置),从持有所需信息的特定层直接检索信息。
这就是一种范畴谬误:将层间通信视为累加(用学习或生成的系数组合信号),而非检索(通过基于内容的匹配来选择信息)。在累加框架下,即使是动态方法也只从当前层的状态生成混合权重,而不去查看信息源层实际包含的内容。在检索框架下,查询(Query)编码“我需要什么”,键(Key)编码“我有什么”,它们之间的运算决定了相关性。查询方和键方都应有发言权。
回到传话游戏的类比。之前所有的方法都在试图产生一个更清晰的“合唱”:改善发音、增加中继通道、自适应调节音量。但没有人质疑这个根本约束:所有声音必须累加成一个声音吗?也没有人问过:我们是否可以直接走回去,与之前的任何一个人进行当面对话呢?
研究团队认为,这种范畴谬误在架构设计中普遍存在。当某个方案足够好用时,人们往往不会去质疑其底层概念框架,而只会在框架内进行改进。经历了多年越来越精巧的修补之后,研究者们逐渐意识到:深度维度上的残差连接,需要的可能不是更好的混合系数,而是被一种根本不同的操作所替代。
一种在序列维度上已经成功解决了类似信息聚合问题的操作。

△ 因果注意力机制在序列维度(横向)上聚合信息
下半场:待续
(本文上半部分结束,下半部分将探讨研究团队提出的新思路及其潜在影响。)
一旦将层间通信理解为检索而非累加,一个自然的解决方案便是在深度维度上引入注意力机制。包括本研究团队在内的多个团队独立地收敛到了这一想法:谷歌的 DCA、华为的 MRLA、Hessian.AI 的 Dreamer、Kimi 的 AttnRes,以及本研究团队提出的 Flash Depth Attention & MoDA,都尝试在层间应用点积注意力。这种独立趋同本身就是一个强烈的信号:方向是正确的。

△ 深度注意力机制在深度维度(纵向)上聚合信息
然而,找对方向与做出可用成品是两回事。研究者自述:“第一次用 PyTorch 实现并运行深度注意力时,前向与反向传播总计耗时达到了 44,924 毫秒。44 秒!朋友们!这时间都够我喝完一瓶 500 毫升的冰红茶了!”
这意味着,在深度维度应用注意力的想法本身没有问题,但工程现实却极为残酷。现代 GPU 为大规模矩阵乘法做了大量优化,却不擅长处理数千个跨深度的、极小规模的注意力操作。深度注意力作为一个计算量不大的算法,实际运行却可能异常缓慢。

△ PyTorch 原生实现的深度注意力(DepthRef)很慢;Flash Depth Attention(FDA)则很快。
至此,先前的方法陷入了两难:要么简化深度注意力以换取速度,但这会丢失其核心的完整选择性检索能力;要么保持完整的表达能力,却要承受无法接受的运算代价。研究团队找到了一条出路:不是简化算法,而是重新组织参与计算的数据布局,从而适配 GPU 硬件。Flash Depth Attention 使得具备完整表达能力的深度检索快到足以参与实际训练。

△ 混合深度注意力机制同时在序列维度(横向)和深度维度(纵向)上聚合信息
常规大模型的主干流水线为:残差连接 → 序列注意力 → 残差连接 → FFN(前馈网络)。
在引入高效的深度检索后,研究团队观察到网络主干流水线变为:深度注意力 → 序列注意力 → 深度注意力 → FFN。这三个连续的注意力操作作用于不同的 Key(K)和 Value(V),却共享着近乎相同的 Query(Q)。一个自然的做法便是将它们融合。
研究团队提出的混合深度注意力(Mixture-of-Depths Attention, MoDA)将深度检索与序列检索合并到一个统一的 softmax 操作中。每个注意力头同时关注当前层的序列 KV 对以及所有前序层的深度 KV 对。在同一个 softmax 下,模型可以自由决定何时关注序列中的其他 token,何时跨层检索自身的历史信息。通过一次操作,MoDA 便完成了两个维度的检索。

△ 左侧区域是序列 KV,右侧区域是深度 KV。颜色越黄,注意力越强。
回到传话游戏的类比。在残差连接的版本中,第 152 个人需要费力地从累加的合唱中辨认第 3 个人的声音。而有了深度检索,第 152 个人可以直接拍拍第 3 个人的肩膀询问:“你刚才说了什么?”没有中间人,没有累积的噪音。
可视化实验结果印证了这一预测:当模型获得通过深度 KV 从特定层进行选择性检索的能力后,它会持续且主动地使用这种能力。此前困扰研究者的“注意力沉没”(Attention Sink)现象——即模型将概率质量堆积在少数固定 token 上的行为——也随之减弱。这便是研究团队尝试发展层之间(而非仅层之内)信息流动所取得的有趣成果。

△ 引入深度注意力后,传话游戏允许每个人用手机查看群聊记录。
大模型架构的上半场是关于扩展组件的。 研究者们扩展出更长的序列、更多的数据、更大的模型。这个阶段的核心问题是“如何把一切都做大?”。在上半场,这是正确且关键的问题,它将整个领域从 GPT-2 时代带到了 GPT-4 时代。下半场则是关于扩展通信的。 新的问题是:“组件之间的通信质量如何?”

△ 引入混合深度注意力后,在主流的开源基线(OLMo2)上全面提升了模型能力。
深度是最明显的例子,因为现有方案(累加)与潜在方案(选择性检索)之间的差距是巨大的。研究团队相信这一原则可以推广。凡是神经网络使用静态的、与数据无关的通道来传递信息的地方——包括层与层之间、模态与模态之间、时间步与时间步之间等——很可能都存在一个检索机制,等待着替代原有的累加操作。
全世界的研究者花了十年掌握 token 之间如何对话,现在是时候掌握层与层之间如何对话了。而最终,研究者将掌握神经网络中每个组件如何与其他任意组件对话。
深度残差中的“+”号引领我们走过了一段极为精彩的旅程,但现在,是时候升级这座阶梯了。
欢迎来到大模型架构的下半场。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31045

