残差连接
-
深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题
深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题(上) 过去十年,深度学习领域取得进展的方式出奇地一致:构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效:损失在降低,能力在增长,扩展定律(Scaling Law)精确地指引着研究团队需要投入多少资源。 然而,扩展的方向不同,其挑战和影响也截然不同。序列长度的扩…
-
Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升
注意力残差:对残差连接的结构性改进 引言:一个基础性的问题 现代大型语言模型普遍采用深度神经网络架构,信息从输入层开始,逐层向上传递并接受加工,最终产生输出。然而,随着网络层数的增加,训练过程面临一个根本性挑战:梯度信号在反向传播过程中,经过数十甚至上百层的传递后,可能严重衰减或消失,导致底层参数难以得到有效更新。 2015年,何恺明团队在《Deep Res…
-
DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定
2026年开年,DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位,提出了一种全新的网络连接方式。 残差连接的隐形天花板 残差连接(Residual Connection)自ResNet提出以来,已成为深度学习的核心组件。它通过一个简单的加法操作 x…
