残差连接 - 鲸林向海

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题（上）过去十年，深度学习领域取得进展的方式出奇地一致：构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效：损失在降低，能力在增长，扩展定律（Scaling Law）精确地指引着研究团队需要投入多少资源。然而，扩展的方向不同，其挑战和影响也截然不同。序列长度的扩…

2026年4月20日

186000

大模型工程

Kimi重磅发布《Attention Residuals》：颠覆十年残差连接，用同样算力实现1.25倍效果提升

注意力残差：对残差连接的结构性改进引言：一个基础性的问题现代大型语言模型普遍采用深度神经网络架构，信息从输入层开始，逐层向上传递并接受加工，最终产生输出。然而，随着网络层数的增加，训练过程面临一个根本性挑战：梯度信号在反向传播过程中，经过数十甚至上百层的传递后，可能严重衰减或消失，导致底层参数难以得到有效更新。 2015年，何恺明团队在《Deep Res…

2026年3月18日

853000

大模型训练

DeepSeek突破残差连接瓶颈：流形约束超连接架构让千亿参数模型训练更稳定

2026年开年，DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位，提出了一种全新的网络连接方式。残差连接的隐形天花板残差连接（Residual Connection）自ResNet提出以来，已成为深度学习的核心组件。它通过一个简单的加法操作 x…

2026年1月2日

338000