2026年开年,DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位,提出了一种全新的网络连接方式。

残差连接的隐形天花板
残差连接(Residual Connection)自ResNet提出以来,已成为深度学习的核心组件。它通过一个简单的加法操作 x_{l+1} = x_l + F(x_l),为梯度反向传播提供了一条“高速公路”,有效缓解了深度网络中的梯度消失问题,使得训练极深网络成为可能。
然而,随着模型规模进入百亿、千亿参数量级,传统的残差连接逐渐显现出两大瓶颈:
- 表达能力受限:由于要求输入输出维度严格对齐,层间信息传递仅限于简单的逐元素相加,限制了特征变换的灵活性。
- 连接稀疏性:标准残差仅连接相邻两层,忽视了跨层特征之间潜在的互补性。
这好比在一个冗长的流水线上,位于末端的工人若想使用前端工人的半成品,必须等待中间所有工序完成,信息在此过程中可能已被严重稀释。
超连接的困境
早期研究者提出了“超连接”(Hyper-Connections)的构想,旨在突破单路连接的局限。其核心思想是让每一层都能访问前面所有层的特征:x_{l+1} = Σ_{i=0}^{l} α_{li} F_i(x_i)。这相当于为流水线上的每个工人都配备了直接通话设备。
然而,这种完全自由的连接方式带来了新的问题。由于连接权重矩阵 α 的自由度过高,破坏了网络关键的恒等映射(Identity Mapping)属性。在网络深度增加时,这些权重矩阵的乘积极易出现梯度爆炸或消失。实验表明,在60层网络中,反向传播增益可能飙升至3000,导致训练极不稳定。

流形约束的数学巧思
DeepSeek的mHC架构没有简单地削减连接,而是选择为超连接施加精妙的数学约束。其核心是引入一个投影算子 P,将连接权重矩阵 A 投影到一个特殊的流形上。
该流形主要施加两个关键约束:
* 单位增益约束:Σ_{i=0}^{l} α_{li}^2 = 1,确保前向传播过程中方差稳定,防止信号幅度失控。
* 恒等漂移控制:在初始化时,使当前层与自身的连接权重 α_{l,l} 占据主导地位,确保训练初期网络行为近似于标准的残差连接,从而稳定训练起点。
具体实现中,mHC采用了Birkhoff多面体投影,即将权重矩阵约束为双随机矩阵(行和与列和均为1)。这类矩阵具有良好的性质:其乘积仍为双随机矩阵,从而天然避免了乘积爆炸。工程上通过Sinkhorn-Knopp算法进行迭代投影,通常仅需20次迭代即可达到理想收敛状态。实验证明,在普通超连接中可能爆炸至 10^3 - 10^4 量级的梯度增益,在mHC中被稳定地控制在1附近,实现了可控的梯度流。

此外,mHC采用了特定的初始化策略:近端连接(与当前层接近的层)权重初始化得较大,远端连接权重则随距离增加呈倒数衰减。这使得模型在训练初期表现得如同一个标准的残差网络,随着训练进行,再逐步学会利用更远的跨层路径进行特征融合。
mHC并非简单的加权平均。每条超连接路径都配备了一个受流形约束的轻量级线性映射,它们如同智能调节阀,能够根据当前层的需求,从不同深度提取并融合最相关的特征。这种设计有效地恢复了网络的恒等映射能力,使得浅层的原始语义、中层的逻辑表达与深层的抽象推理得以在统一的“特征光谱”中共存与协作。

实际效果与工程优化
实验数据充分验证了mHC的有效性。在3B到27B参数规模的模型上,在相同计算量(FLOPs)下,mHC的训练损失(Loss)始终低于基线模型。特别是在27B模型中,mHC将训练损失降低了约0.021,相对损失比稳定在98.5%左右,展现了优秀的可扩展性。

在具体任务评测中,27B的mHC模型在多个基准上均取得显著提升:在BIG-Bench Hard (BBH) 上比基线提升2.1%,在MMLU上提升4.4%,在DROP上的提升达到4.6%。

在工程实现上,DeepSeek通过一系列优化将mHC(连接数n=4)的额外训练开销压缩至仅6.7%:
1. 算子融合:利用TileLang开发定制内核,将线性投影、激活函数乃至20次Sinkhorn迭代合并为单个原子操作,极大提升了计算带宽利用率。

2. 重计算机制:在前向传播中仅存储每个计算块的起始输入 x_{l_0},丢弃中间激活值;在反向传播需要时即时重新计算。这将显存占用从线性增长降低为常数级别。

3. 计算-通信重叠:配合DualPipe技术,在GPU执行复杂算子或重计算的同时,并行进行数据传输,彻底消除了流水线气泡,确保了硬件满带宽运行。

与其他方法的对比
研究中也对比了其他前沿方法,例如俄罗斯研究者提出的LIME(Layer-Integrated Memory)方法。LIME利用Transformer中现有的Key-Value缓存机制,并通过每层的路由权重来整合前面所有层的表示,在1B模型上表现优异,甚至超过了早期的超连接基线。

这表明,在突破残差连接瓶颈的道路上,存在着多种可能的技术路径。
小结
mHC的价值不仅在于其带来的性能提升,更在于它证明了残差连接的“垄断地位”是可以被打破的。通过严谨的数学约束,能够构建出比传统架构更强大、更稳定的超深度网络。
当前的大模型竞赛往往聚焦于扩大规模和数据量,而mHC提示我们,基础架构层面的创新可能才是通向更高级智能的关键。DeepSeek通过这项工作,展示了数学的优雅与工程的实用性如何完美结合。或许我们一直低估了网络架构创新的潜力,在这场技术演进中,谁能在架构上取得根本性突破,谁就可能掌握下一阶段的主动权。
论文链接:https://arxiv.org/abs/2512.24880
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16737
