DeepSeek突破残差连接瓶颈：流形约束超连接架构让千亿参数模型训练更稳定

2026年开年，DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位，提出了一种全新的网络连接方式。

残差连接的隐形天花板

残差连接（Residual Connection）自ResNet提出以来，已成为深度学习的核心组件。它通过一个简单的加法操作 x_{l+1} = x_l + F(x_l)，为梯度反向传播提供了一条“高速公路”，有效缓解了深度网络中的梯度消失问题，使得训练极深网络成为可能。

然而，随着模型规模进入百亿、千亿参数量级，传统的残差连接逐渐显现出两大瓶颈：

表达能力受限：由于要求输入输出维度严格对齐，层间信息传递仅限于简单的逐元素相加，限制了特征变换的灵活性。
连接稀疏性：标准残差仅连接相邻两层，忽视了跨层特征之间潜在的互补性。

这好比在一个冗长的流水线上，位于末端的工人若想使用前端工人的半成品，必须等待中间所有工序完成，信息在此过程中可能已被严重稀释。

超连接的困境

早期研究者提出了“超连接”（Hyper-Connections）的构想，旨在突破单路连接的局限。其核心思想是让每一层都能访问前面所有层的特征：x_{l+1} = Σ_{i=0}^{l} α_{li} F_i(x_i)。这相当于为流水线上的每个工人都配备了直接通话设备。

然而，这种完全自由的连接方式带来了新的问题。由于连接权重矩阵 α 的自由度过高，破坏了网络关键的恒等映射（Identity Mapping）属性。在网络深度增加时，这些权重矩阵的乘积极易出现梯度爆炸或消失。实验表明，在60层网络中，反向传播增益可能飙升至3000，导致训练极不稳定。

流形约束的数学巧思

DeepSeek的mHC架构没有简单地削减连接，而是选择为超连接施加精妙的数学约束。其核心是引入一个投影算子 P，将连接权重矩阵 A 投影到一个特殊的流形上。

该流形主要施加两个关键约束：
* 单位增益约束：Σ_{i=0}^{l} α_{li}^2 = 1，确保前向传播过程中方差稳定，防止信号幅度失控。
* 恒等漂移控制：在初始化时，使当前层与自身的连接权重 α_{l,l} 占据主导地位，确保训练初期网络行为近似于标准的残差连接，从而稳定训练起点。

具体实现中，mHC采用了Birkhoff多面体投影，即将权重矩阵约束为双随机矩阵（行和与列和均为1）。这类矩阵具有良好的性质：其乘积仍为双随机矩阵，从而天然避免了乘积爆炸。工程上通过Sinkhorn-Knopp算法进行迭代投影，通常仅需20次迭代即可达到理想收敛状态。实验证明，在普通超连接中可能爆炸至 10^3 - 10^4 量级的梯度增益，在mHC中被稳定地控制在1附近，实现了可控的梯度流。

此外，mHC采用了特定的初始化策略：近端连接（与当前层接近的层）权重初始化得较大，远端连接权重则随距离增加呈倒数衰减。这使得模型在训练初期表现得如同一个标准的残差网络，随着训练进行，再逐步学会利用更远的跨层路径进行特征融合。

mHC并非简单的加权平均。每条超连接路径都配备了一个受流形约束的轻量级线性映射，它们如同智能调节阀，能够根据当前层的需求，从不同深度提取并融合最相关的特征。这种设计有效地恢复了网络的恒等映射能力，使得浅层的原始语义、中层的逻辑表达与深层的抽象推理得以在统一的“特征光谱”中共存与协作。

实际效果与工程优化

实验数据充分验证了mHC的有效性。在3B到27B参数规模的模型上，在相同计算量（FLOPs）下，mHC的训练损失（Loss）始终低于基线模型。特别是在27B模型中，mHC将训练损失降低了约0.021，相对损失比稳定在98.5%左右，展现了优秀的可扩展性。

在具体任务评测中，27B的mHC模型在多个基准上均取得显著提升：在BIG-Bench Hard (BBH) 上比基线提升2.1%，在MMLU上提升4.4%，在DROP上的提升达到4.6%。

在工程实现上，DeepSeek通过一系列优化将mHC（连接数n=4）的额外训练开销压缩至仅6.7%：
1. 算子融合：利用TileLang开发定制内核，将线性投影、激活函数乃至20次Sinkhorn迭代合并为单个原子操作，极大提升了计算带宽利用率。

2. 重计算机制：在前向传播中仅存储每个计算块的起始输入 x_{l_0}，丢弃中间激活值；在反向传播需要时即时重新计算。这将显存占用从线性增长降低为常数级别。

3. 计算-通信重叠：配合DualPipe技术，在GPU执行复杂算子或重计算的同时，并行进行数据传输，彻底消除了流水线气泡，确保了硬件满带宽运行。