DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

2026年开年,DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位,提出了一种全新的网络连接方式。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

残差连接的隐形天花板

残差连接(Residual Connection)自ResNet提出以来,已成为深度学习的核心组件。它通过一个简单的加法操作 x_{l+1} = x_l + F(x_l),为梯度反向传播提供了一条“高速公路”,有效缓解了深度网络中的梯度消失问题,使得训练极深网络成为可能。

然而,随着模型规模进入百亿、千亿参数量级,传统的残差连接逐渐显现出两大瓶颈:

  1. 表达能力受限:由于要求输入输出维度严格对齐,层间信息传递仅限于简单的逐元素相加,限制了特征变换的灵活性。
  2. 连接稀疏性:标准残差仅连接相邻两层,忽视了跨层特征之间潜在的互补性。

这好比在一个冗长的流水线上,位于末端的工人若想使用前端工人的半成品,必须等待中间所有工序完成,信息在此过程中可能已被严重稀释。

超连接的困境

早期研究者提出了“超连接”(Hyper-Connections)的构想,旨在突破单路连接的局限。其核心思想是让每一层都能访问前面所有层的特征:x_{l+1} = Σ_{i=0}^{l} α_{li} F_i(x_i)。这相当于为流水线上的每个工人都配备了直接通话设备。

然而,这种完全自由的连接方式带来了新的问题。由于连接权重矩阵 α 的自由度过高,破坏了网络关键的恒等映射(Identity Mapping)属性。在网络深度增加时,这些权重矩阵的乘积极易出现梯度爆炸或消失。实验表明,在60层网络中,反向传播增益可能飙升至3000,导致训练极不稳定。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

流形约束的数学巧思

DeepSeek的mHC架构没有简单地削减连接,而是选择为超连接施加精妙的数学约束。其核心是引入一个投影算子 P,将连接权重矩阵 A 投影到一个特殊的流形上。

该流形主要施加两个关键约束:
* 单位增益约束Σ_{i=0}^{l} α_{li}^2 = 1,确保前向传播过程中方差稳定,防止信号幅度失控。
* 恒等漂移控制:在初始化时,使当前层与自身的连接权重 α_{l,l} 占据主导地位,确保训练初期网络行为近似于标准的残差连接,从而稳定训练起点。

具体实现中,mHC采用了Birkhoff多面体投影,即将权重矩阵约束为双随机矩阵(行和与列和均为1)。这类矩阵具有良好的性质:其乘积仍为双随机矩阵,从而天然避免了乘积爆炸。工程上通过Sinkhorn-Knopp算法进行迭代投影,通常仅需20次迭代即可达到理想收敛状态。实验证明,在普通超连接中可能爆炸至 10^3 - 10^4 量级的梯度增益,在mHC中被稳定地控制在1附近,实现了可控的梯度流。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

此外,mHC采用了特定的初始化策略:近端连接(与当前层接近的层)权重初始化得较大,远端连接权重则随距离增加呈倒数衰减。这使得模型在训练初期表现得如同一个标准的残差网络,随着训练进行,再逐步学会利用更远的跨层路径进行特征融合。

mHC并非简单的加权平均。每条超连接路径都配备了一个受流形约束的轻量级线性映射,它们如同智能调节阀,能够根据当前层的需求,从不同深度提取并融合最相关的特征。这种设计有效地恢复了网络的恒等映射能力,使得浅层的原始语义、中层的逻辑表达与深层的抽象推理得以在统一的“特征光谱”中共存与协作。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

实际效果与工程优化

实验数据充分验证了mHC的有效性。在3B到27B参数规模的模型上,在相同计算量(FLOPs)下,mHC的训练损失(Loss)始终低于基线模型。特别是在27B模型中,mHC将训练损失降低了约0.021,相对损失比稳定在98.5%左右,展现了优秀的可扩展性。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定 DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

在具体任务评测中,27B的mHC模型在多个基准上均取得显著提升:在BIG-Bench Hard (BBH) 上比基线提升2.1%,在MMLU上提升4.4%,在DROP上的提升达到4.6%。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

在工程实现上,DeepSeek通过一系列优化将mHC(连接数n=4)的额外训练开销压缩至仅6.7%
1. 算子融合:利用TileLang开发定制内核,将线性投影、激活函数乃至20次Sinkhorn迭代合并为单个原子操作,极大提升了计算带宽利用率。
DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定
2. 重计算机制:在前向传播中仅存储每个计算块的起始输入 x_{l_0},丢弃中间激活值;在反向传播需要时即时重新计算。这将显存占用从线性增长降低为常数级别。
DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定
3. 计算-通信重叠:配合DualPipe技术,在GPU执行复杂算子或重计算的同时,并行进行数据传输,彻底消除了流水线气泡,确保了硬件满带宽运行。
DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

与其他方法的对比

研究中也对比了其他前沿方法,例如俄罗斯研究者提出的LIME(Layer-Integrated Memory)方法。LIME利用Transformer中现有的Key-Value缓存机制,并通过每层的路由权重来整合前面所有层的表示,在1B模型上表现优异,甚至超过了早期的超连接基线。

DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

这表明,在突破残差连接瓶颈的道路上,存在着多种可能的技术路径。

小结

mHC的价值不仅在于其带来的性能提升,更在于它证明了残差连接的“垄断地位”是可以被打破的。通过严谨的数学约束,能够构建出比传统架构更强大、更稳定的超深度网络。

当前的大模型竞赛往往聚焦于扩大规模和数据量,而mHC提示我们,基础架构层面的创新可能才是通向更高级智能的关键。DeepSeek通过这项工作,展示了数学的优雅与工程的实用性如何完美结合。或许我们一直低估了网络架构创新的潜力,在这场技术演进中,谁能在架构上取得根本性突破,谁就可能掌握下一阶段的主动权。

论文链接:https://arxiv.org/abs/2512.24880


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16737

(0)
上一篇 2026年1月2日 上午8:46
下一篇 2026年1月2日 上午10:47

相关推荐

  • MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

    在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

    2026年3月15日
    43300
  • 斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

    昨日,斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后,相关视频与资料迅速公开,系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。 在答辩中,Zitong Yang 重点阐…

    2026年3月5日
    54100
  • 8元跑通RL全流程!潞晨云微调SDK:算法与Infra解耦,1人顶替整支团队

    大模型下半场的战火,已经从“暴力预训练”烧向了“后训练”战场。 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了“炼…

    2026年1月7日
    25900
  • SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

    小模型如何成为智能体专家? 传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。 为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无…

    2026年4月11日
    24900
  • 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

    Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…

    2026年1月7日
    27900