昨天下午,DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。

Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献,相关代码已提交至 GitHub(链接:https://github.com/deepseek-ai/DeepGEMM/pull/304)。

什么是 Mega MoE?
传统 MoE(混合专家)模型的计算流程通常被分解为多个独立的步骤(如分发、线性变换、激活、组合),每个步骤都需要启动独立的内核(kernel)并伴随 GPU 间的数据通信,导致计算流程频繁中断,GPU 利用率低下。

Mega MoE 的核心思想是对这一流程进行彻底的底层重构。它将 分发(dispatch)、两层线性变换、SwiGLU 激活、组合(combine) 等原本离散的步骤,融合(fuse)进一个统一的 mega-kernel 中。更为关键的是,它实现了计算与通信的重叠:让 Tensor Core 的计算与 NVLink 的数据传输同时进行,从而避免了 GPU 因等待数据而产生的空闲。

这种设计带来的直接影响是 GPU 利用率的显著提升,尤其是在多卡、大规模 MoE 场景下,其效果类似于将“接力搬砖”的模式改造为“连续运转的传送带”。
更深层次的优化方向
DeepSeek 的此次优化并不仅限于内核融合。项目还探索了 FP8 × FP4 混合精度计算,并为 MQA logits 引入了 FP4 索引器(indexer),旨在进一步压榨算力极限。结合对 GEMM 的重构和 JIT(即时编译)加速,整体目标是将 MoE 的执行效率推向极致。
DeepSeek 也更新了 DeepGEMM 库的描述,将其定位为一个统一的高性能 Tensor Core 内核库,集成了关键的计算原语:
DeepGEMM 是一个统一的高性能 Tensor Core 内核库,将现代大语言模型的关键计算原语整合在一起,包括 GEMM(FP8、FP4、BF16)、具备通信重叠的融合 MoE(Mega MoE)、用于 lightning indexer 的 MQA 打分、HyperConnection(HC)等,全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译(JIT)模块在运行时编译,安装过程中无需进行 CUDA 编译。

总结:一次基础设施层的重构
此次更新可被视为一次基础设施层的重构尝试。其目标是将 MoE 从一种理论高效但工程复杂的架构,转变为能够大规模、高效率运行的实用方案。Mega MoE 可能是这一系列优化中的第一块关键拼图。
值得注意的是,DeepSeek 表示 Mega MoE 仍在开发中,性能数据将后续公布。这暗示此类深度优化需在不同规模与负载下反复调整。此次代码开源,更像是向社区明确一个技术攻坚的方向。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30674

