DeepSeek发布Mega MoE：将MoE流水线焊死，GPU利用率飙升的底层重构

3小时前 • 大模型工程 • 阅读 35

昨天下午，DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。

DeepSeek发布Mega MoE：将MoE流水线焊死，GPU利用率飙升的底层重构

Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献，相关代码已提交至 GitHub（链接：https://github.com/deepseek-ai/DeepGEMM/pull/304）。

DeepSeek发布Mega MoE：将MoE流水线焊死，GPU利用率飙升的底层重构

什么是 Mega MoE？

传统 MoE（混合专家）模型的计算流程通常被分解为多个独立的步骤（如分发、线性变换、激活、组合），每个步骤都需要启动独立的内核（kernel）并伴随 GPU 间的数据通信，导致计算流程频繁中断，GPU 利用率低下。

DeepSeek发布Mega MoE：将MoE流水线焊死，GPU利用率飙升的底层重构

Mega MoE 的核心思想是对这一流程进行彻底的底层重构。它将 分发（dispatch）、两层线性变换、SwiGLU 激活、组合（combine） 等原本离散的步骤，融合（fuse）进一个统一的 mega-kernel 中。更为关键的是，它实现了计算与通信的重叠：让 Tensor Core 的计算与 NVLink 的数据传输同时进行，从而避免了 GPU 因等待数据而产生的空闲。

DeepSeek发布Mega MoE：将MoE流水线焊死，GPU利用率飙升的底层重构

这种设计带来的直接影响是 GPU 利用率的显著提升，尤其是在多卡、大规模 MoE 场景下，其效果类似于将“接力搬砖”的模式改造为“连续运转的传送带”。

更深层次的优化方向

DeepSeek 的此次优化并不仅限于内核融合。项目还探索了 FP8 × FP4 混合精度计算，并为 MQA logits 引入了 FP4 索引器（indexer），旨在进一步压榨算力极限。结合对 GEMM 的重构和 JIT（即时编译）加速，整体目标是将 MoE 的执行效率推向极致。

DeepSeek 也更新了 DeepGEMM 库的描述，将其定位为一个统一的高性能 Tensor Core 内核库，集成了关键的计算原语：

DeepGEMM 是一个统一的高性能 Tensor Core 内核库，将现代大语言模型的关键计算原语整合在一起，包括 GEMM（FP8、FP4、BF16）、具备通信重叠的融合 MoE（Mega MoE）、用于 lightning indexer 的 MQA 打分、HyperConnection（HC）等，全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译（JIT）模块在运行时编译，安装过程中无需进行 CUDA 编译。

DeepSeek发布Mega MoE：将MoE流水线焊死，GPU利用率飙升的底层重构