DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

昨天下午,DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献,相关代码已提交至 GitHub(链接:https://github.com/deepseek-ai/DeepGEMM/pull/304)。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

什么是 Mega MoE?

传统 MoE(混合专家)模型的计算流程通常被分解为多个独立的步骤(如分发、线性变换、激活、组合),每个步骤都需要启动独立的内核(kernel)并伴随 GPU 间的数据通信,导致计算流程频繁中断,GPU 利用率低下。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

Mega MoE 的核心思想是对这一流程进行彻底的底层重构。它将 分发(dispatch)、两层线性变换、SwiGLU 激活、组合(combine) 等原本离散的步骤,融合(fuse)进一个统一的 mega-kernel 中。更为关键的是,它实现了计算与通信的重叠:让 Tensor Core 的计算与 NVLink 的数据传输同时进行,从而避免了 GPU 因等待数据而产生的空闲。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

这种设计带来的直接影响是 GPU 利用率的显著提升,尤其是在多卡、大规模 MoE 场景下,其效果类似于将“接力搬砖”的模式改造为“连续运转的传送带”。

更深层次的优化方向

DeepSeek 的此次优化并不仅限于内核融合。项目还探索了 FP8 × FP4 混合精度计算,并为 MQA logits 引入了 FP4 索引器(indexer),旨在进一步压榨算力极限。结合对 GEMM 的重构和 JIT(即时编译)加速,整体目标是将 MoE 的执行效率推向极致。

DeepSeek 也更新了 DeepGEMM 库的描述,将其定位为一个统一的高性能 Tensor Core 内核库,集成了关键的计算原语:

DeepGEMM 是一个统一的高性能 Tensor Core 内核库,将现代大语言模型的关键计算原语整合在一起,包括 GEMM(FP8、FP4、BF16)、具备通信重叠的融合 MoE(Mega MoE)、用于 lightning indexer 的 MQA 打分、HyperConnection(HC)等,全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译(JIT)模块在运行时编译,安装过程中无需进行 CUDA 编译。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

总结:一次基础设施层的重构

此次更新可被视为一次基础设施层的重构尝试。其目标是将 MoE 从一种理论高效但工程复杂的架构,转变为能够大规模、高效率运行的实用方案。Mega MoE 可能是这一系列优化中的第一块关键拼图。

值得注意的是,DeepSeek 表示 Mega MoE 仍在开发中,性能数据将后续公布。这暗示此类深度优化需在不同规模与负载下反复调整。此次代码开源,更像是向社区明确一个技术攻坚的方向。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30674

(0)
上一篇 2026年4月17日 上午10:53
下一篇 2026年4月17日 上午11:00

相关推荐

  • PF-LLM:大语言模型破解硬件预取困境,静态代码分析实现智能内存访问优化

    关键词:硬件预取、内存墙、大语言模型、CPU 微架构、硬件-软件协同设计 在追求单核性能的征途上,CPU 设计师们正面临一道难以逾越的天堑——“内存墙”。这道墙的另一边,是主存(DRAM)动辄数百个周期的访问延迟,而 CPU 核心的运算速度却已逼近物理极限。为了填平这道墙,现代处理器普遍采用了一项关键技术:硬件数据预取。它像一个未卜先知的预言家,提前将程序未…

    2026年3月31日
    43800
  • HISA:新稀疏注意力机制突破64K上下文瓶颈,提速2-4倍,即插即用无需重训

    一项新的研究提出了一种名为HISA(分层索引稀疏注意力) 的稀疏注意力机制。该方法旨在突破长上下文模型中的索引瓶颈,在64K上下文长度下,相比DeepSeek-V3等模型使用的DSA(DeepSeek Sparse Attention)索引器,可实现2至4倍的速度提升。 该方法在显著提升速度的同时,几乎不损失模型精度,并且具备即插即用的特性,无需对现有模型进…

    2026年4月7日
    45400
  • 别再把 AI 当“自动补全”了:代码智能体真正的用法被忽视了

    写出更简洁、更聪明的 Python 函数 许多开发者,包括经验丰富的老手,在编写 Python 函数时都会不自觉地陷入一些常见陷阱。这些做法短期内或许不会引发问题,但随着代码库的增长,它们会导致代码变得难以维护、效率低下。 如果你对 Python 函数的理解还停留在“能跑就行”,现在是时候升级你的认知了。了解这些常见误区并采用最佳实践,能让你的代码焕然一新。…

    2025年11月10日
    41500
  • LangGraph实战:构建高效Agentic工作流,解锁AI应用开发新范式

    用 Agentic 框架构建 AI 工作流 随着 GPT-5、Gemini 2.5 Pro 等强大 AI 模型的涌现,旨在高效利用这些模型的 Agentic 框架也日益增多。这类框架通过抽象化诸多复杂环节,极大地简化了与 AI 模型的协作,例如处理工具调用、管理智能体状态以及集成人工反馈循环。 本文将深入探讨其中一个可用的 Agentic AI 框架:Lan…

    2025年11月21日
    42000
  • JTok:大模型扩展新维度!上海交大提出token-indexed参数,不增算力也能提升性能

    大模型扩展的困境 大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。 在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质…

    2026年3月3日
    38900