DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

昨天下午,DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献,相关代码已提交至 GitHub(链接:https://github.com/deepseek-ai/DeepGEMM/pull/304)。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

什么是 Mega MoE?

传统 MoE(混合专家)模型的计算流程通常被分解为多个独立的步骤(如分发、线性变换、激活、组合),每个步骤都需要启动独立的内核(kernel)并伴随 GPU 间的数据通信,导致计算流程频繁中断,GPU 利用率低下。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

Mega MoE 的核心思想是对这一流程进行彻底的底层重构。它将 分发(dispatch)、两层线性变换、SwiGLU 激活、组合(combine) 等原本离散的步骤,融合(fuse)进一个统一的 mega-kernel 中。更为关键的是,它实现了计算与通信的重叠:让 Tensor Core 的计算与 NVLink 的数据传输同时进行,从而避免了 GPU 因等待数据而产生的空闲。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

这种设计带来的直接影响是 GPU 利用率的显著提升,尤其是在多卡、大规模 MoE 场景下,其效果类似于将“接力搬砖”的模式改造为“连续运转的传送带”。

更深层次的优化方向

DeepSeek 的此次优化并不仅限于内核融合。项目还探索了 FP8 × FP4 混合精度计算,并为 MQA logits 引入了 FP4 索引器(indexer),旨在进一步压榨算力极限。结合对 GEMM 的重构和 JIT(即时编译)加速,整体目标是将 MoE 的执行效率推向极致。

DeepSeek 也更新了 DeepGEMM 库的描述,将其定位为一个统一的高性能 Tensor Core 内核库,集成了关键的计算原语:

DeepGEMM 是一个统一的高性能 Tensor Core 内核库,将现代大语言模型的关键计算原语整合在一起,包括 GEMM(FP8、FP4、BF16)、具备通信重叠的融合 MoE(Mega MoE)、用于 lightning indexer 的 MQA 打分、HyperConnection(HC)等,全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译(JIT)模块在运行时编译,安装过程中无需进行 CUDA 编译。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

总结:一次基础设施层的重构

此次更新可被视为一次基础设施层的重构尝试。其目标是将 MoE 从一种理论高效但工程复杂的架构,转变为能够大规模、高效率运行的实用方案。Mega MoE 可能是这一系列优化中的第一块关键拼图。

值得注意的是,DeepSeek 表示 Mega MoE 仍在开发中,性能数据将后续公布。这暗示此类深度优化需在不同规模与负载下反复调整。此次代码开源,更像是向社区明确一个技术攻坚的方向。

DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30674

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 腾讯混元团队发布HY-Embodied-0.5系列模型,为具身智能量身定制,实现物理世界精准交互

    让大模型真正走进并理解物理世界,是当前人工智能领域最迫切的挑战之一。然而,通用视觉语言模型(VLM)在文本和图像理解上表现出色,一旦应用于需要与物理环境精确交互的机器人等具身智能体时,却常常显得“笨手笨脚”。 核心问题在于,物理世界容不得半点含糊。通用模型通常满足于“大致正确”的图像理解,而具身智能则需要极度精细的三维空间感知,以及对真实物理交互的预测和规划…

    2026年4月9日
    62600
  • 生产级 Agentic AI 系统的 7 层架构详解

    现代的代理型 AI 系统,无论是运行在开发、预发布还是生产环境中,都应构建为一组职责明确的架构层,而非单一服务。每一层分别负责代理编排、记忆管理、安全控制、可扩展性、故障处理等具体关注点。一个面向生产的代理系统通常会组合这些层,以确保在真实工作负载下具备可靠性、可观测性与安全性。 Production Grade Agentic System (Create…

    2025年12月23日
    37900
  • 构建本体驱动GraphRAG:从数据填埋场到零噪声知识图谱的蜕变之路

    构建一个自我演进的知识图谱,它不仅能存储数据,更能理解、校验并持续演化。 gemini 在初次构建 GraphRAG 系统时,我遵循了多数教程的路径:将文档输入大语言模型(LLM),抽取实体,将生成的 JSON 导入 Neo4j,然后宣告完成。在演示环境中,一切运行完美。直到我将它应用于真实的医疗记录。 问题随之暴露。LLM 在一份报告中抽取了“John D…

    2025年12月15日
    32600
  • 上下文工程:AI长任务性能优化的核心策略

    Prompts 确立意图。Context 选择事实、历史和工具输出,让 AI 在长任务中保持连贯。 在 AI 应用的早期,我们沉迷于字词的斟酌。微调一个动词,增加一条约束,观察模型是否按预期响应。这些技巧常常奏效,足以让人以为这是一门手艺。直到任务变得更长、更复杂、涉及更多步骤时,一条安静的真相才浮出水面:措辞固然重要,但模型看到什么 更为关键。 Promp…

    2025年11月7日
    30200
  • Streamo:让视频大模型学会“何时说话”,实时流式交互不再卡顿

    当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时,其在真实交互场景中的应用却面临两大核心挑战:如何处理无界的连续视频流,以及如何让模型在动态的视频流中自主决定回答的时机。 近期,香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于:将“何时回答”本身转化为模型需要预测的 token,通过一个端到端的训练框架,将离…

    2026年3月19日
    30200