SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

混合专家(MoE)模型架构已成为当前大语言模型规模化扩展的关键技术路径,其通过稀疏激活机制,在保持计算成本相对稳定的前提下,实现了模型参数量的指数级增长。然而,随着技术演进,MoE模型正呈现出两个显著趋势:专家粒度不断细化(即专家中间层维度持续缩小)和模型稀疏性持续提升(在专家总数大幅增加的同时保持激活专家数基本不变)。这一趋势在近期开源的DeepSeek V3、Kimi K2、Qwen3 MoE等模型中体现得尤为明显,它们通过更细粒度的专家设计和更高的稀疏度配置,在激活参数量维持不变的情况下,将总参数量推向了新的高度。

这种追求极致粒度和稀疏性的设计虽然显著提升了单位FLOPs的模型质量,却引发了严重的硬件效率问题。首先面临的是内存墙瓶颈:细粒度MoE的激活内存占用量通常随激活专家数量线性增长,导致前向传播和反向传播过程中的内存压力急剧增加,特别是在训练大规模模型时,显存限制成为制约模型扩展的主要因素。其次是IO瓶颈的凸显:由于专家变得更小且分布更加分散,算术强度(计算量与数据传输量的比值)显著降低,IO访问变得更加动态和频繁,使得模型训练进入“内存受限”区间,计算单元经常处于等待数据的状态。更为严重的是计算资源的浪费问题:在高稀疏性场景下,Grouped GEMM(分组通用矩阵乘法)内核中的Tile量化效应导致输入数据需要进行填充以对齐硬件Tile大小,这种填充操作直接造成了计算资源的无效消耗。

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

针对这些系统性挑战,普林斯顿大学助理教授Tri Dao(Mamba、FlashAttention的核心作者)团队提出了名为SonicMoE的创新解决方案。该方案专为NVIDIA Hopper和Blackwell架构GPU量身定制,从算法优化、计算架构和调度策略三个层面进行了深度重构。在算法层面,团队通过重新设计MoE的计算图,提出了一种在计算路由梯度时不缓存激活值的方法。这种方法在保持与原始MoE公式数学等价的前提下,将细粒度7B MoE模型每层的激活内存占用减少了45%,且随着专家粒度的增加,其内存占用保持恒定,效率比现有基线高出0.20-1.59倍。这种内存高效算法的核心在于打破了传统反向传播中必须缓存所有中间激活的约束,通过巧妙的数学重构实现了显存的动态复用。

在计算架构层面,SonicMoE充分利用Hopper架构GPU的WGMMA指令与生产者-消费者异步范式,设计了新型GPU内核。该内核能够将GEMM计算与从HBM加载数据的IO操作并行执行,有效掩盖了细粒度MoE带来的高昂IO延迟。这种计算与IO重叠的技术实现了硬件资源的极致利用,将GPU的计算单元和内存带宽的利用率同时推向理论极限。实验数据显示,SonicMoE的前向计算吞吐量平均达到了理论上限的88%,最高可达91%,最低也有86%,这一表现显著超越了现有所有优化方案。

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

在调度策略层面,团队提出了名为“Token舍入”的创新方法。这是一种即插即用的调度策略,将分发给每个专家的Token数量四舍五入为Grouped GEMM Tile大小(如128)的倍数。算法保证每个专家的偏差最多仅为一个Tile,从而在期望意义下保持总token数不变。这一策略看似简单,却从根本上解决了因填充导致的算力浪费问题。在高稀疏性场景下的测试表明,该算法在验证不损失下游任务精度的同时,显著提升了内核执行速度,为MoE训练的效率优化开辟了新的思路。

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

SonicMoE的系统性优势在实验数据中得到了充分验证。在针对细粒度7B MoE模型的测试中,其前向传播相比高度优化的DeepGEMM基线速度提升43%;反向传播相比最先进的ScatterMoE和MoMoE基线,速度分别提升了83%和115%。更为重要的是,端到端训练仅依靠内核优化即可将训练吞吐量提升50%,若配合Token舍入路由策略,在扩展专家数量时可进一步获得16%的额外吞吐量提升。这些性能提升直接转化为实际训练效率的飞跃:团队仅使用64台H100运行SonicMoE,便实现了每日2130亿token的训练吞吐量,这一表现已能与使用96台H100运行ScatterMoE的效率相媲美,相当于节省了33%的硬件资源。

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

从技术实现细节来看,SonicMoE的MoE计算会启动8个精心优化的内核:在前向传播过程中,包括up-proj(A)、down-proj(Y)和专家聚合(O)内核;在反向传播过程中,使用激活梯度内核分别计算dH(down-proj)、

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

(up-proj)、dX(对专家的

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

进行聚合),以及权重梯度内核

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

。这种高度模块化的设计使得SonicMoE仅由两部分组成:经过优化的分组GEMM内核(带有模块化融合)和经过优化的专家聚合内核。主机会根据最佳GEMM配置和加载/存储策略来智能调度并启动这些内核,实现了灵活性与性能的完美平衡。

SonicMoE的意义不仅在于其卓越的性能表现,更在于它为整个大模型社区提供了系统性的优化范式。面对MoE模型向更高粒度和更高稀疏性发展的必然趋势,硬件效率问题将成为制约技术演进的关键瓶颈。SonicMoE通过算法、架构和调度的协同创新,为突破这一瓶颈提供了切实可行的解决方案。目前,团队已将相关内核代码开源,这无疑将加速高性能MoE训练的普及,推动大语言模型向更大规模、更高效率的方向持续演进。从长远来看,这种硬件感知的优化思路可能会影响未来MoE架构的设计哲学,促使模型开发者更加关注算法与硬件的协同设计,最终实现软件与硬件能力的最大化释放。

— 图片补充 —

SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/9043

(0)
上一篇 11小时前
下一篇 11小时前

相关推荐

  • 摩尔线程LiteGS开源:以全栈协同优化攻克3DGS训练瓶颈,为具身智能提供高效三维建模引擎

    2025年12月,在香港举办的SIGGRAPH Asia 2025大会上,一场聚焦3D Gaussian Splatting(3DGS)重建技术的国际挑战赛结果揭晓。中国芯片与计算公司摩尔线程凭借其自研的3DGS基础库LiteGS,在3DGS重建挑战赛中脱颖而出,荣获银奖。这一成绩不仅是对其算法与工程能力的认可,更标志着国产计算技术在神经渲染这一前沿领域已具…

    2天前
    000
  • 多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

    在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模…

    2025年11月28日
    400
  • MiMo-Embodied:全球首个跨具身基座模型的技术突破与产业影响

    在人工智能技术快速演进的当下,具身智能与自动驾驶作为两大前沿领域,长期面临着知识迁移与能力统一的挑战。传统视觉语言模型(VLMs)往往局限于单一场景——要么专注于室内机器人操作,要么聚焦于户外驾驶任务,这种割裂状态严重制约了智能体在动态物理世界中的综合交互能力。近日,小米汽车陈龙团队开源了全球首个打通自动驾驶与具身操作场景的跨具身(X-Embodied)基座…

    2025年11月25日
    600
  • 阿里开源ROCK:构建智能体规模化训练的“实战演练场”,打通Agentic AI落地关键环节

    在人工智能技术快速演进的当下,大语言模型正经历从静态文本生成到动态环境交互的深刻范式转变。最前沿的模型已进化为能够与外部环境深度交互的Agentic模型,这不仅代表技术层面的进步,更标志着AI应用场景的根本性扩展。当前几乎所有SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行实质性交互。简单来说,模型仅“能说”已无…

    2025年11月26日
    400
  • ChatGPT千亿tokens,干掉麦肯锡5000名顾问

    魔幻啊魔幻。 全球顶级咨询公司麦肯锡,居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。 麦肯锡自己还怪自豪的,第一时间就把奖牌po到了领英上。 等等,好像哪里不对……但凡过遍脑子,都能察觉出“这份荣耀”有点不对味—— 你花百万美金买PPT的麦肯锡,竟然是ChatGPT的大客户?! 这大概也意味着,很多机构花了数百万美元购买的战略咨询PPT,其实…

    2025年10月22日
    11600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注