关键词: Mixture-of-Experts (MoE)、超高频稀疏度、渐进稀疏化调度、Sigma-MoE-Tiny、专家负载均衡
一次对 MoE 架构负载均衡机制的深度剖析与重构

- SIGMA-MOE-TINY TECHNICAL REPORT
- https://qghuxmu.github.io/Sigma-MoE-Tiny
- https://github.com/microsoft/ltp-megatron-lm
- https://arxiv.org/pdf/2512.16248
近日,微软研究团队发布了 Sigma-MoE-Tiny 技术报告,这是一个在开源模型中达到最高稀疏度的混合专家语言模型。
该模型总参数量达 20B,但每个 token 仅激活 0.5B 参数,总激活比高达 40:1,在极低的计算成本下实现了与更大规模模型相媲美的性能。

图 1 | 左侧:Sigma-MoE-Tiny 在 GPQA-Diamond 准确率上与激活参数量关系的趋势图,表明 Sigma-MoE-Tiny 仅用 0.5B 激活参数就实现了卓越性能。右侧:主流 MoE 模型稀疏比随时间提升的趋势图。Sigma-MoE-Tiny 的 40:1 稀疏比远超同期其他开源 MoE 模型,印证其在高效性上的突破,是现有开源模型中稀疏性最高的。注:与 Qwen3-1.7B 等模型的直接对比数据详见后文表 6
本文目录
- 一、研究背景:MoE 成为大模型高效扩展的关键路径
- 二、模型架构设计:追求极致的专家稀疏化
- 2.1 超高频 MoE 稀疏度
- 2.2 模型配置详情
- 三、核心创新:渐进稀疏化调度解决负载均衡难题
- 3.1 传统负载均衡损失的失效
- 3.2 渐进稀疏化调度策略
- 3.3 策略效果验证
- 四、训练与优化:高效利用计算资源
- 4.1 训练数据与配置
- 4.2 基础设施优化
- 五、性能评估:小身材,大能量
- 5.1 预训练模型评估
- 5.2 后训练与长上下文扩展
- 六、相关工作与对比分析
- 6.1 现有 MoE 模型对比
- 6.2 负载均衡策略对比
- 结论与未来展望

一、研究背景:MoE 成为大模型高效扩展的关键路径
近年来,大型语言模型在通用人工智能方向快速演进。从 GPT-5、Gemini 3、Claude 4 等闭源前沿系统,到 DeepSeek-V3、Qwen3 等开源领先模型,模型与数据规模的持续扩展,结合大规模预训练与高质量微调,使它们展现出在复杂理解、生成与推理方面的涌现能力。
在这一背景下,混合专家架构凭借其动态路由机制,仅激活部分专家处理每个 token,在保持经济计算成本的同时实现巨大的参数容量,成为构建高效且强大基础模型的主流趋势。

图 1 | 左侧:Sigma-MoE-Tiny 在 GPQA-Diamond 准确率上与激活参数量关系的趋势图,表明 Sigma-MoE-Tiny 仅用 0.5B 激活参数就实现了卓越性能。右侧:主流 MoE 模型稀疏比随时间提升的趋势图。Sigma-MoE-Tiny 的 40:1 稀疏比远超同期其他开源 MoE 模型,印证其在高效性上的突破,是现有开源模型中稀疏性最高的。注:与 Qwen3-1.7B 等模型的直接对比数据详见后文表 6
为了进一步释放 MoE 的潜力,开源社区正积极开发越来越稀疏的 MoE 模型,推动其成为下一代大模型扩展的基础范式。
二、模型架构设计:追求极致的专家稀疏化
Sigma-MoE-Tiny 采用仅解码器的 Transformer 架构,核心创新在于其极致的 MoE 稀疏化设计。
2.1 超高频 MoE 稀疏度
早期 MoE 模型通常使用较少专家(如 8 或 16 个)以确保训练稳定性,例如 Mixtral-8x7B 使用 8 个专家,每 token 激活 2 个。
然而,低稀疏度可能导致专家间知识冗余,限制其专业化程度,从而阻碍模型达到性能上限。
近年来,DeepSeek-V3、Qwen3 等先进模型展示了细粒度专家划分的有效性,即使用更多、更小的专家而不增加总参数量,以提升专家专业化程度。
Sigma-MoE-Tiny 在此基础上更进一步:
- 每层 96 个专家,每 token 仅激活1 个专家
- 所有层均使用 MoE 架构,无密集 FFN 层
- 总参数量 20B,激活参数量仅0.5B
- 总激活比达到40:1,为开源 MoE 模型最高
2.2 模型配置详情
表 1 展示了 Sigma-MoE-Tiny 的具体架构配置:

表 1 | Sigma-MoE-Tiny 的模型架构表。该表格详细列出了模型核心配置参数,涵盖隐藏层大小、MoE 中间层大小、网络层数、注意力头数量、专家数量及总参数与激活参数规模。表格中 “96/1” 的专家配置是实现 40:1 稀疏比的关键 —— 每层 96 个专家仅激活 1 个,搭配 56 层网络与 1536 隐藏层大小,最终实现 20B 总参数与 0.5B 激活参数的极致效率,远超 Mixtral-8x7B(8 个专家激活 2 个)的稀疏程度
除 MoE 设计外,模型还采用分组查询注意力降低推理时的 KV 缓存开销,并应用QK 归一化确保训练稳定性。
三、核心创新:渐进稀疏化调度解决负载均衡难题
在如此极端的稀疏度下,维持专家负载均衡成为首要挑战。
3.1 传统负载均衡损失的失效
传统方法采用负载均衡损失来鼓励均衡的 token 分配:
其中各符号含义与论文一致:
3.2 渐进稀疏化调度策略
为解决这一问题,团队提出了渐进稀疏化调度策略:
* 训练初期:在前 8 层激活更多专家(设置为[8,8,6,6,4,4,2,2]),其余层保持目标稀疏度(96 选 1)。
* 训练后期:将所有层切换至目标稀疏度。
该策略在前 90% 的训练过程中对底层应用适度稀疏,仅在最后 10% 的训练中才将全部层切换到目标超高稀疏度。这种方法既缓解了底层负载不均衡,又控制了额外计算成本。
图 2 展示了传统负载平衡损失在极端稀疏设置下导致的负载不均衡问题:

从图 2 可以看出,在 96 专家、仅激活 1 个的设置下,传统负载平衡损失导致底层负载严重不均衡:最小负载专家相对均匀分配的偏差接近 -100%,而最大负载专家则接收了近 3 倍于均匀分配的 token 量。
3.3 策略效果验证
如表 3 所示,渐进稀疏化策略在大幅减少激活参数的同时,几乎完全保持了模型性能:

尽管转换为目标稀疏度减少了约 25% 的激活参数,但性能损失微乎其微。
四、训练与优化:高效利用计算资源
4.1 训练数据与配置
模型在高质量、多领域数据集上进行预训练,包含:
* Nemotron-CC(通用知识)
* 去重 DCLM(长文档)
* 去重 FineWeb-Edu(教育内容)
* 专有合成数据
训练采用 AdamW 优化器,学习率采用预热-稳定-衰减调度,最大序列长度为 4K。
4.2 基础设施优化
面对极端稀疏性带来的计算效率挑战,团队提出了一个关键洞察:当微批次大小相同时,Sigma-MoE-Tiny 更小的隐藏层大小和 MoE top-k 值(仅为1)显著减少了专家并行中 token 路由所需的每 GPU 通信量。
这使得团队能够使用更大的微批次大小来提高内核效率,同时仍保持有限的通信量增长。最终配置为:微批次大小 8,4 路张量并行,96 路专家并行。
五、性能评估:小身材,大能量
整个训练过程非常稳定,未出现任何不可恢复的损失峰值。
5.1 预训练模型评估
如表 2 所示,尽管仅激活 0.5B 参数,Sigma-MoE-Tiny 在多项基准测试中表现优异:

上表显示,Sigma-MoE-Tiny 在 MMLU、GPQA、GSM8K、HumanEval 等多个任务上超过或接近参数量更大的模型。特别值得注意的是,在GPQA-Diamond(研究生级科学问题)基准上,Sigma-MoE-Tiny 达到了领先性能,与7-10B 规模的密集模型表现相当。
5.2 后训练与长上下文扩展
在后训练阶段,团队采用了渐进式长上下文扩展策略:
* 后训练采用四阶段课程学习,逐步扩展上下文窗口(从 16K 到 128K)并提升问题复杂度,最后阶段(32K)使用高质量数据巩固模型在常用上下文长度下的性能。
* 在数据格式中引入“思考提示”以鼓励模型生成显式推理轨迹,并设计了“思考预算”机制,在推理时限制思考部分的生成长度,确保效率。
如图 4 所示,这种课程式设计使模型既能处理更长上下文,又能在复杂任务上发展出更强的推理能力。

图 4 比较了 Top-1 负载平衡损失与传统负载平衡损失在不同训练 token 数下的 MMLU 性能,显示过于均衡的专家利用率可能牺牲模型性能,需要在负载均衡与模型性能间取得平衡。

六、相关工作与对比分析
6.1 现有 MoE 模型对比
- Mixtral-8x7B:8 专家,每 token 激活 2 个,稀疏度较低。
- DeepSeek-V3:采用细粒度专家划分,推动稀疏度提升。
- Qwen3-MoE:探索专家专业化的类似方向。
6.2 负载均衡策略对比
- 传统负载均衡损失 (LBL):在极端稀疏设置下,传统LBL在底层网络中可能收敛到一个非预期的极小值:它倾向于将门控概率优化为均匀分布,而非真正平衡token分配比例。
- 无辅助损失方法:该方法引入一个可动态更新的专家偏置项,将其加到路由器计算的原始logits上,再经过softmax得到门控概率。偏置根据专家近期负载调整(负载低则增加偏置)。然而在极端稀疏下,低层偏置会持续增长,最终完全压制路由器的作用,导致单个专家垄断所有token。
- Top-1 LBL:这是新提出的变体,其核心是直接优化token分配比例的L2范数,以理论上避免传统LBL的优化偏差。由于分配比例不可微,该方法使用温度缩放softmax得到的门控概率作为可微近似,并在分母中引入平均top-1概率项,以鼓励路由决策更接近one-hot分布。

图 3 | 第 0 层(Layer 0)中负载最大和负载最小专家与均匀token分配的相对偏差。在“96个专家激活1个”的设置下,引入无损失平衡策略会显著加剧专家负载失衡。该无损失策略通过动态更新专家偏置调整选通分数,但在极端稀疏下,低层偏置会持续增长并主导选通决策:2K训练步后,最小负载专家接收token数为0,最大负载专家占比达均匀分配的40倍,失衡程度远超仅使用传统LBL的情况,证明该策略不适用极端稀疏场景。
结论与未来展望
Sigma-MoE-Tiny展示了极端MoE稀疏度作为下一代大模型扩展新方向的巨大潜力:
- 效率突破:40:1的总激活比,大幅降低训练和推理成本。
- 性能保持:仅激活0.5B参数即达到与更大规模模型相当的基准性能。
- 方法创新:渐进稀疏化调度有效解决极端稀疏下的负载均衡难题。
这项工作为构建高效且强大的基础模型提供了实用路径,也为未来MoE架构的稀疏化推进提供了重要见解。随着大模型规模持续增长,如何在保持性能的同时控制计算成本将成为关键挑战,而Sigma-MoE-Tiny所探索的极端稀疏化方向,无疑为这一挑战提供了有前景的解决方案。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17839
