训练效率

AI产业动态

SonicMoE：突破细粒度MoE硬件效率瓶颈，实现高稀疏性下的极致训练加速

混合专家（MoE）模型架构已成为当前大语言模型规模化扩展的关键技术路径，其通过稀疏激活机制，在保持计算成本相对稳定的前提下，实现了模型参数量的指数级增长。然而，随着技术演进，MoE模型正呈现出两个显著趋势：专家粒度不断细化（即专家中间层维度持续缩小）和模型稀疏性持续提升（在专家总数大幅增加的同时保持激活专家数基本不变）。这一趋势在近期开源的DeepSeek …

2025年12月19日
234000