细粒度稀疏MoE
-
SonicMoE:开源软硬件协同加速方案,64块H100媲美96块性能,实现45%内存节省与1.86倍吞吐量提升
关键词:混合专家模型(MoE)、SonicMoE、GPU 内核优化、内存高效算法、令牌舍入路由、细粒度稀疏 MoE SonicMoE 已开源,方案基于 CuTe-DSL 实现并提供 PyTorch 接口,采用宽松许可证:github.com/Dao-AILab/sonic-moe。未来研究将围绕两方面展开:一是扩展到 FP8、MXFP8、MXFP4 等低精度…