专家并行
-
DeepSeek-V4揭秘:细粒度专家并行隐藏通信时延,FP4量化与TileLang协同优化百万Token上下文
混合专家模型(MoE)所采用的专家并行技术,虽然能够有效加速模型的推理与训练过程,但同时也引入了复杂的节点间通信难题。这一难题对互联带宽与延迟提出了极为苛刻的要求,从而成为了制约大型模型性能提升的核心瓶颈。 DeepSeek-V4 构建了一套完备的通用基础设施体系,精准应对了通信与计算协同、内核开发效率、训练确定性、量化部署以及长上下文推理等多项关键挑战。 …
-
NCCL EP统一MoE通信生态:打破碎片化,加速大模型推理新纪元
关键词: MoE(Mixture-of-Experts)、NCCL、GPU 通信、Device-Initiated Communication、大模型推理 在通往通用人工智能的道路上,模型规模正以前所未有的速度扩张。当稠密的 Transformer 模型在计算和参数效率上触及瓶颈时,混合专家(Mixture-of-Experts, MoE)架构凭借其“加人加…
