通信计算重叠

DeepSeek-V4揭秘：细粒度专家并行隐藏通信时延，FP4量化与TileLang协同优化百万Token上下文

混合专家模型（MoE）所采用的专家并行技术，虽然能够有效加速模型的推理与训练过程，但同时也引入了复杂的节点间通信难题。这一难题对互联带宽与延迟提出了极为苛刻的要求，从而成为了制约大型模型性能提升的核心瓶颈。 DeepSeek-V4 构建了一套完备的通用基础设施体系，精准应对了通信与计算协同、内核开发效率、训练确定性、量化部署以及长上下文推理等多项关键挑战。 …

大模型训练 21小时前
66000