FP4量化
-
DeepSeek-V4揭秘:细粒度专家并行隐藏通信时延,FP4量化与TileLang协同优化百万Token上下文
混合专家模型(MoE)所采用的专家并行技术,虽然能够有效加速模型的推理与训练过程,但同时也引入了复杂的节点间通信难题。这一难题对互联带宽与延迟提出了极为苛刻的要求,从而成为了制约大型模型性能提升的核心瓶颈。 DeepSeek-V4 构建了一套完备的通用基础设施体系,精准应对了通信与计算协同、内核开发效率、训练确定性、量化部署以及长上下文推理等多项关键挑战。 …
-
百万token成本暴降90%!DeepSeek-V4揭秘:混合压缩注意力+流形约束超连接,重构大模型长上下文架构
当上下文窗口扩展到百万级 token 时,大模型的底层架构正经历一场静默重构。DeepSeek-V4 通过融合混合注意力机制、受约束的残差连接、创新优化器以及极致的工程手段,将长上下文处理成本压缩了 90%。围绕这场架构变革,有人在 XHS 上算了一笔具体的账:DeepSeek-V4-Pro 的预训练计算量约为 1e25 FLOPs,如果以 OpenAI 的…
