混合压缩注意力

百万token成本暴降90%！DeepSeek-V4揭秘：混合压缩注意力+流形约束超连接，重构大模型长上下文架构

当上下文窗口扩展到百万级 token 时，大模型的底层架构正经历一场静默重构。DeepSeek-V4 通过融合混合注意力机制、受约束的残差连接、创新优化器以及极致的工程手段，将长上下文处理成本压缩了 90%。围绕这场架构变革，有人在 XHS 上算了一笔具体的账：DeepSeek-V4-Pro 的预训练计算量约为 1e25 FLOPs，如果以 OpenAI 的…

大模型工程 21小时前
71000