低精度训练

大模型训练

清华团队破解FlashAttention低精度训练玄学：BF16下数值偏置如何引爆大模型训练

一句话总结：困扰社区多年的一个“玄学”现象终于被拆解清楚：在BF16等低精度训练中，FlashAttention并非随机出错，而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大，最终导致权重谱范数和激活值失控，引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动，…

2026年3月4日
644000
大模型推理

突破NVFP4量化性能瓶颈！MIT与NVIDIA提出Four Over Six开源方案：近BF16困惑度与<2%推理开销兼得！

关键词： NVFP4 、Four Over Six（4/6）、大型语言模型（LLM）、自适应块缩放、低精度训练、后训练量化（PTQ） Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling 代码： https://github.com/mit-han-lab…

2025年12月26日
236011