低精度训练
-
清华团队破解FlashAttention低精度训练玄学:BF16下数值偏置如何引爆大模型训练
一句话总结:困扰社区多年的一个“玄学”现象终于被拆解清楚:在BF16等低精度训练中,FlashAttention并非随机出错,而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大,最终导致权重谱范数和激活值失控,引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动,…
-
突破NVFP4量化性能瓶颈!MIT与NVIDIA提出Four Over Six开源方案:近BF16困惑度与<2%推理开销兼得!
关键词: NVFP4 、Four Over Six(4/6)、大型语言模型(LLM)、自适应块缩放 、低精度训练 、 后训练量化(PTQ) Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling 代码: https://github.com/mit-han-lab…