FlashAttention

FlashAttention-4震撼发布：Blackwell GPU上注意力机制速度媲美矩阵乘法，性能提升高达2.7倍

经过一年的开发，FlashAttention-4 正式发布。作为深度学习领域一项关键的底层优化技术，FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示，在 Blackwell GPU 上，注意力机制的执行速度现已几乎与矩阵乘法相当，尽管两者的瓶颈截然不同。当前，Tensor Core 的速度已变得极快…

2026年3月6日

413000

大模型训练

清华团队破解FlashAttention低精度训练玄学：BF16下数值偏置如何引爆大模型训练

一句话总结：困扰社区多年的一个“玄学”现象终于被拆解清楚：在BF16等低精度训练中，FlashAttention并非随机出错，而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大，最终导致权重谱范数和激活值失控，引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动，…

2026年3月4日

659000

大模型推理

SGLang发布迷你版：5千行代码实现LLM推理核心，性能媲美完整版

SGLang团队近日发布了mini-SGLang，将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术，包括重叠调度、FlashAttention-3、基数缓存等，在在线服务场景下的性能表现与完整版几乎无异。为何推出迷你版许多开发者希望深入理解现代大语言模型推理的内部机制，但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…

2025年12月20日

452000