MegaKernel

Luminal编译器实测翻车？fp32推理远逊vLLM，FlashAttention融合尚未实现

我们之前推送过多篇关于 Mega Kernel 的文章，今天来探讨这篇：《无需手动构建MegaKernels！Luminal 编译生成 MegaKernels：解决 GPU SM 负载不均，消除内核启动开销与内存气泡，适配任意架构！》。作者郑启航深入分析了开源编译器 Luminal，并结合其在 H200 上运行 gemma-3-4b 的实际测试，梳理了其 I…

AI产业动态 5天前

107000

大模型推理

Mirage Persistent Kernel：突破LLM推理极限，自动巨核化技术实现1.7倍性能飞跃

关键词：#MPK、#LLM推理、#MegaKernel、#SM级任务图、#多GPU优化、#跨算子优化 MPK 作为首个自动 Mega Kernel 化多 GPU LLM 推理的编译器-运行时系统，以 SM 级 tGraph 打破核间壁垒，让跨算子软件流水线与细粒度计算-通信重叠从理论走向实用；无需修改模型代码，仅需数行 PyTorch 集成，它即可在 A…

2026年1月5日

441000