MegaKernel
-
Luminal编译器实测翻车?fp32推理远逊vLLM,FlashAttention融合尚未实现
我们之前推送过多篇关于 Mega Kernel 的文章,今天来探讨这篇:《无需手动构建MegaKernels!Luminal 编译生成 MegaKernels:解决 GPU SM 负载不均,消除内核启动开销与内存气泡,适配任意架构!》。作者郑启航深入分析了开源编译器 Luminal,并结合其在 H200 上运行 gemma-3-4b 的实际测试,梳理了其 I…
-
Mirage Persistent Kernel:突破LLM推理极限,自动巨核化技术实现1.7倍性能飞跃
关键词:#MPK、#LLM推理、#MegaKernel、#SM级任务图、#多GPU优化、#跨算子优化 MPK 作为首个自动 Mega Kernel 化多 GPU LLM 推理的编译器-运行时系统 ,以 SM 级 tGraph 打破核间壁垒,让跨算子 软件流水线与细粒度计算-通信重叠从理论走向实用;无需修改模型代码,仅需数行 PyTorch 集成,它即可在 A…
