自动调优
-
TorchInductor引入CuteDSL后端:GPU推理性能提升1.78倍,自动调优技术革新GEMM计算
关键词:TorchInductor、CuteDSL、GEMM、GPU 推理、自动调优 “在抽象-性能权衡的赛道上,每一种优秀的领域特定语言(DSL)都占据着独特位置。” PyTorch 的 TorchInductor 此前已支持 Triton、CUTLASS(C++)和 cuBLAS 三大自动调优后端。CuteDSL 的加入,不仅填补了由 Python 编写…
-
突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%
我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…
