自动调优 - 鲸林向海

TorchInductor引入CuteDSL后端：GPU推理性能提升1.78倍，自动调优技术革新GEMM计算

关键词：TorchInductor、CuteDSL、GEMM、GPU 推理、自动调优 “在抽象-性能权衡的赛道上，每一种优秀的领域特定语言（DSL）都占据着独特位置。” PyTorch 的 TorchInductor 此前已支持 Triton、CUTLASS（C++）和 cuBLAS 三大自动调优后端。CuteDSL 的加入，不仅填补了由 Python 编写…

2026年4月20日

326000

大模型推理

突破硬件壁垒：基于Triton的跨平台Attention内核实现5.9倍推理加速，性能达SOTA 105.9%

我们所研究的优化方法累计实现了高达 589%的性能提升，并已将相关内核与框架作为开源项目贡献（ ibm.biz/vllm-ibm-triton-lib ）。最终，我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。关键词：Triton、Attention Kernel 、Portability 、Large Language Mod…

2025年12月21日

860000