Triton
-
AMD Iris:Triton原生多GPU通信库,以Tile级抽象实现1.79倍性能飞跃,重塑计算-通信融合范式
关键词:Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程 现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。 然而,多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡:高性能实现通常依赖于低层 HIP/CUDA 通信库,即便实现基本的 重叠模式也需要大量工程努力;而更简单的抽象则往往牺…
-
突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%
我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…