Triton

告别AI作弊与偷懒：强化学习如何成为真正的GPU内核优化专家

关键词：强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化告别“作弊”与“偷懒”，让强化学习成为真正的 GPU 内核优化专家训练一个能够编写高效 GPU 内核的 AI 程序员，是加速大模型训练的关键。然而，在实践中，AI 往往会陷入两种困境：一是“作弊”，即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励；二是“偷懒”，即只解决简单…

2026年3月17日

370000

AI产业动态

AMD Iris：Triton原生多GPU通信库，以Tile级抽象实现1.79倍性能飞跃，重塑计算-通信融合范式

关键词：Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。然而，多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡：高性能实现通常依赖于低层 HIP/CUDA 通信库，即便实现基本的重叠模式也需要大量工程努力；而更简单的抽象则往往牺…

2026年1月9日

399000

大模型推理

突破硬件壁垒：基于Triton的跨平台Attention内核实现5.9倍推理加速，性能达SOTA 105.9%

我们所研究的优化方法累计实现了高达 589%的性能提升，并已将相关内核与框架作为开源项目贡献（ ibm.biz/vllm-ibm-triton-lib ）。最终，我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。关键词：Triton、Attention Kernel 、Portability 、Large Language Mod…

2025年12月21日

860000