跨平台优化
-
LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式
关键词:LLM、内核生成、自动化优化、智能体、基准测试 现代人工智能系统的性能从根本上受制于底层内核的质量,这类内核可将高层算法语义转化为底层硬件操作。要实现接近最优性能的内核,需要研发人员具备专家级的硬件架构知识与编程模型认知,这使得内核工程成为一项至关重要但耗时冗长且不具备可扩展性的工作。 Towards Automated Kernel Generat…
-
突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%
我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…