JIT编译
-
AMD AITER深度解析:融合四种后端的MoE加速引擎,GEMM自动调优与JIT编译实战
在大型模型推理的战场上,算子的性能是构建一切的基础。随着Transformer模型的参数规模突破千亿级别,并且MoE架构逐渐成为行业标配,单一的Kernel实现早已无法满足不同形状、不同精度以及不同硬件代际的多样化需求。 AITER(面向ROCm的AI张量引擎)是AMD推出的一款高性能AI算子库,专为基于ROCm的推理与训练负载提供经过深度优化的GPU核心运…
在大型模型推理的战场上,算子的性能是构建一切的基础。随着Transformer模型的参数规模突破千亿级别,并且MoE架构逐渐成为行业标配,单一的Kernel实现早已无法满足不同形状、不同精度以及不同硬件代际的多样化需求。 AITER(面向ROCm的AI张量引擎)是AMD推出的一款高性能AI算子库,专为基于ROCm的推理与训练负载提供经过深度优化的GPU核心运…