分段编译
-
AMD ATOM推理引擎:如何用分页KV缓存和分段编译实现大模型推理性能翻倍
在探讨大模型推理优化时,最引人注目的往往是单一算子的性能提升:GEMM 加速了多少,Attention 快了百分之几,MoE 路由是否已经融合。然而,真正左右线上服务体验的,并非单个 kernel 的峰值指标,而是一条请求从 HTTP 入口进入,经历分词、调度、写入 KV 缓存、进入 GPU 图执行、经过采样,再到流式返回的完整生命周期。 以下图表展示了 D…
在探讨大模型推理优化时,最引人注目的往往是单一算子的性能提升:GEMM 加速了多少,Attention 快了百分之几,MoE 路由是否已经融合。然而,真正左右线上服务体验的,并非单个 kernel 的峰值指标,而是一条请求从 HTTP 入口进入,经历分词、调度、写入 KV 缓存、进入 GPU 图执行、经过采样,再到流式返回的完整生命周期。 以下图表展示了 D…