揭秘LLM推理两阶段瓶颈：从GPU微架构根源到跨场景高效部署策略

关键词：LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability

A Systematic Characterization of LLM Inference on GPUs
https://arxiv.org/pdf/2512.01644

本文对 GPU 上的 LLM 推理进行了多层面系统表征，核心聚焦 Prefill 与 Decode 两阶段的异质性及优化路径。

研究发现，两阶段虽核心计算内核（DM、FA、EW）分布相似，但瓶颈存在本质差异 ：

Prefill 为计算受限，依赖大张量高数据复用，算术强度（AI）达 55-100 FLOP/byte；
Decode 为内存受限，因逐 token 执行与 KV 缓存频繁访问，AI 仅 1-10 FLOP/byte。

能量消耗呈 Decode 主导的线性特征 ，可通过提示预测输出长度进而精准预估。 系统级扩展分析表明：

【多 GPU 环境】，Prefill 适配张量并行（TP）实现近线性加速，而 Decode 因通信开销抵消并行收益，单 GPU 或管道并行（PP）更优 ；
【边缘设备】，内存带宽不足与功耗约束加剧了两阶段瓶颈分化，Prefill 触发频率节流，Decode 内存敏感性进一步放大。

新兴架构与工作流重塑了瓶颈格局： MoE 架构通过稀疏激活解耦模型容量与计算成本，但 Decode 阶段路由开销显著；RAG 工作流随知识库扩容，瓶颈从 GPU 计算转移至 CPU 侧检索与内存访问 。

表5：该表凝练四大核心见解：1. 性能瓶颈呈阶段依赖性与动态性，填充与解码随输入长度存在 latency 切换点，算子瓶颈在 FFN 与 Attention 间迁移，微架构上填充为计算受限、解码为内存受限；2. 能耗以解码为主导且可预测，与输出 token 数、模型参数近线性相关，结合 prompt 可预估算能；3. 扩展规律由阶段特征决定，多 GPU 中填充宜用 TP、解码宜单 GPU/PP，边缘设备会放大资源约束；4. MoE（解耦模型容量与计算成本）与 RAG（瓶颈转向 CPU 检索）重塑推理瓶颈。

基于上述发现，本文提出阶段解耦部署、内核优化、自适应并行等策略 ，为云端到边缘的异质环境下 LLM 高效部署提供了理论支撑与实操指南。

本文目录

关键问题
- 问题一：混合负载场景下 Prefill 与 Decode 的资源争夺冲突及突破路径
- 问题二：MoE+RAG 叠加场景下的架构范式革新与跨模块协同优化框架
五、根本原因解析：明确“为何”——微架构层面的成因
- 5.1 执行边界分析
- 5.2 指令发射停顿分析
- 5.3 内存访问模式分析
六、扩展分析：验证“如何”——系统级主导原则
- 6.1 多 GPU 扩展规律
- 6.2 边缘端扩展特性
七、重新定义边界：探索“何处”——范式变革
- 7.1 混合专家模型（MoE）架构中的权衡关系
- 7.2 工作流设计：检索增强生成（RAG）闭环
八、优化指南
- 系统架构与调度
- 微架构与内核优化
- 并行策略选择
- 特定领域优化
结论

关键问题

问题一：混合负载场景下 Prefill 与 Decode 的资源争夺冲突及突破路径

论文证实 Prefill（计算受限）与 Decode（内存受限）的两阶段异质性是 LLM 推理的核心特征，且 最优并行策略需严格“相位感知”（Prefill 适配张量并行，Decode 适配单 GPU/管道并行） 。
但在实际混合负载场景中（如同时处理短输入 Decode 主导的聊天请求与长输入 Prefill 主导的摘要请求）， 两种负载对硬件资源（计算核心/内存带宽）的争夺会导致相位切换时的调度冲突 ，现有“相位解耦部署”策略难以平衡吞吐量与 latency，这种冲突是否存在本质上的不可调和性？ 其背后的资源分配悖论该如何突破？

冲突本质： 并非不可调和，核心是“资源需求异质性”与“调度刚性”的矛盾 ，具体来说：

Prefill（计算受限）需高密度计算核心与 Tensor Core 利用率
Decode（内存受限）需高带宽内存与低延迟 KV-cache 访问

混合负载中二者对硬件资源的“竞争性需求”确实会导致调度冲突（ 如计算核心被 Prefill 占用时 Decode 带宽利用率下降，或 Decode 占用带宽时 Prefill Tensor Core 闲置 ），但这种冲突并非本质不可调和——其核心矛盾是传统“统一资源调度”无法适配两阶段的差异化需求，而非资源总量的绝对不足。

突破路径，是基于优化指南的三层协同方案 ：

硬件层：相位解耦部署与资源隔离
- 作者明确提出“Phase-Decoupled Serving”，将 Prefill 路由至计算优化型 GPU（如高 Tensor Core 密度的 A100），Decode 路由至带宽优化型硬件（如高 HBM 带宽的实例） ；
- 若硬件无法物理解耦，则通过“Chunked Prefill”将长输入 Prefill 拆分为小块与 Decode interleaved 执行，避免单一阶段长期占用资源，缓解混合负载的延迟陷阱。
调度层：预测性动态资源分配
利用论文证实的“能量-输出长度线性关系（R² >0.99）”与“输出长度可通过 Prompt 预测”的特性，提前预判请求的 Phase 占比（如 Chat 请求以 Decode 为主，Summary 请求以 Prefill 为主），采用“最短剩余处理时间（SRPT）调度”动态分配资源 ：
- 对 Decode 主导的短输入请求，优先保障内存带宽与 KV-cache 访问优先级；
- 对 Prefill 主导的长输入请求，临时扩容计算核心占用比例，避免资源静态分配导致的浪费。
内核层：资源冲突掩码优化
针对 Prefill 阶段的 Tensor Core 饱和与 Decode 阶段的带宽需求，通过“指令级并行与K-tile双缓冲”策略提升Prefill计算效率，缩短其资源占用时长；
对 Decode 阶段的 KV-Cache 采用“分组查询注意力（GQA）与量化”策略，降低其带宽占用强度，为 Prefill 阶段释放部分资源余量，实现两阶段资源需求的“错峰适配”。

问题二：MoE与RAG叠加场景下的架构范式革新与跨模块协同优化

MoE 架构在 Decode 阶段存在显著的路由开销，而 RAG 工作流会将瓶颈从 GPU 计算转移至 CPU 侧的检索内存带宽约束。当两者结合（MoE+RAG）时，会形成“GPU 侧 Decode 路由开销”与“CPU 侧检索带宽瓶颈”的叠加效应。在此情况下，传统的“以 GPU 优化为核心、CPU 辅助”的系统架构范式是否已彻底失效？应如何设计一个跨硬件（CPU/GPU）、跨阶段（Prefill/Decode）、跨模块（模型推理/检索）的协同优化框架，以避免两端瓶颈相互放大？

传统架构失效的结论成立，需要从“以GPU为中心”转向“CPU-GPU硬件协同的异构计算范式”。

MoE 的 Decode 阶段路由开销（18.6%–28.1%）与 RAG 在 CPU 侧的检索带宽瓶颈（当知识库达 18GB 时，检索延迟占比超 60%）形成了“GPU 侧延迟与 CPU 侧延迟叠加”的恶性循环。传统的“GPU 负责推理、CPU 辅助检索”架构无法打破此循环，因为两者的瓶颈均源于“单一硬件无法同时满足双模块的差异化需求”。

基于此，设计跨硬件、跨阶段、跨模块的协同优化框架，可遵循以下三点：

GPU 侧：优化 MoE 路由与 Decode 瓶颈
- 采用专家亲和性调度，将激活同一组专家的请求分组处理，减少小批量下的权重碎片化，提升 L2 缓存命中率（从 25.6% 提升至 43.2%），从而降低 Decode 阶段的路由开销与内存带宽压力。
- 对 MoE 的 FFN-Up 层应用权重量化，缓解其内存受限特性，为路由操作释放带宽资源。
CPU 侧：加速 RAG 检索瓶颈
- 优化检索流程中的数据局部性，通过向量分块存储与预取提升 L2 缓存命中率，降低 CPU 侧数据访问延迟。
- 将 RAG 中占比超 60% 的边缘/顶点向量匹配计算卸载至近内存计算单元，利用其高带宽优势解决 CPU 内存带宽瓶颈。
系统层：动态阶段-模块协同调度
- 基于阶段自适应并行策略，在 Prefill 阶段采用张量并行加速 MoE 专家计算，在 Decode 阶段切换至单 GPU 配合流水线并行以减少路由通信开销。
- 建立 CPU-GPU 资源动态反馈机制：当 RAG 检索占用大量 CPU 带宽时，临时降低 Decode 阶段对 KV-Cache 的访问频率；当 MoE 路由占用大量 GPU 资源时，将 RAG 检索任务分流至空闲的 CPU 核心，避免两端瓶颈相互放大。

图17. RAG可扩展性表征：（a）不同知识库大小下GPU推理与CPU检索的延迟分布；（b）内存流量细分；（c）知识图谱检索的详细时间细分

该框架的核心在于 “以硬件异构适配模块异构，以动态调度平衡阶段瓶颈” ，完全契合“跨异构环境部署 LLM 需架构与系统协同设计”的核心结论。

五、根本原因解析：微架构层面的成因

前文分析揭示了大语言模型推理中显著的两阶段异质性，但这些发现仍停留在聚合性能指标层面。核心问题依然存在：
* 哪些底层算子驱动了这些阶段差异？
* GPU 执行资源在每个阶段是如何被利用（或浪费）的？

为揭示宏观现象背后的微架构机制，本节系统探究了阶段差异的计算根源。我们首先识别并量化了主导执行时间的核心 CUDA 内核，随后通过 Roofline 分析诊断其资源约束，再借助 Warp 停顿分析定位硬件级效率瓶颈，最后考察内存访问模式。

5.1 执行边界分析

本节识别并分类了占执行时间主导地位的 CUDA 内核，分析其计算特征与硬件资源约束。

5.1.1 内核分类与时间分布

我们重点关注耗时最多的前 5 个 CUDA 内核——它们合计占 Prefill 阶段执行时间的 90% 以上，占 Decode 阶段的 85% 以上。对这些关键内核的分析揭示了每个阶段的核心计算模式。

根据内核在 LLM 架构中的计算角色，我们将这些主导内核分为三类：
* 密集矩阵：包含用于前馈网络（如门控-上投影、下投影）和注意力机制（如 Q/K/V 投影、输出投影）的密集矩阵乘法。
* 融合注意力：包含融合注意力内核（如 FlashAttention），这类内核通过融合注意力计算的多个步骤来最小化内存移动。
* 逐元素运算：包含激活函数、归一化、位置编码等逐元素运算。

图8. 密集矩阵内核在（a）Prefill阶段和（b）Decode阶段均始终占主导地位，这表明尽管性能特征存在差异，但它们具有相似的计算结构。在每个场景组中，三个条形从左到右分别代表Llama-3-8B、Qwen2.5-7B和Qwen2.5-32B。

从图 8(a) 和 (b) 可观察到一个显著模式：尽管 Prefill 和 Decode 阶段的性能存在根本差异，但两阶段的内核类型分布却极为相似，且密集矩阵内核在两个阶段均主导执行时间。这种“阶段异质性下的分布相似性”表明，核心计算模式保持一致，差异主要体现在内核效率与资源利用率上。

5.1.2 Roofline 分析

Roofline 模型将算术强度（AI，即每字节数据访问对应的浮点运算次数）与可达性能关联，为诊断算子是计算受限还是内存受限提供了直观方法。

图9. 在聊天场景下，在张量核心上测得的主要内核的 Roofline 分析。

图 9(a) 和 (b) 展示了两种代表性模型（Llama3-8B 和 Qwen2.5-32B）在聊天场景下关键内核的 Roofline 分布。

Prefill 和 Decode 阶段在 Roofline 空间中呈现系统性分离：
* Prefill 阶段的内核（算术强度较高，约 55–100）属于计算受限，这与密集矩阵乘法的执行特征一致。
* Decode 阶段的内核（算术强度较低，约 1–10）属于内存受限，其原因是频繁的键值缓存访问。

填充阶段本质上是计算受限，解码阶段本质上是内存受限。

按内核类别进一步拆解可更清晰地理解这一行为：

密集矩阵（DM）内核（如 FFN.gate.up.proj、Attn.qkv.proj）在填充阶段具有高算术强度和高性能；但在解码阶段，由于每个 token 的输入规模极小，其算术强度大幅下降，执行模式转向内存受限。
融合注意力（FA）内核（如 Attn.core）在填充阶段具有中等算术强度，平衡了计算与内存需求；而在解码阶段，重复的 KV 缓存访问进一步降低了其算术强度，使其完全落入内存受限区域。

值得注意的是，在长上下文工作负载（如摘要场景）中，注意力机制的二次复杂度会显著提升算术强度——填充阶段 Llama3-8B 的算术强度可达 319.3，Qwen2.5-32B 可达 382.1——这使得注意力内核更深地进入计算受限区域。

两阶段异质性的根源在于张量规模与数据复用的差异：
* 填充阶段利用大规模张量实现高数据复用。
* 解码阶段针对单个 token 的小规模输入进行运算，且内存访问频繁。

这决定了它们分别属于计算受限和内存受限。

5.2 指令发射停顿分析

Roofline 分析识别了资源约束类型，而 GPU 停顿行为则解释了填充与解码阶段的性能差异。

图10. 聊天场景下 Llama3-8B 推理的指令发射停顿分析。(a) 停顿时间占总执行时间的比例；(b) 预填充（Prefill）和解码（Decode）阶段停顿原因的详细分类。缩写：QKV-Proj：查询/键/值投影；AttnCore：核心注意力计算（例如，FlashAttention）；O-Proj：注意力的输出投影；FFN-Up：前馈网络中的上投影和门控融合；Act（SiLU）：前馈网络中的激活和逐元素乘法；FFN-Down：前馈网络中的下投影层；LayerNorm：层归一化；P：预填充；D：解码

图 10(a) 中的 warp 级分析显示，两个阶段的 GPU 执行率（填充阶段 27%、解码阶段 24%）均较低，这意味着 70%–80% 的周期都处于停顿状态。然而，两阶段停顿的根本原因存在本质差异，具体如图 10(b) 所示。

5.2.1 填充阶段停顿

在填充阶段，以 QKV-Proj、O-Proj、FFN-Up、FFN-Down 为代表的密集矩阵乘法（GEMM）密集型内核，主要因执行依赖（约 39%） 和流水线繁忙（约 37%） 而停顿（图 10(b)）。这种模式揭示了填充阶段计算受限的微架构根源：

填充阶段面临计算吞吐量与指令延迟的双重饱和：“流水线繁忙”表明张量核心（Tensor Core，GPU 中专门用于加速矩阵乘法的计算单元）持续处于高利用率状态；“执行依赖”则反映了 warp 需要等待长延迟的 HMMA 指令（混合矩阵乘法累加指令，张量核心的核心运算指令）完成。

“内存依赖”占比低（24%），这验证了高算术强度和数据复用可有效掩盖内存延迟。注意力内核的停顿分布较为均衡，与其“内存感知”设计（如 FlashAttention 的内存优化）一致；而逐元素运算（如 Act(SiLU)）则仍受内存依赖影响。

5.2.2 解码阶段停顿

解码阶段的停顿特征发生根本转变：“流水线繁忙”占比骤降至 3%–4%，而“内存依赖”成为主导因素。这表明：解码阶段主要受内存带宽限制，原因是并行度有限且 KV 缓存访问密集，内存延迟成为核心瓶颈。

这种转变在注意力内核（AttnCore）中尤为明显——其主导停顿类型从填充阶段的“执行依赖（32.8%）”转变为解码阶段的“内存依赖（32.7%）”，这与密集的 KV 缓存操作一致。进一步分析发现，解码阶段的密集矩阵（DM）内核存在异质性瓶颈：

FFN-Up 内核受内存限制：“内存依赖”占比达 58%，原因是其采用类 GEMV（矩阵向量乘法）的计算模式，无法掩盖高带宽内存（HBM）的权重加载延迟。
O-Proj/FFN-Down 内核受执行依赖限制：“执行依赖”占比达 51%，原因是寄存器压力极高（约 130 个活跃寄存器），限制了可调度的 warp 数量，无法掩盖 HMMA 指令延迟。

由此可得出结论：解码阶段的密集矩阵内核存在异质性瓶颈——FFN-Up 受内存带宽限制，而 O-Proj/FFN-Down 受指令依赖限制。

此外，LayerNorm（层归一化）的“同步停顿”占比显著增加（从 11.0% 升至 27.7%），这表明：解码阶段的小批量归约操作（如层归一化中的均值计算）会加剧同步开销，原因是早完成的 warp 需要在屏障（barrier，用于同步 warp 执行的机制）处等待晚完成的 warp，产生“尾延迟”效应。

5.3 内存访问模式分析

图11. Llama-3-8B 中关键内核的内存性能。(a) 聊天场景下的 DRAM 带宽和 (b) L2 命中率；(c) 摘要场景下的 DRAM 带宽和 (d) L2 命中率

通过考察 DRAM 带宽利用率（实际使用带宽占硬件峰值带宽的比例）和 L2 缓存命中率（访问 L2 缓存时命中的比例，反映数据局部性）这两个关键指标，我们完成了微架构层面的特征分析，探究了 Llama-3-8B 在聊天（图 11(a)(b)）和摘要（图 11(c)(d)）场景下内核级的内存模式。我们通过解码与填充阶段内核级指标的中位数差异来量化阶段转变，以此作为趋势变化的稳健衡量标准。

5.3.1 阶段级内存特征

在聊天场景中，从填充到解码阶段，DRAM 利用率中位数增加 48.2%，而 L2 缓存命中率中位数下降 54.0%；摘要场景的变化更为显著——DRAM 利用率增加 56.2%，L2 缓存命中率下降 58.5%。这些一致的模式揭示了一个核心结论：

与填充阶段相比，解码阶段明显更依赖 DRAM 带宽，且数据局部性更低。这种根本差异源于内在计算模式的不同：填充阶段利用大规模密集矩阵乘法实现高数据复用；而解码阶段采用逐 token 执行，且 KV 缓存访问频繁，算术强度不足以掩盖内存延迟。

5.3.2 算子级内存模式

我们分析了从填充到解码阶段，不同算子的内存行为变化：

注意力内核：数据局部性严重下降——聊天场景中 L2 缓存命中率下降 81.9%，摘要场景下降 73.3%，而 DRAM 利用率最高增加 76.4%。注意力内核从“计算友好型”转变为“内存受限型”，原因是 KV 缓存的全量扫描：填充阶段的集中式访问最大化了数据复用，而解码阶段对 KV 缓存的分散式读取破坏了局部性，导致性能受带宽限制。
FFN 内核：瓶颈发生转移——DRAM 利用率增加 62%，算术强度从约 95 骤降至约 8 FLOP/byte。FFN 从计算受限转变为内存受限，权重加载带宽成为主要约束：填充阶段的批量密集矩阵乘法可复用权重，而解码阶段的逐 token 类 GEMV 运算需从 DRAM 重新加载权重。
LayerNorm（层归一化）：局部性提升——DRAM 利用率下降 78%–82%，L2 缓存命中率略有上升。其小规模工作集（层归一化所需的输入数据量小）可完全放入片上缓存，因此不会成为瓶颈。

5.3.3 场景依赖的内存行为

我们分析了不同场景下内存行为的差异，重点关注上下文长度与阶段特定内存特征的相互作用。对比分析揭示了聊天与摘要场景的相反趋势：

当切换到长上下文的摘要场景时，解码阶段注意力核心（AttnCore）的DRAM利用率额外增加了38.1%，而填充阶段的利用率则下降了9.3%。这种差异证实：扩展上下文长度会系统性加剧注意力核心的内存瓶颈。其根本原因在于：填充阶段可以通过增强数据复用来缓解内存压力，而解码阶段的KV缓存大小随上下文长度线性增长，导致带宽压力进一步加大，使其内存受限的特征更加显著。

六、扩展分析：验证“如何”——系统级主导原则

在明确了根本原因后，我们进一步考察这些“阶段感知”原则如何在不同的实际部署场景中主导系统性能。

在多GPU环境中，我们证明：计算密集的填充阶段通过张量并行（TP）可实现最优扩展，而内存密集的解码阶段则更受益于流水线并行（PP），因为其通信开销更低。
当扩展到边缘设备时，我们发现资源约束会放大这些阶段特定特征：有限的内存带宽加剧了解码阶段的瓶颈，而热约束触发的降频对填充阶段性能的影响尤为显著。

这些扩展实验验证了“两阶段范式”在不同系统规模下均普遍成立。

6.1 多GPU扩展规律

基于“阶段感知”的扩展基础，我们针对填充和解码阶段的不同计算特征，在多GPU环境中评估了不同的并行策略。

我们系统性地对比了张量并行、流水线并行和混合并行。以Qwen2.5-32B模型在4块A100 GPU上的实验为例，我们测试了以下六种配置：

Single：单GPU基准。
TP2：2-GPU张量并行。
PP2：2-GPU流水线并行。
TP4：4-GPU张量并行。
PP4：4-GPU流水线并行。
TP2+PP2：4-GPU混合并行，由两个TP2组构成流水线阶段。

我们选择了两种代表性工作负载来覆盖关键场景：

聊天（Chat）：输入64个token，输出128个token（解码主导型）。
摘要（Summary）：输入4096个token，输出16个token（填充主导型）。

6.1.1 整体性能

我们通过评估跨工作负载的端到端性能，分析了并行策略与阶段特定模式的相互作用，结果如表4和图12所示。

表4. 不同并行化策略在两种代表性工作负载下的性能比较：输入短、输出长的聊天；输入长、输出短的摘要。

图12. 在两种典型工作负载下，不同并行化策略的预填充和（每步）解码延迟：（a）输入短、输出长的聊天；（b）输入长、输出短的摘要。

聊天场景：解码主导型

单GPU配置实现了最优吞吐量（22.2 token/s），而所有并行配置均降低了吞吐量（TP2：20.5 token/s，PP2：21.1 token/s）并增加了延迟（从45.1 ms/token增至53.9–55.0 ms/token）。图12(a)的阶段级分析显示：尽管TP2略微降低了填充延迟（46.1 ms→44.4 ms），但解码延迟因通信与同步开销而持续增加。由此得出关键结论：

对于解码主导型工作负载，通信与同步开销超过了计算并行的收益，因此单GPU执行在延迟和吞吐量上均最优。

摘要场景：填充主导型

张量并行表现优异：TP2将吞吐量提升了36.6%（达到11.2 token/s），延迟降低了27%（达到89.2 ms/token）。

图12. 在两种典型工作负载下，不同并行化策略的预填充和（每步）解码延迟：（a）输入短、输出长的聊天；（b）输入长、输出短的摘要。

如图12(b)所示，TP大幅缩短了填充时间（1.24 s→0.66 s）。而流水线并行的收益极小（PP2：8.2 token/s），甚至在PP4配置下出现性能下降（7.4 token/s）。由此可得出结论：

填充主导型工作负载从张量并行中显著受益——张量并行可有效分配密集矩阵乘法（GEMM）计算；而流水线并行因阶段序列化和“气泡”开销，性能提升有限。

这些结果揭示了根本的“阶段依赖扩展规律”，并导出关键设计洞见：

最优并行策略需具备阶段感知能力：填充阶段通过张量并行扩展，而解码阶段在单GPU或优化后的流水线并行下性能最佳。

6.1.2 时间分解

为了阐明性能差异，我们将内核时间分解为密集矩阵（DM）、融合注意力（FA）、逐元素（EW）和通信（Communication）四类，聊天与摘要场景的分解结果如图13所示。

图13. 不同并行化策略下的内核级时间分解：(a) 聊天场景（解码主导的工作负载）和(b) 摘要场景（预填充主导的工作负载）。P和D分别表示预填充阶段和解码阶段。堆叠条形图显示了在密集矩阵（DM）、融合注意力（FA）、逐元素（EW）和通信操作中花费的时间比例。

聊天场景：解码主导型

在单GPU执行中，密集矩阵（DM）内核占主导（>93%），融合注意力（FA）和逐元素（EW）合计占7%。多GPU配置呈现显著差异：

张量并行（TP） 引入了大量通信开销（填充阶段30%，TP4解码阶段>60%）。
流水线并行（PP） 保持了高密集矩阵（DM）占比（83%–90%），通信开销较低（5%–10%）。
混合并行（TP2+PP2） 的通信开销介于两者之间。

这种差异源于通信模式：

张量并行需要在每一层执行频繁的集合操作（如All-Reduce），而在解码主导型工作负载中，每一步的计算量极小，无法分摊这些通信开销，导致通信成为主导。
流水线并行仅在阶段边界进行少量激活值传输，因此能保持较高的计算效率。

摘要场景：填充主导型

TP2引入了适度的通信开销（6%），同时通过并行化密集矩阵（DM）内核大幅缩短了填充延迟（1.24 s→0.66 s）。而PP2虽然引入了高通信开销（32%），却未带来相应的计算收益，填充延迟基本不变（1.23 s）。更激进的配置（TP4/PP4）则完全受通信主导（55%–64%）。

我们的分析得出结论：多GPU扩展效率由“计算-通信平衡”决定。张量并行在计算密集的填充阶段可以证明其开销的合理性，但在解码阶段，由于每一步的计算量过小，无法分摊通信开销，因此性能不佳。

6.2 边缘端扩展特性

边缘设备（如物联网设备、嵌入式设备）与数据中心GPU的计算约束存在根本差异——边缘设备计算能力有限、内存带宽低、功耗预算严格。为了理解LLM推理在这些约束下的扩展行为，我们在NVIDIA Jetson AGX Orin（一款面向边缘AI的嵌入式GPU开发板）上部署了Llama3-8B模型，并通过对比其与A100的Roofline分布和SM频率特征，分析了同一模型在资源受限边缘系统上的性能瓶颈变化。

6.2.1 内核级Roofline分析

我们通过Roofline分析（图14）考察了计算模式在边缘设备上的表现，揭示了约束如何重塑性能边界。

图14. Llama3-8B在Jetson AGX Orin上的计算特性：（a）峰值性能分析，展示了预填充和解码过程中关键内核的AI峰值性能与实际达到的性能对比；（b）在1.3 GHz频率限制下，跨transformer层的SM频率分布，揭示了依赖于阶段的DVFS行为。

填充阶段

自注意力内核（QKV-Proj、O-Proj、FlashAttention）保持了较高的算术强度，处于计算受限区域，表明其计算特征在不同平台间相对稳定。相比之下，FFN的密集矩阵乘法（GEMM）内核发生了显著转变：有限的缓存和LPDDR带宽迫使数据频繁移动，导致算术强度下降，瓶颈发生了根本性转变。

FFN 内核在数据中心 GPU 上是计算受限，而在边缘设备上转变为内存受限，对内存带宽和缓存资源的敏感性显著提升。

解码阶段

注意力和 FFN 内核均高度集中在带宽受限区域，算术强度低。“每一步计算量小”与“KV 缓存访问密集”的叠加导致内存压力极大：

解码阶段性能完全由 KV 缓存的数据移动主导，表现出极端的内存带宽敏感性，这进一步放大了填充与解码阶段的瓶颈差异。

综上，与数据中心环境相比，边缘设备上的 LLM 推理呈现出更显著的内存受限特征，且对 FFN 内核和解码阶段的影响尤为突出。

6.2.2 频率行为与 DVFS 影响

在 Roofline 分析基础上，我们考察了动态电压频率调节（DVFS，根据负载动态调整电压和频率以平衡性能与功耗的技术）与阶段特定模式的相互作用。图 14(b)展示了在 Jetson 平台 1.3 GHz 频率上限下，关键内核的 SM 频率分布。

填充阶段

计算密集的密集矩阵乘法（GEMM）内核（QKV-Proj、O-Proj、Gate-Up-Proj）的平均频率显著低于频率上限；而 FlashAttention（融合注意力内核）因计算-内存平衡更好，频率更接近上限。这种降频表明：

在功耗受限的边缘设备上，计算受限内核会触发激进的 DVFS 机制——为管理瞬时功耗和散热，不得不牺牲峰值性能。

解码阶段

解码阶段的频率行为与填充阶段显著不同：由于主导操作是内存密集的 KV 缓存访问（而非计算），解码阶段的频率分布更平稳，且在各层均更接近频率上限。较低的计算强度导致瞬时功耗需求降低，热压力减小，因此 DVFS 引发的降频更少。

这种频率分析揭示了阶段异质性的一个关键维度：

边缘设备呈现阶段依赖的 DVFS 行为——计算密集的填充阶段因功耗/热约束触发显著降频，而内存受限的解码阶段因计算压力小，可保持更高频率。因此， 填充阶段面临计算能力与功耗的双重约束，而解码阶段则仍受内存子系统限制。

七、重新定义边界：探索“何处”——范式变革

最后，我们研究了新兴的模型架构和工作流创新如何重新定义大型语言模型（LLM）推理的性能边界。

在模型架构方面，我们分析了混合专家模型（MoE）如何通过稀疏激活将总参数量与计算成本解耦，在降低延迟的同时引入了新的路由开销——这种开销在解码（Decode）阶段会变得十分显著。
在工作流整合方面，我们揭示了检索增强生成（RAG）如何将系统瓶颈从 GPU 计算转移到检索操作中的 CPU 端内存访问，从而形成一种新的异构执行范式。

这些研究表明，尽管“两阶段”视角仍然适用，但新的架构和工作流正在积极重塑性能瓶颈的出现位置与表现形式。

7.1 混合专家模型（MoE）架构中的权衡关系

我们通过在五个场景下对比稠密模型（全参数激活的传统 LLM 架构）与 MoE 模型，探究 MoE 的权衡关系以及该架构如何改变推理瓶颈。通过测量预填充（Prefill）/解码（Decode）延迟与内核级时间分布，我们揭示了稀疏激活如何引入独特的开销模式。

性能与开销的权衡

为了揭示 MoE 的性能-成本权衡关系，我们分析了内核级时间分布。

图15. 密集型架构与MoE架构的性能比较及内核级分析：（a）Qwen2.5-32B（密集型）与Qwen3-30B-A3B（MoE）的预填充和每步解码延迟比较；（b）MoE模型在五个应用场景下的内核时间分解

我们的分析对比了不同架构范式下的端到端延迟（图 15(a)），并对 MoE 的执行过程进行了分解（图 15(b)）——分解时在稠密模型的 DM（稠密矩阵运算）/FA（融合注意力运算）/EW（逐元素运算）分类基础上，新增了“MoE”（专家运算）和“Others”（路由及辅助运算）两类。

实验结果显示，与稠密模型相比，MoE 模型实现了显著的加速（预填充阶段 4.56 倍、解码阶段 2.39 倍），这表明：混合专家模型（MoE）通过稀疏激活实现了模型容量与计算成本的解耦，其推理性能由激活参数量而非总参数量决定。

时间分解结果显示：
* 预填充阶段的耗时主要由专家运算主导（占比 39.4%–76.0%），路由开销极小（占比 9.3%–16.3%）；
* 而在解码阶段，专家运算仍占较大比重（48.0%–69.8%），但路由开销大幅增加至 18.6%–28.1%，成为第二大耗时项。

这种阶段相关的开销模式源于：预填充阶段的并行性能够分摊路由延迟，而解码阶段的逐 token 生成会暴露路由开销，因此可得出：

混合专家模型（MoE）呈现出阶段相关的开销模式： 预填充阶段以专家运算为主，而解码阶段会产生显著的路由开销，且该开销与专家运算共同构成主要性能影响因素。

前馈网络（FFN）效率的权衡

图16. 不同批处理大小下解码阶段FFN效率比较：（a）算术强度变化；（b）SM和DRAM利用率模式；（c）密集架构与MoE架构的L2缓存行为

我们进一步聚焦解码阶段的前馈网络（FFN）效率，在不同批大小下从以下三个维度对比稠密模型与 MoE 模型：算术强度（图 16(a)）、流多处理器（SM，GPU 核心计算单元）与 DRAM（显存）利用率（图 16(b)）、缓存行为（图 16(c)）。

算术强度分析揭示了两者的根本差距：稠密模型的 FFN 算术强度可提升至 15.74 FLOP/字节，而 MoE 模型的 FFN 算术强度始终较低（仅 8 FLOP/字节），这是因为 MoE 的路由机制会将全局批次分散到各个专家中，导致每个专家的有效批大小变小，无法达到稠密模型的计算强度，从而从根本上限制了矩阵乘法（GEMM）的效率。

硬件利用率分析进一步凸显了这种差异： 稠密模型的 FFN 会逐步向计算受限状态演进（SM 利用率从 41.7%提升至 76.5%，DRAM 压力随之降低）， 而 MoE 模型的 FFN 则始终维持低 SM 利用率（28%–34%）和高 DRAM 压力（小批大小时 DRAM 利用率达 80%）。

这表明：混合专家模型（MoE）的前馈网络（FFN）同时面临计算利用率不足与显存带宽饱和的问题，体现了稀疏专家划分机制为换取模型容量而牺牲计算效率的本质。

缓存分析则完整呈现了 MoE 缓存效率的批大小敏感性：
* 批大小较小时，MoE 的 L2 缓存命中率较低（25.6%，而稠密模型为 44.6%），这是因为专家权重的复用性被割裂；
* 批大小增大（如 128）时，MoE 的 L2 缓存命中率会超过稠密模型（43.2% vs 37.8%），这是因为 token 在专家中的集中度提升，权重复用性改善。

这表明：混合专家模型（MoE）的缓存效率具有强烈的批大小依赖性，需要足够的并发量（通过面向专家的 token 路由）才能实现有效的权重复用。

综上，混合专家模型（MoE）解码阶段的前馈网络（FFN）面临着由划分机制、带宽饱和与缓存行为敏感性共同导致的复合挑战。

7.2 工作流设计：检索增强生成（RAG）闭环

检索增强生成（RAG）已成为整合外部知识的标准范式。此前的分析主要聚焦于以 GPU 为核心的推理过程，而我们则探究了整合检索模块如何重塑系统瓶颈。我们基于 LightRAG 实现了一个混合 RAG 工作流。

端到端工作流的可扩展性

图17. RAG可扩展性表征：（a）不同知识库大小下GPU推理与CPU检索的延迟分布；（b）内存流量细分；（c）知识图谱检索的详细时间细分

图 17(a)展示了工作流随知识库规模变化的演进规律：随着知识库从 1.1GB 扩大到 18GB，CPU 端的知识图谱（KG）检索延迟占比逐渐升高，在大规模知识库下变得不可忽视。内存分析（图 17(b)）证实了这一转变——KG 检索会显著增加 CPU 端的内存流量，而 GPU 的内存模式则保持稳定。

这表明：知识库规模扩大时，系统瓶颈会从 GPU 计算转移到 CPU 端的检索与内存开销，形成一种新的异构范式——工作流同时受 GPU 吞吐量与 CPU 内存效率的双重约束。

知识图谱（KG）检索的时间分解

图17. RAG可扩展性表征：（a）不同知识库大小下GPU推理与CPU检索的延迟分布；（b）内存流量细分；（c）知识图谱检索的详细时间细分

图 17(c)中的时间分解结果定位了 CPU 端的瓶颈：在大规模知识库下，边匹配（Edge Matching）和顶点匹配（Vertex Matching）主导了检索耗时，而图遍历（边/顶点遍历）和文本处理（获取上下文、上下文处理）的耗时则极小。

这表明检索的主要成本在于对不断扩大的向量库进行相似度匹配计算，而非复杂的图操作。随着知识库规模增长，向量库的线性扩展会导致计算开销增加，而稀疏的图连接性则限制了遍历开销的增长。

这种差异引出了一个关键的架构洞察：知识图谱检索增强生成（Graph-RAG）工作流的最终瓶颈在于相似度计算而非图遍历——相似度匹配主导了 CPU 端的耗时，而图操作对总延迟的贡献极小。

知识图谱（KG）检索的微架构特征

我们进一步探究了 KG 检索瓶颈在微架构层面的表现。

图18. 检索阶段（18 GB知识库）的CPU微架构分析：（a）各子阶段的缓存层次结构效率；（b）揭示瓶颈来源的流水线利用率模式

缓存分析：图 18(a)显示，主导性的匹配操作具有高 L2 缓存命中率但低 L3 缓存利用率，这是流式工作负载的典型特征——具有强空间局部性但弱时间局部性（数据被访问一次后短期内不再复用）。
流水线分析：图 18(b)进一步表明，这些操作主要受后端限制（Backend Bound，CPU 核心因等待数据而停滞），尽管控制流效率较高。

综合这些视角可得出：知识图谱检索增强生成（Graph-RAG）中的相似度匹配是一种受内存带宽限制的流式工作负载，其瓶颈在于内存吞吐量而非计算能力。

八、优化指南

核心研究发现总结于表 5。基于系统性的特征分析与研究发现，我们提出以下优化指南。

表5：该表凝练四大核心见解：1. 性能瓶颈呈阶段依赖性与动态性，填充与解码随输入长度存在延迟切换点，算子瓶颈在 FFN 与 Attention 间迁移，微架构上填充为计算受限、解码为内存受限；2. 能耗以解码为主导且可预测，与输出 token 数、模型参数近线性相关，结合 prompt 可预估算能；3. 扩展规律由阶段特征决定，多 GPU 中填充宜用 TP、解码宜单 GPU/PP，边缘设备会放大资源约束；4. MoE（解耦模型容量与计算成本）与 RAG（瓶颈转向 CPU 检索）重塑推理瓶颈。

系统架构与调度

分阶段解耦服务：
将预填充（Prefill）任务分配给计算优化型实例（如高 Tensor Core 算力的 GPU），将解码（Decode）任务分配给带宽丰富型硬件（如高显存带宽的 GPU）。
若硬件解耦不可行（如资源受限场景），则采用分块预填充（Chunked Prefill）实现交错执行，以缓解混合工作负载中的延迟陷阱。
基于可预测性的调度：
利用预填充延迟随未缓存 token 数量线性增长的特性，采用“最短剩余处理时间”调度策略。
利用能耗与输出 token 数量间可预测的线性关系，实现能耗感知的降频与任务放置策略。

微架构与内核优化

预填充（Prefill）延迟隐藏：
通过指令级并行、软件流水线与 K-tile 双缓冲，解决 Tensor Core 饱和与 HMMA 指令延迟问题。
利用持久化 GEMM 风格内核与 warp 级预取，维持流水线占用率。
解码（Decode）权重优化：
对内存受限的 FFN-Up 层采用仅权重量化，缓解带宽压力。
对执行受限的 O-Proj/FFN-Down 内核，优化寄存器分配或采用算子融合。
键值缓存（KV Cache）带宽管理：通过分组查询注意力（GQA）与 KV 缓存量化，降低内存占用。

并行策略选择

阶段自适应并行：
对预填充密集型工作负载（如长输入摘要任务）采用张量并行（TP）。
对解码密集型场景（如短输入对话任务）采用流水线并行（PP）或单 GPU 执行。
可采用动态并行切换或异构配置（如部分 GPU 用 TP、部分用 PP）。
通信-计算重叠：将投影矩阵拆分为中等大小的块，实现集合通信（如 All-Reduce）与 GEMM 计算的重叠执行。

特定领域优化

带宽感知的边缘执行：
在边缘设备（如 Jetson AGX Orin）上，优先考虑带宽节约与热稳定性，而非峰值吞吐量。
限制批大小，并针对 LPDDR 特性优化内存布局。
局部性感知的 MoE 路由：
在有效批大小较小时，采用专家亲和调度，改善权重局部性。在平衡负载的同时，将激活相同专家的任务分组。
检索增强生成（RAG）中的加速检索：
在条件允许时，将相似度计算卸载到近内存加速器。

结论

本研究通过微架构剖析、能量分析与系统缩放验证，构建了 GPU 上 LLM 推理的多维度表征体系，揭示了 Prefill 与 Decode 两阶段异质性的核心规律及其对部署效率的决定性作用。

研究证实，计算受限的 Prefill 与内存受限的 Decode 虽共享相似内核分布，却因张量规模、数据复用特性的差异呈现本质瓶颈分化，而能量消耗的强线性可预测性与相位依赖的缩放法则，为跨场景优化提供了量化依据。

针对多 GPU、边缘设备等异构环境，以及 MoE、RAG 等新兴架构与工作流带来的瓶颈重塑，本研究提出的相位解耦部署、自适应并行、内核优化等策略， 有效破解了计算与带宽争夺、通信与计算平衡、跨硬件协同等关键难题。

这些发现不仅填补了 LLM 推理从微观机制到宏观部署的认知空白，更为架构-系统协同设计提供了坚实的理论支撑。

未来，随着模型规模扩大、场景复杂度提升与硬件形态演进，LLM 推理的相位异质性可能呈现更复杂的动态特征， 新型混合架构（如 MoE+RAG）的瓶颈叠加效应仍需深度探索 。本研究建立的表征框架与优化思路，将为后续突破极端长上下文推理、低功耗边缘部署等挑战提供重要参考，助力 LLM 在更广泛异构环境中实现高效、经济的落地应用。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15174

揭秘LLM推理两阶段瓶颈：从GPU微架构根源到跨场景高效部署策略

本文目录

关键问题

问题一：混合负载场景下 Prefill 与 Decode 的资源争夺冲突及突破路径

问题二：MoE与RAG叠加场景下的架构范式革新与跨模块协同优化

五、根本原因解析：微架构层面的成因

5.1 执行边界分析

5.1.1 内核分类与时间分布

5.1.2 Roofline 分析

5.2 指令发射停顿分析

5.2.1 填充阶段停顿

5.2.2 解码阶段停顿

5.3 内存访问模式分析

5.3.1 阶段级内存特征

5.3.2 算子级内存模式

5.3.3 场景依赖的内存行为

六、扩展分析：验证“如何”——系统级主导原则

6.1 多GPU扩展规律

6.1.1 整体性能

聊天场景：解码主导型

摘要场景：填充主导型

6.1.2 时间分解

聊天场景：解码主导型

摘要场景：填充主导型

6.2 边缘端扩展特性

6.2.1 内核级Roofline分析

填充阶段

解码阶段

6.2.2 频率行为与 DVFS 影响

填充阶段

解码阶段

七、重新定义边界：探索“何处”——范式变革

7.1 混合专家模型（MoE）架构中的权衡关系

性能与开销的权衡

前馈网络（FFN）效率的权衡

7.2 工作流设计：检索增强生成（RAG）闭环

端到端工作流的可扩展性

知识图谱（KG）检索的时间分解

知识图谱（KG）检索的微架构特征

八、优化指南

系统架构与调度

微架构与内核优化

并行策略选择

特定领域优化

结论

相关推荐

英伟达200亿美元豪购Groq：黄仁勋的AI推理野心与LPU芯片的颠覆性革命

DeepSeek R1爆更86页论文：开源模型如何用强化学习实现推理能力突破

vLLM Playground：可视化界面让大模型推理部署零门槛

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

Android异构硬件AI推理优化：NPU+INT8量化实现298倍加速的深度解析