GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

关键词:LLM Inference 、GPU、 Two-Phase HeterogeneityMicroarchitectural AnalysisSystem Scaling 、Emerging Paradigms

我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。

我们的研究结果为理解 LLM 推理建立了系统性框架。这些见解既为未来模型-系统协同设计提供了理论基础,也为不同硬件环境下的实际部署提供了实用的优化指导。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

  • A Systematic Characterization of LLM Inference on GPUs
  • https://arxiv.org/pdf/2512.01644

本文针对大语言模型(LLM)推理研究碎片化的问题,提出了一套系统的表征框架。研究聚焦 LLM 推理的独特特性,通过多平台、多模型、多场景的全面实验,构建了“ 两阶段异质性观察、微架构根源分析、系统扩展原则、新兴范式边界四维分析体系

研究发现,LLM 推理的 Prefill 阶段(并行处理输入)受计算吞吐量约束,Decode 阶段(逐 token 生成输出)受内存带宽限制,两阶段存在动态瓶颈迁移——短输入时 Decode 占主导,长输入(约 2k tokens 后)Prefill 成为瓶颈。Prefill 延迟与未缓存令牌数呈强线性相关,能耗则由 Decode 阶段主导,且与输出长度近乎线性关联。此外,MoE 架构通过稀疏激活 decouple 模型容量与计算成本,RAG 则将瓶颈从 GPU 转移至 CPU,二者重塑了推理性能边界。

该研究为 LLM 推理提供了统一的实证基础,既验证了既有认知,又揭示了硬件-软件交互的核心规律,为多 GPU 并行优化、边缘设备部署及下一代模型-系统协同设计提供了关键理论支撑与实践指导。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

本文目录

  • 关键问题
    • 问题一:MoE 与 RAG 复合部署场景下,LLM 推理两阶段瓶颈迁移逻辑兼容性及四维框架量化效能
    • 问题二:边缘设备大参数量 MoE 部署,KV 缓存与路由开销叠加矛盾破解及功耗 – 推理效率平衡
  • 一、引言
  • 二、研究背景
    • 2.1 LLM 推理
    • 2.2 新兴范式:混合专家模型(MoE)与检索增强生成(RAG)
  • 三、表征方法学(Characterization Methodology)
    • 3.1 方法学(Methodology)
    • 3.2 实验设置
  • 四、现象观察——确立两阶段异质性
    • 4.1 预填充与解码阶段的资源利用差异
    • 4.2 预填充与解码阶段的动态性能行为
    • 4.3 能耗分析
  • 结论
  • 参考文献

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

关键问题

问题一:MoE 与 RAG 复合部署场景下,LLM 推理两阶段瓶颈迁移逻辑兼容性及四维框架量化效能

作者确立的“Prefill 受计算约束、Decode 受内存约束”核心异质性规律,在 MoE 稀疏激活与 RAG CPU-GPU 混合流水线复合部署的场景下,两阶段的瓶颈迁移逻辑是否会出现冲突或失效? 现有四维分析框架能否精准量化这种复合范式下的性能边界与优化优先级?

论文提出的四维分析框架可有效应对 MoE 与 RAG 复合部署场景,两阶段瓶颈迁移逻辑不会失效,但会呈现“叠加性约束”,框架通过跨层整合能力实现精准量化:

瓶颈迁移逻辑的兼容性

MoE 的稀疏激活带来 Decode 阶段路由开销与内存碎片化,RAG 则通过 CPU 侧检索扩展 Prefill 上下文长度并转移部分瓶颈至 CPU,二者并非冲突 而是形成“GPU 计算/内存约束+CPU 检索约束”的叠加。

这种叠加【未打破】“Prefill 计算约束、Decode 内存约束”的核心异质性,【仅】增加了约束维度——Prefill 因 RAG 扩展上下文而强化计算压力,Decode 因 MoE 路由开销进一步加剧内存带宽依赖,瓶颈迁移仍遵循“输入长度主导相位切换”的规律(短输入时 Decode+MoE 路由为瓶颈,长输入时 Prefill+RAG 上下文扩展为瓶颈)。

四维框架的量化能力

  • 框架通过“微架构根源分析”量化叠加约束,如 Roofline 建模测算 MoE 路由导致的算术强度变化,内存行为分析捕捉 RAG 上下文扩展带来的 KV 缓存压力;
  • “系统扩展原则”验证多 GPU/边缘环境下的优化适配,如张量并行缓解 Prefill+RAG 的计算压力,流水线并行降低 Decode+MoE 的内存阻塞,具体细节还是看后文;
  • “新兴范式边界”模块本身已覆盖 MoE 与 RAG 的单独特性,复合场景下可通过多维度指标耦合, 如检索 latency、路由开销、缓存命中率,实现性能边界量化,最终输出优化优先级。比方说,优先解决 CPU 检索瓶颈以释放 GPU Prefill 算力,再优化 MoE 专家分区以缓解 Decode 内存碎片化。

问题二:边缘设备(Jetson AGX Orin)大参数量 MoE 部署,KV 缓存与路由开销叠加矛盾破解及功耗 – 推理效率平衡

作者指出 Decode 阶段主导能耗且与输出长度线性相关,而边缘设备(如 Jetson AGX Orin)存在内存带宽与功耗的双重约束,当在边缘部署大参数量 MoE 模型时, 如何破解“Decode 的 KV 缓存内存密集访问”与“MoE 路由开销”的叠加矛盾,在不突破设备功耗上限的同时保障推理效率?

破解边缘设备(如 Jetson AGX Orin)上“KV 缓存内存密集访问+MoE 路由开销”的叠加矛盾,需基于作者提到的相位特性、能耗模型与系统扩展原则,采取“相位感知+稀疏优化+能耗约束”的协同方案:

  1. 针对 MoE 路由开销的优化:利用 MoE 稀疏激活可解耦模型容量与计算成本的特性,在边缘部署时采用动态专家激活策略——基于输入语义相似度限制激活的 top-k 专家数量(例如从 top-8 降至 top-4)。同时,通过内核优化减少专家切换带来的碎片化内存访问,以抵消路由开销对解码阶段的性能拖累。

  2. 缓解 KV 缓存的内存压力:结合解码阶段内存绑定的根源分析,针对边缘设备的内存带宽限制,采用“缓存分层+量化存储”方案:对高频访问的 KV 张量实施低精度量化(如 BF16 转 INT8),对低频上下文采用稀疏存储。同时,利用预填充阶段延迟与未缓存令牌线性相关的特性,预判缓存需求并动态释放无效上下文,以降低内存占用。

  3. 平衡能耗与性能的控制:基于解码阶段主导能耗且与输出长度线性相关的发现,在边缘设备上建立“能耗-输出长度-专家激活数”的联动模型:

    • 通过动态调整批处理大小(避免延迟陷阱)和专家激活阈值,在不突破功耗上限的前提下,优先保障核心令牌生成的效率。
    • 采用相位感知功耗调度:在预填充阶段集中 GPU 算力处理 RAG 扩展后的上下文;在解码阶段则降低 GPU 主频并限制专家并行数,以减少内存密集访问带来的能耗浪费。
  4. 适配系统级并行策略:依据“预填充阶段适配张量并行、解码阶段适配流水线并行”的结论,在边缘设备上采用混合并行架构——使用张量并行拆分 MoE 专家与 RAG 扩展后的预填充计算任务,使用流水线并行缓解解码阶段 KV 缓存访问与路由开销叠加造成的阻塞。最终目标是实现内存带宽占用降低 30% 以上,并将功耗控制在边缘设备上限之内。相关边缘部署的性能剖析已验证此类并行策略可有效放大瓶颈缓解效果。


一、引言

大型语言模型(LLM)推理已成为横跨数据中心到边缘设备的关键负载。随着 LLM 在各类应用中的部署不断扩展——从实时对话系统到复杂的检索增强生成(RAG)流水线——优化推理效率变得愈发重要

与传统深度学习负载不同,LLM 推理呈现出独特的两阶段执行模式:可并行化的预填充(Prefill)阶段和串行的解码(Decode)阶段。这种固有的计算异质性产生了相互冲突的硬件需求,这些需求决定了系统在延迟、吞吐量和能效等指标上的性能表现。

尽管预填充阶段的计算密集特性和解码阶段的内存密集特性已得到广泛认可,但当前研究大多将这种二分法视为静态假设,而非通过动态定量分析进行验证。模型架构日益复杂——尤其是向混合专家模型(MoE)范式的转变——再加上边缘计算、复杂 RAG 工作流等部署场景的不断扩展,使得硬件约束与软件特性之间的相互作用更加复杂。

这种现状催生了对系统性表征的迫切需求:该表征不仅需用严谨的微架构证据验证已有的认知,还需揭示执行模式、内存层次结构行为与能耗分布之间的基本关系。

现有表征研究在不同研究领域呈现出显著的碎片化特征:
* 聚焦设备和能耗的分析主要刻画特定平台的延迟和功耗模式,而量化研究则关注精度与性能的权衡。
* 内核和编译器层面的研究剖析注意力/通用矩阵乘法操作及优化策略。
* 面向系统的研究则探索服务部署、调度策略和缓存管理。

尽管覆盖范围广泛,但当前研究仍处于“各自为战”的状态——缺乏跨层级、组件一体化的视角,而这种视角对于 LLM 推理的整体性表征至关重要。

为填补这一空白,本研究提出了一个统一的实验框架:该框架系统性地整合现有知识,同时探索新的分析方向。这种一体化方法使我们能够在架构层面验证和完善已有的结论,并在以往研究不足的领域获得新的见解。我们的系统性研究通过四个相互关联的分析维度展开:

  1. 两阶段异质性:通过跨场景测量确立预填充阶段与解码阶段的根本差异,将阶段异质性定义为 LLM 推理的核心范式。
  2. 微架构根源:利用 Roofline 建模和线程束阻塞分析,从算子特性和数据复用模式中识别阶段差异的硬件根源。
  3. 扩展行为:在多 GPU 系统中验证面向阶段的并行化策略,并分析边缘设备中预填充与解码阶段瓶颈的加剧效应。
  4. 新兴范式:表征混合专家模型(MoE)中的稀疏激活权衡,以及检索增强生成(RAG)工作流中的瓶颈迁移,为下一代系统设计提供参考。

我们的研究结果为理解 LLM 推理建立了系统性框架。这些见解既为未来模型-系统协同设计提供了理论基础,也为不同硬件环境下的实际部署提供了实用的优化指导。

二、研究背景

2.1 LLM 推理

本文聚焦于仅解码器 Transformer 架构,如 Llama-3、Qwen2.5。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图1. 大语言模型(LLM)推理过程示意图,包括预填充(Prefill)阶段和解码(Decode)阶段

如图 1 所示,推理过程自然分解为两个不同的阶段:
1. 预填充阶段(Prefill Phase):模型对整个输入提示(Prompt)进行并行处理。自注意力(Self-Attention)机制计算所有提示 tokens 的键(Key)和值(Value)张量,并将其存储在键值缓存(KV Cache)中。这种并行计算为后续生成过程建立了初始上下文。
2. 解码阶段(Decode Phase):模型以自回归方式逐一生成输出 tokens,每一步仅处理一个新生成的 token。为维持上下文,注意力机制利用 KV 缓存检索所有先前 tokens 的键和值张量,先针对完整历史计算注意力分数,再将当前步骤的键值对追加到缓存中。

2.2 新兴范式:混合专家模型(MoE)与检索增强生成(RAG)

尽管密集型 Transformer 架构在早期 LLM 发展中占据主导地位,但两种新兴范式正从根本上重塑 LLM 推理的计算特性。

混合专家模型(Mixture-of-Experts, MoE)

混合专家模型代表了从密集型计算到稀疏激活(sparse activation,仅激活部分模型参数或子网络,减少计算量)的根本性架构转变。通过用专用的“专家”层(expert layers)替代密集型前馈网络,MoE 架构实现了模型容量与计算成本的前所未有的解耦。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图2. 新兴范式概述:(a) MoE架构;(b) RAG工作流程

如图 2(a)所示,路由网络(routing network)为每个 token 选择特定的专家进行处理,这使得模型能够拥有海量参数,同时仅激活极少的计算路径。这种稀疏激活显著降低了每个 token 的浮点运算次数(FLOPs), 但也带来了新的系统挑战:在串行的解码阶段会产生显著的路由开销,而专家分区则会导致碎片化的内存访问模式 ,从而形成新的、依赖阶段的优化方向。

检索增强生成(Retrieval-Augmented Generation, RAG)

检索增强生成通过整合显式的知识检索组件,改变了 LLM 推理的过程。这类系统构建了一个 CPU-GPU 异构流水线 :外部知识检索先于 LLM 执行,这从根本上重新分配了系统瓶颈。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图2. 新兴范式概述:(a) MoE架构;(b) RAG工作流程

如图 2(b)所示,性能约束从 GPU 计算吞吐量转变为 CPU 端的检索延迟和内存带宽饱和 。此外, 融入检索到的知识会大幅增加预填充阶段的有效上下文长度,带来额外的计算复杂度和内存需求 ,进而重塑整个推理过程的性能分布。

RAG 工作流包含五个不同阶段:

  1. 关键词提取(Keyword Extraction):LLM 处理输入查询,提取语义关键词并生成嵌入向量(embeddings,将文本转化为数值向量,用于语义相似性计算);
  2. 知识图谱检索(KG Retrieval):结合向量搜索和图搜索,检索相关的上下文信息;
  3. 对话历史处理(Dialogue History Processing):管理和预处理先前的对话轮次;
  4. 提示构建(Prompt Construction):将检索到的上下文、对话历史和当前查询整合为最终提示;
  5. LLM 生成(LLM Generation):对增强后的提示执行标准推理。

知识图谱检索阶段进一步分解为六个功能子阶段:

  1. 边/节点向量匹配(Edge/Vertex Vector Matching):计算向量相似度以识别相关的图实体;
  2. 边/节点遍历(Edge/Vertex Traversal):遍历图结构以扩展检索范围;
  3. 上下文获取(Get Context):获取与检索到的实体相关联的文本内容;
  4. 上下文处理(Context Processing):对检索到的文本进行预处理,为整合做准备。

其中,匹配子阶段负责相似度计算,而遍历和处理子阶段分别负责图导航和文本预处理。

三、表征方法学(Characterization Methodology)

本节详细介绍我们的表征方法学、实验设置和性能分析方法。

3.1 方法学(Methodology)

我们的表征方法学旨在系统性地揭示 LLM 推理的性能图景,从现象观测逐步深入到优化指导 。四个步骤构成一个因果链:

  • 首先确定核心性能现象是什么(What)
  • 然后从硬件层面分析为什么会出现这些现象(Why)
  • 接着验证这些原理在实际系统中如何起作用(How)
  • 最后探索新兴范式正在将性能边界推向何处(Where)

具体实施如下:

步骤1 现象观测:确立“是什么”——两阶段异质性

  • 目标(Objective):识别 LLM 推理的基本宏观性能特征。
  • 行动(Action):我们在 LLM 推理的各类应用场景中,系统性地测量延迟分布、吞吐量和能耗。
  • 结果(Outcome):该步骤确立了一个核心实证事实—— 预填充阶段与解码阶段存在根本差异,并记录了两阶段各自独特的瓶颈分布、动态迁移规律和可预测行为 。这一步回答了“系统的性能现象是什么”的问题。

步骤2 根源解释:揭示“为什么”——微架构成因

  • 目标(Objective):诊断两阶段性能差异的根源。
  • 行动(Action):我们采用 Roofline 建模(量化算术强度,算术强度指每字节数据访问对应的浮点运算次数,用于判断程序是计算密集型还是内存密集型)、线程束阻塞分析(定位流水线瓶颈)和内存行为分析(评估内存局部性,即数据在缓存中的复用程度)。
  • 结果(Outcome):该步骤将宏观现象与微架构根源关联起来,揭示出: 预填充阶段因高强度通用矩阵乘法(GEMM)运算,本质上是计算密集型;而解码阶段因低强度、依赖 KV 缓存的数据访问,本质上是内存密集型。

步骤3 扩展效应分析:验证“如何起作用”——系统级主导原则

  • 目标(Objective):测试面向阶段的原理在扩展环境和约束环境中的通用性。
  • 行动(Action):我们将分析扩展到多 GPU 环境和边缘设备:
    • 多 GPU 环境:评估张量并行(Tensor Parallelism,将模型层的张量拆分到多个 GPU 上计算,适用于计算密集型任务)和流水线并行(Pipeline Parallelism,将模型层拆分到多个 GPU 上,按流水线方式执行,适用于内存密集型任务)
    • 边缘设备:在资源约束下进行性能分析。
  • 结果(Outcome):该步骤展示了根源因素如何决定系统设计: 验证了计算密集型的预填充阶段可通过张量并行实现性能扩展,而内存密集型的解码阶段更适合通过流水线并行优化;同时揭示了边缘设备中这些瓶颈的加剧效应。

步骤4 边界重定义:探索“走向何处”——范式转变

  • 目标(Objective):研究新的架构和工作流创新如何重塑已有的性能边界。
  • 行动(Action):我们表征稀疏激活的 MoE 模型和 RAG 工作流,量化它们新的效率权衡关系和瓶颈迁移规律。
  • 结果(Outcome):该步骤展望性能图景的演变方向: 展示了 MoE 如何将总参数与激活计算解耦,以及 RAG 如何将瓶颈从 GPU 转移到 CPU,从而为下一代系统重新定义优化边界。

这种从“观测”到“解释”、“验证”再到“预测”的结构化流程,确保我们的表征不仅是描述性的,更是具有根本解释力和指导意义的。

3.2 实验设置

为实施上述表征方法学,我们构建了一个全面的实验框架,包括以下详细的平台、模型、负载和性能分析方法。

平台

我们采用两个覆盖不同计算范围的平台:

  1. 高性能服务器:配备两颗 Intel Xeon Platinum 8350C CPU 和四块 NVIDIA A100 80GB SXM GPU,GPU 间通过 NVLink 成对连接,跨对通过 PCIe 连接;
  2. 边缘设备:NVIDIA Jetson AGX Orin。

所有实验均使用 vLLM v0.9.2 框架[27],并采用 BF16 精度。

模型

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

表 1. 评估所用 LLM 的信息

我们的评估涵盖四个指令微调 LLM,具体信息见表 1:

  1. 密集型模型:Llama-3-8B-Instruct[9]和 Qwen2.5-7B/32B-Instruct[48],这些模型架构相似但规模不同;
  2. 稀疏模型:Qwen3-30B-A3B-Instruct[54]。该模型选择覆盖了 70 亿到 320 亿参数规模,同时包含密集型和 MoE 两种架构,为实验提供了全面的测试基准。

负载

我们评估五种代表性负载,覆盖 LLM 的常见应用场景,配置见表 2。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

表 2. 评估负载摘要

这些负载经过精心选择,以突出我们分析的核心——两阶段行为:

  1. 对话(Chat,基于 ShareGPT-V3 数据集):输入长度可变的交互式对话;
  2. 摘要(Summary,基于 Sonnet 语料库):输入 token 数为 8K 的长上下文处理任务;
  3. 翻译(Translate,基于合成数据集):输入输出长度均衡的任务;
  4. 代码生成(Code Generation,基于 InstructCoder 数据集):长输出场景;
  5. 故事创作(Story Writing,基于合成数据集):生成内容较长的创意写作任务。

所有实验均使用 vLLM 的离线推理基准测试,采用固定请求批次,以排除请求到达动态性对固有执行行为的干扰。合成数据集用于精确控制提示长度,而真实世界数据集则用于模拟实际使用模式。

性能分析方法

  • 我们使用 NVIDIA Nsight Systems/Compute 进行 GPU 分析。
  • 在 RAG 工作流中,使用 Intel Performance Counter Monitor 进行 CPU 微架构表征,以监控硬件性能计数器,如缓存命中率、指令执行效率等。

实验采用即时执行模式,并通过 nvidia-smi 工具以高频采样(100ms 间隔)测量功耗,用于能耗计算。所有配置均重复执行多次并取平均值,以确保统计可靠性。

四、现象观察——确立两阶段异质性

我们的特征分析首先从确立大语言模型推理的基本宏观性能现象入手。通过系统性测量,我们客观记录了预填充阶段与解码阶段之间的内在二分性——这两个执行阶段具有本质上不同的性能特征。

分析表明:

  • 这两个阶段在 GPU 资源利用模式和能效特征上存在显著差异
  • 此外,我们还观察到,随着输入/输出长度和模型规模的变化,阶段间会发生动态瓶颈迁移。同时发现了强可预测性关系:预填充阶段延迟与未缓存 token 数量呈线性依赖关系,而总能耗则随输出长度线性增长

本部分确立了 LLM 推理性能的核心“症状特征”,为后续的根源分析提供了实证基础。

4.1 预填充与解码阶段的资源利用差异

我们观察到两个阶段在 GPU 资源利用方式上存在显著差异。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图 3:(a) 聊天场景下预填充与解码阶段的 SM 利用率和 DRAM 吞吐量概览;(b) 输入长度增加且输出长度固定(128 个 token)时,延迟主导权从解码阶段向预填充阶段转移的情况,基于单 GPU 上的 Qwen2.5-7B 模型测量

如图 3(a)所示:

  • 预填充阶段的流多处理器利用率显著高于解码阶段,这表明其对计算吞吐量的依赖性更强。
  • 相反,解码阶段的内存带宽利用率明显更高,反映出其对数据访问的需求更大。

这种资源利用模式的根本差异,揭示了两个阶段在性能瓶颈上的本质区别。这些观察得出一个关键见解 【关键结论1】预填充阶段与解码阶段受不同资源瓶颈限制:预填充阶段受计算吞吐量限制,解码阶段受内存带宽限制。

4.2 预填充与解码阶段的动态性能行为

LLM 推理的性能具有内在动态性,这种动态性由工作负载属性、模型规模和系统配置之间的复杂相互作用决定。

为系统性拆解这种行为,我们从三个关键维度分析其表现形式:

  • 第一,考察不同条件下延迟瓶颈如何在阶段与主要算子之间迁移。
  • 第二,刻画吞吐量与延迟随批处理策略变化的动态权衡关系。
  • 第三,研究预填充阶段延迟的可预测性,确立其与工作负载的确定性关系。

4.2.1 瓶颈迁移

LLM 推理的特征之一是动态瓶颈迁移,即主要性能限制会在执行阶段与核心算子之间转移。本小节系统分析输入/输出长度、模型规模等关键因素如何主导这些转移,揭示推理性能的上下文依赖性。

阶段级瓶颈迁移

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图 3:(a) 聊天场景下预填充与解码阶段的 SM 利用率和 DRAM 吞吐量概览;(b) 输入长度增加且输出长度固定(128 个 token)时,延迟主导权从解码阶段向预填充阶段转移的情况,基于单 GPU 上的 Qwen2.5-7B 模型测量

如图 3(b)所示,对于 Qwen2.5-7B 模型,输出长度固定为 128 个 token:

  • 在输入长度较短时,解码阶段占总延迟的大部分。
  • 但随着输入长度增加,预填充阶段的延迟占比逐渐上升,超过某个临界点(约 2000 个 token)后,预填充阶段成为主导瓶颈。

值得注意的是,解码阶段的每步延迟基本保持稳定,与输入长度无关。对不同模型和工作负载的实证分析表明,存在一致模式:

随着输入长度增加,预填充与解码阶段的延迟占比存在明显交叉点【关键结论2】短输入时解码阶段占主导(形成“解码主导区”),超过临界长度后预填充阶段成为瓶颈(形成“预填充主导区”)。

这种交叉源于两阶段的根本复杂度差异:

  • 预填充阶段对整个输入执行一次性自注意力计算,复杂度为 O(n²)。
  • 而解码阶段复用 KV 缓存并逐 token 增量计算,复杂度约为 O(n),因此每步成本稳定。
算子级瓶颈迁移

在 LLM 架构中,前馈网络和注意力模块合计占推理总延迟的 94%~96%。这种主导地位表明 【关键结论3】LLM 推理的绝大部分延迟由 FFN 和注意力算子占用。

因此,我们研究了模型规模和上下文长度变化时,主导算子如何在 FFN 与注意力之间转移。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图 4:算子级瓶颈迁移:上下文长度变化时,延迟主导权在 FFN 与注意力之间转移的情况:(a) Llama-3-8B 模型;(b) Qwen2.5-32B 模型

如图 4 所示:

  • 基于典型上下文长度 1K~8K 的测量,趋势一致。
  • 已有研究表明,在极长上下文(16K~32K+)下,注意力算子在两个阶段都会成为主要瓶颈,原因是其计算与内存开销会快速增加。

综上,【关键结论4】随着模型规模和上下文长度变化,LLM 推理的主导算子会在 FFN 与注意力之间转移。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

表 3:不同阶段、上下文长度与模型规模下的主导算子类型

表 3 详细列出了这种转移模式。其底层机制在于 FFN 与注意力算子的计算复杂度随上下文长度 n 的变化规律不同:

  • 在预填充阶段,FFN 复杂度为 O(n)(线性),注意力复杂度为 O(n²)(二次)。
  • 在典型上下文(1K~8K)下,注意力的二次项尚未占据主导,因此 FFN 的显著固定成本成为主导。
  • 在极长上下文下,注意力的二次成本超过 FFN,成为主要瓶颈。

在解码阶段,FFN 的每步成本大致恒定 O(1),而注意力因需遍历全部 KV 缓存,复杂度为 O(n)(线性)。因此在典型上下文下,大型模型(如 32B 参数模型)因 FFN 固定成本高而受 FFN 主导,小型模型(如 8B 参数模型)则受注意力主导。当上下文长度进一步延长,注意力的线性增长最终会超过 FFN 的固定成本,导致两种规模的模型在极长上下文下均受注意力主导。

4.2.2 吞吐量-延迟权衡

我们系统性刻画了 LLM 推理中吞吐量与延迟之间的根本权衡关系,重点分析批处理大小作为平衡该权衡的关键控制参数的作用。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图 5:不同批处理大小下的吞吐量与延迟权衡特征:(a) Qwen2.5-7B 模型;(b) Qwen2.5-32B 模型;(c) Qwen3-30B-A3B 模型

实验通过调整三个代表性模型的批处理大小,揭示了一致的性能模式:随着批处理大小增加,系统吞吐量(token/s)在初期上升,但随后边际收益递减;与此同时,平均解码延迟则单调增长。 这构成了一个根本性的性能权衡关系。

该行为源于两种相互竞争的效应:
* 吞吐量提升:更大的批处理规模能提高 GPU 计算单元的利用率,并摊薄内核启动、调度等固定开销。
* 延迟增加:批处理中的请求需要共同完成,而自回归解码过程是逐 token 进行的,步骤间的依赖会延长请求的平均等待时间。

当批处理大小超过某个临界值后,吞吐量增长趋于平缓,而延迟惩罚加速上升,形成“延迟陷阱”。

4.2.3 预填充阶段延迟的可预测性

预填充阶段的任务完成时间(JCT)具有内在确定性,这对于构建高效的调度模型至关重要。与解码阶段不同,预填充阶段的计算负载完全由输入 token 数量决定。实验结果验证了这一点:预填充阶段的 JCT 与未缓存的 token 数量呈强线性关系,可实现高精度的延迟预测。

我们在三个模型上系统评估了预填充阶段的 JCT,覆盖了从短到长的输入上下文。对于每个(模型,输入长度,KV缓存命中率)组合,执行仅预填充推理(生成1个输出token)并记录JCT。未缓存token数量定义为:输入长度 × (1 - KV缓存命中率)

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图 6:预填充阶段 JCT 与未缓存 token 数量的强线性关系:(a) Qwen2.5-7B 模型;(b) Qwen2.5-32B 模型;(c) Llama-3-8B 模型

如图6所示,三个模型的预填充JCT与未缓存token数量均呈强线性相关(皮尔逊相关系数 r > 0.99)。该关系可用线性模型 JCT = α × N_uncached + β 近似,其中系数 α 代表每个未缓存 token 的平均计算成本。测量值分别为:Qwen2.5-7B 为 0.0312 毫秒/token,Qwen2.5-32B 为 0.0612 毫秒/token,Llama-3-8B 为 0.0324 毫秒/token。单位成本随模型规模增加而上升,反映了大型模型更高的计算需求。在较短输入长度(约1K)下,由于固定开销和测量抖动的影响相对更大,相关性略有减弱。

4.3 能耗分析

能效(单位能耗处理的token数量)已成为大规模部署LLM推理时的关键考量,直接影响运营成本和环境可持续性。本节旨在分析不同条件下的能耗模式,并建立可预测的能耗模型。

实验在单张NVIDIA A100 GPU上进行。能耗测量方法如下:在每个推理任务前,记录GPU空闲功率10秒的平均值作为基准功率 P_idle;推理执行期间,以100毫秒间隔采样瞬时功率 P_inst;最终通过积分计算净能耗:E_net = ∫ (P_inst(t) - P_idle) dt

4.3.1 能耗与工作负载的关系

为拆解预填充与解码阶段对能耗的贡献,我们在改变输入/输出长度的同时测量总能耗。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

图 7:能耗特征:(a) 输出长度固定(256 token)时,能耗与输入长度的关系;(b) 输入长度固定(64 token)时,能耗与输出长度的关系;(c) 工作负载固定(64输入/256输出)时,能耗随模型参数规模的变化趋势

当输出长度固定为256 token,输入长度从16增加到2048 token时(图7a),总净能耗基本保持恒定(约440焦耳),与输入长度的相关性极低(决定系数 R² ≈ 0)。这表明:LLM推理的能耗由解码阶段主导,预填充阶段对总能耗的贡献可忽略不计。 尽管预填充阶段计算密集,但它仅执行一次;而解码阶段包含数百次内存访问主导的迭代,KV缓存操作的累积能耗构成了总能耗的主体。

相反,当输入长度固定、输出长度变化时(图7b),观察到完全不同的模式:能耗与输出token数量呈高度线性关系(R² > 0.999)。拟合关系 E_net = 1.72 × N_output + 6.5 表明,每个生成token的边际能耗成本约为1.72焦耳;较小的截距进一步证实了预填充阶段的能耗贡献极小。

4.3.2 能耗与模型规模的关系

在固定工作负载(64输入token,256输出token)下,测量Qwen2.5系列模型(参数规模从0.5B到14B)的总净能耗,以研究能耗与模型规模的关系。

如图7(c)所示,能耗对模型规模具有强依赖性:能耗随模型参数数量 N_param 近似线性增长(R² > 0.98)。实验数据可通过幂律拟合(指数接近1)和线性关系很好地刻画。这种近似线性的能耗增长源于大型模型同时提高了瞬时功耗和执行时间。

4.3.3 推理能耗的可预测性

分析表明,可以根据执行前的提示(Prompt)特征准确预测LLM推理的能耗。 这种预测能力源于一个复合函数:已有研究表明可通过提示预测输出长度,而我们的结果证实能耗与输出长度呈强线性关系。因此,可以对传入的推理请求进行早期能耗估算。

微架构层面的根源分析验证了两阶段差异的硬件成因,而系统扩展实验表明,计算受限的 Prefill 适配张量并行,内存受限的 Decode 更适合流水线并行,且边缘设备中瓶颈效应进一步放大。

新兴范式方面:

  1. MoE 通过稀疏激活解耦模型容量与计算成本,却带来路由开销挑战;
  2. RAG 则将瓶颈从 GPU 迁移至 CPU 侧检索与内存带宽,重塑了推理性能剖面。

能量分析揭示,Decode 阶段主导总能耗,且能耗与输出长度、模型参数量呈强线性相关,为能效优化提供了量化依据。

本研究构建的实证基础与分析框架,既为 LLM 推理的模型-系统协同设计奠定了理论支撑,也为多 GPU 部署、边缘场景适配、MoE 与 RAG 等新兴范式优化提供了切实指导。 未来可基于此框架,进一步探索跨硬件平台的统一优化策略,以及更复杂场景下的动态瓶颈适配方案。

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14982

(0)
上一篇 2025年12月23日 下午6:54
下一篇 2025年12月24日 上午12:30

相关推荐

  • vLLM Playground:可视化界面让大模型推理部署零门槛

    用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…

    2025年12月29日
    8600
  • 清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

    清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍 现在,生成一个视频可能比你刷视频还要快。 一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。 以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9…

    2025年12月25日
    8000
  • 清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

    在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…

    2025年12月26日
    9500
  • T-MAN:NPU大模型推理的革命性方案,解码速度提升3.1倍,能效比领先84%

    关键词:T-MAN、查找表 、 低比特量化 、NPU 推理 、端到端优化 当大模型遇上手机 NPU,推理速度反而比 CPU 还慢?USTC、微软研究院、清华等研究团队提出统一查找表方案 ,同时解决速度、能耗与精度三大难题。 近年来,大语言模型(LLM)正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gem…

    2026年1月14日
    6600
  • 原生并行推理革命:NPR框架让AI智能体告别单线程思维,进化出多路径探索大脑

    近年来,大语言模型在文本生成的流畅度和长度上进步显著。然而,当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易受早期判断误导、思维发散不足、自我纠错能力弱,并且其顺序生成的特性在效率上存在天然瓶颈。 北京通用人工智能研究院(BIGA…

    2025年12月27日
    8100