引言:从综合AI平台到LLM推理优化的深度聚焦
本文的探讨,源于作者在研发企业级AI机器学习平台过程中的实践总结与持续迭代的深入思考,同时结合了业界对大型语言模型推理性能日益增长的关注。该平台构建于GPU集群、对象存储及数据加速层(如Alluxio)等基础设施之上,以云原生技术为PaaS核心,深度整合Argo Workflows与MLflow等CRD/Operator以实现自动化流水线,最终采用前后端分离的SaaS架构,为用户提供涵盖模型训练、推理、部署与资产管理的一站式服务。
在这一功能完备的平台实践中,我们发现,大型语言模型的推理服务相较于传统机器学习模型,展现出截然不同的性能瓶颈与运维挑战。其优化不再是单一环节的任务,而是贯穿硬件资源、云原生平台、服务框架乃至模型算法本身的高度耦合的系统工程。
因此,本文将以该实际平台为背景,聚焦于“LLM推理优化”这一关键领域。我们将运用“系统分层、功能解耦”的架构思想,自底向上对LLM推理服务栈进行系统性梳理与解析,旨在为读者呈现一幅从基础设施到模型算法、从理论到实践的完整优化全景图。

LLM推理服务全栈架构
LLM推理优化是一项典型且复杂的全栈系统工程,其成功依赖于从基础设施工程师到算法科学家等不同角色的紧密协同。为在实际团队中有效推进优化工作,我们构建了以下职责分配矩阵,以明确各角色的核心职责与关注点:
LLM推理平台优化职责分配矩阵
| 角色 | 核心优化职责与关注点 |
|---|---|
| 基础设施工程师 (Infrastructure Engineer) | • 硬件选型与部署:负责GPU服务器选型、部署及物理网络拓扑(如NVLink、InfiniBand/RoCE)的规划与实施。 • 存储加速:部署与运维分布式缓存系统(如Alluxio、JuiceFS),保障模型与数据的高速读取。 • 驱动与固件:维护NVIDIA驱动、网卡固件等底层软件栈的稳定性与性能。 |
| 云原生平台架构师 (Cloud-Native Platform Architect) | • K8s集群管理:负责Kubernetes集群的搭建、高可用维护及多集群联邦(如Karmada)。 • 高级调度:集成并配置批处理调度器(如Volcano),实现公平共享与组调度。 • 标准化服务:部署与管理KServe,提供统一模型服务能力,并集成Serverless基础设施(如Knative)。 • 资源虚拟化:配置与管理GPU虚拟化方案(如MIG、时间分片)。 |
| SaaS平台软件架构师 (SaaS Platform Software Architect) | • SaaS应用架构:设计并开发前后端分离的AI平台软件,提供模型管理、一键部署、监控告警等用户界面与API。 • AI网关:负责AI网关(如Envoy AI Gateway)的设计、选型与扩展开发,实现智能路由、动态批处理与Token流控等高级功能。 • MLOps/AIOps:设计与实现基于Argo/MLflow等工具的CI/CD/CT流水线,实现从代码到服务的全流程自动化。 |
| 算法科学家/研究员 (Algorithm Scientist/Researcher) | • 架构创新:研究与设计更高效的模型结构,如专家混合模型(MoE)、分组查询注意力(GQA)等。 • 模型压缩:应用量化(QAT/PTQ)、剪枝、知识蒸馏等技术,降低模型体积与计算复杂度。 • 前沿算法探索:探索推测解码等新型算法,以更低成本实现更优性能。 |
| 机器学习/应用工程师 (ML/Application Engineer) | • 服务封装:编写规范的Dockerfile,构建轻量、高效的容器镜像。 • 推理后端选型:根据模型特性,在KServe中选择最优推理运行时(如vLLM、TGI、Triton)。 • 性能调优:精细化配置服务的健康探针、资源请求(requests/limits),并进行性能测试与分析。 • 业务逻辑集成:将推理服务API与上层业务应用进行集成。 |
1. 基础设施层:性能基石
基础设施层是所有性能表现的物理基础。在大规模AI场景中,其关键不仅在于计算与网络硬件本身,更在于如何高效地将数据(模型权重、数据集)输送至计算单元。
1.1. GPU集群与硬件选型
- 计算卡选型:依据模型规模与成本预算,选择合适的GPU(如NVIDIA A100/H100/L40S)。关键指标包括算力(FLOPS)、显存容量(VRAM)与显存带宽(Memory Bandwidth)。解码阶段对显存带宽极为敏感,是选型的重中之重。
- 网络拓扑:GPU间的通信效率直接决定了分布式推理的性能。
- 节点内通信:高速NVLink总线是张量并行(Tensor Parallelism)的理想选择,能够支撑频繁的All-Reduce通信。
- 节点间通信:高速InfiniBand或RoCE网络对于需要跨节点部署的巨型模型至关重要,主要服务于通信频率较低的流水线并行(Pipeline Parallelism)。
1.2. 存储加速与数据编排
- 挑战:模型权重(尤其是MoE等巨型模型)及训练/微调数据集通常存储在远端对象存储(如S3、HDFS)中。在服务启动或扩容时,将这些动辄数百GB的数据传输至每个计算节点,会导致分钟级延迟,严重影响冷启动速度与弹性效率。
- 解决方案:引入Alluxio或JuiceFS等数据加速与编排系统,在计算集群与底层持久化存储之间构建高速分布式缓存层。
- 加速模型加载:将模型加载时间从分钟级缩短至秒级。
- 统一数据访问:为上层应用提供统一的数据访问接口(如POSIX兼容的文件系统),屏蔽底层异构存储的复杂性。
- 提升数据密集型任务效率:对在线/离线微调等需要反复读取大规模数据集的场景尤为有效。
- 工作原理:这些系统能够智能地将远端存储的数据分布式缓存至计算节点本地的内存、SSD乃至GPU内存中。当Pod需读取模型时,可直接从本地或邻近节点的高速缓存获取,实现“数据随计算而动”。
2. 平台与调度层:资源管理的中枢
平台与调度层负责将底层物理资源虚拟化,并智能分配给上层应用。随着AI平台规模扩大,其职责从单一Kubernetes集群管理演进为面向大规模、多集群的资源调度与治理。
2.1. 容器编排
Kubernetes已成为AI基础设施的事实标准。通过NVIDIA GPU Operator等插件,实现对GPU资源的发现、驱动安装与容器化环境的统一管理。
2.2. 面向AI的高级调度
- 挑战:Kubernetes默认调度器以Pod为单位进行调度,缺乏对AI/HPC工作负载的理解,无法保证分布式任务所有Pod的“同时”启动,易导致资源死锁与浪费。
- 解决方案:引入专为AI/HPC设计的批处理调度器(如Volcano)。
- 组调度:确保作业所需的所有Pod在满足资源要求后被同时调度,实现“All-or-Nothing”的原子性操作。
- 公平共享:在多租户/多团队环境中,依据预设配额公平分配资源,防止单一用户独占集群。
- 队列管理:为不同优先级任务设置队列,保障高优任务优先执行。
2.3. 多集群管理与联邦
- 必要性:当GPU资源池跨越多个K8s集群、区域甚至云厂商时,需统一“联邦大脑”进行管理。
- 核心价值:实现跨集群的资源视图、应用分发与流量治理,以达到高可用性、故障隔离与避免厂商锁定等目标。
- 主流工具:
- Karmada:华为开源的多集群应用编排引擎,提供丰富调度策略与故障转移能力。
- Clusterpedia:支持多集群资源的搜索与关联,提供强大的可观测性。
2.4. GPU资源虚拟化与共享
- 资源切分:对于开发、测试或小模型推理场景,使用MIG或GPU时间分片技术,将物理GPU卡虚拟化为多个小实例,允许多个Pod共享,提升资源利用率。
- 拓扑感知调度:调度器应感知物理网络拓扑,将需高频通信的Pod调度至同一服务器或同一NVLink域内,以最小化通信延迟。
2.5. 弹性伸缩
- 核心技术:
- HPA:根据CPU/内存或自定义指标(如GPU利用率)进行扩缩容。
- KEDA:根据消息队列长度、API网关流量等事件源进行扩缩容,适用于异步推理场景。
- Serverless GPU:追求极致弹性,支持从零启动并在空闲时缩容至零,最大化成本效益。
2.6. 标准化模型服务层:KServe
- 定位与价值:在Kubernetes与推理引擎之间,KServe作为标准化服务层,解决模型文件部署为生产级服务的问题。
- 核心抽象InferenceService CRD:KServe将复杂部署流程统一抽象为声明式InferenceService资源。用户仅需在YAML文件中定义模型位置与所需推理后端,KServe即自动创建并管理所有底层资源。
- 关键特性:
- 原生Serverless能力:基于Knative,提供开箱即用的从零扩缩容能力,极大节约GPU资源成本。
- 可插拔推理后端:用户可在predictor定义中自由选择高性能推理框架作为后端,例如:yamlruntime: vllm runtime: triton # 可内嵌TensorRT-LLM runtime: tgi
- 解耦与协同:KServe将“如何部署”与“如何运行”解耦,使平台与算法团队高效协同。
3. 服务与容器层
服务与容器层关注单个推理服务的封装与微观优化,核心目标是提升服务启动速度与运行效率。
3.1. 容器镜像优化
- (a) 减小体积:
- 使用多阶段构建,分离编译环境与运行时环境。
- 选择轻量级基础镜像(如python:slim、alpine)。
- 清理不必要的依赖与缓存层。
- (b) 镜像懒加载技术:
- 问题:AI/ML镜像体积庞大,传统容器启动需完整拉取镜像,导致冷启动时间长达数分钟,影响弹性伸缩与开发迭代。
- 解决方案:镜像懒加载技术允许容器在镜像元数据下载完成后立即启动,文件内容在首次访问时按需、分块从远程仓库拉取,实现“先启动,后下载”。
- 核心技术:
- Stargz:通过对OCI镜像格式扩展,支持对压缩包内文件的随机访问。
- Soci:为现有OCI镜像创建外部索引,无需重新构建镜像,降低采纳门槛。
3.2. Pod健康探针的精细化配置
GPU应用启动过程较长,需精细化配置Kubernetes健康探针:
- 启动探针:给予Pod足够启动时间(如5-10分钟),防止模型未加载完成即被误杀。
- 就绪探针:当模型成功加载至GPU并准备接收流量时返回成功,确保流量仅路由至可用Pod。
- 存活探针:检测服务是否陷入死锁等僵尸状态,检测逻辑应轻量且可靠。
4. AI网关层:智能流量枢纽
作为推理请求的统一入口,AI网关在LLM时代演变为智能流量调度与治理中心,其设计直接影响系统效率、成本与稳定性。

4.1. 传统网关的困境
传统API网关(如Nginx、标准Envoy)使用轮询、最少连接数等策略,在面对LLM推理时有状态、资源敏感的工作负载时表现不足:
- 缺乏负载感知,无法感知后端GPU真实负载(如KV缓存使用率、推理任务排队长度)。
- 无法理解LLM优化(如Prefix Cache命中、LoRA Adapter加载状态)。
- 假设请求同质化,但LLM请求输入/输出长度差异极大,处理时间完全不同。
4.2. 现代AI网关的核心能力
以Envoy AI Gateway为例,其通过可扩展的端点选择器机制实现智能、动态的路由决策,关键能力包括:
- 智能负载感知路由:实时分析后端推理端点指标(如KV缓存使用率、GPU利用率、Prefix Cache命中率),将请求动态路由至最优Pod。
- 高级请求路由:支持通过自定义路由规则解析请求内容,实现灵活路由(如根据model字段将流量路由至不同模型服务或外部LLM API)。
- 动态请求批处理:在网关层收集短时间内到达的多个独立请求,合并为更大批次发送至后端,提升整体吞吐量。
- 基于Token的成本控制与安全:提供统一的API密钥管理、身份认证与访问控制,支持基于Token数量的速率限制,精细控制输入/输出/总Token。
- 统一可观测性:作为统一入口,收集TTFT、TPOT、Token使用量、端到端延迟等关键指标,帮助平台团队洞察模型性能与成本。
- 结果缓存:对高频、重复的相同Prompt,直接在网关层缓存并返回结果,避免后端重复计算。
5. 推理引擎与算法层
推理引擎与算法层直接决定单次推理请求的计算效率,其优化涵盖模型本身、系统运行时与分布式策略三个层面。
5.1. 推理的本质:两阶段自回归过程
现代LLM推理划分为两个计算特性不同的阶段:
- 预填充:一次性并行处理用户输入的全部Prompt,计算密集型,速度受限于GPU算力(FLOPS)。
- 解码:逐一自回归生成后续Token,内存带宽密集型,瓶颈在于从HBM中读写模型权重与KV缓存。
KV缓存是避免重复计算的关键优化,但其自身带来巨大内存占用,成为现代推理优化的核心目标。
深入解析:KV缓存及其必要性
- 是什么:在Transformer自注意力机制中,KV缓存将过去所有Token计算出的“键”和“值”向量存储在GPU显存中。
- 为什么需要:若无KV缓存,生成每个Token需重新计算历史Token的K和V向量,造成巨大重复计算。有KV缓存后,每一步解码仅涉及增量计算,数量级提升解码速度。
- 结论:KV缓存是典型空间换时间策略,管理与优化其内存占用是所有现代LLM推理框架的核心任务。
5.2. 核心性能指标
| 指标 | 定义 | 衡量内容 |
|---|---|---|
| 首个Token生成时间 | 从请求到收到第一个Token的时间。 | 系统初始响应速度,由Prefill阶段决定。 |
| 每输出Token时间 | 平均生成每个后续Token的时间。 | 模型流式生成速度,由Decode阶段决定。 |
| 延迟 | 生成完整响应所需的总时间。 | 端到端请求处理时间。 |
| 吞吐量 | 单位时间内处理的Token或请求总量。 | 系统处理能力与成本效益。 |
5.3. 模型层面的优化
5.3.1. 架构创新
- 注意力机制变体:
- 多查询注意力:所有查询头共享同一套键/值头,极大减小KV缓存,但可能导致性能损失。
- 分组查询注意力:折中方案,查询头分组,组内共享键/值头,在减少KV缓存的同时保持接近MHA的性能,是当前主流选择。
- 专家混合模型:允许模型总参数量巨大,但单次推理计算量仅与被激活的少数专家相关,实现“以更少计算撬动更大模型”。
- 推测解码:使用小廉价的“草稿模型”快速生成候选文本,让大模型并行验证,用一次前向传播换取多次常规解码,显著降低端到端延迟。
5.3.2. 模型压缩技术
- 量化:
- 训练后量化:模型训练完成后量化,简单快捷但可能有精度损失。
- 量化感知训练:在训练过程中模拟量化操作,让模型适应低精度,通常获得更好性能。
- 剪枝:
- 非结构化剪枝:移除单个权重,导致权重矩阵稀疏,需专用硬件或库加速。
- 结构化剪枝:移除整个神经元、通道或层,模型仍为规整稠密结构,对通用硬件更友好。
- 知识蒸馏:训练小“学生模型”学习大“教师模型”的输出,将知识从大模型迁移至小模型。
5.3.3. 面向资源受限场景的应用
在车载、移动端、边缘计算等场景,功耗、内存与延迟是核心制约因素。通过综合运用量化、剪枝与蒸馏,可将庞大云端模型压缩为适合资源受限设备运行的轻量级版本。
5.4. 系统级运行时优化
- PagedAttention:受操作系统虚拟内存启发,将KV缓存分割为非连续“页”,消除内存碎片,提升内存利用率至最优,是vLLM等框架的核心技术。
- FlashAttention:IO感知的精确注意力算法,通过分块与核融合技术,最小化对GPU显存的读写次数,极大加速注意力计算。
- 连续批处理:先进调度策略,一旦批次中有请求完成,立即移出并加入新请求,确保GPU始终高负载,极大提升吞吐量。
5.5. 分布式推理策略与通信解密
当模型无法装入单卡时,需采用分布式策略,其性能瓶颈在于GPU间通信。
- 并行策略:
- 张量并行:层内并行,将权重矩阵切分至多卡,通信开销大(All-Reduce),适合节点内高速NVLink。
- 流水线并行:层间并行,将不同层放到不同卡,通信频率低(Send/Receive),适合跨节点网络。
- 通信全链路解密:
- 算子触发:张量并行下的矩阵乘法算子产生对All-Reduce集合通信的需求。
- 库调用:上层框架调用NCCL库执行All-Reduce操作。
- 硬件加速:NCCL利用RDMA技术,通过内核旁路与零拷贝,实现GPU间直接内存访问。
- 物理传输:RDMA指令在InfiniBand或RoCE等高性能网络上传输,完成数据交换。
5.6. 主流推理框架
主流推理框架将优化技术整合落地,扮演“集大成者”角色:
| 框架 | 主要优势 | 关键技术 | 最适用场景 |
|---|---|---|---|
| vLLM | 极致吞吐量,内存效率最高 | PagedAttention, 连续批处理 | 高并发在线服务,追求成本效益 |
| TensorRT-LLM | 极致低延迟,压榨硬件性能 | 编译器优化,算子融合,高级量化 | 对延迟敏感的业务,NVIDIA硬件环境 |
| Hugging Face TGI | 易用性,生态集成,稳定性 | Rust核心,多租户LoRA,开箱即用 | 快速原型与部署,多模型服务场景 |
5.7. 进阶架构:Prefill/Decode分离、聚合与智能调度
在深刻理解Prefill(计算密集)与Decode(访存密集)的两阶段特性后,社区探索出旨在打破单一硬件瓶颈的Prefill/Decode分离架构。
5.7.1. PD分离的优缺点
- 核心思想:将Prefill和Decode阶段物理或逻辑部署在最适合其特性的硬件上。
- Prefill集群:使用高算力GPU(如H100),设置较小批次以保证低TTFT。
- Decode集群:使用高带宽、较低算力GPU(如L40S),设置较大批次以提升TPOT和吞吐量。
- 优势:
- 硬件专门化与成本优化:按需分配最合适硬件,避免资源浪费。
- 独立优化:两个阶段的批处理大小可独立设置,打破融合推理中的“均衡”难题。
- 劣势:
- 通信开销:Prefill阶段计算的KV Cache需通过网络或总线传输至Decode节点,引入显著延迟瓶颈。
5.7.2. PD-Aware调度:让分离更智能
为缓解通信瓶颈,单纯的物理分离演进为调度器感知的智能分离。
- 工作原理:AI网关或上游调度器实时感知节点负载状态。
- Prefill阶段:将请求路由至负载较低、能快速处理Prefill的高算力节点。
- KV Cache传输:Prefill完成后,KV Cache被传输。
- Decode阶段:根据实时负载(如队列深度、KV Cache占用率),将请求的Decode阶段路由至最空闲的高带宽节点。
- 核心价值:通过智能调度优化端到端延迟,使分离架构优势真正发挥。
5.7.3. PD聚合:最大化Decode吞吐量
在多租户或多LoRA模型场景下,PD分离可演进为更高效的PD聚合模式。
- 架构模式:
- 多Prefill组:每个Prefill组专门处理一种模型、租户或请求类型,并发处理Prefill任务。
- 中心Decode聚合组:所有Prefill组将生成的KV Cache发送至中心Decode组,Decode组将来自不同源的请求动态聚合成极大批次处理。
- 核心优势:
- 极致Decode吞吐量:通过聚合多源请求,将批处理大小推至硬件极限,极大提升TPOT与整体吞吐量。
- 高效多模型/多租户支持:天然适合需同时服务多种模型或多个用户的场景,是构建高效率多租户推理平台的理想架构。
5.7.4. 使能技术
- KV Cache量化:将KV Cache从FP16降至INT8/INT4,减小体积,降低PD分离中的网络传输开销。
- 混合执行/分层缓存:在同一服务器内部署不同类型卡(如H100+L40S),通过高速NVLink/PCIe总线传输KV Cache,是高效的物理实现方式。
- 统一内存硬件:NVIDIA Grace Hopper等新硬件通过超高带宽C2C总线统一CPU与GPU内存,从根本上消除“传输”瓶颈,是PD分离架构的理想硬件基础。
5.7.5. 工程决策:PD分离 vs. PD聚合的选型框架
在实际落地时,选择PD分离还是PD聚合(传统融合模式)需依据具体工程环境权衡。
黄金法则:
- 选择PD分离:旨在实现规模化部署下的最大吞吐量与成本效益。类比“工厂流水线”,适合高并发生产级系统。
- 选择PD聚合/融合:旨在资源受限或高交互、低并发任务中实现最低延迟。类比“大师工作坊”,适合实时聊天机器人、单用户体验或边缘计算部署。
决策速查表:
| 因素 | 选择PD分离,如果… | 选择PD聚合/融合,如果… |
|---|---|---|
| 主要目标 | 需要最高吞吐量(req/sec)。 | 需要最低延迟(TTFT)。 |
| 工作负载 | Prompt很长(RAG)或生成很长。 | Prompt和生成都很短且需交互(聊天)。 |
| 硬件规模 | 拥有带高速网络的大型集群(NVLink)。 | 只有单台服务器、少数GPU或慢速网络。 |
| 复杂度 | 团队能管理复杂分布式系统。 | 需要简单、易于管理的部署方案。 |
最终建议:首先对应用进行性能剖析,了解工作负载特性与瓶颈。对于大规模服务,在PD分离上的工程投入几乎肯定会得到回报。对于延迟敏感的小型应用,PD聚合/融合是更安全、快捷的路径。
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4152

评论列表(1条)
深度好文!