关键词:GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT
在如今大模型(LLM)服务无处不在的时代,无论是智能助手、代码生成还是实时翻译,用户都期望获得快速、稳定的响应。然而,在共享的 GPU 集群上部署这些服务时,一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。
想象一下,你正在参加一场重要的视频会议,而隔壁却在装修,电钻声、敲打声不绝于耳,你的通话质量自然会受到严重干扰。在技术层面,这种现象精准地映射于共享的 A100 GPU 集群中:一个正在疯狂加载训练数据的后台任务(“吵闹的邻居”),会通过共享的 PCIe 总线挤占带宽,干扰另一个正在进行实时推理的 LLM 服务,导致其响应时间出现不可预测的剧烈抖动,频频违反服务等级目标(SLO),严重损害用户体验与服务可靠性。传统的静态资源分区与朴素的任务放置策略,难以在强隔离与高利用率之间取得平衡。

近期,来自哈佛大学、MIT、东北大学和加州大学圣地亚哥分校的研究团队在题为 《Predictable LLM Serving on GPU Clusters》 的论文中,提出了一项突破性的解决方案。他们设计了一个 fabric 无关、可在虚拟机(VM)内部署的主机级智能控制器,旨在系统性驯服“吵闹的邻居”。
该控制器融合了三大核心机制:
- 动态多实例 GPU(MIG)重配置,根据负载实时调整隔离强度;
- PCIe 感知放置,基于硬件拓扑智能规避带宽热点;
- 以及轻量级护栏,通过配额与限流约束突发干扰。
它如同一位敏锐的交通指挥,持续监控系统信号,并采取保守而精准的干预策略。

图 1 | 多租户控制器系统架构。此示意图展示了控制器的三个核心模块:监测域负责收集性能指标并根因分析;决策有限状态机和优化器从动态 MIG 重配置、PCIe 感知放置和轻量级护栏三种行动中选择;执行路径通过 NVIDIA 工具和运行时控制实施变更,并形成反馈闭环。监控域不仅检测SLO违规,更通过集成NVML、PCIe计数器及主机I/O等多源信号进行根因分析,区分计算、内存或I/O瓶颈。决策有限状态机(FSM)与优化器根据分析结果,在动态MIG重配(改变硬件切片大小)、PCIe感知放置(基于拓扑的实例迁移)和轻量级防护(MPS配额、I/O节流)这三个递进的“杠杆”中做出策略选择。执行层则通过标准的nvidia-smi、进程绑定与控制组(cgroup)接口实施更改,并将结果反馈至延迟追踪,形成一个持续观测-决策-执行的自适应控制闭环,从而在租户虚拟机(VM)内部实现精细化的性能隔离与保障。
实验结果表明,这一方案成效显著:在单主机与 2 节点(16-GPU)集群中,相比传统静态方案,该控制器将 SLO 失效率降低了约 32%,将关键的 p99 尾延迟改善了约 15%,而吞吐量损失控制在 5%以内。
更令人印象深刻的是,将其应用于 vLLM 框架下的 OLMo 2 7B Instruct 模型服务时,无需任何修改,即可使首令牌时间(TTFT)的 p99 指标提升 10-15%。
这项工作标志着首个无需底层硬件特权、即可在 multi-node GPU 集群上实现 SLO 安全的多租户服务管控方案。
一、 问题根源:共享 GPU 集群中的性能“刺客”
在多租户的云环境中,为了提升资源利用率和成本效益,多个任务(租户)通常会共享同一台物理主机甚至同一个 GPU。NVIDIA 的多实例 GPU(MIG)技术允许将一块 A100 GPU 划分为多个硬件隔离的实例,为计算和显存(HBM)提供了强有力的隔离。这看起来很美,但问题出在共享的 PCIe 通道上。
PCIe(外围组件互连高速)是连接 CPU 与 GPU 的“数据高速公路”。当多个租户同时发起大规模数据搬运时,例如,一个任务在从 NVMe 硬盘加载训练数据集,这条高速公路就会拥堵。
关键在于,MIG 技术无法隔离 PCIe 带宽。这意味着,即使你的 LLM 推理任务独享一个 MIG 实例,如果另一个“吵闹的”数据加载任务与你共享同一个 PCIe 根交换机或 NUMA 节点,你的推理数据依然要在拥堵的高速公路上排队,导致延迟激增。
本文将这种由 I/O 密集型邻居引起的干扰,称为 “尾部延迟杀手”。它尤其影响首 token 时间(TTFT)——用户发起请求到收到模型第一个输出之间的延迟,这对交互式体验至关重要。
核心挑战:如何在租户仅拥有虚拟机(VM)权限,无法直接管理底层硬件拓扑(如 PCIe 交换结构)的条件下,有效缓解这种跨租户的 PCIe 干扰,保证关键服务的 SLO?
二、 解决方案总览:一个保守而智能的“交警系统”
面对上述挑战,本文提出的控制器扮演了一个智能交通管理系统的角色。它不试图重建道路(那是云提供商的事),而是在现有道路上通过动态调控,确保关键服务(如救护车)的通行优先级和可靠性。
这个系统的核心设计哲学是 “保守”:不轻易行动,行动则有效。它持续监控系统,仅在检测到持续的尾部延迟超标时,才逐步升级干预措施,并且在系统稳定后主动释放多余资源,避免过度隔离造成的资源浪费。
整个系统的架构如图 1 所示,是一个清晰的监测-决策-执行闭环。

图 1 | 多租户控制器系统架构。该架构包含三个核心模块:监测域负责收集性能指标并进行根因分析;决策有限状态机与优化器从动态 MIG 重配置、PCIe 感知放置和轻量级护栏三种行动中选择策略;执行路径通过 NVIDIA 工具和运行时控制实施变更,并形成反馈闭环。监测域不仅检测服务等级目标(SLO)违规,更通过集成 NVML、PCIe 计数器及主机 I/O 等多源信号进行根因分析,以区分计算、内存或 I/O 瓶颈。决策有限状态机与优化器根据分析结果,在动态 MIG 重配(改变硬件切片大小)、PCIe 感知放置(基于拓扑的实例迁移)和轻量级护栏(MPS 配额、I/O 节流)这三个递进的“杠杆”中做出策略选择。执行层则通过标准的 nvidia-smi、进程绑定与控制组(cgroup)接口实施更改,并将结果反馈至延迟追踪,形成一个持续观测-决策-执行的自适应控制闭环,从而在租户虚拟机(VM)内部实现精细化的性能隔离与保障。
控制器的三层决策空间构成了其应对干扰的核心策略:
- 动态 MIG 重配置:调整租户的 MIG 实例大小(例如从
1g.10gb调整为2g.20gb),以增强计算和内存的硬件隔离。 - PCIe 感知放置:在同一 GPU 内或跨 GPU,将租户迁移到 PCIe 拓扑上更“安静”的 MIG 实例中,避免与高带宽租户共享关键路径。
- 轻量级护栏:在主机操作系统层面施加限制,包括调整 NVIDIA 多进程服务(MPS)的活动线程百分比以限制并发度,以及使用 cgroup 的
io.max限制干扰邻居的磁盘 I/O 带宽。
三、 核心创新点深入剖析
创新点一:信号驱动的、分层的决策机制
控制器以周期性的性能信号采样(通常 1-5 秒一次)为驱动。它不仅关注首要指标——租户的 p99/p999 延迟,还收集一系列辅助信号进行根因分析:
- PCIe 计数器:带宽使用率、重试次数,直接指示 PCIe 拥堵。
- NVML 指标:流处理器(SM)利用率、内存带宽,判断计算/内存压力。
- 主机 I/O 统计:识别存储密集型邻居。
- (可选)NIC 与 IRQ 统计:发现网络或主机级别的干扰。
当某个租户的 p99 延迟连续多个观测窗口(例如 3 个)超过阈值(例如 15ms)时,控制器被触发。其决策流程体现了分层升级的思想:
- 先尝试“疏导”:若检测到高 I/O 压力,对肇事后台任务施加一个有时限的 cgroup I/O 限流。
- 再尝试“改道”:若限流无效或根因是计算/内存争用,则执行PCIe 感知放置,将受害租户迁移到拓扑分数更优的 MIG 实例。
- 最后“扩容专用车道”:如果放置无法解决问题,则升级 MIG 配置,为受害租户分配更多的 SM 核心和显存。
这种由轻到重、逐步升级的策略,最大限度地减少了昂贵的 MIG 重配置操作(一次需约 30 秒)。
创新点二:基于拓扑感知的智能放置启发式算法
PCIe 感知放置是本文的一大技术亮点。控制器通过查询 DCGM/NVML、lspci 和 NUMA 映射等工具,为每个候选 MIG 实例计算一个放置分数。这个分数会惩罚以下情况:
- 与一个高带宽租户共享同一个PCIe 根复合体。
- 与一个表现出高块 I/O 的NUMA 域共处。
- 相邻 CPU 核心近期有IRQ(中断请求)爆发。
算法 1(简化版) 体现了控制器的核心逻辑:
“`python
输入:延迟流L, 阈值τ, 持续窗口Y
状态:窗口W,配置C,冷却计时器T_cd
当收到观测值l时:
将l加入窗口W
计算当前窗口的p99延迟
if 未到重配置边界 或 正在冷却中:
return
if p99 > τ 持续了Y个窗口:
C = 升级隔离等级(C) # 先尝试放置,必要时升级MIG
重新启动任务(C)
T_cd = 设置 dwell_time
elif 尾部延迟稳定 且 吞吐量良好:
C = 降低隔离等级(C) # 释放资源,提高利用率
重新启动任务(C)
T_cd = 设置 dwell_time
“`
注:此伪代码概括了控制器在触发升级或降级隔离时的决策流程,强调了持续观测和冷却机制。
在需要升级隔离时,控制器会优先尝试在同一 GPU 内移动到惩罚分数最低的 MIG 实例(改道);仅当此操作不足以解决问题时,才扩大 MIG 切片(扩容)。这种策略有效避免了不必要的资源浪费。
创新点三:形式化建模与稳定性保障
为了从理论层面理解并指导控制器设计,本文对 PCIe 争用进行了建模。它将 PCIe 结构简化为一个容量为 B 的处理器共享(PS)服务器。当多个租户活跃时,每个租户 i 获得的瞬时带宽取决于其权重和可能的限流值。
公式解读:该模型描述了在共享 PCIe 带宽
B的情况下,每个租户能分到的带宽。权重默认平等共享,控制器可能施加主机级限流上限。它捕捉了平等/加权共享和显式速率限制两种场景。
基于此,推理延迟被建模为计算时间加上与数据大小成正比、与带宽成反比的传输时间,再加上随机噪声。
本文进一步引用了经典的 Kingman 近似公式来理解排队延迟如何随利用率趋近于 1 而急剧增长,这从定性上解释了为什么 PCIe 饱和会导致严重的尾部延迟。
更重要的是,本文提出了一个关于系统稳定性的定理(Claim 1)。该定理指出,在 PCIe 带宽总容量有限、每个租户的需求被限流器有界约束、且总负载小于容量的前提下,只要敏感租户的到达率低于其服务速率,其队列就是稳定的,尾部延迟(如 p99)有界。
这为控制器的设计提供了理论基石:控制器通过升级隔离或收紧限流来应对高延迟,且永远不会违反总负载小于容量的条件,从而确保系统能在有限步骤内达到稳定状态。
四、 实验评估:效果如何?
研究团队在真实的 2 节点(16 GPU)AWS p4d.24xlarge 集群上进行了严谨的评估。
实验设置:设计了三个代表性租户共同部署:
- T1(敏感型):延迟敏感型推理任务,p99 SLO 为 15ms。
- T2(带宽型):模拟 ETL 过程,持续产生 PCIe 和内存带宽压力。
- T3(计算型):计算密集型训练任务,产生 SM 争用。
通过脚本动态开关 T2 和 T3,模拟真实场景中变化多样的干扰模式。核心结果如下:
- 整体效能:与使用静态 MIG 和简单放置的基线相比,全功能控制器将 SLO 违反率降低了约 32%(1.5 倍),p99 延迟改善了约 15%,而吞吐量损失不超过 5%。
- 消融研究:为了厘清每个组件的贡献,本文进行了关键的消融实验,结果令人信服:

表3 | 消融研究结果(平均值 ± 95% 置信区间)量化了控制器各组成部分的贡献。数据显示,每个组件均能独立带来收益:仅用防护(Guards-only)主要压制I/O干扰,将p99从20.0ms改善至19.0ms;仅用PCIe感知放置(Placement-only)通过避免硬件热点,效果更佳(17.8ms);仅用动态MIG(MIG-only)提供更强的计算/内存隔离,贡献最大(17.2ms)。而三者结合的完整系统实现了最佳效果(16.5ms),且SLO违规率最低(11.1%)。这表明MIG重配和拓扑感知放置的贡献相当,且具有可叠加性,而轻量级防护提供了有价值的补充,共同构成了一个分层、协同的防御体系。
- 动态 MIG 重配置 贡献了最大的单组件改进(p99 从 20.0ms 降至 17.2ms)。
- PCIe 感知放置 的效果紧随其后(降至 17.8ms)。
- 两者效果接近且具有累加性 ,结合后达到 16.5ms。
- 轻量级护栏 提供了虽小但明确的额外增益。
3. LLM 案例研究
在 vLLM 上服务 OLMo 2 7B Instruct 模型时,完整控制器在吞吐量成本 ≤5% 的情况下,将 TTFT(首 token 时间)的 p99 降低了约 10-15%,且无需对控制器做任何修改。这证明了该方案的通用性。

表 2 | LLM 服务案例结果。此表聚焦于LLM服务(vLLM + OLMo 2 7B)这一重要实际场景,评估控制器在首次令牌时间(TTFT)上的优化效果。在相同的背景干扰(T2/T3)下,相比静态MIG配置,采用完整控制器使TTFT p99从232ms显著降低至199ms,提升约13%。这一改善仅以小于4%的吞吐量损失为代价(归一化吞吐量从1.00降至0.96)。该结果有力证明,论文提出的控制器机制具有通用性,无需针对LLM工作负载进行特殊修改,即可有效管理其推理延迟的尾部,尤其改善了流式输出中用户感知强烈的首token响应时间。
4. 开销极低
控制器自身 CPU 占用<2%,MIG 重配置频率每小时少于 5 次,每次重配置时间约 18 秒,在可接受范围内。

图4 | PCIe争用对延迟分布尾部的影响。通过对比实验,直观呈现了PCIe带宽争用对推理延迟分布,尤其是尾部的严重影响。在无管理的“高争用”场景(红色曲线)下,延迟分布出现显著的重尾,大量请求远超SLO阈值(虚线),导致高违规率。而采用完整系统(蓝色曲线)后,通过PCIe感知的智能放置策略,有效避免了租户被调度到共享繁忙PCIe路径的实例上,从而显著削减了尾部延迟。p99延迟值得以下降并向SLO阈值靠拢,分布曲线更为紧凑,证明了通过拓扑感知的调度来缓解共享I/O瓶颈对于保证延迟可预测性至关重要。
上图中对比了高争用(红色)和经 PCIe 感知放置优化后(蓝色)的延迟累积分布函数。红线在尾部严重拖长,导致大量请求超出 SLO 阈值(虚线);蓝线尾部被有效收紧,p99 延迟显著降低并更接近 SLO 线。
五、 相关工作:站在巨人的肩膀上
这项工作并非孤立存在,它巧妙地整合并推进了多个领域的研究:
- GPU 多租户与隔离 :早期工作如 MPS 提供了时间复用,MIG 提供了空间分区。研究如《Analysis of Large-Scale Multi-Tenant GPU Clusters》系统分析了其中的权衡。
- 动态 MIG 管理 :
- MIGRator [8] 为持续学习负载设计了动态 MIG 重配置;
- MISO [3] 探索了在集群尺度利用 MIG。
本文控制器继承了动态重配置思想,但将其与拓扑感知和 SLO 保障紧密结合。
- PCIe 与 I/O 干扰 :从基于优先级的 PCIe 调度 [4] 到近期揭示 MIG 实例间仍共享 PCIe 带宽的工作 [7],本文直接吸收了这些洞见,并将其转化为可操作的放置和限流策略。
- SLO 感知服务与调度 :
- 服务层框架如 Clipper [1] 优化了批处理和预测性;
- 容器云中的透明 GPU 共享 [9] 和 Sponge [6] 提供了主机级时间控制;
- 集群调度器如 Themis [5] 和 Gandiva [10] 解决了大规模下的公平与效率。
本文的定位与之互补:它是一个运行在 VM 内部的、细粒度的节点级控制环 ,在平台给定的资源边界内进行微调,以强制执行 SLO。
六、 讨论、局限与未来
当然,这项研究也存在一些局限性:
- 拓扑不透明性 :在某些云环境中,PCIe 拓扑细节是隐藏的,控制器只能从计数器推断争用。
- MIG 重配置开销 :改变 MIG 配置需要短暂暂停任务并可能重载模型状态,对于突发性工作负载可能造成可感知的短时中断。
- 处理极端负载 :对于极其繁重的训练任务,本方法可能不足,需要与更严格的准入控制或更高的基线隔离结合使用。
- 启发式算法的简化 :当前的放置启发式算法是保守且简单的,未来可探索基于学习的预测器,以更优的复杂度换取更好的稳定性。
尽管有这些局限,该控制器的设计体现了高度的模块化和实用性 。它不需要特权级的硬件互连访问权限,可直接由租户在 VM 内部署 。它可以作为上层集群调度器(如 Themis)的补充,接收其提供的初步放置建议,然后在主机层面进行精细化调整。
七、 结语:迈向更可预测的 AI 服务基础设施
本文为解决共享 GPU 环境下的性能干扰问题提供了一个优雅、实用且有效的解决方案。它通过动态 MIG 重配置、PCIe 感知放置和轻量级护栏 的三重奏,在资源利用率与服务可靠性之间找到了一个精巧的平衡点。
其核心价值在于,它证明了即使在租户权限受限的云环境中,通过智能的软件控制,依然可以显著提升关键 AI 服务的性能可预测性 。这对于需要保障用户体验、遵守严格 SLO 的 LLM 服务提供商而言,无疑是一个重要的技术工具。
随着大模型服务日益普及和复杂化,对底层计算基础设施的“可预测性”和“可控性”要求只会越来越高。这项研究为我们指明了方向:通过软硬件协同的、细粒度的资源管理,我们完全有能力在资源共享的云端,为每一个 AI 应用开辟出一条“安静而快速”的数据通道。
参考文献
- 超 20 万台GPU集群的LLM稳健训练方案:ByteRobust 双平面架构实现97% ETTR,热更新恢复加速11.04倍
- 调度语言的过去、现在和未来:面向 CPU/GPU 集群、性能接近厂商库的统一调度技术创新
- 评估高通 100 Ultra 加速卡在 HPC 集群中的 LLM 推理性能与能效表现
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18553
