关键词：GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT

在如今大模型（LLM）服务无处不在的时代，无论是智能助手、代码生成还是实时翻译，用户都期望获得快速、稳定的响应。然而，在共享的 GPU 集群上部署这些服务时，一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。

想象一下，你正在参加一场重要的视频会议，而隔壁却在装修，电钻声、敲打声不绝于耳，你的通话质量自然会受到严重干扰。在技术层面，这种现象精准地映射于共享的 A100 GPU 集群中：一个正在疯狂加载训练数据的后台任务（“吵闹的邻居”），会通过共享的 PCIe 总线挤占带宽，干扰另一个正在进行实时推理的 LLM 服务，导致其响应时间出现不可预测的剧烈抖动，频频违反服务等级目标（SLO），严重损害用户体验与服务可靠性。传统的静态资源分区与朴素的任务放置策略，难以在强隔离与高利用率之间取得平衡。

近期，来自哈佛大学、MIT、东北大学和加州大学圣地亚哥分校的研究团队在题为 《Predictable LLM Serving on GPU Clusters》 的论文中，提出了一项突破性的解决方案。他们设计了一个 fabric 无关、可在虚拟机（VM）内部署的主机级智能控制器，旨在系统性驯服“吵闹的邻居”。

该控制器融合了三大核心机制：

动态多实例 GPU（MIG）重配置，根据负载实时调整隔离强度；
PCIe 感知放置，基于硬件拓扑智能规避带宽热点；
以及轻量级护栏，通过配额与限流约束突发干扰。

它如同一位敏锐的交通指挥，持续监控系统信号，并采取保守而精准的干预策略。

图 1 | 多租户控制器系统架构。此示意图展示了控制器的三个核心模块：监测域负责收集性能指标并根因分析；决策有限状态机和优化器从动态 MIG 重配置、PCIe 感知放置和轻量级护栏三种行动中选择；执行路径通过 NVIDIA 工具和运行时控制实施变更，并形成反馈闭环。监控域不仅检测SLO违规，更通过集成NVML、PCIe计数器及主机I/O等多源信号进行根因分析，区分计算、内存或I/O瓶颈。决策有限状态机（FSM）与优化器根据分析结果，在动态MIG重配（改变硬件切片大小）、PCIe感知放置（基于拓扑的实例迁移）和轻量级防护（MPS配额、I/O节流）这三个递进的“杠杆”中做出策略选择。执行层则通过标准的nvidia-smi、进程绑定与控制组（cgroup）接口实施更改，并将结果反馈至延迟追踪，形成一个持续观测-决策-执行的自适应控制闭环，从而在租户虚拟机（VM）内部实现精细化的性能隔离与保障。

实验结果表明，这一方案成效显著：在单主机与 2 节点（16-GPU）集群中，相比传统静态方案，该控制器将 SLO 失效率降低了约 32%，将关键的 p99 尾延迟改善了约 15%，而吞吐量损失控制在 5%以内。

更令人印象深刻的是，将其应用于 vLLM 框架下的 OLMo 2 7B Instruct 模型服务时，无需任何修改，即可使首令牌时间（TTFT）的 p99 指标提升 10-15%。

这项工作标志着首个无需底层硬件特权、即可在 multi-node GPU 集群上实现 SLO 安全的多租户服务管控方案。

一、问题根源：共享 GPU 集群中的性能“刺客”

在多租户的云环境中，为了提升资源利用率和成本效益，多个任务（租户）通常会共享同一台物理主机甚至同一个 GPU。NVIDIA 的多实例 GPU（MIG）技术允许将一块 A100 GPU 划分为多个硬件隔离的实例，为计算和显存（HBM）提供了强有力的隔离。这看起来很美，但问题出在共享的 PCIe 通道上。

PCIe（外围组件互连高速）是连接 CPU 与 GPU 的“数据高速公路”。当多个租户同时发起大规模数据搬运时，例如，一个任务在从 NVMe 硬盘加载训练数据集，这条高速公路就会拥堵。

关键在于，MIG 技术无法隔离 PCIe 带宽。这意味着，即使你的 LLM 推理任务独享一个 MIG 实例，如果另一个“吵闹的”数据加载任务与你共享同一个 PCIe 根交换机或 NUMA 节点，你的推理数据依然要在拥堵的高速公路上排队，导致延迟激增。

本文将这种由 I/O 密集型邻居引起的干扰，称为 “尾部延迟杀手”。它尤其影响首 token 时间（TTFT）——用户发起请求到收到模型第一个输出之间的延迟，这对交互式体验至关重要。

核心挑战：如何在租户仅拥有虚拟机（VM）权限，无法直接管理底层硬件拓扑（如 PCIe 交换结构）的条件下，有效缓解这种跨租户的 PCIe 干扰，保证关键服务的 SLO？

二、解决方案总览：一个保守而智能的“交警系统”

面对上述挑战，本文提出的控制器扮演了一个智能交通管理系统的角色。它不试图重建道路（那是云提供商的事），而是在现有道路上通过动态调控，确保关键服务（如救护车）的通行优先级和可靠性。

这个系统的核心设计哲学是 “保守”：不轻易行动，行动则有效。它持续监控系统，仅在检测到持续的尾部延迟超标时，才逐步升级干预措施，并且在系统稳定后主动释放多余资源，避免过度隔离造成的资源浪费。

整个系统的架构如图 1 所示，是一个清晰的监测-决策-执行闭环。

图 1 | 多租户控制器系统架构。该架构包含三个核心模块：监测域负责收集性能指标并进行根因分析；决策有限状态机与优化器从动态 MIG 重配置、PCIe 感知放置和轻量级护栏三种行动中选择策略；执行路径通过 NVIDIA 工具和运行时控制实施变更，并形成反馈闭环。监测域不仅检测服务等级目标（SLO）违规，更通过集成 NVML、PCIe 计数器及主机 I/O 等多源信号进行根因分析，以区分计算、内存或 I/O 瓶颈。决策有限状态机与优化器根据分析结果，在动态 MIG 重配（改变硬件切片大小）、PCIe 感知放置（基于拓扑的实例迁移）和轻量级护栏（MPS 配额、I/O 节流）这三个递进的“杠杆”中做出策略选择。执行层则通过标准的 nvidia-smi、进程绑定与控制组（cgroup）接口实施更改，并将结果反馈至延迟追踪，形成一个持续观测-决策-执行的自适应控制闭环，从而在租户虚拟机（VM）内部实现精细化的性能隔离与保障。

控制器的三层决策空间构成了其应对干扰的核心策略：

动态 MIG 重配置：调整租户的 MIG 实例大小（例如从 1g.10gb 调整为 2g.20gb），以增强计算和内存的硬件隔离。
PCIe 感知放置：在同一 GPU 内或跨 GPU，将租户迁移到 PCIe 拓扑上更“安静”的 MIG 实例中，避免与高带宽租户共享关键路径。
轻量级护栏：在主机操作系统层面施加限制，包括调整 NVIDIA 多进程服务（MPS）的活动线程百分比以限制并发度，以及使用 cgroup 的 io.max 限制干扰邻居的磁盘 I/O 带宽。

三、核心创新点深入剖析

创新点一：信号驱动的、分层的决策机制

控制器以周期性的性能信号采样（通常 1-5 秒一次）为驱动。它不仅关注首要指标——租户的 p99/p999 延迟，还收集一系列辅助信号进行根因分析：

PCIe 计数器：带宽使用率、重试次数，直接指示 PCIe 拥堵。
NVML 指标：流处理器（SM）利用率、内存带宽，判断计算/内存压力。
主机 I/O 统计：识别存储密集型邻居。
（可选）NIC 与 IRQ 统计：发现网络或主机级别的干扰。

当某个租户的 p99 延迟连续多个观测窗口（例如 3 个）超过阈值（例如 15ms）时，控制器被触发。其决策流程体现了分层升级的思想：

先尝试“疏导”：若检测到高 I/O 压力，对肇事后台任务施加一个有时限的 cgroup I/O 限流。
再尝试“改道”：若限流无效或根因是计算/内存争用，则执行PCIe 感知放置，将受害租户迁移到拓扑分数更优的 MIG 实例。
最后“扩容专用车道”：如果放置无法解决问题，则升级 MIG 配置，为受害租户分配更多的 SM 核心和显存。

这种由轻到重、逐步升级的策略，最大限度地减少了昂贵的 MIG 重配置操作（一次需约 30 秒）。

创新点二：基于拓扑感知的智能放置启发式算法

PCIe 感知放置是本文的一大技术亮点。控制器通过查询 DCGM/NVML、lspci 和 NUMA 映射等工具，为每个候选 MIG 实例计算一个放置分数。这个分数会惩罚以下情况：

与一个高带宽租户共享同一个PCIe 根复合体。
与一个表现出高块 I/O 的NUMA 域共处。
相邻 CPU 核心近期有IRQ（中断请求）爆发。

算法 1（简化版） 体现了控制器的核心逻辑：

“`python

输入：延迟流L, 阈值τ, 持续窗口Y

状态：窗口W，配置C，冷却计时器T_cd

当收到观测值l时：
将l加入窗口W
计算当前窗口的p99延迟
if 未到重配置边界或正在冷却中：
return
if p99 > τ 持续了Y个窗口：
C = 升级隔离等级(C) # 先尝试放置，必要时升级MIG
重新启动任务(C)
T_cd = 设置 dwell_time
elif 尾部延迟稳定且吞吐量良好：
C = 降低隔离等级(C) # 释放资源，提高利用率
重新启动任务(C)
T_cd = 设置 dwell_time
“`

注：此伪代码概括了控制器在触发升级或降级隔离时的决策流程，强调了持续观测和冷却机制。

在需要升级隔离时，控制器会优先尝试在同一 GPU 内移动到惩罚分数最低的 MIG 实例（改道）；仅当此操作不足以解决问题时，才扩大 MIG 切片（扩容）。这种策略有效避免了不必要的资源浪费。

创新点三：形式化建模与稳定性保障

为了从理论层面理解并指导控制器设计，本文对 PCIe 争用进行了建模。它将 PCIe 结构简化为一个容量为 B 的处理器共享（PS）服务器。当多个租户活跃时，每个租户 i 获得的瞬时带宽取决于其权重和可能的限流值。

公式解读：该模型描述了在共享 PCIe 带宽 B 的情况下，每个租户能分到的带宽。权重默认平等共享，控制器可能施加主机级限流上限。它捕捉了平等/加权共享和显式速率限制两种场景。

基于此，推理延迟被建模为计算时间加上与数据大小成正比、与带宽成反比的传输时间，再加上随机噪声。

本文进一步引用了经典的 Kingman 近似公式来理解排队延迟如何随利用率趋近于 1 而急剧增长，这从定性上解释了为什么 PCIe 饱和会导致严重的尾部延迟。

更重要的是，本文提出了一个关于系统稳定性的定理（Claim 1）。该定理指出，在 PCIe 带宽总容量有限、每个租户的需求被限流器有界约束、且总负载小于容量的前提下，只要敏感租户的到达率低于其服务速率，其队列就是稳定的，尾部延迟（如 p99）有界。

这为控制器的设计提供了理论基石：控制器通过升级隔离或收紧限流来应对高延迟，且永远不会违反总负载小于容量的条件，从而确保系统能在有限步骤内达到稳定状态。

四、实验评估：效果如何？

研究团队在真实的 2 节点（16 GPU）AWS p4d.24xlarge 集群上进行了严谨的评估。

实验设置：设计了三个代表性租户共同部署：

T1（敏感型）：延迟敏感型推理任务，p99 SLO 为 15ms。
T2（带宽型）：模拟 ETL 过程，持续产生 PCIe 和内存带宽压力。
T3（计算型）：计算密集型训练任务，产生 SM 争用。

通过脚本动态开关 T2 和 T3，模拟真实场景中变化多样的干扰模式。核心结果如下：

整体效能：与使用静态 MIG 和简单放置的基线相比，全功能控制器将 SLO 违反率降低了约 32%（1.5 倍），p99 延迟改善了约 15%，而吞吐量损失不超过 5%。
消融研究：为了厘清每个组件的贡献，本文进行了关键的消融实验，结果令人信服：

表3 | 消融研究结果（平均值 ± 95% 置信区间）量化了控制器各组成部分的贡献。数据显示，每个组件均能独立带来收益：仅用防护（Guards-only）主要压制I/O干扰，将p99从20.0ms改善至19.0ms；仅用PCIe感知放置（Placement-only）通过避免硬件热点，效果更佳（17.8ms）；仅用动态MIG（MIG-only）提供更强的计算/内存隔离，贡献最大（17.2ms）。而三者结合的完整系统实现了最佳效果（16.5ms），且SLO违规率最低（11.1%）。这表明MIG重配和拓扑感知放置的贡献相当，且具有可叠加性，而轻量级防护提供了有价值的补充，共同构成了一个分层、协同的防御体系。

动态 MIG 重配置 贡献了最大的单组件改进（p99 从 20.0ms 降至 17.2ms）。
PCIe 感知放置 的效果紧随其后（降至 17.8ms）。
两者效果接近且具有累加性 ，结合后达到 16.5ms。
轻量级护栏 提供了虽小但明确的额外增益。

3. LLM 案例研究

在 vLLM 上服务 OLMo 2 7B Instruct 模型时，完整控制器在吞吐量成本 ≤5% 的情况下，将 TTFT（首 token 时间）的 p99 降低了约 10-15%，且无需对控制器做任何修改。这证明了该方案的通用性。

表 2 | LLM 服务案例结果。此表聚焦于LLM服务（vLLM + OLMo 2 7B）这一重要实际场景，评估控制器在首次令牌时间（TTFT）上的优化效果。在相同的背景干扰（T2/T3）下，相比静态MIG配置，采用完整控制器使TTFT p99从232ms显著降低至199ms，提升约13%。这一改善仅以小于4%的吞吐量损失为代价（归一化吞吐量从1.00降至0.96）。该结果有力证明，论文提出的控制器机制具有通用性，无需针对LLM工作负载进行特殊修改，即可有效管理其推理延迟的尾部，尤其改善了流式输出中用户感知强烈的首token响应时间。

4. 开销极低

控制器自身 CPU 占用<2%，MIG 重配置频率每小时少于 5 次，每次重配置时间约 18 秒，在可接受范围内。

图4 | PCIe争用对延迟分布尾部的影响。通过对比实验，直观呈现了PCIe带宽争用对推理延迟分布，尤其是尾部的严重影响。在无管理的“高争用”场景（红色曲线）下，延迟分布出现显著的重尾，大量请求远超SLO阈值（虚线），导致高违规率。而采用完整系统（蓝色曲线）后，通过PCIe感知的智能放置策略，有效避免了租户被调度到共享繁忙PCIe路径的实例上，从而显著削减了尾部延迟。p99延迟值得以下降并向SLO阈值靠拢，分布曲线更为紧凑，证明了通过拓扑感知的调度来缓解共享I/O瓶颈对于保证延迟可预测性至关重要。

上图中对比了高争用（红色）和经 PCIe 感知放置优化后（蓝色）的延迟累积分布函数。红线在尾部严重拖长，导致大量请求超出 SLO 阈值（虚线）；蓝线尾部被有效收紧，p99 延迟显著降低并更接近 SLO 线。

五、相关工作：站在巨人的肩膀上

这项工作并非孤立存在，它巧妙地整合并推进了多个领域的研究：

GPU 多租户与隔离 ：早期工作如 MPS 提供了时间复用，MIG 提供了空间分区。研究如《Analysis of Large-Scale Multi-Tenant GPU Clusters》系统分析了其中的权衡。
动态 MIG 管理 ：
- MIGRator [8] 为持续学习负载设计了动态 MIG 重配置；
- MISO [3] 探索了在集群尺度利用 MIG。
  本文控制器继承了动态重配置思想，但将其与拓扑感知和 SLO 保障紧密结合。
PCIe 与 I/O 干扰 ：从基于优先级的 PCIe 调度 [4] 到近期揭示 MIG 实例间仍共享 PCIe 带宽的工作 [7]，本文直接吸收了这些洞见，并将其转化为可操作的放置和限流策略。
SLO 感知服务与调度 ：
- 服务层框架如 Clipper [1] 优化了批处理和预测性；
- 容器云中的透明 GPU 共享 [9] 和 Sponge [6] 提供了主机级时间控制；
- 集群调度器如 Themis [5] 和 Gandiva [10] 解决了大规模下的公平与效率。
  本文的定位与之互补：它是一个运行在 VM 内部的、细粒度的节点级控制环 ，在平台给定的资源边界内进行微调，以强制执行 SLO。

六、讨论、局限与未来

当然，这项研究也存在一些局限性：

拓扑不透明性 ：在某些云环境中，PCIe 拓扑细节是隐藏的，控制器只能从计数器推断争用。
MIG 重配置开销 ：改变 MIG 配置需要短暂暂停任务并可能重载模型状态，对于突发性工作负载可能造成可感知的短时中断。
处理极端负载 ：对于极其繁重的训练任务，本方法可能不足，需要与更严格的准入控制或更高的基线隔离结合使用。
启发式算法的简化 ：当前的放置启发式算法是保守且简单的，未来可探索基于学习的预测器，以更优的复杂度换取更好的稳定性。

尽管有这些局限，该控制器的设计体现了高度的模块化和实用性 。它不需要特权级的硬件互连访问权限，可直接由租户在 VM 内部署 。它可以作为上层集群调度器（如 Themis）的补充，接收其提供的初步放置建议，然后在主机层面进行精细化调整。

七、结语：迈向更可预测的 AI 服务基础设施

本文为解决共享 GPU 环境下的性能干扰问题提供了一个优雅、实用且有效的解决方案。它通过动态 MIG 重配置、PCIe 感知放置和轻量级护栏 的三重奏，在资源利用率与服务可靠性之间找到了一个精巧的平衡点。

其核心价值在于，它证明了即使在租户权限受限的云环境中，通过智能的软件控制，依然可以显著提升关键 AI 服务的性能可预测性 。这对于需要保障用户体验、遵守严格 SLO 的 LLM 服务提供商而言，无疑是一个重要的技术工具。

随着大模型服务日益普及和复杂化，对底层计算基础设施的“可预测性”和“可控性”要求只会越来越高。这项研究为我们指明了方向：通过软硬件协同的、细粒度的资源管理，我们完全有能力在资源共享的云端，为每一个 AI 应用开辟出一条“安静而快速”的数据通道。

参考文献

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18553

驯服GPU集群中的“吵闹邻居”：MIT等高校提出轻量级控制器，实现可预测LLM服务，TTFT p99降低10-15%

一、 问题根源：共享 GPU 集群中的性能“刺客”

二、 解决方案总览：一个保守而智能的“交警系统”

三、 核心创新点深入剖析

创新点一：信号驱动的、分层的决策机制

创新点二：基于拓扑感知的智能放置启发式算法

输入：延迟流L, 阈值τ, 持续窗口Y

创新点三：形式化建模与稳定性保障

四、 实验评估：效果如何？

3. LLM 案例研究

4. 开销极低

五、 相关工作：站在巨人的肩膀上

六、 讨论、局限与未来

七、 结语：迈向更可预测的 AI 服务基础设施

参考文献

相关推荐

Sunday Robotics获1.65亿美元B轮融资，估值11.5亿美元成独角兽，目标让机器人从Demo走向真实家庭

上交、清华提出面向 LLM 推理的多核 NPU 创新策略：全栈多维度优化实现1.32x-6.03x超 SOTA 加速

阿里重磅发布“悟空”AI Agent平台：钉钉11年首款独立APP，开启企业级AI原生工作革命

思维链太长拖慢推理？把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式

AI浪潮下的开源危机：明星项目Tailwind CSS如何被生成式AI逼至绝境