北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

关键词: Agentic LLMKV缓存、PD分离、存储I/O、负载均衡

近年来,大型语言模型(LLM)的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色,交互回合有限,上下文相对较短。然而,随着技术的发展,LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体(Agent)系统。这类系统通过多轮交互与环境(如代码解释器、浏览器、终端)进行协作,完成复杂的任务,例如代码自动修复、网页自动化操作等。

这种从“人类-LLM”到“人类-LLM-环境”的智能体范式转变,给LLM推理系统带来了全新的挑战。在智能体工作负载中,一次任务可能包含数十甚至上百轮交互,上下文不断累积,长度可达百万token级别。然而,每一轮新追加的token却非常少——通常只有几百个,这意味着绝大多数的上下文(超过95%)都是重复使用的,可以直接从KV缓存中读取,而不需要重新计算。这就导致了一个关键变化:推理的瓶颈从计算密集型的前向传播,变成了I/O密集型的KV缓存加载。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

然而,现有的主流LLM推理架构,特别是预填充-解码分离(PD分离)架构,在处理这种I/O密集型负载时,暴露出了一个严重的资源失衡问题。本文将解读一篇来自北京大学、清华大学和深度求索(DeepSeek-AI)的最新研究论文——《DualPath: Breaking the Storage I/O Bottleneck for Agentic LLM Inference via Dual-Path KV Cache Loading》。该论文提出的DualPath系统,通过一种新颖的“双路径”KV缓存加载机制,巧妙地利用系统中闲置的带宽资源,实现了高达1.87倍的离线推理吞吐量提升,为构建高效的智能体推理系统指明了新方向。

一、现有PD架构的I/O瓶颈分析

为什么现有的LLM推理系统在处理多轮智能体工作负载时会遇到性能瓶颈?具体表现是什么?

现代大语言模型正从单轮聊天向多轮智能体应用演进,例如代码助手、自主任务代理等。这些应用的特点是长上下文、短追加、多轮交互

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

以论文中采集的生产轨迹为例,平均每轮仅追加429个token,而上下文长度高达32.7k,KV缓存命中率超过95%。这意味着每次推理只需计算少量新token,但必须从存储中加载几乎整个上下文的KV缓存。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

在主流预填充-解码分离(PD-disaggregated) 架构中,预填充引擎(PE)负责加载命中token的KV缓存并执行预填充计算,然后将完整的KV缓存通过RDMA传输给解码引擎(DE)进行自回归生成。然而,这种设计将所有存储I/O压力集中在PE侧
* PE的存储网卡(SNIC)带宽迅速饱和,
* 而DE侧的SNIC却长期闲置。

如图1(左)所示,存储网络带宽的非对称饱和成为系统吞吐量的根本瓶颈。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

此外,硬件发展趋势加剧了这一矛盾:从 NVIDIA Ampere 到 Blackwell 架构,I/O 与计算能力的比值下降了 14.4 倍,网络带宽和 HBM 容量的增长远落后于算力增长,使得 I/O 瓶颈愈发突出。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 3 | 左:NVIDIA GPU 硬件发展趋势;右:不同请求批大小下的相对令牌吞吐量(每个请求含 30K 上下文与 300 个新增令牌)。左图揭示硬件演进失衡——GPU 算力(FLOPS)增长 28.8 倍,而网卡带宽和 HBM 容量仅增长 2.0 倍和 2.4 倍,I/O 能力滞后导致智能体推理陷入“算力闲置”困境;右图表明批大小提升能显著增加吞吐量,但受 HBM 容量和网卡带宽限制,传统架构难以充分发挥大规模批处理优势。

表 1 展示了不同模型的“缓存-计算比”(每 PFLOP 计算需加载的 KV 缓存 GB 数)。对于 DeepSeek-V3.2 660B 模型,该比值高达 13-36 GB/PFLOP,意味着存储带宽不足会直接导致 GPU 空闲。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
表 1 | 新增令牌长度为 429 时,不同上下文长度(16K–64K)下的缓存-计算比。除非特别说明,键值缓存(KV-Cache)的数据类型默认采用 FP8 精度。该表量化了不同大模型的 I/O 与计算需求配比,数值越高代表模型推理的 I/O 压力越大。稀疏注意力设计的 DeepSeek-V3.2 比值最低,I/O 瓶颈最轻微;而 FP16 精度的 Qwen2.5-32B 比值最高,存储带宽占用远高于其他模型,这也解释了稠密模型在智能体推理中更易受 I/O 限制的原因。

总而言之,智能体工作负载的高缓存命中率与 PD 分离架构的集中式加载模式相结合,导致预填充侧存储网卡饱和,而解码侧网卡空闲,整体系统吞吐量受限于存储 I/O 而非计算。

二、双路加载的核心思想

DualPath 的核心观察是:在 PD 分离架构中,预填充引擎(PE)的存储网卡(SNIC)带宽成为瓶颈,而解码引擎(DE)的 SNIC 却长期闲置。与此同时,计算网络(如 InfiniBand)拥有比存储网络更高的聚合带宽,且其流量呈现间歇性模式(集体通信在亚毫秒级突发)

因此,DualPath 提出:可以利用解码引擎的空闲存储带宽和计算网络的富余带宽,创建第二条路径:存储 → 解码引擎 → 预填充引擎,通过 RDMA 经由计算网络传输。

如图 1(右)所示,DualPath 引入了双路加载

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 1 | 现有瓶颈(左)与 DualPath 方案(右)。左图展示传统 PD 分离架构的核心问题——预填充引擎(PE)的存储网卡(SNIC)带宽饱和(100% 利用率),而解码引擎(DE)的 SNIC 长期闲置,导致 GPU 利用率不足;右图中 DualPath 通过双路径加载激活 DE 的 SNIC 带宽,结合 RDMA 高速传输,让存储 I/O 负载均匀分布,彻底打破预填充侧带宽瓶颈。

具体而言,对于预填充引擎和解码引擎:

  • PE 读路径(传统路径):KV 缓存直接从存储加载到 PE,然后 PE 将其转发给 DE。
  • DE 读路径(新路径):KV 缓存先加载到 DE,再由 DE 通过计算网络的 RDMA 传输给 PE。

通过动态选择路径,DualPath 聚合了所有引擎(包括 PE 和 DE)的存储网卡带宽,将存储 I/O 从单一瓶颈转化为全局可调度的资源池,从而消除不对称饱和。

理论直觉:假设有 (P) 个 PE 节点和 (D) 个 DE 节点,每个节点的存储网卡带宽为 (B_s)((B_c) 为单计算网卡带宽)。

  • 在传统架构中,系统总的有效存储读取带宽受限于 PE 侧的聚合带宽,即 (P times B_s)。
  • DualPath 通过引入 DE 读路径,激活了 DE 侧原本闲置的存储带宽,使系统的总可用存储带宽从 (P times B_s) 提升为 ((P + D) times B_s)。通过智能调度,DualPath 可以将存储 I/O 负载均匀地分散到所有节点的存储网卡上,从而打破预填充侧的瓶颈,使系统总吞吐量有机会逼近这个提升后的总带宽上限。

三、双路径加载数据流详解

DualPath 在 PE 和 DE 的主机 DRAM 中各分配一小块缓冲区(PE Buffer 和 DE Buffer),并采用两种 KV 缓存块布局:

  • 全块(Full Block):包含所有层的 KV 缓存,用于与存储交互。
  • 层块(Layer Block):仅包含单层的 KV 缓存,用于在 PE、DE 和 GPU 之间流式传输,以配合分层预填充(layerwise prefill)技术,即逐层加载、计算、释放 HBM,以突破 HBM 容量限制。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 4 | 双路径加载示意图。调度器动态在两条路径间分配数据流量。图中包含两条核心路径:传统“存储→PE”路径(a)和创新“存储→DE→PE”路径(b)。DE 读取 KV 缓存后,通过计算网络的 RDMA 技术高速传输至 PE,充分利用 DE 闲置的 SNIC 带宽;调度器根据存储队列长度和引擎负载动态选择路径,将分散的存储带宽整合为全局可调度资源。

图 4 展示了两种加载过程:

3.1 PE 读路径(图 4a)

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 4 | 双路径加载示意图。

  1. 从存储读取命中 token 的 KV 缓存(全块)到 PE Buffer
  2. 在 PE 进行分层预填充时,将当前层所需的层块从 PE Buffer 拷贝到 PE HBM(H2D),与新增 token 的计算重叠。
  3. 计算完成后,将本层新增 token 的 KV 缓存(作为新层块)通过 RDMA 传输到 DE Buffer,并与已有的命中 token 层块合并。
  4. 重复步骤 2-3 直到所有层处理完毕,此时 DE Buffer 中拥有了完整的提示 KV 缓存(命中+新增)。
  5. 解码开始前,将完整的 KV 缓存从 DE Buffer 拷贝到 DE HBM,释放主机内存。

3.2 DE 读路径(图 4b)

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 4 | 双路径加载示意图。

  1. 从存储读取命中 token 的 KV 缓存(全块)到 DE Buffer
  2. 在 PE 进行分层预填充时,DE Buffer 将当前层所需的命中 token 层块通过 RDMA 传输到 PE HBM。
  3. PE 计算后,将新增 token 的层块传回 DE Buffer,并与命中 token 层块合并。
  4. 重复步骤 2-3,最终在 DE Buffer 中形成完整 KV 缓存,随后拷贝到 DE HBM 进行解码。

两种路径的核心区别在于命中 token 的 KV 缓存首先加载到哪个引擎。通过调度器选择合适的路径,可以均衡各节点存储网卡的负载。

四、双路加载的无瓶颈理论分析

作者通过带宽压力分析证明,在合理的预填充/解码引擎比例(P/D ratio)范围内,双路加载可以完全饱和所有存储网卡,而不会使计算网卡或主机内存带宽成为新瓶颈。分析基于以下假设:PCIe 拓扑配置良好、任务调度均衡、计算网络无拥塞、存储读取带宽可完全利用。

用于证明的核心结论公式如下:

为了不使计算网卡成为瓶颈,P/D比例必须满足:

[
frac{P}{D} le frac{B_c}{B_s}
]

其中:
* (P):预填充引擎节点数
* (D):解码引擎节点数
* (B_c):单计算网卡带宽
* (B_s):单存储网卡带宽

  • N_p:预填充引擎节点数。
  • N_d:解码引擎节点数。
  • G:每个节点上的 GPU 数量。
  • R:单节点存储网卡带宽与单计算网卡带宽的比值(例如,若存储网卡和计算网卡都是400Gbps,则 R = 1)。
  • B_m:单节点的主机内存带宽。

结论:以典型的 G=8, R=1, B_m=1TB/s 配置为例,该公式给出的无瓶颈 P/D 比例范围约为 1:1 到 1:2这覆盖了绝大多数实际生产环境中的部署配置,强有力地证明了 DualPath 设计的理论可行性。

五、CNIC-centric 流量管理与干扰隔离

在实际系统中实现双路加载面临哪些挑战?DualPath 如何通过 CNIC-centric 流量管理器来解决干扰问题?

实现双路加载面临三大挑战:

  1. 细粒度数据传输:分层预填充产生大量细小的层块,传输这些小块必须开销极小且能与计算重叠。
  2. 流量隔离:KV 缓存传输可能与模型执行中的延迟敏感集体通信(如 AllToAll、ReduceScatter)争用 PCIe 和网络带宽,导致推理延迟增加。
  3. 动态负载均衡:在线选择路径时需避免某一路径过载,同时平衡 GPU 负载和网络利用率。

DualPath 的核心应对策略是 CNIC-centric 流量管理将所有需要 QoS 保障的 GPU 数据流量,都统一调度到 GPU 配对的 CNIC 上,并使用 GPUDirect RDMA 技术进行传输。这意味着,即使是本地的 H2D/D2H 数据拷贝,DualPath 也会将其构造为一个 RDMA 写请求,通过 CNIC 完成。虽然这看起来是一条“更长”的数据路径,但其核心目的是将所有可能干扰模型通信的流量,都置于计算网络的硬件 QoS(如 InfiniBand 的虚拟通道)管理之下,从而实现精准的优先级调度和流量隔离。

具体隔离机制:

  • 在 InfiniBand 网络中,使用虚拟通道(VL)划分流量。模型通信分配至高优先级 VL,KV 缓存传输分配至低优先级 VL。
  • 通过加权轮询(WRR)配置 VL 仲裁器,为高优先级 VL 预留约 99% 带宽,低优先级 VL 获得剩余带宽,确保模型通信几乎不受影响,同时避免低优先级流量饿死。
  • 对于 RoCE 网络,可采用 DSCP 标记和流量类别(TC)实现类似隔离。

对于细粒度传输,DualPath 观察到 RDMA Write 操作的开销(约 1μs)远低于 cudaMemcpyAsync(5-7μs),且可通过门铃批处理摊销。因此采用 CNIC 辅助的 H2D/D2H 拷贝:数据先读入主机 DRAM,然后通过 RDMA Write 到 GPU 显存,或将 GPU 数据通过 RDMA Read 拉到主机。

结论:CNIC-centric 设计将 KV 缓存流量统一到计算网络,利用硬件 QoS 确保与模型通信的隔离,同时借助 RDMA 的低开销实现高效细粒度传输。

六、两级调度算法与负载均衡

DualPath 的调度器是如何实现负载均衡的?它考虑了哪些维度的平衡?

DualPath 采用两级调度
* 引擎间调度:分配请求到 PE/DE 对并选择路径。
* 引擎内调度:决定哪些请求进入当前批次。

6.1 引擎间调度

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 5 | 引擎间预填充引擎(PE)调度示意图。八个 GPU 同属一个 PE 引擎组,调度器将选择最优 PE 分配任务。调度器将 PE 分为过载(tokₑ>β)、短读队列(read_q≤α)和长读队列三类,优先为短读队列且未过载的 PE 分配任务,避免存储网卡闲置。这种基于令牌数和读队列长度的调度逻辑,能精准平衡各 PE 的存储 I/O 和计算负载,最大化集群整体吞吐量。

  • PE 调度(算法 1):每个 PE 组定期向中央调度器拉取请求。调度器维护每个 PE 的未完成 token 数 tok_e 和所在节点的磁盘读取队列长度 read_q。将 PE 分为三类:
    1. 过载引擎 (tok_e > β):GPU 和存储负载已高,不分配新请求
    2. 低存储压力引擎 (read_q ≤ αtok_e ≤ β):所在节点的磁盘读取队列短(存储 I/O 压力小),且 GPU 负载适中。这类引擎是最优选择,因为它们能立即从存储中读取数据,不会造成排队。
    3. 高存储压力引擎 (read_q > αtok_e ≤ β):所在节点的磁盘读取队列长(存储 I/O 压力大),但 GPU 仍有空闲。这类引擎是次优选择,只有当没有第二类引擎可用时才分配给它,以防止请求在存储 I/O 上排队过久。

调度器优先选择第二类引擎,可以避免将 I/O 压力施加到已经拥堵的存储链路上,从而在源头上平衡存储网卡的负载。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
算法 1 | PE 引擎间调度算法。先让各 PE 上报节点存储读队列长度、自身未完成令牌数,依阈值将 PE 分为过载、短读队列未过载、长读队列未过载三类;再按 FIFO 处理请求等待队列,优先为短读队列未过载 PE 分配,无则选长读队列未过载 PE,无可用 PE 则终止本次调度,分配后更新对应 PE 的未完成令牌数。该算法以令牌数作为 GPU、存储、网络负载的代理指标,通过 α(读队列阈值)和 β(令牌数阈值)完成 PE 分层,从根源避免过载 PE 承接新任务,同时优先利用短读队列 PE 的存储网卡资源,防止存储 NIC 闲置,让存储 I/O 负载在 PE 间均匀分布,适配智能体推理高缓存命中率的 I/O 密集特性,提升集群整体调度效率。

  • DE 调度:分两阶段。先跨组平衡 token 数(选择总 token 最少的组),再在组内平衡请求数和 HBM 使用。引入高水位阈值 H,优先将请求分配给未超过阈值的 DE,以减少 HBM 耗尽风险。
  • 路径选择:在选定 PE 和 DE 后,选择磁盘读取队列较短的一侧作为读取端(即 PE 读还是 DE 读),以均衡存储网卡压力。

6.2 引擎内调度(仅 PE)

由于数据并行下各 GPU 需同步,必须保证各 GPU 注意力层执行时间相近。

DualPath 采用计算配额(compute quota)机制:根据当前批次的缓存 token 数和新计算 token 数,预估注意力层执行时间,若加入新请求会超出预设配额(如 300ms),则对该请求进行分块预填充(chunked prefill),以填满剩余配额。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 6 | 引擎内调度示意图。左:基于计算配额的批处理选择;右:应用计算配额前后的 GPU 时间线。左图展示 PE 的批处理选择逻辑 —— 通过计算配额限制注意力层执行时间,避免单请求占用过多资源;右图对比显示,传统调度存在大量 GPU 等待 “气泡”,而 DualPath 通过任务拆分和并行调度,让注意力层与 FFN 层计算无缝衔接,显著提升 GPU 利用率,减少无效等待。

该调度算法同时平衡了 GPU 计算负载、存储网卡负载和内存压力,实验表明其将存储网卡负载不均衡度从 1.53 降至 1.18(最大/平均流量比),注意力层执行时间最大/平均比保持在 1.06 以下。

四、性能实验评估

DualPath 在离线批处理和在线服务场景下的性能表现如何?与基线相比有哪些提升?

研究团队在三种模型(DeepSeek 660B、DeepSeek 27B、Qwen 32B)上使用真实智能体轨迹进行了评测。基线方案包括:
* Basic:未优化的基础推理框架。
* SGL(MC):采用 SGLang 框架并结合分布式 DRAM 缓存(Mooncake)。
* Oracle:理想化的零 I/O 开销性能上限。

4.1 离线批处理性能

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 7:不同智能体数量与最大智能体上下文长度下的离线推理性能。上:DS 27B 模型;中:DS 660B 模型;下:Qwen 32B 模型。

实验结果表明,DualPath 在长上下文(64K)和大批次(4096个智能体)场景下优势最为显著。对于 DeepSeek 660B 模型,其吞吐量较 Basic 方案提升了 1.87倍,性能接近 Oracle 的理论上限。SGL(MC) 方案因依赖 DRAM 缓存,在大规模配置下易出现错误,而 DualPath 直接适配 SSD 存储,展现了更优的稳定性和扩展性。

  • 作业完成时间(JCT):如图 7 所示,DualPath 相对于 Basic 方案的作业完成时间最高可缩短 1.87倍(DS 660B,64K 上下文,1024 智能体)。在 DS 27B 和 Qwen 32B 模型上也分别取得了最高 1.78倍 和类似的提升。与 Oracle 的性能差距主要源于单节点存储带宽的物理限制。

4.2 在线服务性能

在线服务实验中,请求到达时间服从泊松过程,以模拟真实生产环境中的动态负载。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 10:首令牌延迟(TTFT)、次令牌延迟(TTST)与令牌间延迟(TPOT)随智能体到达率(APS)的变化。上:DS 27B 模型;下:DS 660B 模型。

DualPath 显著提升了在线服务的请求处理容量(DS 27B 达 1.67倍,DS 660B 达 2.25倍),同时保持了与 Basic 方案相当的 TTST 和 TPOT,未引入额外解码开销。Basic 方案因存储带宽不足,在 APS 超过 0.3 后 TTFT 急剧增长,而 DualPath 通过高效的负载均衡维持了稳定的延迟,满足服务等级目标(SLO:TTFT ≤ 4s,TPOT ≤ 50ms)要求。

4.3 工作集与延迟分解分析

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 11:在线服务中所有轨迹的平均完成时间与到达率(APS)的关系。

随着请求到达率(APS)的提升,DualPath 的平均作业完成时间(JCT)增长平缓,而 Basic 方案因存储 I/O 排队延迟激增,JCT 呈指数级上升。这得益于 DualPath 对存储带宽的高效利用,其 KV 缓存工作集能够从 69GB(APS 0.1)动态扩展至 681GB(APS 0.45),同时保持高命中率和低加载延迟。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 12:左:在线服务中首令牌延迟(TTFT)分解(DS 660B 模型);右:离线推理消融实验结果(DS 660B 模型,64K 上下文长度)。

左图延迟分解显示,Basic 方案的 TTFT 增长主要源于 KV 缓存读取延迟,而 DualPath 通过双路径加载将读取延迟稳定在较低水平。右图的消融实验定量验证了各核心组件的贡献:分层预填充提速 17.21%,双路径加载贡献了 38.19% 的核心提速,调度算法进一步将性能优化至 45.62%,证明了各组件的协同增效。

五、系统鲁棒性分析

不同模型规模、不同预填充/解码(P/D)比例对 DualPath 的效果有何影响?研究团队通过系列实验验证了其鲁棒性。

5.1 预填充/解码比例(P/D Ratio)的影响

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 8:预填充-解码比例(P/D)对离线推理性能的影响(DS 27B 模型)。

实验对比了 1P1D、2P1D、1P2D 等配置。结果表明:
* Basic 方案的性能由可用的存储带宽决定(仅预填充侧节点贡献有效带宽),因此 1P1D 和 1P2D 性能接近。
* DualPath 方案能够聚合所有节点的存储带宽,因此其 1P1D 配置的性能即可媲美 Basic 方案的 2P1D 配置(等效存储带宽翻倍)。这证实了存储带宽是核心瓶颈,而 DualPath 通过聚合带宽有效打破了该瓶颈。

5.2 请求特征的影响

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图 9:左:不同新增令牌长度的影响;右:不同生成令牌长度的影响(DS 660B 模型)。

  • 新增令牌长度(计算密集型):新增令牌越长,计算需求越高,Basic 与 DualPath 的性能差距会缩小,但 DualPath 仍能保持 1.82-1.99倍 的提速。
  • 生成令牌长度(I/O 密集型):生成令牌长度对性能影响有限,因为生成阶段的 I/O 压力较低。

这印证了 DualPath 的核心优势在于显著改善 I/O 密集(如短新增)场景下的性能瓶颈,同时在计算密集场景下也能维持稳定增益。

8.3 模型规模分析

  • DeepSeek-V3 660B (MoE):受益最为显著。由于其注意力层采用了稀疏设计(MLA),计算需求相对降低,使得I/O瓶颈问题更为突出,DualPath方案带来的性能提升也最为明显。
  • DeepSeek 27B:作为规模较小的模型,计算在整体开销中占比略高,但DualPath方案依然带来了显著的性能提升。
  • Qwen 32B (密集 GQA):该模型具有较大的KV缓存,DualPath方案同样能有效解决其I/O瓶颈问题。

九、大规模扩展性分析

DualPath方案在大规模集群中的扩展性表现如何?是否存在新的瓶颈?研究团队在多达 1152块GPU 的集群上进行了扩展性实验,结果如表3所示。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
表3:大规模集群扩展性实验结果。该实验验证了DualPath方案在1152块GPU规模下的生产级可扩展性。

实验主要结论如下:
* 离线推理场景:集群配置从2P4D扩展至48P96D(规模扩大24倍),并发处理的智能体数量从2K增至48K,任务完成时间基本持平(3167秒 vs 3201秒)。这表明DualPath方案实现了近线性加速,存储和计算网络均未出现新的性能瓶颈。
* 在线服务场景:吞吐量从0.4 APS提升至8.8 APS(提升22倍),请求时延保持稳定。调度器的CPU占用始终低于10个核心,说明其调度算法具有良好的可扩展性。

北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
图15:48P96D配置下的离线推理性能指标。其中1e7为提示令牌吞吐量(Prompt TPS)的缩放系数。

图15进一步验证了DualPath的大规模扩展能力:从2P4D(2K智能体)扩展至48P96D(48K智能体),任务完成时间仅轻微增加,实现了近线性加速。调度器CPU占用率低,无性能瓶颈。大规模部署不仅支持更高的智能体并发度,还能通过灵活调整预填充(Prefill)与解码(Decode)的资源比例,以适应动态变化的推理负载。

DualPath方案具备良好扩展性的原因在于:
1. 双路径加载机制将存储带宽聚合为全局资源池。
2. 以计算节点网卡为中心的设计,避免了PCIe与网络流量的相互干扰。
3. 两级调度算法仅需维护少量状态信息,开销极低。

潜在瓶颈与未来方向:在超大规模集群中,存储系统本身可能成为瓶颈。本研究采用的3FS分布式存储可通过线性扩展带宽来应对。此外,当前调度器的CPU开销虽低,但当集群规模扩展至上万块GPU时,调度器与各计算引擎之间的状态同步延迟以及元数据管理可能成为新的挑战,这也是未来值得研究的方向。

十、相关工作对比与创新点

与现有方案相比,DualPath的核心创新与优势是什么?本节将相关工作分为三类进行对比。

10.1 分布式内存缓存池方案

| 方案 | 存储介质 | 关键特性与局限 |
| :— | :— | :— |
| Mooncake | DRAM | 构建分布式DRAM池缓存KV,通过亲和性调度提升命中率;但依赖昂贵DRAM,在内存紧张或工作集超大时不可行。 |
| TokenLake | DRAM | 采用统一分段级前缀缓存池;同样受限于DRAM容量与成本,未解决根本性的内存资源瓶颈。 |
| DualPath | SSD | 直接以SSD为目标存储,通过双路径加载聚合所有存储网卡带宽,实现高吞吐;无需昂贵DRAM即可扩展容量;可与DRAM缓存协同,但边际增益有限。 |

10.2 KV缓存I/O优化方案

| 方法 | 核心机制 | 局限性或特点 |
| :— | :— | :— |
| Strata | 分层存储与GPU辅助I/O | 仍限于单一路径加载。 |
| KVPR | 通过部分重计算减少传输数据量 | 增加了额外的计算开销。 |
| TailorKV | 采用混合量化压缩缓存 | 需要额外的数据转换步骤。 |
| DualPath | 重路由数据路径与调度,不改变KV缓存本身 | 充分利用闲置带宽,从根本上解决I/O不平衡问题;与上述优化方法正交,可叠加使用。 |

10.3 LLM推理系统与PD分离架构

| 工具/方法 | 核心思想或技术特点 | 局限性或改进点 |
| :— | :— | :— |
| Splitwise | 提出预填充-解码(PD)分离的思想 | 未考虑存储I/O瓶颈。 |
| DistServe | 优化PD分离架构下的调度与并行策略 | 仍采用传统的单路径KV缓存加载方式。 |
| DualPath | 在PD分离基础上,重新设计KV缓存加载路径,实现存储I/O从集中式到分布式的转变;配套以计算节点网卡为中心的流量管理与调度算法。 | 填补了PD分离架构在处理智能体工作负载时的性能空白。 |

结论

DualPath方案的核心创新在于提出了 “双路径加载”范式。它从根本上改变了KV缓存的流动方式,将存储I/O瓶颈转化为可聚合的分布式资源,并通过精心的系统设计(如流量隔离、负载调度)实现了从理论到实践的跨越。这一思想可被视为未来AI数据中心向“存储网络与计算网络融合”架构演进的早期实践。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23407

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版

    SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…

    2025年12月20日
    32800
  • 清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

    在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…

    2025年12月26日
    15900
  • SynPerf:混合分析与机器学习融合,GPU性能预测实现6.1%内核误差与1.7倍加速

    关键词:GPU 性能建模、混合建模、大语言模型、硬件泛化性、性能优化 让 AI 学会“自我审视”:在真实硬件运行前,精准预测每一行代码的执行时间。 2025 年的今天,从 Gemini 到 Llama-3,从 Qwen 到 DeepSeek,大型语言模型(LLMs)正在以前所未有的速度重塑我们的生活。这些动辄百亿、千亿参数的“数字大脑”,背后依赖的是成千上万…

    5天前
    5200
  • Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…

    2026年1月2日
    14900
  • Co-rewarding:突破自监督RL瓶颈,无标注数据下稳定诱导大模型推理能力

    本文介绍的工作来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数…

    4天前
    5300