DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath。
该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外部存储加载KV-Cache(键值缓存)的速度,确保计算资源不被存储读取操作所拖累。
DualPath改变了传统的存储至预填充引擎(Storage-to-Prefill) 单一路径加载模式,引入了存储至解码引擎(Storage-to-Decode) 的第二条路径。通过利用解码引擎闲置的存储网卡(SNIC) 带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。
在660B规模的生产级模型实测中,DualPath表现显著:
* 离线推理吞吐量提升 1.87倍。
* 在线服务吞吐量平均提升 1.96倍。

此外,在高负载下,该框架大幅优化了首字延迟(TTFT),同时保持了Token间生成速度(TPOT)的稳定。
双路径加载 (Dual-Path Loading)
DualPath是一个专为智能体系统设计的推理框架,其核心洞见在于:KV-Cache的加载不必以预填充引擎为中心。
传统模式下,负责计算的单元需自行获取数据。而DualPath提出,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。通过在两条路径间动态选择,系统重新分配了网络负载,缓解了预填充侧的带宽压力。
这一设计的背景是,当前智能体应用通常对话轮数多、上下文长,KV-Cache的命中率常高达95%以上。这意味着每一轮对话都需要搬运海量的历史数据,导致推理性能的瓶颈已从“计算”转移到了“数据搬运”上。

在现有的预填充-解码分离架构中,所有加载任务都集中在预填充引擎的存储网卡上,易造成带宽饱和;与此同时,解码引擎的存储网卡却处于闲置状态,形成资源错配。

此外,GPU算力的增长速度远超网络带宽和HBM容量的增长,进一步加剧了I/O限制。正如业界专家多次指出的:计算是廉价的,而数据移动是昂贵的。
针对上述问题,DualPath构建了创新的双路径模型:

* 路径 A(传统):存储 → 预填充引擎(PE),缓存直接读入预填充引擎。
* 路径 B(新增):存储 → 解码引擎(DE) → 预填充引擎(PE),缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。
架构主要包含以下组件:
* 推理引擎:每个引擎管理一块GPU,严格区分为预填充引擎(PE)和解码引擎(DE)。
* 流量管理器:负责主机到设备(H2D)、设备到主机(D2H)的数据拷贝、引擎间传输以及SNIC存储读写。
* 中央调度器:作为系统的“大脑”,实时决策每条请求应选择的路径,以实现全局带宽利用率最大化。
核心技术方案:存储至解码路径
DualPath推理系统的核心在于打破了“存储至预填充”的单一路径模式,创新性地引入了“存储至解码”路径。该设计允许KV-Cache先加载至解码引擎,再通过高带宽计算网络(RDMA)传输给预填充引擎。
通过在两条路径间动态分配负载,系统释放了集群中原本闲置的解码侧存储网卡带宽,构建了一个全局可调度的存储I/O资源池。
具体而言,为支持层级流式处理,DualPath在预填充引擎和解码引擎上均分配了少量DRAM缓冲区,并针对不同阶段设计了精细的数据流:
* PE读取路径:命中Token的KV-Cache从存储读入PE缓冲区。在每层计算开始前,该层缓存传输至PE的HBM,并与计算过程重叠执行。计算完成后,全量KV-Cache传回DE缓冲区以形成完整上下文。
* DE读取路径:KV-Cache直接进入DE缓冲区。在PE预填充期间,对应层的缓存跨节点传输至PE的HBM(与计算重叠)。计算结束后,PE仅需传回新生成的KV-Cache片段,与DE原有缓存合并。
* 解码与持久化:DE缓冲区接收完整KV-Cache后启动解码,执行H2D拷贝并随后释放CPU内存。虽然引入缓冲增加了DRAM压力,但能显著降低GPU显存占用并优化首字延迟。生成过程中,每累积满一个Block(如64个Token)即触发异步持久化。
然而,“绕路”加载可能带来新问题,例如缓存搬运流量可能与模型计算通信发生冲突。对此,DualPath提供了两套优化方案:
首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。在InfiniBand或RoCE网络中,利用虚拟通道(VL/TC)技术,将推理通信设为最高优先级并预留大部分带宽,使缓存搬运只能在间隙中利用剩余带宽,确保互不干扰。
其次是自适应请求调度器。调度器实时监控每个节点的磁盘队列长度和Token数量,优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。
在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景覆盖离线Rollout和在线服务。如前所述,在离线推理中,DualPath将端到端吞吐量最高提升了1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟,同时保持了稳定的Token间延迟。
总体而言,DualPath证明,通过重新设计数据加载路径,可以有效突破当前大模型推理的I/O瓶颈。它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。
作者信息
这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。他的研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署。

他目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。

此前,他曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。
参考链接:
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23230
