DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

当业界普遍关注DeepSeek下一代模型V4的进展时，其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文，提出了一个全新的智能体推理框架：DualPath。

该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外部存储加载KV-Cache（键值缓存）的速度，确保计算资源不被存储读取操作所拖累。

DualPath改变了传统的存储至预填充引擎（Storage-to-Prefill） 单一路径加载模式，引入了存储至解码引擎（Storage-to-Decode） 的第二条路径。通过利用解码引擎闲置的存储网卡（SNIC） 带宽读取缓存，并配合高速计算网络（RDMA）将其传输至预填充引擎，DualPath实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型实测中，DualPath表现显著：
* 离线推理吞吐量提升 1.87倍。
* 在线服务吞吐量平均提升 1.96倍。

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

此外，在高负载下，该框架大幅优化了首字延迟（TTFT），同时保持了Token间生成速度（TPOT）的稳定。

双路径加载 (Dual-Path Loading)

DualPath是一个专为智能体系统设计的推理框架，其核心洞见在于：KV-Cache的加载不必以预填充引擎为中心。

传统模式下，负责计算的单元需自行获取数据。而DualPath提出，缓存可以先加载到解码引擎中，再通过高性能RDMA网络传输至预填充引擎。通过在两条路径间动态选择，系统重新分配了网络负载，缓解了预填充侧的带宽压力。

这一设计的背景是，当前智能体应用通常对话轮数多、上下文长，KV-Cache的命中率常高达95%以上。这意味着每一轮对话都需要搬运海量的历史数据，导致推理性能的瓶颈已从“计算”转移到了“数据搬运”上。

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

在现有的预填充-解码分离架构中，所有加载任务都集中在预填充引擎的存储网卡上，易造成带宽饱和；与此同时，解码引擎的存储网卡却处于闲置状态，形成资源错配。

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

此外，GPU算力的增长速度远超网络带宽和HBM容量的增长，进一步加剧了I/O限制。正如业界专家多次指出的：计算是廉价的，而数据移动是昂贵的。

针对上述问题，DualPath构建了创新的双路径模型：

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升
* 路径 A（传统）：存储 → 预填充引擎（PE），缓存直接读入预填充引擎。
* 路径 B（新增）：存储 → 解码引擎（DE） → 预填充引擎（PE），缓存先读入解码引擎的缓冲池，再通过RDMA传输给预填充引擎。

架构主要包含以下组件：
* 推理引擎：每个引擎管理一块GPU，严格区分为预填充引擎（PE）和解码引擎（DE）。
* 流量管理器：负责主机到设备（H2D）、设备到主机（D2H）的数据拷贝、引擎间传输以及SNIC存储读写。
* 中央调度器：作为系统的“大脑”，实时决策每条请求应选择的路径，以实现全局带宽利用率最大化。

核心技术方案：存储至解码路径

DualPath推理系统的核心在于打破了“存储至预填充”的单一路径模式，创新性地引入了“存储至解码”路径。该设计允许KV-Cache先加载至解码引擎，再通过高带宽计算网络（RDMA）传输给预填充引擎。

通过在两条路径间动态分配负载，系统释放了集群中原本闲置的解码侧存储网卡带宽，构建了一个全局可调度的存储I/O资源池。

具体而言，为支持层级流式处理，DualPath在预填充引擎和解码引擎上均分配了少量DRAM缓冲区，并针对不同阶段设计了精细的数据流：
* PE读取路径：命中Token的KV-Cache从存储读入PE缓冲区。在每层计算开始前，该层缓存传输至PE的HBM，并与计算过程重叠执行。计算完成后，全量KV-Cache传回DE缓冲区以形成完整上下文。
* DE读取路径：KV-Cache直接进入DE缓冲区。在PE预填充期间，对应层的缓存跨节点传输至PE的HBM（与计算重叠）。计算结束后，PE仅需传回新生成的KV-Cache片段，与DE原有缓存合并。
* 解码与持久化：DE缓冲区接收完整KV-Cache后启动解码，执行H2D拷贝并随后释放CPU内存。虽然引入缓冲增加了DRAM压力，但能显著降低GPU显存占用并优化首字延迟。生成过程中，每累积满一个Block（如64个Token）即触发异步持久化。

然而，“绕路”加载可能带来新问题，例如缓存搬运流量可能与模型计算通信发生冲突。对此，DualPath提供了两套优化方案：

首先是以计算网卡（CNIC）为中心的流量管理，强制所有流量通过配对的CNIC走GPUDirect RDMA路径。在InfiniBand或RoCE网络中，利用虚拟通道（VL/TC）技术，将推理通信设为最高优先级并预留大部分带宽，使缓存搬运只能在间隙中利用剩余带宽，确保互不干扰。

其次是自适应请求调度器。调度器实时监控每个节点的磁盘队列长度和Token数量，优先将任务分配给I/O压力较小且计算负载较轻的节点，从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段，DualPath在DeepSeek-V3、Qwen等模型上进行了测试，场景覆盖离线Rollout和在线服务。如前所述，在离线推理中，DualPath将端到端吞吐量最高提升了1.87倍，在线服务吞吐量平均提升1.96倍，显著降低了首字延迟，同时保持了稳定的Token间延迟。

总体而言，DualPath证明，通过重新设计数据加载路径，可以有效突破当前大模型推理的I/O瓶颈。它成功利用了解码引擎原本被浪费的I/O带宽，配合自适应调度和严谨的流量隔离机制，在不增加硬件成本的前提下，大幅提升了智能体LLM推理系统的效率。

作者信息

这篇论文的第一作者吴永彤，是北京大学的博士生，师从金鑫教授。他的研究方向聚焦于系统软件与大模型基础设施，尤其是推理系统的工程优化与规模化部署。

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

他目前任职于DeepSeek系统组，参与下一代模型的推理基础设施建设，负责大规模软件系统在多硬件平台上的性能优化。

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

此前，他曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。

参考链接：
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23230

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

DeepSeek新框架DualPath：用闲置网卡加速智能体推理，突破I/O瓶颈实现近2倍性能提升

双路径加载 (Dual-Path Loading)

核心技术方案：存储至解码路径

作者信息

相关推荐

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

苹果官方批准TinyGPU驱动：Mac用户现可外接NVIDIA/AMD显卡运行AI推理，无需关闭SIP

GPU上LLM推理性能瓶颈深度解析：从两阶段特性到MoE/RAG优化策略

从AlphaGo到DeepSeek R1：推理模型如何重塑AI生产力与人类未来