DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

DeepSeek 联合北大清华发布 DualPath 框架：利用闲置网卡突破 Agent 推理 I/O 瓶颈，性能提升近 2 倍

当业界广泛关注 DeepSeek 的 GitHub 仓库，期待其下一代模型发布时，DeepSeek 与北京大学、清华大学的研究团队在 arXiv 上悄然发布了一篇论文，提出了一个全新的智能体推理框架：DualPath。

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

该框架的核心旨在解决智能体在长文本推理场景下面临的 I/O 瓶颈问题。它通过优化从外部存储加载键值缓存（KV-Cache）的速度，确保计算资源不被存储读取操作所拖累。

DualPath 改变了传统的 “存储至预填充引擎” 单一路径加载模式，创新性地引入了 “存储至解码引擎” 的第二条路径。该方案利用解码引擎 闲置的存储网卡 带宽读取缓存，并通过高速计算网络将其传输至预填充引擎，从而实现了集群存储带宽的全局池化与动态负载均衡。

在 660B 参数规模的生产级模型实测中，DualPath 表现显著：离线推理吞吐量提升了 1.87倍，在线服务吞吐量平均提升 1.96倍。

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

在高负载场景下，该框架大幅优化了首字延迟，同时保持了 Token 间生成速度的稳定。

双路径加载

总体而言，DualPath 是一个专为智能体系统设计的推理框架，其核心洞见在于：KV-Cache 的加载不必以预填充引擎为中心。

传统上，由执行计算的单元负责获取数据。但 DualPath 提出，缓存可以先加载到解码引擎中，再通过高性能网络传输至预填充引擎。通过在两条路径间动态选择，系统重新分配了网络负载，缓解了预填充侧的带宽压力。

这一设计的背景是，当前智能体应用通常对话轮次多、上下文长，KV-Cache 的命中率极高（常超过 95%）。这意味着每轮对话都需要搬运海量的历史数据，推理性能的瓶颈已从“计算”转向了“数据搬运”。

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

在现有的预填充-解码分离架构中，所有加载任务都集中在预填充引擎的存储网卡上，容易导致其带宽饱和；与此同时，解码引擎的存储网卡却处于闲置状态，造成了资源错配。

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

此外，GPU 算力的增长速度远超网络带宽和显存容量的增长，进一步加剧了 I/O 限制。正如行业专家多次指出的：计算是廉价的，而数据移动是昂贵的。

针对上述问题，DualPath 构建了创新的双路径模型：

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

路径 A：存储 → 预填充引擎。即传统的直接加载路径。
路径 B：存储 → 解码引擎 → 预填充引擎。新增的“绕行”路径，缓存先读入解码引擎的缓冲区，再通过 RDMA 网络传输给预填充引擎。

在系统架构上，DualPath 主要包含以下组件：
* 推理引擎：每个引擎管理一块 GPU，严格区分为预填充引擎和解码引擎。
* 流量管理器：负责主机到设备、设备间数据传输以及存储网卡的读写操作。
* 中央调度器：作为系统的“大脑”，实时决策每条请求应选择的路径，以实现全局带宽利用率的最大化。

核心技术方案：存储至解码路径

DualPath 推理系统的核心创新在于打破了“存储至预填充”的单一路径模式，引入了 “存储至解码”路径。该设计允许 KV-Cache 先加载至解码引擎，再通过高带宽计算网络无损传输给预填充引擎。

通过在两条路径间动态分配负载，系统释放了集群中原本闲置的解码侧存储网卡带宽，构建了一个全局可调度的存储 I/O 资源池。

具体而言，为支持层级流式处理，DualPath 在预填充引擎和解码引擎上均分配了少量 DRAM 缓冲区，并针对不同阶段设计了精细的数据流：
* 预填充引擎读取路径：命中的 KV-Cache 从存储读入预填充引擎缓冲区。在每层计算开始前，该层缓存被传输至 GPU 显存，并与计算过程重叠执行。计算完成后，全量 KV-Cache 传回解码引擎缓冲区以形成完整上下文。
* 解码引擎读取路径：KV-Cache 直接进入解码引擎缓冲区。在预填充引擎计算期间，对应层的缓存跨节点传输至其显存。计算结束后，预填充引擎仅需传回新生成的 KV-Cache 片段，与解码引擎的原有缓存合并。
* 解码与持久化：解码引擎缓冲区接收完整 KV-Cache 后启动解码，执行数据拷贝后释放 CPU 内存。虽然引入缓冲区增加了 DRAM 压力，但能显著降低 GPU 显存占用并优化首字延迟。生成过程中，每累积满一个数据块即触发异步持久化。

然而，“绕路”加载可能带来新问题，例如缓存搬运流量与模型计算通信发生冲突。对此，DualPath 提供了两套优化方案：

首先是以计算网卡为中心的流量管理，强制所有流量通过配对的网卡走 GPUDirect RDMA 路径。在 InfiniBand 或 RoCE 网络中，利用虚拟通道技术，将推理通信设为最高优先级并预留绝大部分带宽，使缓存搬运只能在网络间隙中进行，确保互不干扰。

其次是自适应请求调度器。调度器实时监控每个节点的磁盘队列长度和待处理 Token 数量，优先将任务分配给 I/O 压力较小且计算负载较轻的节点，从而从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段，研究团队在多个主流大模型上进行了测试，场景覆盖离线推理和在线服务。如前所述，DualPath 在离线推理中将端到端吞吐量最高提升了 1.87 倍，在线服务吞吐量平均提升 1.96 倍，显著降低了首字延迟，同时保持了稳定的 Token 间延迟。

综上所述，DualPath 证明了通过重新设计数据加载路径，可以有效突破当前大模型推理的 I/O 瓶颈。它成功利用了解码引擎原本被浪费的 I/O 带宽，结合自适应调度和严格的流量隔离机制，在不增加硬件成本的前提下，显著提升了智能体大语言模型推理系统的整体效率。

作者信息

本论文的第一作者 吴永彤，是北京大学的博士生，师从金鑫教授。他的研究方向聚焦于系统软件与大模型基础设施，特别是推理系统的工程优化与规模化部署。

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

他目前任职于 DeepSeek 系统组，参与下一代模型的推理基础设施建设，负责大规模软件系统在多硬件平台上的性能优化。

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

此前，他曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。

参考链接：
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23367

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

DeepSeek 联合北大清华发布 DualPath 框架：利用闲置网卡突破 Agent 推理 I/O 瓶颈，性能提升近 2 倍

双路径加载

核心技术方案：存储至解码路径

作者信息

相关推荐

RL赋能3D生成新突破：首个系统性强化学习研究让3D模型学会复杂文本推理，生成质量大幅跃升

突破多GPU性能瓶颈：Triton与Iris融合通信计算，重塑分布式大模型推理新范式

NVIDIA Blackwell架构微基准深度解析：FP4/FP6赋能LLM推理2.5倍加速，36.3TFLOPS FP64重塑科学计算

Unsloth革命：手机端大模型部署实战，40-50 token/s流畅体验揭秘

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践