DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

DeepSeek 联合北大清华发布 DualPath 框架:利用闲置网卡突破 Agent 推理 I/O 瓶颈,性能提升近 2 倍

当业界广泛关注 DeepSeek 的 GitHub 仓库,期待其下一代模型发布时,DeepSeek 与北京大学、清华大学的研究团队在 arXiv 上悄然发布了一篇论文,提出了一个全新的智能体推理框架:DualPath

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

该框架的核心旨在解决智能体在长文本推理场景下面临的 I/O 瓶颈问题。它通过优化从外部存储加载键值缓存(KV-Cache)的速度,确保计算资源不被存储读取操作所拖累。

DualPath 改变了传统的 “存储至预填充引擎” 单一路径加载模式,创新性地引入了 “存储至解码引擎” 的第二条路径。该方案利用解码引擎 闲置的存储网卡 带宽读取缓存,并通过高速计算网络将其传输至预填充引擎,从而实现了集群存储带宽的全局池化与动态负载均衡。

在 660B 参数规模的生产级模型实测中,DualPath 表现显著:离线推理吞吐量提升了 1.87倍,在线服务吞吐量平均提升 1.96倍

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

在高负载场景下,该框架大幅优化了首字延迟,同时保持了 Token 间生成速度的稳定。

双路径加载

总体而言,DualPath 是一个专为智能体系统设计的推理框架,其核心洞见在于:KV-Cache 的加载不必以预填充引擎为中心

传统上,由执行计算的单元负责获取数据。但 DualPath 提出,缓存可以先加载到解码引擎中,再通过高性能网络传输至预填充引擎。通过在两条路径间动态选择,系统重新分配了网络负载,缓解了预填充侧的带宽压力。

这一设计的背景是,当前智能体应用通常对话轮次多、上下文长,KV-Cache 的命中率极高(常超过 95%)。这意味着每轮对话都需要搬运海量的历史数据,推理性能的瓶颈已从“计算”转向了“数据搬运”

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

在现有的预填充-解码分离架构中,所有加载任务都集中在预填充引擎的存储网卡上,容易导致其带宽饱和;与此同时,解码引擎的存储网卡却处于闲置状态,造成了资源错配。

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

此外,GPU 算力的增长速度远超网络带宽和显存容量的增长,进一步加剧了 I/O 限制。正如行业专家多次指出的:计算是廉价的,而数据移动是昂贵的。

针对上述问题,DualPath 构建了创新的双路径模型:

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

  • 路径 A:存储 → 预填充引擎。即传统的直接加载路径。
  • 路径 B:存储 → 解码引擎 → 预填充引擎。新增的“绕行”路径,缓存先读入解码引擎的缓冲区,再通过 RDMA 网络传输给预填充引擎。

在系统架构上,DualPath 主要包含以下组件:
* 推理引擎:每个引擎管理一块 GPU,严格区分为预填充引擎和解码引擎。
* 流量管理器:负责主机到设备、设备间数据传输以及存储网卡的读写操作。
* 中央调度器:作为系统的“大脑”,实时决策每条请求应选择的路径,以实现全局带宽利用率的最大化。

核心技术方案:存储至解码路径

DualPath 推理系统的核心创新在于打破了“存储至预填充”的单一路径模式,引入了 “存储至解码”路径。该设计允许 KV-Cache 先加载至解码引擎,再通过高带宽计算网络无损传输给预填充引擎。

通过在两条路径间动态分配负载,系统释放了集群中原本闲置的解码侧存储网卡带宽,构建了一个全局可调度的存储 I/O 资源池。

具体而言,为支持层级流式处理,DualPath 在预填充引擎和解码引擎上均分配了少量 DRAM 缓冲区,并针对不同阶段设计了精细的数据流:
* 预填充引擎读取路径:命中的 KV-Cache 从存储读入预填充引擎缓冲区。在每层计算开始前,该层缓存被传输至 GPU 显存,并与计算过程重叠执行。计算完成后,全量 KV-Cache 传回解码引擎缓冲区以形成完整上下文。
* 解码引擎读取路径:KV-Cache 直接进入解码引擎缓冲区。在预填充引擎计算期间,对应层的缓存跨节点传输至其显存。计算结束后,预填充引擎仅需传回新生成的 KV-Cache 片段,与解码引擎的原有缓存合并。
* 解码与持久化:解码引擎缓冲区接收完整 KV-Cache 后启动解码,执行数据拷贝后释放 CPU 内存。虽然引入缓冲区增加了 DRAM 压力,但能显著降低 GPU 显存占用并优化首字延迟。生成过程中,每累积满一个数据块即触发异步持久化。

然而,“绕路”加载可能带来新问题,例如缓存搬运流量与模型计算通信发生冲突。对此,DualPath 提供了两套优化方案:

首先是以计算网卡为中心的流量管理,强制所有流量通过配对的网卡走 GPUDirect RDMA 路径。在 InfiniBand 或 RoCE 网络中,利用虚拟通道技术,将推理通信设为最高优先级并预留绝大部分带宽,使缓存搬运只能在网络间隙中进行,确保互不干扰。

其次是自适应请求调度器。调度器实时监控每个节点的磁盘队列长度和待处理 Token 数量,优先将任务分配给 I/O 压力较小且计算负载较轻的节点,从而从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,研究团队在多个主流大模型上进行了测试,场景覆盖离线推理和在线服务。如前所述,DualPath 在离线推理中将端到端吞吐量最高提升了 1.87 倍,在线服务吞吐量平均提升 1.96 倍,显著降低了首字延迟,同时保持了稳定的 Token 间延迟。

综上所述,DualPath 证明了通过重新设计数据加载路径,可以有效突破当前大模型推理的 I/O 瓶颈。它成功利用了解码引擎原本被浪费的 I/O 带宽,结合自适应调度和严格的流量隔离机制,在不增加硬件成本的前提下,显著提升了智能体大语言模型推理系统的整体效率。

作者信息

本论文的第一作者 吴永彤,是北京大学的博士生,师从 金鑫 教授。他的研究方向聚焦于系统软件与大模型基础设施,特别是推理系统的工程优化与规模化部署。

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

他目前任职于 DeepSeek 系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。

DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

此前,他曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。

参考链接:
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23367

(0)
上一篇 3天前
下一篇 3天前

相关推荐