DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath

该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外部存储加载KV-Cache(键值缓存)的速度,确保计算资源不被存储读取操作所拖累。

DualPath改变了传统的存储至预填充引擎(Storage-to-Prefill) 单一路径加载模式,引入了存储至解码引擎(Storage-to-Decode) 的第二条路径。通过利用解码引擎闲置的存储网卡(SNIC) 带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型实测中,DualPath表现显著:
* 离线推理吞吐量提升 1.87倍
* 在线服务吞吐量平均提升 1.96倍

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

此外,在高负载下,该框架大幅优化了首字延迟(TTFT),同时保持了Token间生成速度(TPOT)的稳定。

双路径加载 (Dual-Path Loading)

DualPath是一个专为智能体系统设计的推理框架,其核心洞见在于:KV-Cache的加载不必以预填充引擎为中心

传统模式下,负责计算的单元需自行获取数据。而DualPath提出,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。通过在两条路径间动态选择,系统重新分配了网络负载,缓解了预填充侧的带宽压力。

这一设计的背景是,当前智能体应用通常对话轮数多、上下文长,KV-Cache的命中率常高达95%以上。这意味着每一轮对话都需要搬运海量的历史数据,导致推理性能的瓶颈已从“计算”转移到了“数据搬运”上

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

在现有的预填充-解码分离架构中,所有加载任务都集中在预填充引擎的存储网卡上,易造成带宽饱和;与此同时,解码引擎的存储网卡却处于闲置状态,形成资源错配。

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

此外,GPU算力的增长速度远超网络带宽和HBM容量的增长,进一步加剧了I/O限制。正如业界专家多次指出的:计算是廉价的,而数据移动是昂贵的。

针对上述问题,DualPath构建了创新的双路径模型:

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升
* 路径 A(传统):存储 → 预填充引擎(PE),缓存直接读入预填充引擎。
* 路径 B(新增):存储 → 解码引擎(DE) → 预填充引擎(PE),缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。

架构主要包含以下组件:
* 推理引擎:每个引擎管理一块GPU,严格区分为预填充引擎(PE)和解码引擎(DE)。
* 流量管理器:负责主机到设备(H2D)、设备到主机(D2H)的数据拷贝、引擎间传输以及SNIC存储读写。
* 中央调度器:作为系统的“大脑”,实时决策每条请求应选择的路径,以实现全局带宽利用率最大化。

核心技术方案:存储至解码路径

DualPath推理系统的核心在于打破了“存储至预填充”的单一路径模式,创新性地引入了“存储至解码”路径。该设计允许KV-Cache先加载至解码引擎,再通过高带宽计算网络(RDMA)传输给预填充引擎。

通过在两条路径间动态分配负载,系统释放了集群中原本闲置的解码侧存储网卡带宽,构建了一个全局可调度的存储I/O资源池。

具体而言,为支持层级流式处理,DualPath在预填充引擎和解码引擎上均分配了少量DRAM缓冲区,并针对不同阶段设计了精细的数据流:
* PE读取路径:命中Token的KV-Cache从存储读入PE缓冲区。在每层计算开始前,该层缓存传输至PE的HBM,并与计算过程重叠执行。计算完成后,全量KV-Cache传回DE缓冲区以形成完整上下文。
* DE读取路径:KV-Cache直接进入DE缓冲区。在PE预填充期间,对应层的缓存跨节点传输至PE的HBM(与计算重叠)。计算结束后,PE仅需传回新生成的KV-Cache片段,与DE原有缓存合并。
* 解码与持久化:DE缓冲区接收完整KV-Cache后启动解码,执行H2D拷贝并随后释放CPU内存。虽然引入缓冲增加了DRAM压力,但能显著降低GPU显存占用并优化首字延迟。生成过程中,每累积满一个Block(如64个Token)即触发异步持久化。

然而,“绕路”加载可能带来新问题,例如缓存搬运流量可能与模型计算通信发生冲突。对此,DualPath提供了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。在InfiniBand或RoCE网络中,利用虚拟通道(VL/TC)技术,将推理通信设为最高优先级并预留大部分带宽,使缓存搬运只能在间隙中利用剩余带宽,确保互不干扰。

其次是自适应请求调度器。调度器实时监控每个节点的磁盘队列长度和Token数量,优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景覆盖离线Rollout和在线服务。如前所述,在离线推理中,DualPath将端到端吞吐量最高提升了1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟,同时保持了稳定的Token间延迟。

总体而言,DualPath证明,通过重新设计数据加载路径,可以有效突破当前大模型推理的I/O瓶颈。它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

作者信息

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。他的研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署。

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

他目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

此前,他曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。

参考链接
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/

DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23230

(0)
上一篇 2026年2月27日 上午9:13
下一篇 2026年2月27日 上午9:56

相关推荐

  • LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    93012
  • 让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

    当前主流的搜索智能体(Agent)普遍存在一个效率瓶颈:其执行流程是严格串行的。以广泛采用的ReAct框架为例,其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下,模型在等待搜索引擎返回结果时完全处于空闲状态,造成了大量的时间浪费。多轮交互中,延迟不断累积,严重影响了用户体验。 研究团队通过分析发现,在多跳问答等复杂任务中,这种“干等”的串行…

    2026年3月1日
    15100
  • 苹果官方批准TinyGPU驱动:Mac用户现可外接NVIDIA/AMD显卡运行AI推理,无需关闭SIP

    关键词:AI、Apple、GPU、硬件、推理、开源 专为 AI 设计,游戏玩家再次失望 Apple approves drivers that let AMD and Nvidia eGPUs run on Mac — software designed for AI, though, and not built for gaming https://www…

    6天前
    52800
  • GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

    关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…

    2025年12月24日
    25000
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    17800