解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构


解耦推理:从实验室概念到行业标准

2024年,由北京大学金鑫-刘譞哲团队、加州大学圣地亚哥分校Hao AI Lab等机构提出的DistServe系统,首次系统性地阐述了“解耦推理”理念。在短短一年多时间里,这一理念迅速从学术概念演变为行业标准,被NVIDIA、vLLM等主流大模型推理框架采纳,标志着AI推理架构正迈向“模块化智能”的新阶段。

如果说“摩尔定律”定义了计算能力的迭代速度,那么大模型推理成本的下降曲线已远超其预测。这一加速不仅源于芯片性能的提升,更关键的是推理系统架构自身的进化。其核心驱动力,正是DistServe所倡导的“解耦推理”思想。

该系统于2024年3月发布,提出了一个简洁而深刻的构想:将大模型的推理过程拆分为“预填充”和“解码”两个阶段,并让它们分别在独立的计算资源池中进行调度与伸缩。

如今,这种解耦架构已被NVIDIA、llm-d、vLLM、MoonCake等主流框架采用,开始在大规模真实场景中释放强大效能。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

“Hao AI Lab”由加州大学圣地亚哥分校助理教授Hao Zhang领导,他同时也是2025年谷歌机器学习与系统青年教师奖的获得者。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

该团队在2025年还获得了NVIDIA捐赠的DGX B200系统,以强化其AI研究基础设施。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

作为“解耦推理”的早期设计者,Hao Zhang团队回顾了“预填充-解码”解耦架构如何从研究走向生产,并展望了在大模型推理持续扩展背景下的未来演进。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

从同址部署到解耦推理

在DistServe出现之前,主流推理框架普遍采用“同址部署”模式,即在同一块GPU上同时执行预填充和解码任务。

典型的流程是,调度器将多个用户请求打包成一个批次,运行一轮计算后为每个请求生成一个输出token。这种由Orca提出、经vLLM推广的“连续批处理”技术,曾因其高效性成为业界标准。然而,它存在两个根本性限制:

  1. 阶段干扰:预填充和解码共享GPU资源,其延迟会不可避免地相互影响。即使采用“分块预填充”等技术缓解,一个大型预填充请求仍可能使每个输出token的生成时间膨胀2到3倍,在负载突发时尤为明显。

    解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

    (图示说明:上图展示了同址部署下预填充与解码相互干扰导致解码停滞;下图展示了解耦部署后两者可无干扰并行运行。)

  2. 资源耦合伸缩:在生产环境中,首token时间(TTFT)和每输出token时间(TPOT)是关键体验指标。当两个阶段部署在同一组GPU上时,资源分配必须同时满足两者最坏情况下的延迟需求,导致需要过度预留资源,整体利用率低下。

随着部署规模扩大和延迟要求趋严,上述问题带来的成本急剧增加。DistServe应运而生,它通过将预填充与解码拆分为独立的计算池,彻底消除了阶段间干扰,并首次实现了资源的独立伸缩,使系统能够分别精准满足TTFT和TPOT的延迟要求,同时保持高资源效率。

尽管团队最初就认为这是一个颠覆性的想法,但解耦架构在2024年并未被广泛接纳,开源社区对深度重构现有系统持谨慎态度。然而,到2025年,局面发生逆转,“解耦”几乎成为所有主流大模型推理栈的默认方案。这一转变主要源于三个驱动因素:

  1. 业务需求驱动:随着大模型成为企业核心业务组件,延迟控制变得至关重要。解耦架构使得预填充和解码的延迟变得易于观测、控制和持续优化。
  2. 规模扩展需求:模型体量和访问流量激增,推理系统需扩展至数百甚至上千张GPU。在此规模下,解耦架构可为不同阶段独立分配资源,并灵活配合多种并行策略,实现极高的资源利用率。
  3. 架构可组合性:解耦增强了系统的模块化程度,使得不同组件可以更灵活地组合与升级。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

当下的解耦推理

如今,解耦推理已成为大模型推理的核心设计原则之一。从编排层、推理引擎到存储系统,乃至新兴硬件架构,都以某种形式采纳了这一思想。

  • 编排层:代表性系统如NVIDIA Dynamo,它是一个专为预填充/解码解耦设计的先进开源数据中心级分布式推理框架。

    解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

    (NVIDIA Dynamo架构示意图)
    此外,llm-d、Ray Serve等也基于解耦架构构建。

    解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

  • 存储层:为优化解耦过程中的KV缓存传输,出现了如芝加哥大学团队的LMCache(通过加速缓存移动来优化解耦过程)和Kimi AI团队的MoonCake(以“KVCache中心化”为核心,构建集中式KV缓存池)。

    解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

    (LMCache架构示意图)

    解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

    (MoonCake架构示意图)
    两者已成为大规模LLM推理系统的标准存储后端。

  • 推理引擎层:几乎所有主流开源LLM推理引擎,如SGLang与vLLM,都已原生支持解耦推理模式。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

解耦推理的未来

“预填充-解码解耦”在2025年已趋于成熟,但这仅仅是一个起点。从更宏观的视角看,解耦是一种系统哲学:旨在打破神经网络推理的“计算单体”结构,实现计算、存储与通信的自由重组。学术界和工业界正推动解耦架构向“通用分解式推理”阶段演进。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

计算层面的解耦

  1. Attention-FFN解耦:超越阶段分离,在模型内部进行更细粒度的解耦。例如,MIT CSAIL、DeepSeek Research以及北大刘譞哲-金鑫团队(MegaScale-Infer系统)提出的方案,将Transformer的注意力模块与前馈网络层分别置于不同计算节点,以便利用异构硬件优势。
  2. 流水线解耦:将推理过程在不同节点间以流水线方式组织。Stanford DAWN的“DisPipe”、Meta AI的“HydraPipe”、阿里巴巴DAI-Lab的“PipeShard”等系统都在探索这一方向,使其更适合未来的多芯片异构系统。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

跨模态与多模型的解耦

  1. 模态分解:针对多模态大模型,未来的趋势是将推理解耦为多个模态子流,在编排层进行异步融合,以提升资源利用率。
  2. 多模型协同:在系统中同时运行多个LLM或专用子模型的场景,天然适合解耦化设计,以实现更灵活的模型组合与调度。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

内存与缓存体系的解耦

当前体系仍依赖集中式缓存池,未来研究方向在于实现缓存体系自身的多层解耦与自治调度。

  1. 层级化缓存架构:如MIT与ETH Zürich提出的HiKV框架,将KV缓存划分为GPU本地(L1)、节点共享(L2)和分布式持久(L3)三层,根据热度自动迁移数据片段。
  2. 存算协同:一些硬件厂商开始探索原生支持解耦架构的芯片设计,预示着“解耦推理”将演化为软硬件一体化的体系。

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

迈向模块化智能

一些研究团队(如Google Brain Zürich与FAIR)提出了更大胆的设想:既然推理可以解耦,那么训练与持续学习是否也能解耦?他们将模型学习过程分解为多个独立子任务,在不同硬件上运行,并通过共享梯度缓存等方式通信。这种“解耦学习”理念被视为解决大模型“灾难性遗忘”与持续适应问题的潜在路径。

过去十年,深度学习系统经历了从分散到集中的过程。而当前趋势正在反转,走向从集中到解耦。这并非倒退,而是系统成熟的标志。AI系统正走向“模块化智能”,不同功能模块得以独立演化、扩展和优化。“解耦推理”正是这一宏大趋势的起点。未来,我们或许将看到“解耦学习”、“解耦推理”与“解耦认知”三者融合的下一代智能架构体系。

参考资料
https://hao-ai-lab.github.io/blogs/distserve-retro/

解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13580

(0)
上一篇 2025年11月9日 下午1:10
下一篇 2025年11月9日 下午2:31

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注