解耦推理：从实验室概念到行业标准，DistServe如何重塑AI推理架构

解耦推理：从实验室概念到行业标准

2024年，由北京大学金鑫-刘譞哲团队、加州大学圣地亚哥分校Hao AI Lab等机构提出的DistServe系统，首次系统性地阐述了“解耦推理”理念。在短短一年多时间里，这一理念迅速从学术概念演变为行业标准，被NVIDIA、vLLM等主流大模型推理框架采纳，标志着AI推理架构正迈向“模块化智能”的新阶段。

如果说“摩尔定律”定义了计算能力的迭代速度，那么大模型推理成本的下降曲线已远超其预测。这一加速不仅源于芯片性能的提升，更关键的是推理系统架构自身的进化。其核心驱动力，正是DistServe所倡导的“解耦推理”思想。

该系统于2024年3月发布，提出了一个简洁而深刻的构想：将大模型的推理过程拆分为“预填充”和“解码”两个阶段，并让它们分别在独立的计算资源池中进行调度与伸缩。

如今，这种解耦架构已被NVIDIA、llm-d、vLLM、MoonCake等主流框架采用，开始在大规模真实场景中释放强大效能。

“Hao AI Lab”由加州大学圣地亚哥分校助理教授Hao Zhang领导，他同时也是2025年谷歌机器学习与系统青年教师奖的获得者。

该团队在2025年还获得了NVIDIA捐赠的DGX B200系统，以强化其AI研究基础设施。

作为“解耦推理”的早期设计者，Hao Zhang团队回顾了“预填充-解码”解耦架构如何从研究走向生产，并展望了在大模型推理持续扩展背景下的未来演进。

从同址部署到解耦推理

在DistServe出现之前，主流推理框架普遍采用“同址部署”模式，即在同一块GPU上同时执行预填充和解码任务。

典型的流程是，调度器将多个用户请求打包成一个批次，运行一轮计算后为每个请求生成一个输出token。这种由Orca提出、经vLLM推广的“连续批处理”技术，曾因其高效性成为业界标准。然而，它存在两个根本性限制：

阶段干扰：预填充和解码共享GPU资源，其延迟会不可避免地相互影响。即使采用“分块预填充”等技术缓解，一个大型预填充请求仍可能使每个输出token的生成时间膨胀2到3倍，在负载突发时尤为明显。

（图示说明：上图展示了同址部署下预填充与解码相互干扰导致解码停滞；下图展示了解耦部署后两者可无干扰并行运行。）
资源耦合伸缩：在生产环境中，首token时间（TTFT）和每输出token时间（TPOT）是关键体验指标。当两个阶段部署在同一组GPU上时，资源分配必须同时满足两者最坏情况下的延迟需求，导致需要过度预留资源，整体利用率低下。

随着部署规模扩大和延迟要求趋严，上述问题带来的成本急剧增加。DistServe应运而生，它通过将预填充与解码拆分为独立的计算池，彻底消除了阶段间干扰，并首次实现了资源的独立伸缩，使系统能够分别精准满足TTFT和TPOT的延迟要求，同时保持高资源效率。

尽管团队最初就认为这是一个颠覆性的想法，但解耦架构在2024年并未被广泛接纳，开源社区对深度重构现有系统持谨慎态度。然而，到2025年，局面发生逆转，“解耦”几乎成为所有主流大模型推理栈的默认方案。这一转变主要源于三个驱动因素：

业务需求驱动：随着大模型成为企业核心业务组件，延迟控制变得至关重要。解耦架构使得预填充和解码的延迟变得易于观测、控制和持续优化。
规模扩展需求：模型体量和访问流量激增，推理系统需扩展至数百甚至上千张GPU。在此规模下，解耦架构可为不同阶段独立分配资源，并灵活配合多种并行策略，实现极高的资源利用率。
架构可组合性：解耦增强了系统的模块化程度，使得不同组件可以更灵活地组合与升级。

当下的解耦推理

如今，解耦推理已成为大模型推理的核心设计原则之一。从编排层、推理引擎到存储系统，乃至新兴硬件架构，都以某种形式采纳了这一思想。

编排层：代表性系统如NVIDIA Dynamo，它是一个专为预填充/解码解耦设计的先进开源数据中心级分布式推理框架。

（NVIDIA Dynamo架构示意图）
此外，llm-d、Ray Serve等也基于解耦架构构建。
存储层：为优化解耦过程中的KV缓存传输，出现了如芝加哥大学团队的LMCache（通过加速缓存移动来优化解耦过程）和Kimi AI团队的MoonCake（以“KVCache中心化”为核心，构建集中式KV缓存池）。

（LMCache架构示意图）

（MoonCake架构示意图）
两者已成为大规模LLM推理系统的标准存储后端。
推理引擎层：几乎所有主流开源LLM推理引擎，如SGLang与vLLM，都已原生支持解耦推理模式。

解耦推理的未来

“预填充-解码解耦”在2025年已趋于成熟，但这仅仅是一个起点。从更宏观的视角看，解耦是一种系统哲学：旨在打破神经网络推理的“计算单体”结构，实现计算、存储与通信的自由重组。学术界和工业界正推动解耦架构向“通用分解式推理”阶段演进。

计算层面的解耦

Attention-FFN解耦：超越阶段分离，在模型内部进行更细粒度的解耦。例如，MIT CSAIL、DeepSeek Research以及北大刘譞哲-金鑫团队（MegaScale-Infer系统）提出的方案，将Transformer的注意力模块与前馈网络层分别置于不同计算节点，以便利用异构硬件优势。
流水线解耦：将推理过程在不同节点间以流水线方式组织。Stanford DAWN的“DisPipe”、Meta AI的“HydraPipe”、阿里巴巴DAI-Lab的“PipeShard”等系统都在探索这一方向，使其更适合未来的多芯片异构系统。

跨模态与多模型的解耦

模态分解：针对多模态大模型，未来的趋势是将推理解耦为多个模态子流，在编排层进行异步融合，以提升资源利用率。
多模型协同：在系统中同时运行多个LLM或专用子模型的场景，天然适合解耦化设计，以实现更灵活的模型组合与调度。

内存与缓存体系的解耦

当前体系仍依赖集中式缓存池，未来研究方向在于实现缓存体系自身的多层解耦与自治调度。

层级化缓存架构：如MIT与ETH Zürich提出的HiKV框架，将KV缓存划分为GPU本地（L1）、节点共享（L2）和分布式持久（L3）三层，根据热度自动迁移数据片段。
存算协同：一些硬件厂商开始探索原生支持解耦架构的芯片设计，预示着“解耦推理”将演化为软硬件一体化的体系。

迈向模块化智能

一些研究团队（如Google Brain Zürich与FAIR）提出了更大胆的设想：既然推理可以解耦，那么训练与持续学习是否也能解耦？他们将模型学习过程分解为多个独立子任务，在不同硬件上运行，并通过共享梯度缓存等方式通信。这种“解耦学习”理念被视为解决大模型“灾难性遗忘”与持续适应问题的潜在路径。

过去十年，深度学习系统经历了从分散到集中的过程。而当前趋势正在反转，走向从集中到解耦。这并非倒退，而是系统成熟的标志。AI系统正走向“模块化智能”，不同功能模块得以独立演化、扩展和优化。“解耦推理”正是这一宏大趋势的起点。未来，我们或许将看到“解耦学习”、“解耦推理”与“解耦认知”三者融合的下一代智能架构体系。

参考资料：
https://hao-ai-lab.github.io/blogs/distserve-retro/