Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

长上下文推理新突破：Kimi提出PrFaaS范式，实现跨机房调度

将长上下文能力做到极致的Kimi，近日联合清华大学团队，在大模型推理架构上取得关键进展。

他们提出了一种名为 Prefill-as-a-Service（PrFaaS） 的全新范式，即“预填充即服务”。其核心突破在于，首次实现了 KV Cache 能够跨数据中心进行传输，从而将大模型推理中的 Prefill（预填充）和 Decode（解码）两个阶段彻底解耦，并调度到不同的异构硬件集群上运行。

这意味着，Prefill 和 Decode 任务可以跨越城市、地域进行部署与协同。尤其在处理长文本时，上下文越长，该架构的优势越显著。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

这项工作由月之暗面与清华大学郑纬民院士、武永卫教授团队共同完成。基于内部1T参数的混合注意力模型进行实测，这套 PrFaaS-PD 架构 取得了显著效果：

相比传统的同构 PD 部署方案，吞吐量提升 54%，P90 延迟大幅降低 64%。
即便对比未做智能调度的简单异构方案，吞吐量依然有 32% 的提升。
跨数据中心传输 KV Cache 仅需占用约 13Gbps 的网络带宽，远低于 100Gbps 的常规以太网上限，普通商用以太网即可稳定承载。

那么，这背后的技术原理是什么？

为何需要跨数据中心调度？

Prefill 与 Decode 分离（PD分离）已成为大模型推理服务的行业标准做法。但这带来了一个关键限制：KV Cache 的传输高度依赖高带宽、低延迟的 RDMA 网络，这迫使 Prefill 和 Decode 两个阶段必须被“绑定”在同一个具备 RDMA 的集群内。

这种强绑定导致了资源调配的僵化。最适合进行复杂计算（Prefill）的算力芯片与最适合进行序列生成（Decode）的带宽芯片，如果处于不同的机房（即“异地”），则无法高效协同工作。若强行将异构硬件塞进同一机房，又会导致资源配比固定，无法灵活应对流量的波动，极易出现一部分硬件过载、另一部分闲置的情况，整体算力利用率低下。

造成这一困境的根本原因在于 KV Cache 的“带宽墙”。研究团队以 MiniMax-M2.5 这款典型的密集 GQA 架构模型为例进行了量化分析：在 32K 上下文长度下，单实例生成 KV Cache 的速率高达 60Gbps。而跨数据中心的以太网带宽通常在 10-100Gbps，试图用后者传输前者产生的数据，无异于“用小水管承接消防水带”，根本无法满足需求。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

因此，为了保证推理流程不卡顿，传统 PD 分离架构只能被限制在 RDMA 网络域内。

转机出现在新一代混合注意力模型架构上。 近期，Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5 等模型纷纷采用了 线性注意力与全注意力混合 的架构。在这种架构下，只有全注意力层会产生随上下文长度增长的 KV Cache，而线性注意力层仅输出固定大小的循环状态。

这带来了显著的效果：在 32K 上下文下，
* MiMo-V2-Flash 的 KV 吞吐量降至 4.66Gbps，比 MiniMax-M2.5 降低了 13 倍。
* Qwen3.5-397B 的 8.25Gbps 相比同等规模密集模型的 33.35Gbps，降低了 4 倍。
* Ring-2.5-1T 模型通过 MLA 压缩与 7:1 的混合比例，整体 KV 内存节省了约 36 倍。

混合注意力架构成功地将 KV Cache 的吞吐量需求从 RDMA 级别降低到了以太网级别，使得跨数据中心的 PD 分离从“不可能”变成了“可能”。

破局方案：PrFaaS 架构

仅有模型架构的改进还不够，要将跨数据中心推理落地，还需要一套完整的系统架构。为此，研究团队提出了 PrFaaS（Prefill-as-a-Service）。

这是一种跨数据中心的大模型推理服务架构，其核心思想是：将长上下文请求的 Prefill 计算，选择性卸载到独立的、由算力密集型芯片（如 H200）组成的专用集群完成，然后将生成的 KV Cache 通过普通以太网传输到用户本地的 PD 集群，再进行 Decode。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

具体流程上，系统会设定一个动态的长度阈值 t。
* 短请求（未缓存的上下文长度 ≤ t）：在本地 PD 集群完成整个 Prefill 和 Decode 流程。
* 长请求（未缓存的上下文长度 > t）：被路由到专门的 PrFaaS 集群执行 Prefill，生成的 KV Cache 通过以太网传回本地集群进行 Decode。

这个阈值 t 会根据实时网络带宽和请求长度分布自动调整，以实现最优调度。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

PrFaaS 架构由三大子系统协同工作：

1. 计算层
* PrFaaS 集群：使用 H200 等高端算力芯片，专攻长上下文的 Prefill 计算。
* 本地 PD 集群：使用 H20 等带宽优化型芯片，专注于 Decode 和短请求的 Prefill。

两类硬件可根据需求独立扩缩容，实现“术业有专攻”。

2. 网络层
* 集群内部使用 RDMA 保证低延迟通信。
* 跨数据中心则通过 VPC 或专线，使用通用以太网传输 KV Cache，大幅降低了部署难度和成本。实测环境采用 100Gbps VPC，虽远低于 RDMA 的 800Gbps，但已完全足够。

3. 存储层（混合前缀缓存池）
这是架构中的关键设计。团队将 KV Cache 分为两类进行管理：
* Prefix-cache 块：在集群内部复用，必须块对齐才能命中，用于提升本地重复计算的效率。
* Transfer-cache 块：专门用于跨集群传输，使用后即丢弃，不长期占用存储空间。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

这样设计是因为混合模型的 KV Cache 是异构的：线性层的循环状态是请求级别的、固定大小的；全注意力层的 KV Cache 是块级别的。统一池化管理既能高效复用本地缓存，又能灵活支持跨集群传输。

此外，为了保障生产环境的稳定性，PrFaaS 还设计了 双时间尺度调度算法：
* 短期调度（毫秒级）：基于带宽和缓存状态进行实时路由决策。当监测到 PrFaaS 出口带宽接近瓶颈时，自动调高阈值 t，减少跨中心流量。对于带缓存的请求，会权衡缓存位置和带宽状况，决定是使用本地缓存还是从远程拉取。
* 长期调度（分钟级）：根据各阶段队列深度和资源利用率，动态调整资源分配。当 Prefill 成为瓶颈时，可将部分本地 PD 节点转为 Prefill 角色；反之亦然，从而适应流量的缓慢变化。

从理论到工程实践

为了验证 PrFaaS 架构的实际落地能力，研究团队基于生产级配置设计了严格的对照实验。

实验采用内部研发的 1T 参数混合注意力模型（架构与 Kimi Linear 对齐，线性与全注意力层比例为 7:1），并对 KV Cache 进行了高效压缩。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

硬件配置：
- PrFaaS 集群：配备 32 张 H200 GPU，专用于长上下文 Prefill。
- 本地 PD 集群：配备 64 张 H20 GPU，用于 Decode 和短请求处理。
网络环境：跨数据中心采用 100Gbps VPC 连接，模拟真实云环境。
工作负载：请求长度符合截断对数正态分布，均值约 27K tokens，贴近真实长上下文服务场景。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

实验结果证实了 PrFaaS-PD 架构的工程有效性：
* 相比同等硬件规模的同构 PD 集群，吞吐量提升 54%。
* 相比未做智能调度的简单异构部署，吞吐量仍提升 32%。

在端到端延迟方面，PrFaaS-PD架构带来的优化效果更为显著。其P90 TTFT（首词时延）降低幅度达64%。长请求不再与短请求争抢本地Prefill资源，排队阻塞与计算拥堵问题得到大幅缓解。

工程可行性同样关键。实验数据显示，PrFaaS集群的平均出口带宽仅占13Gbps，在100Gbps的跨集群链路中占比仅为13%，留有充足的带宽冗余，有效避免了链路拥塞与抢占问题。

实验结果证实，在混合模型与PrFaaS调度协同工作下，KV Cache的传输可以不再依赖RDMA专用网络，普通商用以太网即可稳定支撑。

研究团队

本研究由月之暗面与清华大学合作完成。

论文作者包括：Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang（通讯作者）。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

其中，Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位作者来自月之暗面。

第一作者 Ruoyu Qin（秦若愚），是清华大学计算机科学与技术系MADSys实验室在读博士生，师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang（章明星）。章明星副教授长期专注于KV Cache架构与分布式推理领域的研究。同时，Qin也是月之暗面成员，并是Mooncake分布式推理系统的第一作者。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

月之暗面工程副总裁 Xinran Xu（许欣然） 亦在作者之列。值得注意的是，作者名单中来自月之暗面的五位成员，同样是其Mooncake架构的核心贡献者。

研究团队中来自清华大学的作者，除章明星副教授外，还有Yongwei Wu与Weimin Zheng。

Weimin Zheng（郑纬民），中国工程院院士，清华大学计算机系教授，长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

Yongwei Wu（武永卫），清华大学计算机科学与技术系副主任、教授、博士生导师，同时担任AI基础设施公司趋境科技的首席科学家。此前，月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目，趋境科技是该项目的核心共建单位与深度贡献者。

参考链接：
[1] https://arxiv.org/abs/2604.15039
[2] https://madsys.cs.tsinghua.edu.cn/people/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/31059

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

长上下文推理新突破：Kimi提出PrFaaS范式，实现跨机房调度

为何需要跨数据中心调度？

破局方案：PrFaaS 架构

从理论到工程实践

研究团队

相关推荐

原生并行推理革命：NPR框架让AI智能体告别单线程思维，进化出多路径探索大脑

北大清华联手DeepSeek突破Agentic LLM推理瓶颈！DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

DeepSeek联手清北发布DualPath框架：用闲置网卡打破Agent推理瓶颈，性能提升近2倍

Nexa SDK：实现手机、PC、边缘设备算力大一统的端侧AI终极形态

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍