Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

长上下文推理新突破:Kimi提出PrFaaS范式,实现跨机房调度

将长上下文能力做到极致的Kimi,近日联合清华大学团队,在大模型推理架构上取得关键进展。

他们提出了一种名为 Prefill-as-a-Service(PrFaaS) 的全新范式,即“预填充即服务”。其核心突破在于,首次实现了 KV Cache 能够跨数据中心进行传输,从而将大模型推理中的 Prefill(预填充)和 Decode(解码)两个阶段彻底解耦,并调度到不同的异构硬件集群上运行。

这意味着,Prefill 和 Decode 任务可以跨越城市、地域进行部署与协同。尤其在处理长文本时,上下文越长,该架构的优势越显著。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

这项工作由月之暗面与清华大学郑纬民院士、武永卫教授团队共同完成。基于内部1T参数的混合注意力模型进行实测,这套 PrFaaS-PD 架构 取得了显著效果:

  • 相比传统的同构 PD 部署方案,吞吐量提升 54%,P90 延迟大幅降低 64%。
  • 即便对比未做智能调度的简单异构方案,吞吐量依然有 32% 的提升。
  • 跨数据中心传输 KV Cache 仅需占用约 13Gbps 的网络带宽,远低于 100Gbps 的常规以太网上限,普通商用以太网即可稳定承载。

那么,这背后的技术原理是什么?

为何需要跨数据中心调度?

Prefill 与 Decode 分离(PD分离)已成为大模型推理服务的行业标准做法。但这带来了一个关键限制:KV Cache 的传输高度依赖高带宽、低延迟的 RDMA 网络,这迫使 Prefill 和 Decode 两个阶段必须被“绑定”在同一个具备 RDMA 的集群内。

这种强绑定导致了资源调配的僵化。最适合进行复杂计算(Prefill)的算力芯片与最适合进行序列生成(Decode)的带宽芯片,如果处于不同的机房(即“异地”),则无法高效协同工作。若强行将异构硬件塞进同一机房,又会导致资源配比固定,无法灵活应对流量的波动,极易出现一部分硬件过载、另一部分闲置的情况,整体算力利用率低下。

造成这一困境的根本原因在于 KV Cache 的“带宽墙”。研究团队以 MiniMax-M2.5 这款典型的密集 GQA 架构模型为例进行了量化分析:在 32K 上下文长度下,单实例生成 KV Cache 的速率高达 60Gbps。而跨数据中心的以太网带宽通常在 10-100Gbps,试图用后者传输前者产生的数据,无异于“用小水管承接消防水带”,根本无法满足需求。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

因此,为了保证推理流程不卡顿,传统 PD 分离架构只能被限制在 RDMA 网络域内。

转机出现在新一代混合注意力模型架构上。 近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5 等模型纷纷采用了 线性注意力与全注意力混合 的架构。在这种架构下,只有全注意力层会产生随上下文长度增长的 KV Cache,而线性注意力层仅输出固定大小的循环状态。

这带来了显著的效果:在 32K 上下文下,
* MiMo-V2-Flash 的 KV 吞吐量降至 4.66Gbps,比 MiniMax-M2.5 降低了 13 倍。
* Qwen3.5-397B 的 8.25Gbps 相比同等规模密集模型的 33.35Gbps,降低了 4 倍。
* Ring-2.5-1T 模型通过 MLA 压缩与 7:1 的混合比例,整体 KV 内存节省了约 36 倍。

混合注意力架构成功地将 KV Cache 的吞吐量需求从 RDMA 级别降低到了以太网级别,使得跨数据中心的 PD 分离从“不可能”变成了“可能”。

破局方案:PrFaaS 架构

仅有模型架构的改进还不够,要将跨数据中心推理落地,还需要一套完整的系统架构。为此,研究团队提出了 PrFaaS(Prefill-as-a-Service)

这是一种跨数据中心的大模型推理服务架构,其核心思想是:将长上下文请求的 Prefill 计算,选择性卸载到独立的、由算力密集型芯片(如 H200)组成的专用集群完成,然后将生成的 KV Cache 通过普通以太网传输到用户本地的 PD 集群,再进行 Decode。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

具体流程上,系统会设定一个动态的长度阈值 t
* 短请求(未缓存的上下文长度 ≤ t):在本地 PD 集群完成整个 Prefill 和 Decode 流程。
* 长请求(未缓存的上下文长度 > t):被路由到专门的 PrFaaS 集群执行 Prefill,生成的 KV Cache 通过以太网传回本地集群进行 Decode。

这个阈值 t 会根据实时网络带宽和请求长度分布自动调整,以实现最优调度。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

PrFaaS 架构由三大子系统协同工作:

1. 计算层
* PrFaaS 集群:使用 H200 等高端算力芯片,专攻长上下文的 Prefill 计算。
* 本地 PD 集群:使用 H20 等带宽优化型芯片,专注于 Decode 和短请求的 Prefill。

两类硬件可根据需求独立扩缩容,实现“术业有专攻”。

2. 网络层
* 集群内部使用 RDMA 保证低延迟通信。
* 跨数据中心则通过 VPC 或专线,使用通用以太网传输 KV Cache,大幅降低了部署难度和成本。实测环境采用 100Gbps VPC,虽远低于 RDMA 的 800Gbps,但已完全足够。

3. 存储层(混合前缀缓存池)
这是架构中的关键设计。团队将 KV Cache 分为两类进行管理:
* Prefix-cache 块:在集群内部复用,必须块对齐才能命中,用于提升本地重复计算的效率。
* Transfer-cache 块:专门用于跨集群传输,使用后即丢弃,不长期占用存储空间。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

这样设计是因为混合模型的 KV Cache 是异构的:线性层的循环状态是请求级别的、固定大小的;全注意力层的 KV Cache 是块级别的。统一池化管理既能高效复用本地缓存,又能灵活支持跨集群传输。

此外,为了保障生产环境的稳定性,PrFaaS 还设计了 双时间尺度调度算法
* 短期调度(毫秒级):基于带宽和缓存状态进行实时路由决策。当监测到 PrFaaS 出口带宽接近瓶颈时,自动调高阈值 t,减少跨中心流量。对于带缓存的请求,会权衡缓存位置和带宽状况,决定是使用本地缓存还是从远程拉取。
* 长期调度(分钟级):根据各阶段队列深度和资源利用率,动态调整资源分配。当 Prefill 成为瓶颈时,可将部分本地 PD 节点转为 Prefill 角色;反之亦然,从而适应流量的缓慢变化。

从理论到工程实践

为了验证 PrFaaS 架构的实际落地能力,研究团队基于生产级配置设计了严格的对照实验。

实验采用内部研发的 1T 参数混合注意力模型(架构与 Kimi Linear 对齐,线性与全注意力层比例为 7:1),并对 KV Cache 进行了高效压缩。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

  • 硬件配置
    • PrFaaS 集群:配备 32 张 H200 GPU,专用于长上下文 Prefill。
    • 本地 PD 集群:配备 64 张 H20 GPU,用于 Decode 和短请求处理。
  • 网络环境:跨数据中心采用 100Gbps VPC 连接,模拟真实云环境。
  • 工作负载:请求长度符合截断对数正态分布,均值约 27K tokens,贴近真实长上下文服务场景。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

实验结果证实了 PrFaaS-PD 架构的工程有效性:
* 相比同等硬件规模的同构 PD 集群,吞吐量提升 54%
* 相比未做智能调度的简单异构部署,吞吐量仍提升 32%

在端到端延迟方面,PrFaaS-PD架构带来的优化效果更为显著。其P90 TTFT(首词时延)降低幅度达64%。长请求不再与短请求争抢本地Prefill资源,排队阻塞与计算拥堵问题得到大幅缓解。

工程可行性同样关键。实验数据显示,PrFaaS集群的平均出口带宽仅占13Gbps,在100Gbps的跨集群链路中占比仅为13%,留有充足的带宽冗余,有效避免了链路拥塞与抢占问题。

实验结果证实,在混合模型与PrFaaS调度协同工作下,KV Cache的传输可以不再依赖RDMA专用网络,普通商用以太网即可稳定支撑。

研究团队

本研究由月之暗面与清华大学合作完成。

论文作者包括:Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

其中,Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位作者来自月之暗面。

第一作者 Ruoyu Qin(秦若愚),是清华大学计算机科学与技术系MADSys实验室在读博士生,师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang(章明星)。章明星副教授长期专注于KV Cache架构与分布式推理领域的研究。同时,Qin也是月之暗面成员,并是Mooncake分布式推理系统的第一作者。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

月之暗面工程副总裁 Xinran Xu(许欣然) 亦在作者之列。值得注意的是,作者名单中来自月之暗面的五位成员,同样是其Mooncake架构的核心贡献者。

研究团队中来自清华大学的作者,除章明星副教授外,还有Yongwei Wu与Weimin Zheng。

Weimin Zheng(郑纬民),中国工程院院士,清华大学计算机系教授,长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。

Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

Yongwei Wu(武永卫),清华大学计算机科学与技术系副主任、教授、博士生导师,同时担任AI基础设施公司趋境科技的首席科学家。此前,月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目,趋境科技是该项目的核心共建单位与深度贡献者。

参考链接:
[1] https://arxiv.org/abs/2604.15039
[2] https://madsys.cs.tsinghua.edu.cn/people/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31059

(0)
上一篇 9小时前
下一篇 9小时前

相关推荐