高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

大模型参数规模持续扩张,使得推理成本成为生产级 LLM 服务面临的首要瓶颈。投机解码(Speculative Decoding, SD)借助“小模型草拟 + 大模型校验”的机制,将多个候选 token 放入一次目标模型前向传播中并行验证,从而有效缓解了自回归解码固有的串行瓶颈。

然而,一个常被忽略的关键点在于:投机解码在单请求或低并发场景下表现良好,并不意味着它在真实的高并发服务中依然有效。当 batch size 增大时,多个请求会同时争抢目标模型的验证计算资源。此时,每额外验证一个低价值的 token,都可能直接导致吞吐下降和尾延迟上升。

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

为攻克这一难题,来自阿里 ATH 事业群-千问事业部-基础工程团队以及浙江大学的研究者们,共同提出了 ECHO(Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios)。

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

  • 作者:Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
  • 单位:Alibaba Qwen Applications Business Group;Zhejiang University
  • 论文:ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
  • 链接:https://arxiv.org/abs/2604.09603

ECHO 的核心思路不再是将投机树构造视为“尽可能多地猜测 token”,而是将其重新建模为一个在固定验证预算下的调度问题。在严格的全局 token 验证预算内,它需要动态决定:哪些请求应继续加深,哪些请求应提前截断,以及哪些预算应转向拓宽候选集。

实验数据表明,在 BS=256 的高负载场景下,ECHO 成功将 Qwen3-235B-A22B 模型的推理吞吐从 2,803 tok/s 提升至 3,207 tok/s,增幅达 14.4%。这充分说明,当验证计算(verification compute)逐渐成为稀缺资源时,对验证预算进行精细调度,能够显著提升投机解码的系统收益。

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

1. 为什么投机解码在高并发下会失效?

传统投机解码通常基于一个假设:目标模型一次性验证多个草拟 token 的成本,接近于一次普通的自回归前向传播。因此,只要草拟 token 被接受得足够多,就能获得可观的加速效果。

然而,在生产级服务中,这一假设并不总是成立。

论文观察到,当负载升高、batch 内待验证的 token 数量增加时,目标模型的验证计算会逐渐成为主要瓶颈。以 LLaMA3.3-70B 为例,随着 batch size 的增大,目标模型的验证开销呈现出明显的增长趋势,并逐渐超过单 token 的自回归成本。对于 Qwen3-235B,EAGLE-3 在低并发下虽能提升吞吐,但当 batch size 增大到 128 时,其吞吐甚至低于原始的 vanilla AR。

换言之,在真实的服务场景中,投机解码不再是“免费验证更多 token”,而是在有限的验证预算中,挑选出“最值得验证的 token”。

现有方法主要面临两类问题:

  • 静态树方法:采用固定结构,简单且稳定,但容易在低置信度的分支上浪费大量验证计算。
  • 动态树方法:尝试根据 token 概率在线调整树结构,但往往依赖密集的逐层或逐节点决策,容易积累误判,并产生 ragged batch,难以适配高性能的 serving kernel。

ECHO 的出发点正是:在高并发的服务场景中,核心资源不是“草拟 token 的数量”,而是目标模型每一步所能承受的验证预算。

2. ECHO:把投机树构造变成预算调度

ECHO 的核心思想可以概括为一句话:

在一个 batch 内,将所有请求的候选 token 树视为一个统一的 Super-Tree,并在全局验证预算 K_max 下,弹性分配深度与宽度。

在每个投机解码步骤中,batch 内包含 B 个并发请求。对于第 i 个请求,假设其构造的候选树包含 K_i 个待验证 token,那么目标模型实际需要验证的是整个 batch 中所有候选节点的并集。ECHO 对此施加了全局约束:

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

其中,K_max 代表当前硬件和服务系统在计算受限区间附近所能承受的验证上限。这样一来,投机解码就从“每个请求独立扩树”转变为“多个请求共享一个全局预算池”。

这带来了一个关键变化:为某个请求多分配一个候选 token,就意味着其他请求的可用预算会相应减少。因此,ECHO 不再盲目增加草拟深度或 top-k,而是根据请求的置信度,动态决定预算如何流动。

3. 稀疏门控:只在可靠的 sweet spots 做决策

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

动态树方法的一个难点在于:如果每一层、每个节点都做决策,控制开销会迅速累积;更重要的是,不同深度上的置信度信号并不都同样可靠。

论文通过分析被接受 token 与被拒绝 token 的置信度分布发现:并非所有草拟深度都适合做决策。在某些深度上,接受与拒绝样本的分布区分度较高,论文称之为 sweet spots;而大量中间层的分布边界模糊,在这些位置频繁决策反而容易引入误判。

因此,ECHO 采用了 Sparse Confidence Gating:

  • 仅在 root、target depth,以及少量自适应选择的中间深度进行门控;
  • 通过 warm-up/calibration 阶段识别高区分度的位置;
  • 在推理时,根据路径置信度判断当前请求是继续加深(deepen),还是截断(truncate)并释放预算。

对于第 i 个请求在深度 d 的候选集合,ECHO 使用最大似然路径概率作为置信度:

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

若 ci,d > τd,则认为当前路径置信度较高,可以继续向更深层扩展;否则提前截断,将预算释放给更高价值的请求或用于局部扩宽。

4. 弹性预算调度:从“多猜 token”到“验证预算重分配”

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

ECHO 的第二个核心组件是 Unified Elastic Budget Scheduler。它在全局预算下,同时处理两类资源分配:

  1. 同一请求内部的 depth vs. width 调度:当深度扩展风险较高时,利用剩余预算在当前截断深度扩宽候选集;
  2. 不同请求之间的预算重分配:当某些低置信度请求被截断时,将节省出的预算转移给其他高置信度请求,用于继续加深。

具体来说,ECHO 采用了两级优先级:

  • Priority 1:Global Depth Extension

如果某个请求在 sparse gate 上通过了置信度检查,则优先将预算用于继续加深,以减少后续全局验证步骤的数量。

  • Priority 2:Opportunistic Width Expansion

当请求无法继续以高置信度进行深度扩展时,剩余的验证预算会被转而用于拓宽那些被截断请求的候选集合,从而提升当前深度下覆盖正确 token 的概率。

这一机制能够自然地适配不同的验证预算状态:

  • 在低负载场景下,验证预算相对充裕,ECHO 可以将因截断而节省下来的预算重新分配给当前请求,用于进行宽度扩展(width expansion)。
  • 当系统逐渐进入验证计算受限(verification compute-bound)区间时,验证预算的竞争加剧,低置信度请求释放出的预算会被优先转移至高置信度请求,用于全局深度扩展(global depth extension)。

这正是 ECHO 名称中“Elastic”(弹性)一词的涵义:它并非固定地追求更深或更宽,而是在请求熵、批次负载和硬件预算之间进行动态调整。

5. 面向系统落地:ECHO 集成到 SGLang

许多动态投机树方法虽然在原始 transformer 实验中表现良好,但一旦部署到真实的服务框架中,往往会遭遇 ragged batch 与 kernel 兼容性问题。

ECHO 在系统层面专门解决了这一难题。论文将 ECHO 集成到工业级推理框架 SGLang 中,并利用 Flatten & Pack 技术,将不同请求产生的非规则候选 token 树打包成紧凑且与 kernel 兼容的布局,再交由目标模型进行一次性验证。

这一步至关重要:如果算法生成的动态树结构无法高效地融入 serving kernel,那么理论上的 token 节省很可能被系统开销所抵消。ECHO 的设计目标并非单点优化 MAT,而是在真实的高并发推理系统中提升端到端的有效吞吐(end-to-end goodput)。

目前,团队正在整理 ECHO 的相关代码和文档,计划于 6 月向 SGLang 提交合并请求,以进一步推动代码开源、社区复现和系统集成。

6. 实验:从 8B 到 235B,验证预算受限区间收益更明显

论文在多种模型规模上验证了 ECHO,包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B,以及 Qwen3 系列的 8B、32B、235B。任务覆盖 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench,实验在 8×NVIDIA H100 80GB GPU 上进行;低负载场景使用 HuggingFace transformers,高并发场景使用 SGLang。

在低负载 BS=1 的设置下,ECHO 在所有 benchmark 上实现了 1.63× 至 5.35× 的 wall-time 加速。其中:

  • 在 LLaMA3.3-70B 上,ECHO 最高达到 5.35× 加速;
  • 在 Qwen3-235B 上,ECHO 平均加速达到 2.02×,优于 DDD 的 1.77× 和 EAGLE-3 的 1.69×;
  • 在 Qwen3-32B 上,ECHO 相比代表性动态方法 DDD 带来 15.8% 的提升。

ECHO 的主要有效区间,是目标验证从近似免费并行逐渐进入计算受限(compute-bound)的验证预算受限区域。论文在 MT-Bench、GSM8K、HumanEval 上评估了 4 个模型配置,并对比 EAGLE-3 以及两个 ECHO 变体。结果显示,当验证计算逐渐成为稀缺资源时,ECHO 依然能够稳定提升吞吐,最大提升分别达到:

  • LLaMA3.1-8B:7.92%;
  • LLaMA3.3-70B:12.96%;
  • Qwen3-8B:10.00%;
  • Qwen3-235B:14.95%。

对于 Qwen3-235B 这类工业级大模型,验证计算更早进入计算受限区间,因此错误的预算分配会更快地损害吞吐。ECHO 通过将低置信度请求节省的 token 预算重新分配给高置信度请求,在 BS=256 时将吞吐从 2,803 tok/s 提升至 3,207 tok/s,提升幅度达 14.4%。

7. 消融实验:为什么 sparse gating 和 depth-aware threshold 都重要

高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%

论文还比较了 ECHO 与两个简化变体:

  • Dense Gating:在每一层都执行门控决策;
  • Fixed Threshold:所有深度共用同一个置信度阈值。

结果表明,完整的 ECHO 表现最佳。原因在于:

  • Dense Gating 虽然看似更精细,但在不可靠深度上频繁决策会引入额外开销与误判;
  • Fixed Threshold 无法适应深度变化,因为 token 概率通常会随深度下降,单一阈值容易在深层过度剪枝,或在浅层放入过多低价值 token。

在 LLaMA3.1-8B、BS=256 设置下,Dense Gating 比 ECHO 低约 5% 的吞吐;在 Qwen3-235B 上,ECHO 相比 Fixed Threshold 提升 5.3%(从 3,046 提升至 3,207 tok/s)。

结语:投机解码进入“预算时代”

ECHO 的意义不仅在于提出了一种新的动态投机树策略,更在于提供了一个面向生产环境的深刻观察:在高并发大模型推理中,投机解码的核心不再是“猜得越多越好”,而是“在固定的验证预算内,让每个被验证的 token 都更有价值”。通过 Super-Tree 视角、Sparse Confidence Gating、Elastic Budget Scheduling,以及面向 SGLang 的系统实现,ECHO 将投机解码从局部树结构优化推进到批次级别的预算调度,为大模型高并发服务中的解码加速提供了全新思路。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34623

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐