高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

大模型参数规模持续扩张，使得推理成本成为生产级 LLM 服务面临的首要瓶颈。投机解码（Speculative Decoding, SD）借助“小模型草拟 + 大模型校验”的机制，将多个候选 token 放入一次目标模型前向传播中并行验证，从而有效缓解了自回归解码固有的串行瓶颈。

然而，一个常被忽略的关键点在于：投机解码在单请求或低并发场景下表现良好，并不意味着它在真实的高并发服务中依然有效。当 batch size 增大时，多个请求会同时争抢目标模型的验证计算资源。此时，每额外验证一个低价值的 token，都可能直接导致吞吐下降和尾延迟上升。

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

为攻克这一难题，来自阿里 ATH 事业群-千问事业部-基础工程团队以及浙江大学的研究者们，共同提出了 ECHO（Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios）。

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

作者：Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
单位：Alibaba Qwen Applications Business Group；Zhejiang University
论文：ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
链接：https://arxiv.org/abs/2604.09603

ECHO 的核心思路不再是将投机树构造视为“尽可能多地猜测 token”，而是将其重新建模为一个在固定验证预算下的调度问题。在严格的全局 token 验证预算内，它需要动态决定：哪些请求应继续加深，哪些请求应提前截断，以及哪些预算应转向拓宽候选集。

实验数据表明，在 BS=256 的高负载场景下，ECHO 成功将 Qwen3-235B-A22B 模型的推理吞吐从 2,803 tok/s 提升至 3,207 tok/s，增幅达 14.4%。这充分说明，当验证计算（verification compute）逐渐成为稀缺资源时，对验证预算进行精细调度，能够显著提升投机解码的系统收益。

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

1. 为什么投机解码在高并发下会失效？

传统投机解码通常基于一个假设：目标模型一次性验证多个草拟 token 的成本，接近于一次普通的自回归前向传播。因此，只要草拟 token 被接受得足够多，就能获得可观的加速效果。

然而，在生产级服务中，这一假设并不总是成立。

论文观察到，当负载升高、batch 内待验证的 token 数量增加时，目标模型的验证计算会逐渐成为主要瓶颈。以 LLaMA3.3-70B 为例，随着 batch size 的增大，目标模型的验证开销呈现出明显的增长趋势，并逐渐超过单 token 的自回归成本。对于 Qwen3-235B，EAGLE-3 在低并发下虽能提升吞吐，但当 batch size 增大到 128 时，其吞吐甚至低于原始的 vanilla AR。

换言之，在真实的服务场景中，投机解码不再是“免费验证更多 token”，而是在有限的验证预算中，挑选出“最值得验证的 token”。

现有方法主要面临两类问题：

静态树方法：采用固定结构，简单且稳定，但容易在低置信度的分支上浪费大量验证计算。
动态树方法：尝试根据 token 概率在线调整树结构，但往往依赖密集的逐层或逐节点决策，容易积累误判，并产生 ragged batch，难以适配高性能的 serving kernel。

ECHO 的出发点正是：在高并发的服务场景中，核心资源不是“草拟 token 的数量”，而是目标模型每一步所能承受的验证预算。

2. ECHO：把投机树构造变成预算调度

ECHO 的核心思想可以概括为一句话：

在一个 batch 内，将所有请求的候选 token 树视为一个统一的 Super-Tree，并在全局验证预算 K_max 下，弹性分配深度与宽度。

在每个投机解码步骤中，batch 内包含 B 个并发请求。对于第 i 个请求，假设其构造的候选树包含 K_i 个待验证 token，那么目标模型实际需要验证的是整个 batch 中所有候选节点的并集。ECHO 对此施加了全局约束：

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

其中，K_max 代表当前硬件和服务系统在计算受限区间附近所能承受的验证上限。这样一来，投机解码就从“每个请求独立扩树”转变为“多个请求共享一个全局预算池”。

这带来了一个关键变化：为某个请求多分配一个候选 token，就意味着其他请求的可用预算会相应减少。因此，ECHO 不再盲目增加草拟深度或 top-k，而是根据请求的置信度，动态决定预算如何流动。

3. 稀疏门控：只在可靠的 sweet spots 做决策

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

动态树方法的一个难点在于：如果每一层、每个节点都做决策，控制开销会迅速累积；更重要的是，不同深度上的置信度信号并不都同样可靠。

论文通过分析被接受 token 与被拒绝 token 的置信度分布发现：并非所有草拟深度都适合做决策。在某些深度上，接受与拒绝样本的分布区分度较高，论文称之为 sweet spots；而大量中间层的分布边界模糊，在这些位置频繁决策反而容易引入误判。

因此，ECHO 采用了 Sparse Confidence Gating：

仅在 root、target depth，以及少量自适应选择的中间深度进行门控；
通过 warm-up/calibration 阶段识别高区分度的位置；
在推理时，根据路径置信度判断当前请求是继续加深（deepen），还是截断（truncate）并释放预算。

对于第 i 个请求在深度 d 的候选集合，ECHO 使用最大似然路径概率作为置信度：

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

若 ci,d > τd，则认为当前路径置信度较高，可以继续向更深层扩展；否则提前截断，将预算释放给更高价值的请求或用于局部扩宽。

4. 弹性预算调度：从“多猜 token”到“验证预算重分配”

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

ECHO 的第二个核心组件是 Unified Elastic Budget Scheduler。它在全局预算下，同时处理两类资源分配：

同一请求内部的 depth vs. width 调度：当深度扩展风险较高时，利用剩余预算在当前截断深度扩宽候选集；
不同请求之间的预算重分配：当某些低置信度请求被截断时，将节省出的预算转移给其他高置信度请求，用于继续加深。

具体来说，ECHO 采用了两级优先级：

Priority 1：Global Depth Extension

如果某个请求在 sparse gate 上通过了置信度检查，则优先将预算用于继续加深，以减少后续全局验证步骤的数量。

Priority 2：Opportunistic Width Expansion

当请求无法继续以高置信度进行深度扩展时，剩余的验证预算会被转而用于拓宽那些被截断请求的候选集合，从而提升当前深度下覆盖正确 token 的概率。

这一机制能够自然地适配不同的验证预算状态：

在低负载场景下，验证预算相对充裕，ECHO 可以将因截断而节省下来的预算重新分配给当前请求，用于进行宽度扩展（width expansion）。
当系统逐渐进入验证计算受限（verification compute-bound）区间时，验证预算的竞争加剧，低置信度请求释放出的预算会被优先转移至高置信度请求，用于全局深度扩展（global depth extension）。

这正是 ECHO 名称中“Elastic”（弹性）一词的涵义：它并非固定地追求更深或更宽，而是在请求熵、批次负载和硬件预算之间进行动态调整。

5. 面向系统落地：ECHO 集成到 SGLang

许多动态投机树方法虽然在原始 transformer 实验中表现良好，但一旦部署到真实的服务框架中，往往会遭遇 ragged batch 与 kernel 兼容性问题。

ECHO 在系统层面专门解决了这一难题。论文将 ECHO 集成到工业级推理框架 SGLang 中，并利用 Flatten & Pack 技术，将不同请求产生的非规则候选 token 树打包成紧凑且与 kernel 兼容的布局，再交由目标模型进行一次性验证。

这一步至关重要：如果算法生成的动态树结构无法高效地融入 serving kernel，那么理论上的 token 节省很可能被系统开销所抵消。ECHO 的设计目标并非单点优化 MAT，而是在真实的高并发推理系统中提升端到端的有效吞吐（end-to-end goodput）。

目前，团队正在整理 ECHO 的相关代码和文档，计划于 6 月向 SGLang 提交合并请求，以进一步推动代码开源、社区复现和系统集成。

6. 实验：从 8B 到 235B，验证预算受限区间收益更明显

论文在多种模型规模上验证了 ECHO，包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B，以及 Qwen3 系列的 8B、32B、235B。任务覆盖 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench，实验在 8×NVIDIA H100 80GB GPU 上进行；低负载场景使用 HuggingFace transformers，高并发场景使用 SGLang。

在低负载 BS=1 的设置下，ECHO 在所有 benchmark 上实现了 1.63× 至 5.35× 的 wall-time 加速。其中：

在 LLaMA3.3-70B 上，ECHO 最高达到 5.35× 加速；
在 Qwen3-235B 上，ECHO 平均加速达到 2.02×，优于 DDD 的 1.77× 和 EAGLE-3 的 1.69×；
在 Qwen3-32B 上，ECHO 相比代表性动态方法 DDD 带来 15.8% 的提升。

ECHO 的主要有效区间，是目标验证从近似免费并行逐渐进入计算受限（compute-bound）的验证预算受限区域。论文在 MT-Bench、GSM8K、HumanEval 上评估了 4 个模型配置，并对比 EAGLE-3 以及两个 ECHO 变体。结果显示，当验证计算逐渐成为稀缺资源时，ECHO 依然能够稳定提升吞吐，最大提升分别达到：

LLaMA3.1-8B：7.92%；
LLaMA3.3-70B：12.96%；
Qwen3-8B：10.00%；
Qwen3-235B：14.95%。

对于 Qwen3-235B 这类工业级大模型，验证计算更早进入计算受限区间，因此错误的预算分配会更快地损害吞吐。ECHO 通过将低置信度请求节省的 token 预算重新分配给高置信度请求，在 BS=256 时将吞吐从 2,803 tok/s 提升至 3,207 tok/s，提升幅度达 14.4%。

7. 消融实验：为什么 sparse gating 和 depth-aware threshold 都重要

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

论文还比较了 ECHO 与两个简化变体：

Dense Gating：在每一层都执行门控决策；
Fixed Threshold：所有深度共用同一个置信度阈值。

结果表明，完整的 ECHO 表现最佳。原因在于：

Dense Gating 虽然看似更精细，但在不可靠深度上频繁决策会引入额外开销与误判；
Fixed Threshold 无法适应深度变化，因为 token 概率通常会随深度下降，单一阈值容易在深层过度剪枝，或在浅层放入过多低价值 token。

在 LLaMA3.1-8B、BS=256 设置下，Dense Gating 比 ECHO 低约 5% 的吞吐；在 Qwen3-235B 上，ECHO 相比 Fixed Threshold 提升 5.3%（从 3,046 提升至 3,207 tok/s）。

结语：投机解码进入“预算时代”

ECHO 的意义不仅在于提出了一种新的动态投机树策略，更在于提供了一个面向生产环境的深刻观察：在高并发大模型推理中，投机解码的核心不再是“猜得越多越好”，而是“在固定的验证预算内，让每个被验证的 token 都更有价值”。通过 Super-Tree 视角、Sparse Confidence Gating、Elastic Budget Scheduling，以及面向 SGLang 的系统实现，ECHO 将投机解码从局部树结构优化推进到批次级别的预算调度，为大模型高并发服务中的解码加速提供了全新思路。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34623

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

5. 面向系统落地：ECHO 集成到 SGLang

6. 实验：从 8B 到 235B，验证预算受限区间收益更明显

7. 消融实验：为什么 sparse gating 和 depth-aware threshold 都重要

结语：投机解码进入“预算时代”

相关推荐

RL赋能3D生成新突破：首个系统性强化学习研究让3D模型学会复杂文本推理，生成质量大幅跃升

移动端大模型部署新突破：Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型

清华&生数开源TurboDiffusion：视频生成加速200倍，实时创作时代来临

FlashRT：专为机器人实时控制打造的推理引擎，延迟低至2.39ms，性能碾压TensorRT

清华&港中文团队提出ColaVLA：自动驾驶推理告别文本，潜空间思维+分层并行规划引领新范式