ECHO

大模型推理

高并发下投机解码失效？阿里提出ECHO：将验证预算调度转化为吞吐提升14.4%

大模型参数规模持续扩张，使得推理成本成为生产级 LLM 服务面临的首要瓶颈。投机解码（Speculative Decoding, SD）借助“小模型草拟 + 大模型校验”的机制，将多个候选 token 放入一次目标模型前向传播中并行验证，从而有效缓解了自回归解码固有的串行瓶颈。然而，一个常被忽略的关键点在于：投机解码在单请求或低并发场景下表现良好，并不意味…

5小时前
20000