ECHO
-
高并发下投机解码失效?阿里提出ECHO:将验证预算调度转化为吞吐提升14.4%
大模型参数规模持续扩张,使得推理成本成为生产级 LLM 服务面临的首要瓶颈。投机解码(Speculative Decoding, SD)借助“小模型草拟 + 大模型校验”的机制,将多个候选 token 放入一次目标模型前向传播中并行验证,从而有效缓解了自回归解码固有的串行瓶颈。 然而,一个常被忽略的关键点在于:投机解码在单请求或低并发场景下表现良好,并不意味…
大模型参数规模持续扩张,使得推理成本成为生产级 LLM 服务面临的首要瓶颈。投机解码(Speculative Decoding, SD)借助“小模型草拟 + 大模型校验”的机制,将多个候选 token 放入一次目标模型前向传播中并行验证,从而有效缓解了自回归解码固有的串行瓶颈。 然而,一个常被忽略的关键点在于:投机解码在单请求或低并发场景下表现良好,并不意味…