在大语言模型推理领域,推测解码(Speculative Decoding,SD)已成为加速生成的主流技术,但其草拟(Drafting)与验证(Verification)阶段必须串行执行,这构成了一个核心的性能瓶颈。
近日,来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO,成功实现了草拟与验证的并行化,显著提升了推理效率。

- 论文链接:https://arxiv.org/pdf/2603.03251
- GitHub 链接:https://github.com/tanishqkumar/ssd
据研究团队介绍,该算法在推理速度上比当前顶尖的推理引擎快达 2 倍。

推测性推测解码(Speculative Speculative Decoding,简称 SSD)是对传统推测解码(SD)的革新。在传统 SD 中,一个快速的小模型(草拟模型)会先猜测大模型(目标模型)可能生成的下几个 token,随后目标模型通过一次前向传播来验证这些猜测,两个步骤依次进行。
而 SSD 的核心突破在于,它使这两个过程并行发生,从而完全消除了运行草拟模型所带来的等待开销。

实现草拟与验证的并行极具挑战性,因为你无法验证尚未生成的内容,也无法推测未知的前缀。SSD 的解决方案是:预先设定多种可能的验证结果,并在独立的硬件上并行执行验证与针对这些结果的推测。一旦某种预设的验证结果与实际相符,相应的推测结果便可立即生效,无缝衔接。
尽管论文对算法进行了详尽的理论阐述,但研究者表示,实践中大部分精力都花在了如何让 SSD 与现代推理引擎中的各种优化技术(如分页注意力、前缀缓存、CUDA 图等)协同工作上。作者 Tanishq Kumar 坦言:“我花在解决 CPU/GPU 同步问题上的时间远超预期。”

要使新算法达到最优性能,需要精密的系统与算法设计。总体而言,SSD 推动了延迟-吞吐量帕累托前沿的进步,其意义类似于普通推测解码之于标准自回归算法。

Tanishq Kumar 分享了他的愿景:“我对快速推理感到兴奋,因为我非常关注超长时域推理这类人工智能工作负载。想象一下,一个满载 B200 芯片的数据中心全力运行一个模型,需要处理数十亿 token 来探索‘P与NP问题’的证明。在这种情况下,延迟减半就意味着可以进行双倍深度的思考!”

SSD 如何实现草拟与验证并行?
现代 AI 应用对推理速度要求极高,但标准的自回归解码是按顺序生成单个 token,无法充分利用硬件的并行计算能力。
推测性解码(SD)通过引入一个快速的草拟模型来预测多个 token,再由目标模型并行验证,缓解了这一问题。然而,SD 本身仍受限于串行依赖:必须等待当前轮次的验证完成后,才能开始下一轮的草拟。
SSD 旨在打破这一顺序依赖。在 SSD 框架中,草拟模型会预测最可能的验证结果,并针对所有可能的结果提前并行地进行多轮推测。验证过程在独立硬件上同时进行。一旦某个预准备的推测结果与实际验证匹配,便可立即提交,从而规避了草拟阶段的等待开销。与 SD 一样,SSD 的生成结果也是无损的。
优化 SSD 算法主要面临三大挑战:
1. 预测准确性:草拟模型需准确预测验证结果,包括接受多少个 token 以及采样的奖励 token。
2. 权衡取舍:在推测的接受率与预测验证结果的能力之间存在微妙权衡,需谨慎处理以最大化加速。
3. 失败回退:必须设计高效的回退策略来处理预测失败的情况,避免补救开销抵消并行收益。
为此,研究团队提出了 Saguaro,一个针对上述挑战优化的 SSD 算法:
* 将预测验证结果转化为约束优化问题,并利用草拟模型的 logits 预测奖励 token,准确率最高可达 90%。
* 开发了一种能平衡预测准确性与生成高质量推测的采样算法。
* 探索了随批处理大小变化的最优回退策略。
通过上述优化,Saguaro 尽管为每个批次元素进行了更多计算(同时解码多种可能结果),其性能仍比标准 SD 高出 20%。总体而言,Saguaro 相比优化的推测性解码实现了高达 2 倍的加速,相比自回归生成实现了高达 5 倍的加速,并在各种批处理规模下显著提升了吞吐量与延迟的帕累托前沿。
该领域仍有广阔探索空间。SSD 可与 EAGLE、Token-tree 推测等技术结合,其联合设计尚待深入挖掘。此外,通过增加草拟设备数量、扩展推测缓存,或在集群层面部署共享推测端点,都有可能进一步降低延迟。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28214


