斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

在大语言模型推理领域,推测解码(Speculative Decoding,SD)已成为加速生成的主流技术,但其草拟(Drafting)与验证(Verification)阶段必须串行执行,这构成了一个核心的性能瓶颈。

近日,来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO,成功实现了草拟与验证的并行化,显著提升了推理效率。

斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

  • 论文链接:https://arxiv.org/pdf/2603.03251
  • GitHub 链接:https://github.com/tanishqkumar/ssd

据研究团队介绍,该算法在推理速度上比当前顶尖的推理引擎快达 2 倍

斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

推测性推测解码(Speculative Speculative Decoding,简称 SSD)是对传统推测解码(SD)的革新。在传统 SD 中,一个快速的小模型(草拟模型)会先猜测大模型(目标模型)可能生成的下几个 token,随后目标模型通过一次前向传播来验证这些猜测,两个步骤依次进行。

而 SSD 的核心突破在于,它使这两个过程并行发生,从而完全消除了运行草拟模型所带来的等待开销。

斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

实现草拟与验证的并行极具挑战性,因为你无法验证尚未生成的内容,也无法推测未知的前缀。SSD 的解决方案是:预先设定多种可能的验证结果,并在独立的硬件上并行执行验证与针对这些结果的推测。一旦某种预设的验证结果与实际相符,相应的推测结果便可立即生效,无缝衔接。

尽管论文对算法进行了详尽的理论阐述,但研究者表示,实践中大部分精力都花在了如何让 SSD 与现代推理引擎中的各种优化技术(如分页注意力、前缀缓存、CUDA 图等)协同工作上。作者 Tanishq Kumar 坦言:“我花在解决 CPU/GPU 同步问题上的时间远超预期。”

斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

要使新算法达到最优性能,需要精密的系统与算法设计。总体而言,SSD 推动了延迟-吞吐量帕累托前沿的进步,其意义类似于普通推测解码之于标准自回归算法。

斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

Tanishq Kumar 分享了他的愿景:“我对快速推理感到兴奋,因为我非常关注超长时域推理这类人工智能工作负载。想象一下,一个满载 B200 芯片的数据中心全力运行一个模型,需要处理数十亿 token 来探索‘P与NP问题’的证明。在这种情况下,延迟减半就意味着可以进行双倍深度的思考!”

斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍

SSD 如何实现草拟与验证并行?

现代 AI 应用对推理速度要求极高,但标准的自回归解码是按顺序生成单个 token,无法充分利用硬件的并行计算能力。

推测性解码(SD)通过引入一个快速的草拟模型来预测多个 token,再由目标模型并行验证,缓解了这一问题。然而,SD 本身仍受限于串行依赖:必须等待当前轮次的验证完成后,才能开始下一轮的草拟。

SSD 旨在打破这一顺序依赖。在 SSD 框架中,草拟模型会预测最可能的验证结果,并针对所有可能的结果提前并行地进行多轮推测。验证过程在独立硬件上同时进行。一旦某个预准备的推测结果与实际验证匹配,便可立即提交,从而规避了草拟阶段的等待开销。与 SD 一样,SSD 的生成结果也是无损的。

优化 SSD 算法主要面临三大挑战:
1. 预测准确性:草拟模型需准确预测验证结果,包括接受多少个 token 以及采样的奖励 token。
2. 权衡取舍:在推测的接受率与预测验证结果的能力之间存在微妙权衡,需谨慎处理以最大化加速。
3. 失败回退:必须设计高效的回退策略来处理预测失败的情况,避免补救开销抵消并行收益。

为此,研究团队提出了 Saguaro,一个针对上述挑战优化的 SSD 算法:
* 将预测验证结果转化为约束优化问题,并利用草拟模型的 logits 预测奖励 token,准确率最高可达 90%。
* 开发了一种能平衡预测准确性与生成高质量推测的采样算法。
* 探索了随批处理大小变化的最优回退策略。

通过上述优化,Saguaro 尽管为每个批次元素进行了更多计算(同时解码多种可能结果),其性能仍比标准 SD 高出 20%。总体而言,Saguaro 相比优化的推测性解码实现了高达 2 倍的加速,相比自回归生成实现了高达 5 倍的加速,并在各种批处理规模下显著提升了吞吐量与延迟的帕累托前沿。

该领域仍有广阔探索空间。SSD 可与 EAGLE、Token-tree 推测等技术结合,其联合设计尚待深入挖掘。此外,通过增加草拟设备数量、扩展推测缓存,或在集群层面部署共享推测端点,都有可能进一步降低延迟。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28214

(0)
上一篇 2026年4月1日 下午4:11
下一篇 2026年4月1日 下午4:30

相关推荐

  • vLLM Playground:可视化界面让大模型推理部署零门槛

    用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…

    2025年12月29日
    73800
  • AMD ATOM推理引擎:如何用分页KV缓存和分段编译实现大模型推理性能翻倍

    在探讨大模型推理优化时,最引人注目的往往是单一算子的性能提升:GEMM 加速了多少,Attention 快了百分之几,MoE 路由是否已经融合。然而,真正左右线上服务体验的,并非单个 kernel 的峰值指标,而是一条请求从 HTTP 入口进入,经历分词、调度、写入 KV 缓存、进入 GPU 图执行、经过采样,再到流式返回的完整生命周期。 以下图表展示了 D…

    大模型推理 2026年5月4日
    19300
  • 微信AI突破扩散模型推理瓶颈:WeDLM实现vLLM部署3倍加速,低熵场景超10倍

    腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性…

    2026年1月3日
    40000
  • 机器人拉个拉链也要“动脑子”?北大等提出LaST-R1,让机器人先想再做,成功率狂飙至99.9%

    机器人拉拉链也得“动脑子”?北大等提出 LaST-R1:先想后做,成功率飙至 99.9% 机器人拉拉链,究竟需不需要“思考”? 过去几年,从 OpenVLA 到 π0、π0.5,具身大模型已经能让机器人将指令与动作流畅地串联起来。 但一旦物体位置偏移几厘米,或者光照条件稍有变化,它们往往就会“当场卡壳”。 究其根本,是因为这些机器人大多在玩一种“视觉映射游戏…

    5天前
    15600
  • 美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 256K文本预加载提速超50%,并解锁了1M上下文窗口。 美团LongCat系列发布全新稀疏注意力机制LoZA。 该技术旨在集中解决长文本任务中的理解与算力难题。 相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解…

    2026年1月13日
    33600