FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶

VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。现有的通用视觉 token 剪枝方法并非为自动驾驶场景设计,在实际应用中存在诸多局限性。

小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文《FastDriveVLA》,为自动驾驶 VLA 模型中的高效视觉 token 剪枝建立了新的范式,并为特定任务的剪枝策略提供了有价值的洞察。

受人类驾驶员主要关注前景区域(如车辆、行人、道路)而非背景区域(如天空、建筑物)的启发,研究团队提出假设:对于自动驾驶而言,与前景信息相关的视觉 token 比与背景内容相关的视觉 token 更有价值。为验证此假设,团队构建了大规模自动驾驶标注数据集 nuScenes-FG(包含来自 6 个摄像头视角的、带有前景区域标注的 24.1 万个图像-掩码对)。通过 MAE 风格的像素重建策略和新颖的对抗性前景-背景重建策略,训练出了一个适用于不同 VLA 模型的、即插即用的视觉 token 剪枝器 ReconPruner。

实验结果显示,在不同剪枝比例下,FastDriveVLA 在 nuScenes 开环规划基准测试中均取得了 SOTA 性能。FastDriveVLA 也具备极高的效率:当视觉 token 数量从 3249 减少至 812 时,其 FLOPs 降低约 7.5 倍;在 CUDA 推理延迟方面,预填充(prefill)时间减少了 3.7 倍,解码(decode)时间减少了 1.3 倍,显著提升了推理效率。

该论文已被 AAAI 2026 录用。

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶

  • 论文标题:FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
  • 论文链接:https://arxiv.org/pdf/2507.23318

研究背景与问题

端到端自动驾驶展现出巨大潜力,有望彻底改变未来的交通系统。与传统的模块化自动驾驶系统不同,端到端方法在一个统一的框架中学习整个驾驶流程,减少了模块间信息传递的误差,增强了系统简洁性。

然而,现有 VLA 模型通常将视觉输入转换为大量视觉 token,导致了巨大的计算开销和推理延迟,对车端部署构成了严峻挑战,因为车载计算资源和实时性要求均受到严格限制。

已有大量研究尝试通过减少视觉 token 来加速 VLM 推理,但在自动驾驶场景中均存在局限性:引入新设计的多模态投影器需要重新训练整个模型;基于注意力的剪枝策略易受无关信息干扰;基于相似性的剪枝策略则会错误保留与驾驶无关的信息。

为解决这些挑战,我们专为端到端自动驾驶 VLA 模型定制了一个新型的、基于重建的视觉 token 剪枝框架 FastDriveVLA。

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
图 1:不同视觉 token 剪枝策略的对比,(c)为基于重建的剪枝策略

方法与创新

nuScenes-FG 数据集

受人类驾驶员视觉关注模式的启发,我们首先对自动驾驶场景中的「前景区域」进行了明确定义。这些区域包括行人、道路、车辆、交通标志(含信号灯)以及交通障碍物(如位于车道上或紧邻车道的障碍物)等对驾驶决策具有直接影响的元素。相比之下,建筑物、天空、行道树等背景区域即使被遮挡,通常也不会显著影响驾驶决策。随后,我们借助 Grounded-SAM 对 nuScenes 场景进行细粒度、语义一致的前景分割,构建了 nuScenes-FG 数据集。

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
图 2:nuScenes-FG 数据集,为 nuScenes 场景提供了 24.1 万个前景分割标注。

基于重建的剪枝器 ReconPruner

我们提出了一种轻量级、可即插即用的剪枝器 ReconPruner。其主要目标是有效识别并选择包含有意义前景信息的视觉 token。为此,我们借鉴掩码图像建模方法,设计了 MAE 风格的像素重建策略。在训练过程中,选取 ReconPruner 预测的高分视觉 token 子集用于掩码前景重建。该子集上的重建误差作为监督信号,鼓励 ReconPruner 为真正对应前景内容的视觉 token 打高分。

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
图 3:FastDriveVLA 框架。在训练阶段,提出了一种新颖的「前景-背景对抗重建」策略,以增强 ReconPruner 对前景视觉 token 的感知能力;在推理阶段,ReconPruner 可直接嵌入自动驾驶 VLA 模型,用于 token 剪枝。

对抗性前景-背景重建策略

若仅依赖前景重建,ReconPruner 可能采取捷径,不加区分地为所有视觉 token 打高分。为此,我们从生成对抗网络中汲取灵感,提出了对抗性前景-背景重建策略。具体而言,ReconPruner 还需要使用获得低分的视觉 token 来重建背景区域。这种对抗性设置增强了 ReconPruner 区分前景 token 和背景 token 的能力。

实验结果

实验设置

我们采用 Impromptu-VLA 作为视觉 token 剪枝的基础模型,在专为城区自动驾驶设计的大规模基准测试数据集 nuScenes 上评估不同剪枝方法。nuScenes 数据集包含 1000 个驾驶场景,每个场景约持续 20 秒。测试时,我们总计使用了 6019 个测试样本,并通过 L2 轨迹误差、碰撞率、路外率三个指标来评估开环规划性能。

我们使用余弦调度器以 2e-5 的学习率训练 FastDriveVLA,总计进行了 10 轮训练,仅在两块 H800 GPU 上运行 3 小时即完成训练。

不同剪枝方法在 nuScenes 数据集上的对比

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
FastV、SparseVLM 是基于注意力的基线,DivPrune、VisPruner 是基于相似性的基线。

  • 当剪枝 25% 时,FastDriveVLA 在所有评估指标上均表现最佳,尤其在 L2 轨迹误差和碰撞指标上分别比未剪枝的原始模型低了 0.1% 和 1.0%,这证明了聚焦于前景相关视觉 token 是提升自动驾驶性能的关键。
  • 当剪枝 50% 时,FastDriveVLA 在碰撞指标上的表现优于剪枝 25%。
  • 当剪枝 75% 时,FastDriveVLA 在路外率指标上的表现优于剪枝 50%。

总体而言,FastDriveVLA 在各种剪枝比例下均优于现有方法。特别值得注意的是,当剪枝 50% 时,FastDriveVLA 在所有指标上的表现最为均衡。因此,我们建议在实际部署自动驾驶系统时采用 50% 的剪枝比例,以实现性能与效率的最佳平衡。

效率分析

为展示 FastDriveVLA 的高效性,我们从 FLOPs 与 CUDA 延迟的角度对不同剪枝方法进行了效率分析。当视觉 token 数量从 3249 减少至 812 时,FastDriveVLA 的 FLOPs 降低约 7.5 倍。在 CUDA 推理延迟方面,FastDriveVLA 将预填充提速 3.7 倍、解码提速 1.3 倍,实际推理效率显著提升。

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶

定性可视化分析

如图 4 所示,ReconPruner 几乎完整保留了前景 token,而将背景压缩为极稀疏的色块,重建画面依旧清晰。这证明其能在减少 token 冗余的同时,有效保留对驾驶决策至关重要的关键信息。

图5对比了FastV(基于注意力)、DivPrune(基于相似性)与FastDriveVLA的视觉token剪枝效果。如图所示,FastDriveVLA保留的token密集且准确地分布在车道、车道线及车辆本体上;FastV方法则几乎完全遗漏了车辆区域;而DivPrune虽然保留了更多token,但其分布未能有效集中于关键的车道线区域。

FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶 | FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16903

(0)
上一篇 2026年1月4日 下午1:25
下一篇 2026年1月4日 下午2:35

相关推荐

  • Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

    Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…

    1天前
    5400
  • LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    78212
  • COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

    为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…

    2026年2月25日
    12800
  • Mirage Persistent Kernel:突破LLM推理极限,自动巨核化技术实现1.7倍性能飞跃

    关键词:#MPK、#LLM推理、#MegaKernel、#SM级任务图、#多GPU优化、#跨算子优化 MPK 作为首个自动 Mega Kernel 化多 GPU LLM 推理的编译器-运行时系统 ,以 SM 级 tGraph 打破核间壁垒,让跨算子 软件流水线与细粒度计算-通信重叠从理论走向实用;无需修改模型代码,仅需数行 PyTorch 集成,它即可在 A…

    2026年1月5日
    21200
  • 微软Re-TRAC框架:让AI智能体记住失败经验,4B模型性能超越大模型

    想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。 现有的深度…

    2026年2月19日
    8900