过去两年,自动驾驶与大模型(尤其是视觉语言模型,VLM)的结合成为热门研究方向。一个直观的思路是:利用VLM强大的场景理解与推理能力,使其像人类驾驶员一样,先理解环境、再做判断、最后输出控制轨迹。
然而,将这一思路落地到自动驾驶领域时,一个普遍存在的问题是:许多方法虽然引入了大模型,却仍将“推理”过程构建为文本链式思维(Chain-of-Thought)。即,模型需先生成中间解释文本,再将这些文本逐步转化为动作或轨迹。这种方式的优势在于其推理过程“可见”,但代价也很明显:文本是离散的token序列,而车辆轨迹是连续的控制信号;文本推理依赖自回归解码,速度慢、链路长,难以满足自动驾驶对实时性的苛刻要求。
为此,来自清华大学与香港中文大学MMLab的研究团队提出了一种全新的隐空间推理与分层并行规划的视觉-语言-动作(VLA)框架——ColaVLA。该论文已被CVPR 2026主会接收。

- 论文标题:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
- 论文链接:https://arxiv.org/abs/2512.22939
- 代码链接:https://github.com/pqh22/ColaVLA
该论文的核心观点很直接:自动驾驶中的推理,不一定要通过生成文本来实现。
与其让模型“边说边想”,不如让其在统一的潜空间(Latent Space)内完成认知推理,再将结果直接传递给动作规划器。这样既能保留VLM的语义先验和知识能力,又能规避显式文本生成带来的延迟与表示错位问题。
ColaVLA的核心贡献可概括为两点:1. 将推理过程从文本空间迁移至潜空间;2. 将轨迹生成从串行过程改造为分层并行过程。

一、核心思路:潜空间认知推理 + 分层并行规划
ColaVLA的整体框架由两个核心模块构成:
* 认知潜空间推理器(Cognitive Latent Reasoner):负责完成高层驾驶认知与决策。
* 分层并行规划器(Hierarchical Parallel Planner):负责将高层决策展开为连续轨迹。
该设计旨在重新定义“推理”与“动作”之间的接口,使二者高效对齐。其中,潜空间推理器模拟了人类驾驶员的认知过程,包含四个隐式步骤:
- 理解(Understand):整合多视角视觉信息、固定驾驶提示与自车状态,建立全局场景理解。
- 识别(Recognize):通过一个自车状态自适应的路由器(ego-adaptive router),动态筛选出与当前驾驶决策最相关的关键视觉实体(如车道线、邻近车辆、行人、交通灯等),过滤冗余信息。
- 再思考(Rethink):在压缩后的关键信息上进行复核式推理,利用一组可学习的元查询(meta-query)来表征不同的高层驾驶策略。
- 决策(Decide):输出一组面向动作生成的高层驾驶先验(如意图、目标点等),而非自然语言描述。
这一流程完全在统一的潜空间内完成,避免了将推理结果“翻译”成文本再“转译”回动作空间的低效过程,实现了从认知到策略的内部闭环。

二、规划器设计:符合驾驶本质的分层并行生成
许多方法在轨迹生成层面也存在问题:要么一次性回归整条轨迹,缺乏层次结构;要么依赖复杂生成过程,影响效率与稳定性。
ColaVLA的分层并行规划器(HPP)设计基于一个清晰认知:驾驶轨迹本质上是分层的,因此生成过程也应分层。其核心特点可概括为三个关键词:
- 先粗后细:先生成粗粒度的驾驶意图与关键点,再逐步补充细节,模拟人类“先定方向,再定路径”的决策方式。
- 保持因果:通过因果保持(causality-preserving)的注意力机制,确保信息流严格从粗尺度流向细尺度,避免不同层级间的信息泄漏,使分层结构具有真实的因果约束。
- 并行解码:在单次前向传播中,并行完成多尺度、多模式轨迹的解码,无需像文本CoT那样进行串行生成,极大提升了推理效率。

三、实验结果:精度、安全与效率的平衡
实验表明,ColaVLA的优势在于同时提升了性能、安全性与效率。
- 开环评测(nuScenes):在动作类方法中取得最优综合表现,平均L2误差为0.30米,平均碰撞率为0.23%。相比强基线SOLVE-E2E,轨迹精度更高,碰撞率显著降低,说明其输出的轨迹不仅更准确,也更安全。
- 闭环评测(NeuroNCAP):平均得分达到3.48,平均碰撞率降至36.8%,显著优于多种基线方法。值得注意的是,相比依赖显式文本思维链并使用了额外数据的ImpromptuVLA,ColaVLA在不生成文本的情况下取得了更好的闭环表现。这证明了对自动驾驶而言,冗长的文本推理链并非性能提升的关键,内部决策表征与动作生成的对齐、以及规划器的合理因果结构更为重要。
- 推理效率:经过工程优化,ColaVLA在H200 GPU上的端到端推理延迟为228毫秒/帧,比对比的文本式方法快5到10倍。这证实了潜空间推理在带来概念简洁性的同时,也带来了实时的速度收益,提升了落地可行性。

四、关键消融发现
论文的消融实验揭示了几个关键结论:
- 潜空间推理有效:引入潜空间推理模块能有效降低轨迹误差;增加“再思考(Rethink)”阶段可进一步提升性能,验证了“筛选关键信息并复核”认知链条的有效性。
- 分层规划器本身具有优势:即使移除推理模块,仅使用分层并行规划器,其在闭环性能上仍显著优于普通的MLP头或扩散模型头,说明该规划器本身更符合驾驶轨迹的生成逻辑。
- 关键信息需平衡:保留的视觉关键token数量存在最优平衡点,过少会丢失信息,过多则引入冗余噪声。
- 分层生成优于一次性回归:先确定关键点再补充细节的分层生成方式,其性能优于一次性回归整条轨迹,这与驾驶动作本身的时序因果结构相符。

五、核心价值:从文本推理到潜空间推理的范式转变
若仅将 ColaVLA 视为“又一个自动驾驶模型”,则低估了其深层意义。本项工作的更大价值在于,它提出了一个清晰的论断:自动驾驶中的高级推理,不一定需要依赖显式的文本描述。
过往许多研究默认,大模型在自动驾驶中的优势源于其“解释”、“对话”和“输出思维链”的能力。然而,ColaVLA 给出了不同的答案:在连续控制任务中,关键或许不在于“让模型说出思考过程”,而在于“让模型在内部进行有效推理,并以更适配动作生成的方式表达出来”。
由此,ColaVLA 代表了一种值得关注的范式转变:
* 从文本推理转向潜空间推理:将高层语义理解与决策置于模型的潜空间中进行,而非转化为文本序列。
* 从串行解码转向并行解码:通过分层并行规划器,同时处理不同时间尺度的决策,提升响应效率。
* 从“展示过程”转向“性能闭环”:核心目标不再是生成可读的推理文本,而是直接优化安全性、效率与整体闭环驾驶表现。
论文结论明确指出:将推理从文本域迁移至潜空间,为知识驱动的自动驾驶决策提供了一条更具可扩展性且更贴近现实的路径。
六、总结
简而言之,ColaVLA 的目标并非让自动驾驶大模型“更会解释”,而是让其“更会在内部想清楚,并更高效地执行驾驶动作”。
其核心贡献不仅在于新模块或指标提升,更在于实证了以下几点:
1. 自动驾驶的推理能力可不依赖于显式的文本思维链。
2. 潜空间推理同样能保留高层驾驶决策所需的知识与逻辑。
3. 分层并行且保持因果一致的规划器,更契合真实驾驶场景的动作生成需求。
4. 当推理形式与动作生成机制真正对齐时,系统能在安全性、效率和闭环性能上获得同步提升。
对于自动驾驶大模型的未来发展,这项工作指出了一个值得深入探索的方向:并非简单地将通用大模型嵌入驾驶系统,而是重新设计一种真正适配自动驾驶特性的推理范式。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28515


