清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

过去两年,自动驾驶与大模型(尤其是视觉语言模型,VLM)的结合成为热门研究方向。一个直观的思路是:利用VLM强大的场景理解与推理能力,使其像人类驾驶员一样,先理解环境、再做判断、最后输出控制轨迹。

然而,将这一思路落地到自动驾驶领域时,一个普遍存在的问题是:许多方法虽然引入了大模型,却仍将“推理”过程构建为文本链式思维(Chain-of-Thought)。即,模型需先生成中间解释文本,再将这些文本逐步转化为动作或轨迹。这种方式的优势在于其推理过程“可见”,但代价也很明显:文本是离散的token序列,而车辆轨迹是连续的控制信号;文本推理依赖自回归解码,速度慢、链路长,难以满足自动驾驶对实时性的苛刻要求。

为此,来自清华大学与香港中文大学MMLab的研究团队提出了一种全新的隐空间推理与分层并行规划的视觉-语言-动作(VLA)框架——ColaVLA。该论文已被CVPR 2026主会接收。

清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

  • 论文标题:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2512.22939
  • 代码链接:https://github.com/pqh22/ColaVLA

该论文的核心观点很直接:自动驾驶中的推理,不一定要通过生成文本来实现。

与其让模型“边说边想”,不如让其在统一的潜空间(Latent Space)内完成认知推理,再将结果直接传递给动作规划器。这样既能保留VLM的语义先验和知识能力,又能规避显式文本生成带来的延迟与表示错位问题。

ColaVLA的核心贡献可概括为两点:1. 将推理过程从文本空间迁移至潜空间;2. 将轨迹生成从串行过程改造为分层并行过程。

清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

一、核心思路:潜空间认知推理 + 分层并行规划

ColaVLA的整体框架由两个核心模块构成:
* 认知潜空间推理器(Cognitive Latent Reasoner):负责完成高层驾驶认知与决策。
* 分层并行规划器(Hierarchical Parallel Planner):负责将高层决策展开为连续轨迹。

该设计旨在重新定义“推理”与“动作”之间的接口,使二者高效对齐。其中,潜空间推理器模拟了人类驾驶员的认知过程,包含四个隐式步骤:

  1. 理解(Understand):整合多视角视觉信息、固定驾驶提示与自车状态,建立全局场景理解。
  2. 识别(Recognize):通过一个自车状态自适应的路由器(ego-adaptive router),动态筛选出与当前驾驶决策最相关的关键视觉实体(如车道线、邻近车辆、行人、交通灯等),过滤冗余信息。
  3. 再思考(Rethink):在压缩后的关键信息上进行复核式推理,利用一组可学习的元查询(meta-query)来表征不同的高层驾驶策略。
  4. 决策(Decide):输出一组面向动作生成的高层驾驶先验(如意图、目标点等),而非自然语言描述。

这一流程完全在统一的潜空间内完成,避免了将推理结果“翻译”成文本再“转译”回动作空间的低效过程,实现了从认知到策略的内部闭环。

清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

二、规划器设计:符合驾驶本质的分层并行生成

许多方法在轨迹生成层面也存在问题:要么一次性回归整条轨迹,缺乏层次结构;要么依赖复杂生成过程,影响效率与稳定性。

ColaVLA的分层并行规划器(HPP)设计基于一个清晰认知:驾驶轨迹本质上是分层的,因此生成过程也应分层。其核心特点可概括为三个关键词:

  • 先粗后细:先生成粗粒度的驾驶意图与关键点,再逐步补充细节,模拟人类“先定方向,再定路径”的决策方式。
  • 保持因果:通过因果保持(causality-preserving)的注意力机制,确保信息流严格从粗尺度流向细尺度,避免不同层级间的信息泄漏,使分层结构具有真实的因果约束。
  • 并行解码:在单次前向传播中,并行完成多尺度、多模式轨迹的解码,无需像文本CoT那样进行串行生成,极大提升了推理效率。

清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

三、实验结果:精度、安全与效率的平衡

实验表明,ColaVLA的优势在于同时提升了性能、安全性与效率。

  1. 开环评测(nuScenes):在动作类方法中取得最优综合表现,平均L2误差为0.30米,平均碰撞率为0.23%。相比强基线SOLVE-E2E,轨迹精度更高,碰撞率显著降低,说明其输出的轨迹不仅更准确,也更安全。
  2. 闭环评测(NeuroNCAP):平均得分达到3.48,平均碰撞率降至36.8%,显著优于多种基线方法。值得注意的是,相比依赖显式文本思维链并使用了额外数据的ImpromptuVLA,ColaVLA在不生成文本的情况下取得了更好的闭环表现。这证明了对自动驾驶而言,冗长的文本推理链并非性能提升的关键,内部决策表征与动作生成的对齐、以及规划器的合理因果结构更为重要。
  3. 推理效率:经过工程优化,ColaVLA在H200 GPU上的端到端推理延迟为228毫秒/帧,比对比的文本式方法快5到10倍。这证实了潜空间推理在带来概念简洁性的同时,也带来了实时的速度收益,提升了落地可行性。

清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

四、关键消融发现

论文的消融实验揭示了几个关键结论:

  1. 潜空间推理有效:引入潜空间推理模块能有效降低轨迹误差;增加“再思考(Rethink)”阶段可进一步提升性能,验证了“筛选关键信息并复核”认知链条的有效性。
  2. 分层规划器本身具有优势:即使移除推理模块,仅使用分层并行规划器,其在闭环性能上仍显著优于普通的MLP头或扩散模型头,说明该规划器本身更符合驾驶轨迹的生成逻辑。
  3. 关键信息需平衡:保留的视觉关键token数量存在最优平衡点,过少会丢失信息,过多则引入冗余噪声。
  4. 分层生成优于一次性回归:先确定关键点再补充细节的分层生成方式,其性能优于一次性回归整条轨迹,这与驾驶动作本身的时序因果结构相符。

清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式

五、核心价值:从文本推理到潜空间推理的范式转变

若仅将 ColaVLA 视为“又一个自动驾驶模型”,则低估了其深层意义。本项工作的更大价值在于,它提出了一个清晰的论断:自动驾驶中的高级推理,不一定需要依赖显式的文本描述。

过往许多研究默认,大模型在自动驾驶中的优势源于其“解释”、“对话”和“输出思维链”的能力。然而,ColaVLA 给出了不同的答案:在连续控制任务中,关键或许不在于“让模型说出思考过程”,而在于“让模型在内部进行有效推理,并以更适配动作生成的方式表达出来”。

由此,ColaVLA 代表了一种值得关注的范式转变:
* 从文本推理转向潜空间推理:将高层语义理解与决策置于模型的潜空间中进行,而非转化为文本序列。
* 从串行解码转向并行解码:通过分层并行规划器,同时处理不同时间尺度的决策,提升响应效率。
* 从“展示过程”转向“性能闭环”:核心目标不再是生成可读的推理文本,而是直接优化安全性、效率与整体闭环驾驶表现。

论文结论明确指出:将推理从文本域迁移至潜空间,为知识驱动的自动驾驶决策提供了一条更具可扩展性且更贴近现实的路径。

六、总结

简而言之,ColaVLA 的目标并非让自动驾驶大模型“更会解释”,而是让其“更会在内部想清楚,并更高效地执行驾驶动作”。

其核心贡献不仅在于新模块或指标提升,更在于实证了以下几点:
1. 自动驾驶的推理能力可不依赖于显式的文本思维链。
2. 潜空间推理同样能保留高层驾驶决策所需的知识与逻辑。
3. 分层并行且保持因果一致的规划器,更契合真实驾驶场景的动作生成需求。
4. 当推理形式与动作生成机制真正对齐时,系统能在安全性、效率和闭环性能上获得同步提升。

对于自动驾驶大模型的未来发展,这项工作指出了一个值得深入探索的方向:并非简单地将通用大模型嵌入驾驶系统,而是重新设计一种真正适配自动驾驶特性的推理范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28515

(0)
上一篇 5小时前
下一篇 4小时前

相关推荐

  • OpenAI o1突破语言理解极限:首次展现匹敌人类语言学家的元分析能力

    导读:LLM再下一城!伯克利研究证明,OpenAI的o1展现出匹敌人类语言学家的元分析能力。 在人类诸多才能中,语言常被视为最独特的标志。自亚里士多德将人定义为“具有语言的动物”以来,这一观点便深入人心。 尽管当前的大语言模型(如ChatGPT)已能流畅地进行日常对话,但一个根本性问题依然存在:人类语言的深层结构与特质,是否超越了AI的运算体系? 为了探究这…

    2025年11月8日
    22100
  • 突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%

    我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…

    2025年12月21日
    54800
  • COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

    为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…

    2026年2月25日
    18700
  • 揭秘LLM推理两阶段瓶颈:从GPU微架构根源到跨场景高效部署策略

    关键词:LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…

    2025年12月26日
    42100
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    12800