近期,人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出,AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”,强调需要为现实世界任务开发新的评估体系,并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下,自动驾驶作为AI技术落地的前沿阵地,其范式演进尤为引人注目。
在刚刚落幕的全球计算机视觉顶会ICCV 2025上,理想汽车自动驾驶高级算法专家詹锟发表了题为《世界模型:让我们从数据闭环走向训练闭环》的主题演讲,系统阐述了理想汽车在自动驾驶技术路线上的系统性思考。

理想汽车当前的核心辅助驾驶技术LiAuto AD Max,以视觉语言行动模型(VLA)为架构基础,实现了从规则算法到端到端方案的进化。去年,理想率先提出双系统方案——结合端到端模型和视觉语言模型,这一路线已成为行业主流。通过直接输入传感器信号并输出驾驶轨迹,系统能够全量学习人类驾驶行为,使辅助驾驶能力实现显著突破。自端到端方案上线以来,理想在人类接管里程指标上取得了持续进步。

然而,当训练数据规模扩展到1000万Clips后,理想团队发现单纯增加数据量的边际效应开始显现,技术提升再次遇到瓶颈。这一现象揭示了自动驾驶AI训练的根本性挑战:许多关键场景的数据天然稀疏,自然采集难以覆盖所有Corner Case,而这些罕见场景恰恰是系统安全性和可靠性的关键测试点。

面对这一挑战,理想提出了从“数据闭环”向“训练闭环”的范式转变。传统的数据闭环侧重于数据采集和模型迭代,而训练闭环则构建了一个更完整的系统:不仅包含数据采集,更重要的是建立能够根据训练目标、通过环境生成和反馈进行持续迭代的智能训练环境。这种转变的核心在于,系统的优化目标从“收集更多数据”转变为“达成训练目标”。

具体而言,理想的训练闭环架构包含两个核心组件:车端的VLA模型和云端的世界模型训练环境。车端模型具备先验知识和基础驾驶能力,而云端环境则融合了真实世界数据、合成数据以及模型探索生成的数据。通过强化学习体系(包括RLHF、RLVR、RLAIF等范式),系统能够实现持续迭代优化。
这一基于世界模型的庞大系统需要多项关键技术支撑:首先是环境构建能力,包括场景重建、多传感器渲染和多模态生成;其次是智能体构建,涉及交通参与者的行为建模;第三是反馈构建,需要建立全面的评价体系;最后是场景推演能力,确保系统能够处理多样化的驾驶情境。

在环境重建方面,理想团队自2023年起持续探索3D高斯泼溅在自动驾驶场景重建中的应用。近期,团队进一步探索了重建与生成相结合的路线,新一代AI系统既保持了重建的稳定性,又具备了生成的泛化能力。随着VGGT等先进三维前馈网络的发展,理想正在研发下一代更依赖生成技术的世界模型渲染系统。

今年被ICCV收录的论文《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》体现了理想在该方向的前沿探索。该研究提出了一种由根层、子场景层和图元层组成的层次结构,使用四维空间中定义的高斯图元作为统一表示。这种设计显著提升了模型容量,能够有效建模大规模动态场景。
在仿真系统构建的同时,合成数据的大规模应用成为另一关键技术突破。理想已经能够通过提示词直接生成完整的视频序列和点云数据,这种能力特别适用于处理新法规要求、新地区环境等数据稀缺场景。

世界模型的合成数据能力使训练数据配比更加合理,显著提升了辅助驾驶系统在实际道路上的稳定性和泛化能力。正如AI先驱们所预见,在新架构下,训练闭环的效率成为技术迭代的关键驱动力。

当现实世界数据接近“耗尽”时,合成数据能力的增强和数据分布配比的优化,为LiAD辅助驾驶能力的持续提升提供了新的动力。新的VLA方案推动了数据缩放定律在自动驾驶场景下的持续延伸:数据规模越大,辅助驾驶能力越强。
自2021年以来,理想汽车自动驾驶团队在学术研究上成果丰硕,累计有32篇论文被顶级会议收录,研究方向从最初的感知BEV端到端任务,逐步扩展到视觉语言模型、视觉语言行动模型和世界模型等前沿领域。本届ICCV大会上,理想团队共有五篇论文入选,展现了在自动驾驶AI范式演进中的持续探索和创新能力。
— 图片补充 —





关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8588
