从数据闭环到训练闭环：理想汽车世界模型如何重塑自动驾驶AI范式

2025年10月31日上午11:51 • AI产业动态 • 阅读 77

近期，人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出，AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”，强调需要为现实世界任务开发新的评估体系，并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下，自动驾驶作为AI技术落地的前沿阵地，其范式演进尤为引人注目。

在刚刚落幕的全球计算机视觉顶会ICCV 2025上，理想汽车自动驾驶高级算法专家詹锟发表了题为《世界模型：让我们从数据闭环走向训练闭环》的主题演讲，系统阐述了理想汽车在自动驾驶技术路线上的系统性思考。

理想汽车当前的核心辅助驾驶技术LiAuto AD Max，以视觉语言行动模型（VLA）为架构基础，实现了从规则算法到端到端方案的进化。去年，理想率先提出双系统方案——结合端到端模型和视觉语言模型，这一路线已成为行业主流。通过直接输入传感器信号并输出驾驶轨迹，系统能够全量学习人类驾驶行为，使辅助驾驶能力实现显著突破。自端到端方案上线以来，理想在人类接管里程指标上取得了持续进步。

然而，当训练数据规模扩展到1000万Clips后，理想团队发现单纯增加数据量的边际效应开始显现，技术提升再次遇到瓶颈。这一现象揭示了自动驾驶AI训练的根本性挑战：许多关键场景的数据天然稀疏，自然采集难以覆盖所有Corner Case，而这些罕见场景恰恰是系统安全性和可靠性的关键测试点。

面对这一挑战，理想提出了从“数据闭环”向“训练闭环”的范式转变。传统的数据闭环侧重于数据采集和模型迭代，而训练闭环则构建了一个更完整的系统：不仅包含数据采集，更重要的是建立能够根据训练目标、通过环境生成和反馈进行持续迭代的智能训练环境。这种转变的核心在于，系统的优化目标从“收集更多数据”转变为“达成训练目标”。

具体而言，理想的训练闭环架构包含两个核心组件：车端的VLA模型和云端的世界模型训练环境。车端模型具备先验知识和基础驾驶能力，而云端环境则融合了真实世界数据、合成数据以及模型探索生成的数据。通过强化学习体系（包括RLHF、RLVR、RLAIF等范式），系统能够实现持续迭代优化。

这一基于世界模型的庞大系统需要多项关键技术支撑：首先是环境构建能力，包括场景重建、多传感器渲染和多模态生成；其次是智能体构建，涉及交通参与者的行为建模；第三是反馈构建，需要建立全面的评价体系；最后是场景推演能力，确保系统能够处理多样化的驾驶情境。

在环境重建方面，理想团队自2023年起持续探索3D高斯泼溅在自动驾驶场景重建中的应用。近期，团队进一步探索了重建与生成相结合的路线，新一代AI系统既保持了重建的稳定性，又具备了生成的泛化能力。随着VGGT等先进三维前馈网络的发展，理想正在研发下一代更依赖生成技术的世界模型渲染系统。

今年被ICCV收录的论文《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》体现了理想在该方向的前沿探索。该研究提出了一种由根层、子场景层和图元层组成的层次结构，使用四维空间中定义的高斯图元作为统一表示。这种设计显著提升了模型容量，能够有效建模大规模动态场景。

在仿真系统构建的同时，合成数据的大规模应用成为另一关键技术突破。理想已经能够通过提示词直接生成完整的视频序列和点云数据，这种能力特别适用于处理新法规要求、新地区环境等数据稀缺场景。