UNeMo：多模态世界模型与分层预测反馈机制重塑视觉-语言导航新范式

2025年12月10日下午12:09 • AI产业动态 • 阅读 232

在具身智能（Embodied AI）领域，视觉-语言导航（VLN）作为核心任务之一，要求智能体仅凭视觉图像和自然语言指令，在未知环境中自主完成目标导航。随着大语言模型（LLM）的兴起，基于LLM的导航方法虽取得一定进展，但仍面临推理模态单一、优化目标冲突等关键瓶颈。深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出的UNeMo框架，通过多模态世界模型（MWM）与分层预测反馈导航器（HPFN）的双向协同架构，为VLN领域带来了突破性进展。

传统LLM-based导航方法主要依赖语言推理，缺乏对视觉环境状态的预判能力，难以应对复杂场景的动态变化。同时，推理模块与导航策略分开训练，导致两者适配性差，无法实现动态协同优化，存在性能瓶颈。UNeMo框架的核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构，将视觉状态推理与导航决策深度绑定，从根本上解决现有方法的脱节问题。

多模态世界模型（MWM）基于条件变分自编码器构建，其核心是精准预判未来视觉状态。该模型能够接收当前视觉特征、语言指令与候选导航动作，通过跨注意力机制融合多模态信息，填补现有方法“只看当下”的局限。更重要的是，MWM无需额外标注数据，就能通过导航决策结果反向反馈，持续优化预测精度，形成自适应进化循环。这种设计使得智能体不仅可以看到当前环境，还能预测接下来可能看到的内容，为导航决策提供前瞻性信息。

分层预测反馈导航器（HPFN）采用两阶段分层机制，兼顾效率与精度。第一阶段基于当前视觉-语言特征生成粗粒度候选动作，锁定导航方向；第二阶段融合MWM预测的未来视觉状态，优化出细粒度动作修正偏差。这种分层设计让智能体在复杂场景中实现稳健导航，特别是在长轨迹导航任务中表现突出。

UNeMo架构最核心的创新在于构建了“推理-决策”相互赋能的闭环优化机制。MWM的视觉预判为导航提供前瞻信息，提升决策精准度；导航的实际执行结果则实时反馈给MWM，优化其预测准确性。这种双向促进让智能体在导航过程中持续迭代，有效解决传统LLM-based VLN方法中推理与决策分离的痛点。

在实验验证方面，团队在VLN领域核心数据集R2R上进行了全面测试。UNeMo在轻量化配置与高性能决策的平衡上实现了关键突破：其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%，但在资源消耗上实现了大幅优化——训练时GPU显存占用从27GB降至12GB，减少56%；推理速度从每步1.1秒提升至0.7秒，效率提升40%。这种“降参不降能”的特性，对VLN方法的工程化落地意义重大。

在核心性能指标上，UNeMo在模型未见过的测试环境中导航成功率（SR）达到72.5%，较NavGPT2的71%提升1.5个百分点；路径效率（SPL）从60%提升至61.3%。这些数据表明，UNeMo不仅在资源效率上具有优势，在导航性能上也实现了超越。

针对复杂场景的适应能力，团队重点测试了UNeMo预探索机制对长距离导航鲁棒性的提升。实验结果显示，UNeMo的优势在长轨迹导航中尤为突出：短路径（长度＜7）的导航成功率仅微增1.2%；而长路径（长度≥7）的SR大幅提升5.6%，提升幅度是短路径的4.7倍。这证明UNeMo的多模态预判与分层决策机制，能有效缓解长距离导航中的累积误差，解决传统方法在长轨迹任务中性能衰减的痛点。

为进一步验证UNeMo协同训练架构的通用性与可拓展性，团队将其迁移至不同类型的导航基线（DUET）与目标导向导航数据集REVERIE，开展跨场景验证。实验结果显示，其在unseen场景的导航成功率（SR）与远程目标定位成功率（RGS）指标上均有提升。这表明UNeMo的协同训练架构并非局限于LLM-based基线，而是能灵活适配不同类型的导航系统，在不同任务场景中释放价值，验证了其强可拓展性。