视觉-语言导航

AI产业动态

UNeMo：多模态世界模型与分层预测反馈机制重塑视觉-语言导航新范式

在具身智能（Embodied AI）领域，视觉-语言导航（VLN）作为核心任务之一，要求智能体仅凭视觉图像和自然语言指令，在未知环境中自主完成目标导航。随着大语言模型（LLM）的兴起，基于LLM的导航方法虽取得一定进展，但仍面临推理模态单一、优化目标冲突等关键瓶颈。深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出的UNeMo框架，通过多模态世界模型（M…

2025年12月10日
91000