多模态世界模型
-
GAN之父Ian Goodfellow携NLP先驱Chris Manning重磅发声:符号化表示与游戏数据,构建多模态世界模型的最佳路径
沉寂许久的 Ian Goodfellow,终于再次现身。 这位提出生成对抗网络(GAN)的研究者,曾一手开启 AI 生成技术的早期浪潮。但在最近几年由大模型主导的新一轮生成式 AI 竞赛中,Goodfellow 的公开声音却并不多见。 直到最近,他与 NLP 先驱 Chris Manning 等人共同发表了一篇文章,探讨了构建多模态世界模型的新路径。 文章的…
-
UNeMo:多模态世界模型与分层预测反馈机制重塑视觉-语言导航新范式
在具身智能(Embodied AI)领域,视觉-语言导航(VLN)作为核心任务之一,要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得一定进展,但仍面临推理模态单一、优化目标冲突等关键瓶颈。深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出的UNeMo框架,通过多模态世界模型(M…
