Emu3.5是由北京智源研究院最新发布的大规模多模态世界模型,其核心创新在于原生支持视觉与语言的联合状态预测。该模型采用统一的下一token预测目标进行端到端预训练,训练数据规模超过10万亿token,主要来源于互联网视频的连续帧及其转录文本,这为模型理解动态视觉序列与语言描述的关联性奠定了坚实基础。

模型架构设计上,Emu3.5天然接受交错的视觉-语言输入,并能够生成同样交错的视觉-语言输出。这种设计使得模型在处理复杂多模态任务时具有先天优势。为进一步提升模型性能,研究团队还进行了大规模强化学习后训练,显著增强了模型的多模态推理与生成能力,使其在复杂场景下的表现更加稳定和精准。

在推理效率方面,Emu3.5引入了离散扩散适配(DiDA)技术,将传统的逐token解码过程转换为双向并行预测。这一创新不仅将每张图像的推理速度提升了约20倍,而且保持了原有的性能水平,实现了效率与效果的完美平衡。DiDA技术的应用,为大规模多模态模型的实时部署提供了重要技术支持。
Emu3.5展示了强大的原生多模态能力,具体体现在以下几个方面:长程视觉-语言生成能力使其能够处理复杂的时序任务;任意到图像(X2I)生成功能支持从多种输入形式生成对应图像;复杂文本图像生成能力则能够准确理解并执行详细的文本描述。更重要的是,该模型表现出可泛化的世界建模能力,能够在不同场景和任务中实现时空一致的世界探索,并支持开放世界的具身操作。

在图像生成和编辑任务上,Emu3.5达到了与Gemini 2.5 Flash Image(Nano Banana)相当的性能水平,在一系列交错生成任务上甚至表现更优。这表明Emu3.5不仅在理论架构上有所创新,在实际应用性能上也达到了国际先进水平。
从应用场景来看,Emu3.5的实际能力令人印象深刻。在分步骤视觉指导方面,模型能够详细指导复杂的手工制作过程,例如用粘土和颜料雕刻火星探险者人偶,从材料准备到上色密封的每个步骤都有清晰的图示说明。

在故事创作领域,Emu3.5可以根据提示生成连贯的视觉叙事。例如,一个粘土宇航员在外星森林坠毁后遇到皮卡丘,共同探索发光蘑菇森林的完整故事,模型能够生成情节连贯、视觉一致的系列图像。

智能图像编辑功能展现了模型对编辑指令的精确理解能力。无论是将燃烧的木料改为玻璃材质、让狗拥抱猫、向右平移视角、转换为鸟瞰视图,还是移除文档上的手写注释,模型都能准确执行并保持图像的自然度。

在具身操作方面,Emu3.5能够理解物理世界任务并生成详细的操作步骤。例如折叠衣服、清理台面、超市拣货等日常任务,模型可以为每个步骤提供对应的视觉演示,为机器人操作和智能家居应用提供了重要参考。

世界探索功能则体现了模型保持长程一致性的空间探索能力。用户可以指令模型探索舒适客厅、现代起居室、复古教室、埃菲尔铁塔、天坛等多样化场景,模型能够生成连贯的第一人称视角探索视频,为虚拟现实和游戏开发提供了新的可能性。

技术层面,Emu3.5的研究团队已在arXiv发布了详细的技术报告,全面介绍了模型架构设计、训练方法优化以及评估结果分析。该模型已完全开源,代码和模型权重可通过GitHub获取,为学术研究和工业应用提供了宝贵资源。开源地址为https://github.com/baaivision/Emu3.5,论文地址为https://arxiv.org/abs/2510.26583。Emu3.5的发布标志着多模态人工智能技术向更通用、更实用的方向发展,其开源特性将进一步推动整个领域的技术进步和应用创新。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8531
