在AI技术快速迭代的浪潮中,多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院(BAAI)最新开源的悟界·Emu3.5,作为一款原生多模态世界模型,不仅在图、文、视频任务上展现出全面能力,更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。
Emu3.5的核心突破在于其作为“世界模型基座”的定位。传统多模态模型往往专注于特定任务的性能优化,而Emu3.5则致力于构建一个能够理解世界运行内在规律的通用基座。它通过将视觉、语言、时序信息统一建模,实现了对物理场景的连贯模拟。例如,在消除手写痕迹的任务中,模型不仅需要识别文字内容,还需理解纸张纹理、笔触深度等物理属性,才能生成自然的修复效果。

在动态3D世界探索方面,Emu3.5展现了前所未有的空间一致性能力。当用户以第一人称视角漫游虚拟环境时,模型能实时构建符合物理规律的场景变化。这种能力源于其海量的视频数据预训练——超过10万亿Token的多模态数据,其中连续帧和转录文本让模型沉浸式学习时空连续性。第一视角漫游不仅适用于游戏世界

,还能模拟真实场景如阳光下的客厅

,甚至在火星上开卡丁车

,丝滑的过渡效果证明了模型对三维空间关系的深刻理解。
图像编辑能力的提升同样体现了Emu3.5的物理认知水平。传统AI编辑工具往往在复杂修改中出现风格不一致或逻辑错误,而Emu3.5通过掌握物体属性、光照关系等物理规律,实现了高精度可控的编辑

。更值得注意的是其视觉叙事能力——模型能生成图文并茂的连贯故事

,这要求AI不仅理解单帧内容,还要把握情节发展的因果链。
技术架构的创新是Emu3.5实现这些突破的基础。34B参数的Decoder-only Transformer框架将所有任务统一为“下一状态预测”,无论是文本还是图像都被多模态分词器转换为离散Token序列。视觉分词器基于IBQ框架,拥有13万视觉词汇表,配合扩散解码器实现2K分辨率的高保真重建。在推理效率方面,团队提出的离散扩散适配技术将自回归生成转为并行预测,使图像生成速度提升近20倍。
测评数据显示,Emu3.5在多项权威基准上媲美甚至超越了Gemini-2.5-Flash-Image

,尤其在文本渲染和多模态交错生成任务上优势显著。这种性能优势源于其多阶段对齐策略:预训练后进行大规模有监督微调和多模态强化学习,通过复杂奖励系统优化故事连贯性、文本准确率等指标。
Emu3.5的“智能体式理解”能力尤为值得关注。它能像智能体一样处理长时序任务,例如“整理桌面”的复杂指令序列

——从清空物品到隐藏线缆,每个步骤都需理解物体空间关系、操作逻辑。这种能力延伸至视觉指导领域:给定狐狸草图后,模型能生成从3D建模到上色的完整流程

,核心特征在长时程创作中完美保留。此外,分步教学指南的生成

进一步证明了其在教育、培训等场景的应用潜力。
开源策略是Emu3.5的又一重要贡献。

作为全球首个开源的世界模型基座,它降低了开发者构建物理感知AI的门槛,有望加速智能体、虚拟现实、机器人等领域的创新。从生成更逼真的视频到赋能行业应用,Emu3.5不仅代表了多模态AI的技术前沿,更预示着一个更懂物理、更有逻辑的AI新时代的到来。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8674
