悟界·Emu3.5：世界模型基座如何重塑多模态AI的物理认知与时空一致性

2025年10月30日下午6:04 • AI产业动态 • 阅读 80

在AI技术快速迭代的浪潮中，多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院（BAAI）最新开源的悟界·Emu3.5，作为一款原生多模态世界模型，不仅在图、文、视频任务上展现出全面能力，更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。

Emu3.5的核心突破在于其作为“世界模型基座”的定位。传统多模态模型往往专注于特定任务的性能优化，而Emu3.5则致力于构建一个能够理解世界运行内在规律的通用基座。它通过将视觉、语言、时序信息统一建模，实现了对物理场景的连贯模拟。例如，在消除手写痕迹的任务中，模型不仅需要识别文字内容，还需理解纸张纹理、笔触深度等物理属性，才能生成自然的修复效果。

在动态3D世界探索方面，Emu3.5展现了前所未有的空间一致性能力。当用户以第一人称视角漫游虚拟环境时，模型能实时构建符合物理规律的场景变化。这种能力源于其海量的视频数据预训练——超过10万亿Token的多模态数据，其中连续帧和转录文本让模型沉浸式学习时空连续性。第一视角漫游不仅适用于游戏世界

，还能模拟真实场景如阳光下的客厅

，甚至在火星上开卡丁车

，丝滑的过渡效果证明了模型对三维空间关系的深刻理解。

图像编辑能力的提升同样体现了Emu3.5的物理认知水平。传统AI编辑工具往往在复杂修改中出现风格不一致或逻辑错误，而Emu3.5通过掌握物体属性、光照关系等物理规律，实现了高精度可控的编辑

。更值得注意的是其视觉叙事能力——模型能生成图文并茂的连贯故事

，这要求AI不仅理解单帧内容，还要把握情节发展的因果链。

技术架构的创新是Emu3.5实现这些突破的基础。34B参数的Decoder-only Transformer框架将所有任务统一为“下一状态预测”，无论是文本还是图像都被多模态分词器转换为离散Token序列。视觉分词器基于IBQ框架，拥有13万视觉词汇表，配合扩散解码器实现2K分辨率的高保真重建。在推理效率方面，团队提出的离散扩散适配技术将自回归生成转为并行预测，使图像生成速度提升近20倍。

测评数据显示，Emu3.5在多项权威基准上媲美甚至超越了Gemini-2.5-Flash-Image