悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。

Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(Multimodal World Foundation Model),这一概念标志着AI发展进入了一个全新的阶段。通过在超过10万亿多模态Token(主要源自互联网视频,总时长约790年)上进行端到端预训练,Emu3.5成功学习并内化了现实物理世界的动态规律。这种原生的世界建模能力,使其在根本上区别于现有的生成模型,并自然外化为一系列高级功能:不仅能生成图文并茂的故事,更展现出在长时程视觉指导、复杂图像编辑、世界探索和具身操作等任务上的强大潜力。

更值得关注的是,Emu3.5首次揭示了“多模态Scaling范式”的存在。这是继语言预训练、推理和后训练之后,人工智能发展的第三条Scaling范式。智源研究院在悟道1.0发布会上率先提出“大模型”概念,如今通过Emu3.5的发布,他们再次引领行业方向,将“世界大模型”(World Foundation Model)确立为AI研究的新探索方向。

在技术架构层面,Emu3.5继承了Emu3的极简设计理念,基于一个34B的稠密Transformer模型。其核心创新在于将模型目标统一为“下一状态预测”(Next-State Prediction)。这种设计赋予了Emu3.5独特的“原生多模态”特性——不再依赖传统的“多模块”模式(即以LLM为基础,将其他模态转换为文本再处理),而是直接基于下一个token预测,实现了文本、图像、视频三种模态数据的理解和生成大一统。

这种原生特性使Emu3.5具备生成交错视觉-语言输出的能力。当用户给出指令时,模型可以生成一段文字,紧接着一幅图像,然后是另一段解释性文字和下一幅图像,形成连贯的多模态叙事。这种能力使其天然胜任两类极具挑战性的新任务:

1. 视觉叙事(Visual Narrative):Emu3.5能生成一系列图文并茂的卡片,从起点处牛顿与索尼克在森林相遇、提出关于速度与引力的挑战开始,到两个角色的交流和思考,再到最后在月光下共同仰望星空,整个过程逻辑连贯,画面风格统一。

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

2. 视觉指导(Visual Guidance):模型可以生成分步的、带有视觉示例的教程。例如,当被问及“如何画图中的猫?”,Emu3.5会生成几个步骤,每个步骤都配有一张清晰的图片,直观展示从轮廓到最终完成猫图片的全过程。

这种能力标志着多模态模型从“看图说话”或“按需作画”的单一任务执行者,向着能够进行连续、多步、跨模态创造的“世界学习器”迈出了关键一步。

Emu3.5之所以能具备如此强大的原生多模态能力,其背后是一套极其庞大且精密的训练流程。与以往模型主要依赖静态的“图像-文本对”不同,Emu3.5的训练数据主体是包含超过10万亿Tokens的视觉-语言交错数据,主要来源于互联网视频及其对应的语音转录文本。为什么视频数据如此重要?因为静态图文对只能教会模型“这是什么”,而连续的视频帧和同步的解说,则能教会模型现实世界的物理动态、时空连续性和因果等规律。

整个训练流程分为四个核心阶段:

第一阶段是大规模预训练。Emu3.5在超过10万亿Tokens的数据上,采用统一的“下一状态预测”目标进行端到端训练。这一阶段分为两步,第一步在10万亿Tokens上进行大规模基础学习,第二步则在3万亿更高质量、更高分辨率和更丰富标注的数据上进行能力增强。值得注意的是,模型在训练过程中,验证集上多个分布外任务的损失持续下降,这表明模型涌现出了强大的泛化能力,而不仅仅是记忆训练数据。

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

曲线表明Emu3.5实现了平滑且稳定的优化过程,并在多组验证集上保持了一致的泛化能力。

第二阶段是监督微调。在预训练之后,模型在一个包含1500亿样本的高质量数据集上进行微调。这些数据覆盖了从通用图文生成、视觉问答,到前文提到的视觉叙事、视觉指导、世界探索和具身操作等多种复杂任务。SFT阶段的目标是建立一个统一的多模态交互接口,让模型学会如何“听懂”并完成各种具体指令,并促进不同任务之间的知识迁移。

第三阶段是大规模多模态强化学习。为了进一步提升多模态推理和生成质量,Emu3.5首次在多模态领域进行大规模强化学习。团队构建了一个复杂的多维度奖励系统,能够同时评估生成内容的美学质量、图文对齐度、叙事连贯性、文本渲染准确度等多个指标。通过在统一的奖励空间中进行优化,模型学会在多个目标之间取得平衡,避免了“奖励欺骗”现象,实现了跨任务的持续改进。

第四阶段是高效自回归推理加速。为了解决自回归模型在生成速度方面的挑战,Emu3.5团队提出了“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)方法。这项技术将每张图像的推理速度提升了近20倍,且几乎没有性能损失。这使得Emu3.5成为首个在推理速度和生成质量上,能与顶级闭源扩散模型相媲美的自回归模型。

在性能表现方面,Emu3.5在多个基准测试中展现出卓越实力。在图像编辑任务上达到了与谷歌Gemini-2.5-Flash-Image相当的性能,并在文本渲染和一系列交错内容生成任务上显著超越对手。这种全面的性能优势,验证了“多模态世界大模型”这一技术路线的可行性和先进性。

智源研究院已宣布后续将开源Emu3.5,以支持社区的进一步研究。这一决定不仅体现了开源精神,也为全球AI研究者提供了探索多模态世界模型的重要工具。悟界・Emu3.5的发布,不仅是一次技术突破,更是AI发展史上的重要里程碑。它标志着人工智能从单纯的内容生成,向对世界动态的理解和预测迈进,为构建真正理解物理世界的通用人工智能奠定了坚实基础。

— 图片补充 —

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8728

(0)
上一篇 2025年10月30日 下午4:24
下一篇 2025年10月30日 下午4:29

相关推荐

  • 华为云双引擎战略:Versatile智能体平台与CloudDevice云终端协同,破解AI落地三大难题

    在2025全球计算大会(CGC 2025)上,华为云正式发布了Versatile智能体平台与CloudDevice云终端协同解决方案,这标志着AI技术从实验室走向产业应用的关键转折。当前,尽管大模型技术飞速发展,但行业落地仍面临三大核心挑战:开发门槛过高导致中小企业难以参与、场景碎片化造成定制化成本激增、端侧算力限制阻碍实时智能应用。华为云此次推出的双引擎架…

    2025年11月7日
    100
  • 重构AI记忆范式:GAM框架如何以动态搜索替代静态压缩,突破智能体长期记忆瓶颈

    在人工智能尤其是大模型驱动的智能体系统中,记忆机制一直是制约其长期任务执行与复杂推理能力的关键瓶颈。传统AI记忆系统普遍采用“压缩-摘要”模式,即将冗长的思维链、工具调用记录等历史轨迹压缩为简短的文本摘要以节省存储空间。这种做法的致命缺陷在于:信息保真度严重受损。如同将一本百科全书强行压缩成一张便利贴,当智能体后续需要回溯具体决策细节、工具参数或中间推理步骤…

    2025年11月27日
    400
  • Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

    在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…

    2025年11月5日
    300
  • 《扩散模型原理》专著深度解析:统一理论框架如何重塑生成式AI的未来格局

    扩散模型作为生成式人工智能领域的革命性技术,自2020年以来已彻底改变了图像、音频、视频乃至3D内容的生成范式。然而,其复杂的数学基础和分散的研究视角,使得从业者往往难以系统掌握其核心原理。由Sony AI、OpenAI和斯坦福大学联合撰写的460页专著《The Principles of Diffusion Models》,正是为解决这一困境而诞生的权威指…

    2025年10月29日
    300
  • 从拖拽到代码:Bubble Lab如何用TypeScript重构低代码工作流调试体验

    在低代码和自动化工作流领域,n8n和Zapier等工具通过可视化拖拽界面降低了技术门槛,让非专业开发者也能快速构建自动化流程。然而,这种便利性背后隐藏着显著的调试和维护痛点。当工作流出现异常时,用户面对的是难以解读的JSON配置文件,排查问题往往依赖猜测和试错。更关键的是,这些平台通常将自定义逻辑限制在预设框架内,开发者难以实现复杂的业务需求或深度优化性能。…

    2025年11月11日
    100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注