智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来? 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

一场押注AI未来的技术豪赌。

北京时间1月29日,北京智源人工智能研究院推出的多模态大模型悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

Nature编辑在点评中指出:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当。这一成果对构建可扩展、统一的多模态智能系统具有重要意义,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。” 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

“悟界·Emu3”模型由智源研究院于2024年10月推出。该模型能够完成文本到图像生成、文本到视频生成、未来预测、视觉语言理解、交错图像文本生成以及具身操作等多方面任务,在感知和生成方面均达到了与特定任务旗舰模型相媲美的性能。这一成果对于确立自回归成为生成式AI统一路线具有重大意义。

具体而言,Emu3的图像生成在MSCOCO-30K等基准上表现优于SDXL等扩散模型;视频生成在VBench评分达81,超过Open-Sora 1.2视觉语言理解得分62.1,略高于LLaVA-1.6。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

前OpenAI政策主管、现Anthropic联合创始人杰克·克拉克(Jack Clark)曾评价Emu3:“不依赖花哨的架构技巧,仅用最基础的预测下一个token的逻辑,这种‘简单’被视为具备强大的扩展潜力。

智源研究院院长王仲远对此表示:“越是极简的架构,可能越具备强大的生产力,对产业的价值也越大。因为它简化了多模态AI架构,减少了研发过程中的复杂性和潜在错误,从而使模型的构建和维护更高效。智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

到2025年10月,“悟界·Emu”系列已迭代出多模态世界模型。Emu3.5可以理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作,不仅超越谷歌Nano Banana等模型拿下多模态SOTA,并首次指明了“多模态Scaling 范式”,让模型自发学习世界演变的内在规律,为具身智能等物理AI领域发展提供了重要新路径。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

Emu3为何能登上Nature正刊,得到国际学术界的高度认可?其背后诞生了哪些原创技术,又经历了怎样的挑战?这将对学界和产业界产生何种实际影响?

论文名:《通过预测下一个token进行多模态学习的多模态大模型(Multimodal learning with next-token prediction for large multimodal models)》
论文地址:https://www.nature.com/articles/s41586-025-10041-x
GitHub地址:https://github.com/baaivision/Emu3
智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

01. 50人小组死磕“统一”:一场押注AI未来的技术豪赌

Emu3模型最早立项于2024年2月。当时,随着GPT-4、Sora的爆火,“预测下一个token”的自回归路线彻底改变了语言模型领域,而在多模态生成领域,DiT(Diffusion Transformer)架构成为主流。自回归技术路线是否可以作为通用路线统一多模态? 这仍是一个未解之谜。

Emu3的开创性在于,它仅采用“预测下一个token”的自回归路线,就实现了统一的多模态学习,训练出性能出色的原生多模态大模型。

立项前,智源研究院团队经过大量分析和辩论,达成共识:多模态是未来实现AGI的关键路径,但现有的多模态生成长期由扩散模型主导,视觉语言感知则由组合式方法引领,两者并不收敛统一,存在技术天花板。 尽管已有工作试图统一生成与感知,但这些尝试要么是简单地将大语言模型与扩散模型拼接,要么在性能上不及针对特定任务精心设计的专用方法。

最终在2024年2月底,智源研究院决定组建一支五十人的技术攻关团队,自回归架构为核心进行研发,并采用离散的token方式,以精简架构和大规模复用的大语言模型基础设施,开启全新的多模态模型Emu3的研发工作。 该模型开创性地将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

这是一条挑战传统的“冒险”之路,团队经历了重重挑战。

首先是技术挑战。 选择“离散的token”方式本身是一种冒险,因为它尝试为视觉和其他模态重新发明一种与人类文字语言对齐的体系。在图像压缩过程中,由于图像信息量巨大且冗余度高,基于token压缩图像时难以训练出有效模型,过程充满挫折。

第二是路径质疑。 2024年,国内各大模型团队正集中资源复现GPT-4。许多头部玩家虽布局多模态模型,但最终因资源消耗大、主线聚焦语言模型等原因而砍掉团队。智源研究院在这样的背景下坚持下来,需要强大的信念和定力。

第三是方向不确定性。 当时,“多模态能否提升模型的智能”尚未有定论。但智源团队坚信,下一代模型若要进入物理世界,仅靠文字是不够的,需要一个“见过世界”的模型。他们相信,不管突破多模态模型乃至世界模型智能升级有多难,它都是实现AGI的一条必经之路。

02. 性能匹敌专用模型:两年,Emu3已深度影响产业发展脉络

多位业内专业人士指出,Emu3模型发布两年多以来,已经对多模态领域产生了显著影响,推动了整个产业的发展脉络,并在产业界得到了广泛应用和高度认可。

进入产业应用的前提,是Emu3首先在“性能”上取得了胜利。在多模态生成与感知任务上,Emu3的整体表现可与多种成熟的任务专用模型相媲美。

文本到图像生成能力上,在MSCOCO-30K、GenEval、T2I-CompBench等多个基准上,Emu3的性能与当时最先进的扩散模型相当:超越了SD1.5、SDXL等模型,并接近DALL-E 3、FLUX.1(Dev)等模型。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,其可以与融合CLIP和大语言模型的主流方案比肩。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

在视觉语言理解方面,Emu3作为一种纯粹的无编码器方法,在多个基准测试中达到了与同类方法相当的性能。值得注意的是,Emu3取得这样的能力,并未依赖专门的预训练大语言模型和CLIP。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

Emu3在视觉-语言理解与生成方面的能力

零样本图像修复任务中,给定输入图像和相应的文本提示,Emu3能够准确填充图像中指定的掩码区域,生成语义一致的内容,且无需针对该任务进行任何微调。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

Emu3同样具备强大的视频生成能力。它原生支持生成24帧/秒、时长为5秒的视频,并可通过自回归方法进行扩展。在扩展数据表3的对比中,Emu3的性能超过了Open Sora V1.2、Kling(2024)、Gen-3等同期知名的专用视频扩散模型,展现出很强的竞争力。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

Emu3能够通过预测未来帧来扩展视频。具体而言,模型将一段2秒、24帧/秒的视频转换为离散的视觉token作为上下文,并以自回归的方式预测后续2秒的视觉token序列,最终解码生成预测的未来视频。与Sora等从噪声开始的扩散模型不同,Emu3采用自回归方式逐token预测视频序列,实现了基于因果关系的视频生成与延展,初步展现出对物理世界环境及行为的模拟能力。此外,Emu3的能力可拓展至视觉语言交错生成,例如生成图文并茂的菜谱。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

其能力还可进一步拓展至视觉语言动作建模领域,例如机器人操作(VLA),这再次印证了“预测下一个token”这一范式的通用性。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

事实上,在《自然》论文发表后,智源研究院于2025年10月30日发布了Emu3的后续版本Emu3.5。该版本在多种多模态任务上继续展现出卓越效果,实现了全方位、大幅度的性能提升,开启了多模态世界大模型的新阶段。“悟界·Emu”系列在架构理念和实际效果上均达到产品级水准,这使其不仅在学术界获得《自然》期刊的高度认可,也在产业界引起了广泛关注。Emu3及其后续版本具有重大的产业应用前景,可能重塑多模态大模型格局,为中国在下一代大模型领域的原创研究树立了典范。

扩散模型已死?技术角度揭秘Emu3框架

Emu3及后续版本的发布,在开发者社区引发了关于“扩散模型已死”的讨论。对此,王仲远表示,目前尚不能对扩散模型的研究趋势下定论。尽管Emu3.5等成果为世界模型提供了一条可行的技术路径,但这并非唯一路径。 未来可能会有更多技术路径来实现“预测下一个状态”,同时扩散模型本身也在与其他技术结合并持续改进。因此,不能断言扩散模型会消失,而需要持续观察和技术交流。虽然不能断定自回归路线已经一统天下,但Emu3无疑为产业提供了一条新的重要技术路径。

从模型架构来看,Emu3保留了Llama-2等成熟大语言模型的架构框架,主要修改在于扩展了嵌入层以容纳离散的视觉标记。这是一个统一的、仅含解码器的框架,它将语言、图像和视频统一建模为单一的离散标记序列,并通过下一个标记预测目标进行端到端训练。该框架包含五个紧密集成的组件
1. 一个大型的混合多模态训练数据集。
2. 一个统一的标记器,可将图像和视频片段转换为紧凑的离散标记流(视觉分词器)。
3. 一个基于Transformer的仅解码器架构,该架构扩展了大型语言模型的嵌入空间以接受视觉标记,其他方面则遵循标准的仅解码器设计选择(架构)。
4. 一个两阶段优化方案,包括采用平衡交叉熵损失的大规模多模态预训练,以及与任务格式和人类偏好对齐的高质量后训练(预训练和后训练)。
5. 一个高效的推理后端,支持无分类器引导(CFG)、低延迟和高吞吐量,用于自回归多模态生成(推理)。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

这一架构证明,仅凭“预测下一个token”这一目标,就能同时支持高水平的生成与理解能力,并能自然地扩展到机器人操作及多模态交错生成等任务。智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该领域的持续发展。通过大规模消融实验,研究系统分析了多项关键技术的设计选择,验证了多模态学习的规模定律(Scaling law)、统一离散化的高效性以及解码器架构的有效性。研究还验证了自回归路线的通用性:直接偏好优化(DPO)方法可无缝应用于自回归视觉生成任务,使模型能更好地对齐人类偏好。在此基础上,悟界·Emu3.5通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了从“预测下一个token”到“预测下一个状态”的范式升级。

坚持原始创新:北京智源引领大模型技术演进

自2018年成立以来,智源研究院通过多项成果深刻影响了中国AI学术和产业界。其在2021年发布了中国首个大语言模型“悟道1.0”,以及当时全球最大的大语言模型(采用MoE架构)“悟道2.0”,同时因输送大量顶尖AI产业人才而被称为“大模型的黄埔军校”。智源于2022年开辟的新模型系列——悟界·Emu研究成果的发表,不仅是国际学术界对智源研究团队工作的认可,更是对中国AI原创技术路线的重要肯定

Emu系列模型自2022年启动研发以来,围绕“原生多模态”这一核心技术主线持续迭代,每个版本都在关键能力与方法论上实现了实质性突破:
* 2022年6月:系统布局多模态大模型的研发。
* 2023年7月:发布并开源首个版本,成为最早打通多模态输入到多模态输出的统一多模态模型,创新性提出统一多模态学习框架并大规模引入视频数据,初步实现多模态自回归预测。
* 2023年12月:发布Emu2,通过大规模自回归生成式多模态预训练,展现出可泛化的多模态上下文学习能力,可在少量示例和简单指令下完成听、说、读、写、画等任务,是当时开源最大的生成式多模态模型。
* 2024年10月:发布Emu3,该模型仅基于预测下一个token,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。
* 2025年10月:推出原生多模态世界模型Emu3.5,实现从“预测下一个token”到“预测下一个状态”的能力跃迁,从长视频数据中学习世界演化规律,提出多模态Scaling新范式。

自2020年启动“悟道”大模型研究以来,智源持续聚焦大模型的原始创新与长期技术路径探索。2025年6月,智源发布新一代大模型系列“悟界”,旨在构建人工智能从数字世界迈向物理世界的关键能力,打造物理世界的人工智能基座模型。“悟界”系列模型构建起覆盖宏观具身智能、介观生命系统到微观构象动力学的多层次技术基座。FlagOS开源系统软件栈则为模型的训练和推理带来了效率突破和多元AI硬件适配能力。

智源自成立以来,始终坚持开源开放理念。官方数据显示,智源已开源200多款模型,全球下载量超过7.6亿次,并开源了180多个数据集,全球下载量超过500万次。这些举措在国内AI科研机构中名列前茅,对开源社区和产业界做出了独特贡献。王仲远表示,开源开放是智源研究院从成立之初就始终坚持的理念,未来智源将持续在大模型技术及产业发展中起到表率作用,不仅开放模型权重,还将开放数据、训练代码和产业应用案例,促进开源生态和产业链共同发展。

作为大模型研发与开源生态的重要策源地,北京近期在人工智能领域成果频出。 “全球大模型第一股”智谱AI于1月8日成功上市,并与华为联合开源了首个全程在国产芯片上训练达到SOTA水平的多模态模型GLM-Image;随后,百度文心大模型5.0于1月24日发布,在40余项权威基准评测中综合表现稳居国际第一梯队;月之暗面Kimi于1月27日开源新模型K2.5,其可调度百个智能体协同工作,任务执行效率较单智能体提升4.5倍。而智源研究院继去年10月推出悟界·Emu3.5后,此次凭借Emu3再次取得突破,实现了我国科研机构主导的大模型成果首次在《Nature》正刊发表的历史性进展。

智源研究院院长王仲远表示,下一步将持续投入资源,研发包括世界模型、具身智能及生命科学智能在内的新一代人工智能技术,目标是构建AI在物理世界中发挥作用的基础模型与关键能力。

此次突破标志着中国AI原始创新能力的一次重要胜利。 其背后是高密度的人才储备、充足的算力资源、研究机构的坚定技术信念以及有力的地方政策支持。同时,智源这类兼具学术与产业视角的机构发挥了独特作用:相较于高校,它拥有更强的算力支持、专业的工程团队和企业化运作效率;相较于纯商业公司,它又不必完全受短期业务目标束缚,能够专注于前瞻性与突破性的基础科研。

北京建设“开源之都”的布局已初见成效。 其在大模型领域的领先地位,并非单纯依靠项目数量或融资规模,更源于对基础能力的扎实投入以及对“慢变量”培育的长期坚持。自2023年起,《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》等政策文件相继出台,明确将人工智能作为发展“新质生产力”的核心引擎。北京市科委、中关村管委会也指出,正积极组织优势单位开源RISC-V处理器核、基础与专业数据集及系列大模型,持续建设开源项目孵化平台,致力于打造中国版的“Hugging Face”,并不断推动开源生态体系的完善。随着全球大模型竞争进入深水区,北京在AI基础领域的长期投入正日益显现其深远价值。 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?


智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19321

(0)
上一篇 7小时前
下一篇 2025年3月16日 下午3:47

相关推荐

  • 解锁实时数据流:10个FastAPI流式API模式让看板动起来

    十个可直接复制粘贴的模式,用 FastAPI 向浏览器推送数据——顺滑、安全、低延迟。 用 FastAPI 构建实时看板。十种流式模式——SSE、WebSocket、NDJSON、chunked responses、backpressure、fan-out、caching 和 security——配套可运行代码。 看板不是被“一次刷新”杀死的,而是死于无数个…

    2026年1月12日
    8600
  • AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

    前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量已超过 700 万。现在,一个有力的证明出现了。 近日,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了新项目 VibeTensor,展示了 AI 在编程方面的强大能力。 从名字可以看出,这是「氛围编程」(Vibe Co…

    2026年1月23日
    3400
  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    8500
  • ClaudeCode之父自曝:上月未开IDE,AI已写200个PR!Karpathy预警软件业9级地震,新人反成AI原生高手

    圣诞节当天,ClaudeCode 的创造者 Boris Cherny 在 X 上宣布,他将开始更积极地参与平台上的讨论。 大家好,我是Boris,我在Claude Code工作。我打算开始在X上更活跃一些,因为这里有很多关于人工智能和编程的讨论。 欢迎随时向我反馈 Claude Code 的使用体验或提交 bug 报告。我很想了解大家是如何使用 Claude…

    2025年12月27日
    12400
  • QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5

    作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…

    2025年12月29日
    8200