超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。

借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。

除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的信号来源,记录着现实最原始的动态,而这些恰恰是语言难以完整表达的。

因此,未来的发展路径需要走出“影子”的世界,直接建模现实本身。

为此,来自 Meta 和纽约大学的研究者转向了统一的多模态预训练:不再将视觉信号视为辅助输入,而是将其与语言同等对待,视为模型中的“一等公民”。

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

  • 论文标题:Beyond Language Modeling: An Exploration of Multimodal Pretraining
  • 论文地址:https://arxiv.org/pdf/2603.03276v1

本文一作为 Shengbang Tong、Divid Fan 和 John Nguyen,Yann LeCun 和谢赛宁亦有参与。

当前,统一多模态预训练的科研版图仍不清晰。尽管已有研究尝试超越纯语言预训练,但整个设计空间充满相互干扰的变量。多数方法仍依赖预训练语言模型进行初始化,其核心目标是保留原有语言能力,并让模型适应多模态任务。

然而,这些语言模型中已蕴含的大量知识会干扰实验,使研究者难以判断模型能力究竟源于统一训练本身,还是继承自语言预训练。因此,视觉与语言之间最基础的学习机制及其扩展规律,至今缺乏清晰理解。

本文旨在为该领域提供更清晰的实证认识,将研究重点放在形成模型核心能力的预训练阶段。

在方法上,研究者从零开始训练统一模型,采用 Transfusion 框架:
* 对语言使用 next-token 预测
* 对视觉使用 扩散建模

训练数据涵盖文本、视频、图文对及带动作条件的视频数据。同时,研究设计了一系列可控实验来隔离关键变量,并在一个全面的任务体系上进行评估,范围从语言能力、视觉理解与生成,延伸到世界模型中的规划能力。

具体研究维度如下:

  1. 视觉表示:评估了从变分自编码器(VAE)、语义表示到原始像素等多种方式。结果表明,表示自编码器(RAE)是最优的视觉表示方式。(第3节)
  2. 数据:研究了多种数据组合。实验发现,不同模态间相互干扰很小,有时甚至产生正向协同效应。(第4节)
  3. 世界建模:将评测扩展到导航世界模型场景,将动作表示为文本token。实验表明,模型的物理预测能力主要源于通用的多模态预训练(如视频数据),而非特定领域数据。(第5节)
  4. 架构设计:在统一框架下研究了MoE架构的设计选择,观察到模型在训练中会自然形成模态分离与统一并存的结构。(第6节)
  5. 扩展规律:通过IsoFLOP实验推导了视觉与语言的扩展规律。结果发现存在扩展不对称性:视觉任务对数据规模的需求明显高于语言。同时,MoE架构能有效弥合这种差距。(第7节)

统一多模态预训练中的视觉表示

本研究比较了三类视觉编码器:
* VAE系列:包括Stable Diffusion的SD-VAE以及FLUX.1。
* 语义编码器:包括语言监督训练和自监督训练的编码器。
* 原始像素:直接使用像素作为输入。

相关实验结果见图4。

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

  • 文本性能:无论使用哪种视觉表示,模型的文本困惑度都与纯文本基线相当,有时甚至略好(原始像素输入表现最佳)。差异非常有限,表明多模态预训练不会显著损害语言能力。
  • 视觉生成与理解:语义编码器在视觉理解和生成任务上持续优于基于VAE的编码器。例如,SigLIP 2在VQA和图像生成基准测试(如DPGBench和GenEval)上均优于FLUX.1。

这一结果呼应了RAE的发现:高维视觉表示在生成任务上的效果至少与低维VAE潜表示相当甚至更好。这表明,一个统一的视觉编码器足以同时支持视觉理解和生成任务。后续实验将SigLIP 2作为默认视觉编码器。

建议1:采用单一的基于RAE的视觉编码器(如SigLIP 2),可以同时在视觉理解和生成任务上取得优异表现,从而简化模型架构,且不会损害文本性能。

理解数据的影响

统一多模态预训练需利用所有可用数据,但每种数据类型的作用尚不明确。为探究此问题,团队研究了三种代表性数据组合:
1. 文本 + 视频(无文本注释的原始视频)
2. 文本 + MetaCLIP(图像-文本对)
3. 文本 + 视频 + MetaCLIP + 动作(上述所有+动作条件视频)

所有多模态模型均在约1万亿token上训练(5200亿文本+5200亿多模态数据),并与在5200亿文本token上训练的纯文本基线比较。

结果如下图所示。研究发现,“文本+视频”组合在DCLM验证集和内部Notes语料库上取得了所有混合数据中最佳的困惑度,在DCLM上甚至超越了纯文本基线。这表明:视频数据与语言建模至少是兼容的,甚至可能有益。视觉本身并非导致模态竞争的主因。

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

另一方面,“文本+MetaCLIP”在所有混合数据中表现出的困惑度最差。而“文本+视频+MetaCLIP+动作”相比纯文本基线仅有轻微退化,表明视频与动作轨迹数据与文本是互补的。

团队推测,文本性能的退化源于引入图像说明导致的文本分布偏移。此外还观察到,在所有混合数据中,相对于纯文本基线,在分布外程度更高的Notes语料库上困惑度均有所下降,但相对趋势保持一致。这表明多模态预训练可能会在文本泛化能力上引入微小的权衡。

建议2:在训练中使用多模态数据(如视频、图文对)。视觉数据不会降低语言建模能力,而多样化的预训练数据能为下游任务(如世界建模和VQA)带来协同效应。

迈向统一多模态模型中的世界建模

基于“语言与视觉互补,且多模态预训练能显著提升视觉问答能力”这一观察,研究团队进一步探索:在不修改模型架构的前提下,多模态模型能否扩展到“世界建模”任务。

团队采用了导航世界模型的设定,其核心任务是在给定当前上下文状态和导航动作的条件下,预测下一视觉状态:

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

与以往将导航动作编码为专用连续向量的方法不同,该研究直接将动作表示为标准文本标记。这使得任务可以被统一表述为“图像 + 文本 → 图像”的预测问题,并能在统一的多模态模型中直接完成。如下图所示,该方法无需引入任何动作专用适配器或修改模型架构。

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

世界建模能力源于多模态预训练

一个关键问题是:有效的世界建模能力,究竟主要依赖于特定领域的导航数据,还是源于更广泛的多模态能力?

为验证这一点,团队比较了两种模型:
* 模型 A:基于500亿导航世界模型标记和500亿多模态数据(文本、MetaCLIP、带文本注释的视频或纯视频)训练。
* 模型 B:仅基于500亿导航世界模型数据训练的基准模型。

实验结果如下图所示。将特定领域数据从500亿扩展到1000亿标记虽带来一定提升,但多模态预训练的效果更为显著。

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

具体而言,添加纯视频数据带来的提升最大,但包括MetaCLIP和文本在内的所有其他模态均有助益。这表明,世界建模能力更多地依赖于从多模态预训练中获得的知识,而非特定领域数据,这与早期研究结论一致。

世界建模能力可从通用训练中迁移

为进一步分析能力来源,团队进行了消融实验:在总训练预算固定为2000亿标记的前提下,调整导航世界模型数据的比例。

结果如下图所示,模型性能随领域数据量的增加迅速饱和。仅需1%的域内数据即可达到极具竞争力的性能,继续增加比例带来的收益微乎其微。

超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

这一发现强化了以下假设:导航和视觉问答等能力主要源于通用多模态预训练,仅需极少量域内数据即可有效激活。

核心发现:统一的多模态预训练能够解锁世界建模能力。只需将动作表示为文本标记,无需修改模型架构;相关能力可通过通用训练自然涌现,且仅需极少的领域特定数据。

统一多模态架构设计

在前期实验中,仅将共享的前馈网络替换为模态专属前馈网络就取得了显著效果,证明了适度的容量分离具有潜力。然而,平均分配容量未必是最优配置。

为此,团队进一步探索混合专家模型是否能够通过解耦总容量与实际计算量,动态学习这种容量分配。研究重点在于:混合专家模型能否自动学习不同模态所需的容量分配,并在训练中形成专家专门化。

实验表明,模型确实自动形成了明显的“专家专门化”:一部分专家主要处理文本标记,另一部分主要处理视觉标记,且这种分工无需任何显式的模态标签或约束。随着训练进行,专家分工趋于稳定,部分专家保持跨模态处理能力。

这表明,混合专家模型能在不显式设计模态结构的情况下,自然形成功能分化。相比固定的模态专属前馈网络,混合专家模型具备两大优势:
* 动态容量分配:不同模态可使用不同数量的专家。
* 灵活的专家共享:部分专家可同时服务于多种模态。

因此,混合专家模型为统一多模态模型提供了一种更为灵活的架构方案。

架构建议:在统一模型中采用混合专家架构。其效果优于人为设计的模态分离策略,并能从数据中自然学习出针对不同模态的专门化能力。

统一多模态模型的扩展规律

研究同时推导了视觉与语言两种模态的扩展规律,并探讨了模型架构如何影响这些趋势。

图23展示了密集模型的等计算量结果:
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

图24显示,统一模型的性能可以达到甚至超过单模态基线:
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

图25展示了混合专家模型的等计算量结果:
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

图26比较了混合专家多模态模型与单模态混合专家基线在整个计算范围内的表现。结果表明,混合专家模型使得单一模型能在两种模态上同时接近单模态模型的性能,且只需极小的额外开销。
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24814

(0)
上一篇 2天前
下一篇 1天前

相关推荐

  • 突破多GPU通信瓶颈:AutoOverlap实现块级细粒度计算-通信重叠,最高加速4.7倍

    关键词:计算-通信重叠、块调度、分布式编译器、GPU、Triton、多 GPU 工作负载 通过块级调度在单内核内实现计算与通信的深度重叠 近年来,大语言模型的规模呈指数级增长,训练这些模型需要数百甚至数千块 GPU。在多 GPU 系统中,通信已经取代计算成为主要瓶颈。即使采用 NVLink、NVSwitch 等高速互连技术,AllGather、ReduceS…

    2026年2月23日
    11800
  • Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

    在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。 在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。 其后果是:那些仅差一…

    2026年2月20日
    7600
  • ReVision突破:无需图文配对,几何对齐解锁多模态大模型预训练新范式

    无需图文配对,几何对齐解锁多模态大模型预训练新范式 在多模态大模型(MLLM)的研发中,一个长期共识是:没有图文对(Image-Text Pairs),就没有多模态能力。为了训练模型理解图像,业界通常需要耗费巨资收集海量图片,并为每张图片生成高质量的文本描述。这种强监督的配对数据,一直被视为多模态训练的基石。 然而,来自港科大(广州)、新加坡国立大学等机构的…

    2026年3月3日
    7500
  • 强化学习云:大模型训练下半场的新引擎与基础设施革命

    2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…

    2026年1月12日
    12300
  • MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

    关键词:MobileRL框架、端侧GUI智能体、强化学习、ADAGRPO算法、Android基准测试 MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents https://arxiv.org/pdf/2509.18119 代码:https://github.com/THUD…

    2026年1月6日
    12900