超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

基础模型的能力爆发，源于海量文本的预训练。然而，文本只是人类对现实世界的一种抽象表达，是信息的有损压缩。

借用柏拉图的“洞穴寓言”：语言模型擅长描述墙壁上的影子，却从未见过投射影子的实体。它们精于捕捉符号，却难以理解物理世界中高保真的规律、结构与因果。

除了这一哲学局限，还存在一个现实瓶颈：高质量文本数据有限，且正逐渐枯竭。相比之下，视觉世界提供了近乎无限的信号来源，记录着现实最原始的动态，而这些恰恰是语言难以完整表达的。

因此，未来的发展路径需要走出“影子”的世界，直接建模现实本身。

为此，来自 Meta 和纽约大学的研究者转向了统一的多模态预训练：不再将视觉信号视为辅助输入，而是将其与语言同等对待，视为模型中的“一等公民”。

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

论文标题：Beyond Language Modeling: An Exploration of Multimodal Pretraining
论文地址：https://arxiv.org/pdf/2603.03276v1

本文一作为 Shengbang Tong、Divid Fan 和 John Nguyen，Yann LeCun 和谢赛宁亦有参与。

当前，统一多模态预训练的科研版图仍不清晰。尽管已有研究尝试超越纯语言预训练，但整个设计空间充满相互干扰的变量。多数方法仍依赖预训练语言模型进行初始化，其核心目标是保留原有语言能力，并让模型适应多模态任务。

然而，这些语言模型中已蕴含的大量知识会干扰实验，使研究者难以判断模型能力究竟源于统一训练本身，还是继承自语言预训练。因此，视觉与语言之间最基础的学习机制及其扩展规律，至今缺乏清晰理解。

本文旨在为该领域提供更清晰的实证认识，将研究重点放在形成模型核心能力的预训练阶段。

在方法上，研究者从零开始训练统一模型，采用 Transfusion 框架：
* 对语言使用 next-token 预测。
* 对视觉使用 扩散建模。

训练数据涵盖文本、视频、图文对及带动作条件的视频数据。同时，研究设计了一系列可控实验来隔离关键变量，并在一个全面的任务体系上进行评估，范围从语言能力、视觉理解与生成，延伸到世界模型中的规划能力。

具体研究维度如下：

视觉表示：评估了从变分自编码器（VAE）、语义表示到原始像素等多种方式。结果表明，表示自编码器（RAE）是最优的视觉表示方式。（第3节）
数据：研究了多种数据组合。实验发现，不同模态间相互干扰很小，有时甚至产生正向协同效应。（第4节）
世界建模：将评测扩展到导航世界模型场景，将动作表示为文本token。实验表明，模型的物理预测能力主要源于通用的多模态预训练（如视频数据），而非特定领域数据。（第5节）
架构设计：在统一框架下研究了MoE架构的设计选择，观察到模型在训练中会自然形成模态分离与统一并存的结构。（第6节）
扩展规律：通过IsoFLOP实验推导了视觉与语言的扩展规律。结果发现存在扩展不对称性：视觉任务对数据规模的需求明显高于语言。同时，MoE架构能有效弥合这种差距。（第7节）

统一多模态预训练中的视觉表示

本研究比较了三类视觉编码器：
* VAE系列：包括Stable Diffusion的SD-VAE以及FLUX.1。
* 语义编码器：包括语言监督训练和自监督训练的编码器。
* 原始像素：直接使用像素作为输入。

理解数据的影响

统一多模态预训练需利用所有可用数据，但每种数据类型的作用尚不明确。为探究此问题，团队研究了三种代表性数据组合：
1. 文本 + 视频（无文本注释的原始视频）
2. 文本 + MetaCLIP（图像-文本对）
3. 文本 + 视频 + MetaCLIP + 动作（上述所有+动作条件视频）

所有多模态模型均在约1万亿token上训练（5200亿文本+5200亿多模态数据），并与在5200亿文本token上训练的纯文本基线比较。

结果如下图所示。研究发现，“文本+视频”组合在DCLM验证集和内部Notes语料库上取得了所有混合数据中最佳的困惑度，在DCLM上甚至超越了纯文本基线。这表明：视频数据与语言建模至少是兼容的，甚至可能有益。视觉本身并非导致模态竞争的主因。

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

另一方面，“文本+MetaCLIP”在所有混合数据中表现出的困惑度最差。而“文本+视频+MetaCLIP+动作”相比纯文本基线仅有轻微退化，表明视频与动作轨迹数据与文本是互补的。

团队推测，文本性能的退化源于引入图像说明导致的文本分布偏移。此外还观察到，在所有混合数据中，相对于纯文本基线，在分布外程度更高的Notes语料库上困惑度均有所下降，但相对趋势保持一致。这表明多模态预训练可能会在文本泛化能力上引入微小的权衡。

建议2：在训练中使用多模态数据（如视频、图文对）。视觉数据不会降低语言建模能力，而多样化的预训练数据能为下游任务（如世界建模和VQA）带来协同效应。

迈向统一多模态模型中的世界建模

基于“语言与视觉互补，且多模态预训练能显著提升视觉问答能力”这一观察，研究团队进一步探索：在不修改模型架构的前提下，多模态模型能否扩展到“世界建模”任务。

团队采用了导航世界模型的设定，其核心任务是在给定当前上下文状态和导航动作的条件下，预测下一视觉状态：

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

与以往将导航动作编码为专用连续向量的方法不同，该研究直接将动作表示为标准文本标记。这使得任务可以被统一表述为“图像 + 文本 → 图像”的预测问题，并能在统一的多模态模型中直接完成。如下图所示，该方法无需引入任何动作专用适配器或修改模型架构。

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

世界建模能力源于多模态预训练

一个关键问题是：有效的世界建模能力，究竟主要依赖于特定领域的导航数据，还是源于更广泛的多模态能力？

为验证这一点，团队比较了两种模型：
* 模型 A：基于500亿导航世界模型标记和500亿多模态数据（文本、MetaCLIP、带文本注释的视频或纯视频）训练。
* 模型 B：仅基于500亿导航世界模型数据训练的基准模型。

实验结果如下图所示。将特定领域数据从500亿扩展到1000亿标记虽带来一定提升，但多模态预训练的效果更为显著。

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

具体而言，添加纯视频数据带来的提升最大，但包括MetaCLIP和文本在内的所有其他模态均有助益。这表明，世界建模能力更多地依赖于从多模态预训练中获得的知识，而非特定领域数据，这与早期研究结论一致。

世界建模能力可从通用训练中迁移

为进一步分析能力来源，团队进行了消融实验：在总训练预算固定为2000亿标记的前提下，调整导航世界模型数据的比例。

结果如下图所示，模型性能随领域数据量的增加迅速饱和。仅需1%的域内数据即可达到极具竞争力的性能，继续增加比例带来的收益微乎其微。

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

这一发现强化了以下假设：导航和视觉问答等能力主要源于通用多模态预训练，仅需极少量域内数据即可有效激活。

核心发现：统一的多模态预训练能够解锁世界建模能力。只需将动作表示为文本标记，无需修改模型架构；相关能力可通过通用训练自然涌现，且仅需极少的领域特定数据。

统一多模态架构设计

在前期实验中，仅将共享的前馈网络替换为模态专属前馈网络就取得了显著效果，证明了适度的容量分离具有潜力。然而，平均分配容量未必是最优配置。

为此，团队进一步探索混合专家模型是否能够通过解耦总容量与实际计算量，动态学习这种容量分配。研究重点在于：混合专家模型能否自动学习不同模态所需的容量分配，并在训练中形成专家专门化。

实验表明，模型确实自动形成了明显的“专家专门化”：一部分专家主要处理文本标记，另一部分主要处理视觉标记，且这种分工无需任何显式的模态标签或约束。随着训练进行，专家分工趋于稳定，部分专家保持跨模态处理能力。

这表明，混合专家模型能在不显式设计模态结构的情况下，自然形成功能分化。相比固定的模态专属前馈网络，混合专家模型具备两大优势：
* 动态容量分配：不同模态可使用不同数量的专家。
* 灵活的专家共享：部分专家可同时服务于多种模态。

因此，混合专家模型为统一多模态模型提供了一种更为灵活的架构方案。

架构建议：在统一模型中采用混合专家架构。其效果优于人为设计的模态分离策略，并能从数据中自然学习出针对不同模态的专门化能力。

统一多模态模型的扩展规律

研究同时推导了视觉与语言两种模态的扩展规律，并探讨了模型架构如何影响这些趋势。

图23展示了密集模型的等计算量结果：
超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

图24显示，统一模型的性能可以达到甚至超过单模态基线：
超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

图25展示了混合专家模型的等计算量结果：
超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

图26比较了混合专家多模态模型与单模态混合专家基线在整个计算范围内的表现。结果表明，混合专家模型使得单一模型能在两种模态上同时接近单模态模型的性能，且只需极小的额外开销。
超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/24814

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

统一多模态预训练中的视觉表示

理解数据的影响

迈向统一多模态模型中的世界建模

世界建模能力源于多模态预训练

世界建模能力可从通用训练中迁移

统一多模态架构设计

统一多模态模型的扩展规律

相关推荐

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

清华团队破解FlashAttention低精度训练玄学：BF16下数值偏置如何引爆大模型训练

2026年LLM微调全指南：从基础概念到实战应用的完整路径