沉寂许久的 Ian Goodfellow,终于再次现身。
这位提出生成对抗网络(GAN)的研究者,曾一手开启 AI 生成技术的早期浪潮。但在最近几年由大模型主导的新一轮生成式 AI 竞赛中,Goodfellow 的公开声音却并不多见。
直到最近,他与 NLP 先驱 Chris Manning 等人共同发表了一篇文章,探讨了构建多模态世界模型的新路径。

文章的三位作者分别是:
* Ian Goodfellow:生成模型时代的开创者,于 2014 年提出 GAN,开启了 AI 图像生成的第一波浪潮。
* Chris Manning:NLP 先驱、斯坦福大学教授,自然语言处理领域最具影响力的学者之一,长期推动大语言模型的发展。
* Fan-Yun Sun:Moonlake AI 联合创始人兼 CEO,研究方向集中在多模态世界模型。
他们在文中提出,利用符号化表示以及游戏虚拟世界的数据,可能是构建具备动作条件的多模态世界模型的最佳路径。这类模型能够支持对长时序任务进行可靠的预测与规划。

当人类以及其他动物生活在世界中时,它们可以感知周围正在发生的事情。但人类所做的远不止观察:人们还能预测环境中其他生物或物体接下来可能的行为,并据此规划自己的行动以实现某个目标。要成功完成这些复杂任务,就需要一个高效的世界模型。
所谓世界模型,是指一种能够表示环境运作方式的模型,包括环境的动态变化以及其中的因果结构。在强化学习框架中,世界模型用于近似环境的状态转移函数,即在当前状态下执行某个动作时,预测下一个世界状态的概率。
借助世界模型,我们可以基于对世界行为的心理模型来进行预测、规划、推理和行动,而无需每次都通过与真实世界直接交互来观察行动的后果。
然而,人类并不能直接获得世界的真实状态,我们所能获得的只是对真实状态的一部分观测。换句话说,人类始终是在不完全信息的条件下理解和行动于这个世界之中。

人们在观察或测量世界时采取了不同的方法,并利用不同的模态来构建世界模型。例如,大语言模型仅通过文本就能学习到某种形式的潜在世界模型。然而,我们所生活的世界并不只是文本,它还包括视觉、声音、触觉等多种感知形式。因此,作者重点讨论的是多模态世界模型。
在构建多模态世界模型时,需要先回答两个关键问题:为何构建,以及如何获得可规模化的训练数据。
为何构建世界模型?
目标是实现能够释放巨大经济价值的 AI 能力。现实世界中的任务往往要求理解行动在时间维度上如何产生后果,而不仅仅是识别模式。关键在于理解因果关系。作者认为,在多模态环境中进行因果推理的能力,是通向具身通用人工智能(AGI)最重要的核心能力之一。
许多人谈到多模态世界模型时会首先想到生成式视频模型。这类模型能够生成视觉效果逼真的场景,但从本质上看,它们是在尝试建模连续视频帧之间的像素级关系。这种方式并不一定能够真正捕捉世界的因果结构,且由于缺乏抽象层和语义结构,在效率和成本上往往较低。一些研究也指出,即使是当前最先进的模型,仍会出现物理或空间理解上的错误。
如果目标是为行动进行规划,我们真的需要一个高分辨率的像素视图来建模世界吗?作者认为,在大量具有经济价值的任务中,其实并不需要如此细致的视觉信息。人类在处理视觉信息时往往以自上而下、任务驱动的方式进行处理,依赖于对象层级的抽象表示。在绝大多数情境中,部分信息加上语义理解就已经足够。
那么,人类在理解世界方面有何特殊之处?关键在于我们发展出了认知工具,其中最重要的是自然语言,以及后来发展出的各种符号表示(如数学和编程语言)。这些工具能够帮助人类以更高效的方式对世界进行抽象,并准确表达因果关系。它们不仅使人类能够更高效地推理世界中真正重要的因素,还让我们能够通过语言沟通和协作。
更重要的是,工具和抽象可以让模型把表示能力集中在那些真正影响决策的世界要素上,从而在数据和计算效率上都更具优势。与其试图通过原始感官数据完整重建整个世界,不如利用语义层面的抽象来实现更强大、更高效的理解和操作。这种表示方式具有高度紧凑的特点,使得模型在面对长时间跨度任务时,也能够进行有效预测与推理。
如何获得可扩展的训练数据?
数据是构建有效模型中最关键的因素。目前,大多数先进的视觉世界模型仍然是基于像素的,且通常不具备动作条件能力。互联网上存在海量视频数据,但真正记录行动本身及其结果的数据却非常稀缺,而这正是理解行动后果的关键。
目前也有一些研究尝试让像素世界模型具备动作条件能力,但作者认为,更具数据效率和计算效率的一条道路,是利用软件抽象来构建多样化的合成世界以增强模型训练。这些合成环境同样可以成为训练动作条件世界模型的重要数据来源。
抽象机制能够帮助模型以更少的数据实现更高性能。目前,这类抽象大多体现为符号表示(symbolic representations),例如代码和自然语言。这些符号可以通过高度可扩展的数据采集接口——如计算机及其输入设备(键盘、鼠标等)——来获取。同时,符号表示也更便于人类进行精细、高效的控制。由于它们本身就是人类表达意图的天然接口,因此能够形成一个同时包含行动(actions)与观测(observations)的数据闭环。对于需要人类操作的模拟环境而言,一个有效的交互接口必不可少,而这一接口往往最自然地通过人类语言和软件代码这类符号系统来实现。
此外,作者强调,成功构建世界模型离不开一条能够实现商业自我持续发展的路径。只有当商业化激励持续推动数据生产与模型迭代时,模型能力才能不断进步。类似的模式已在多个领域得到验证,例如智能手机中的惯性测量单元(IMU)推动了相关技术演进,以及大语言模型在自然语言处理领域的快速发展。
因此,作者主张应从数字世界入手构建多模态世界模型。以游戏为代表的交互式媒体,既能提供明确的参与激励(如娱乐性),又具备可扩展的数据采集接口(键盘、鼠标),使得数据能够自然积累。这条路径有望最终催生出一种成熟模型:它不仅能够生成环境,还可用于训练和控制任何具身智能体,无论其处于虚拟世界还是现实世界。目前已有迹象表明,这种跨环境的泛化能力正在逐步显现。
文章同时指出,这并非否定像素作为世界表示方式的价值,也不意味着未来只存在一种统一的世界表示形式。关键在于,世界模型的设计应围绕我们希望从中学习到的策略(policy)展开,并借助合适的抽象方法与工具,使模型聚焦于真正影响决策的环境因素,从而在数据效率与计算效率之间取得更优平衡。
如果目标是在多模态环境中理解因果关系,那么无论世界模型应用于虚拟世界还是物理世界,都需要优先满足若干关键属性,例如:在长时间尺度上保持空间与物理状态的一致性,并能够推动世界状态演化,真实反映行动所带来的后果。
文章最后表示,这正是当前探索与构建的方向。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24747
