扩展规律
-
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界
基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…
基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…