在人工智能迈向通用智能(AGI)的漫长征程中,一个根本性的哲学问题日益凸显:在构建超级智能之前,我们首先需要什么?近期,由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S:迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向,更可能重新定义AI感知能力的演进路径。

三位作者的组合本身就极具象征意义。LeCun作为世界模型的坚定倡导者和LLM的直言批评者,李飞飞在计算机视觉领域的奠基性贡献,以及谢赛宁在生成模型和视觉理解方面的前沿探索,共同指向了一个共识:当前基于大语言模型(LLM)的AI范式存在根本性局限。LeCun多次强调,LLM技术无法实现真正的AGI,因为它们缺乏对物理世界的内在理解。这种批评并非否定LLM的成就,而是指出其感知能力的缺失——这正是《Cambrian-S》试图解决的核心问题。

论文提出的“超感知”(supersensing)概念,彻底超越了传统多模态模型的框架。它并非指更先进的传感器或更高分辨率的摄像头,而是关乎数字生命如何真正体验世界:如何从源源不断的输入流中学习,构建内部世界模型,并主动预判、筛选和组织感官信息。正如谢赛宁在博客中所言,在实现“超感知”之前,不可能真正构建“超级智能”。这种观点呼应了神经科学家对感知与智能关系的深刻理解:智能并非脱离感知的抽象推理,而是根植于对世界的持续交互和理解。

研究团队对感知能力的演进路径进行了系统性分类,揭示了当前AI系统的局限性:
1. 纯语言理解阶段:仅处理文本和符号,缺乏感官能力。
2. 语义感知阶段:将像素解析为物体和关系,对应现有多模态模型的“看图说话”能力。
3. 流式事件认知阶段:处理实时数据流并响应持续事件,与实时助手方向一致。
4. 隐式3D空间认知阶段:理解视频作为三维世界的投影,需要知道物体位置、关系和时空变化。
5. 预测性世界建模阶段:通过先验期望预测未来状态,保持长期记忆并进行规划。
当前多模态模型在第三、四阶段能力极其有限,完全缺乏第五阶段的能力。这正是《Cambrian-S》试图突破的瓶颈。

视频被选为实现超感知的最佳媒介,因为它最接近人类日常体验世界的方式——连续、动态、富含时空信息。然而,现有的视频基准测试存在严重缺陷:许多任务甚至不需要真正的感知能力,仅靠单帧图像或字幕就能获得高分。这导致了一个恶性循环:科技公司构建强大的语言模型→基准测试奖励文本记忆能力→模型通过扩大规模获得高分→行业盲目跟从。结果就是,即使最先进的模型在感知能力上仍落后于一只猫或松鼠,再次验证了莫拉维克悖论:对人类而言毫不费力的感知,对AI却难如登天。

为了打破这一僵局,研究团队开发了VSI-Super基准测试,包含两个看似简单却极具挑战的任务:
– 任务1(VS):长时程空间记忆测试,通过扩散模型在视频中插入视觉融合但上下文不合的物体,考验模型对物体顺序和位置关系的持续记忆能力。

– 任务2(VSC):持续计数测试,在变化的视角和场景下进行物体计数,考验模型在动态环境中的稳定感知能力。

令人震惊的是,即使是Gemini 2.5等顶尖模型,在VSC任务中只能数到几十个物体,视频更长时就会停止计数。这暴露了LLM的根本缺陷:缺乏真正的空间认知和泛化能力。人类可以处理“无限的Token”,通过有损但高效的感知系统记住数天甚至数周的经历,而模型却受限于固定的上下文窗口和浅层的空间理解。

超感知的实现需要视觉空间智能作为关键一环。谢赛宁团队此前开发的VSI-Bench基准因视频过短、任务简单而受限,VSI-Super则通过更长的视频序列和更复杂的空间关系,迫使模型发展出真正的时空理解能力。这种能力对于现实世界应用至关重要:从工厂机器人精准操作、农业无人机监测作物生长,到医疗AI辅助诊断手术,再到可穿戴AI眼镜提供实时环境感知,都需要模型能够像人类一样持续理解动态世界。

《Cambrian-S》的研究意义远超出学术范畴。它挑战了当前以LLM为中心的AI发展范式,指出了一条更接近生物智能的演进路径:通过视频空间超感知,构建能够真正体验世界的数字生命。这不仅仅是技术路线的调整,更是对智能本质的重新思考。如果AI要成为人类的伙伴而非工具,它必须首先学会像我们一样感知世界——连续、主动、基于预测和记忆。

展望未来,超感知研究可能引发AI架构的范式转移:从依赖大规模文本训练的LLM,转向基于视频流和世界模型的多模态系统。这种转变需要新的算法、新的基准和新的评估标准,但回报将是巨大的——能够真正理解物理世界的AI,才可能实现可靠的推理、规划和创造。正如论文所暗示的,超级智能始于超感知,而视频空间理解可能是打开这扇大门的第一把钥匙。

在技术细节上,《Cambrian-S》模型通过结合时空注意力机制、记忆增强架构和预测性编码,尝试模拟人类视觉系统的核心功能:选择性注意、短期记忆整合和长期模式学习。初步结果显示,在VSI-Super基准上,专门设计的视频理解模型相比通用多模态LLM有显著优势,尤其是在长序列空间任务中。这验证了专用架构的必要性,也暗示了未来AI系统可能需要模块化设计,将感知、记忆、推理等功能解耦并优化。

总之,LeCun、李飞飞和谢赛宁的这项工作不仅是一次技术突破,更是一次哲学宣言:AI的未来不在于更大的语言模型,而在于更好的感知模型。只有当机器学会看世界如我们所见,理解空间如我们所感,记忆事件如我们所忆,真正的通用智能才可能从幻想变为现实。视频空间超感知,或许正是这个漫长旅程中最关键的第一步。


— 图片补充 —














关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/11918
