迈向AGI新范式：视频空间超感知如何突破LLM感知瓶颈

在人工智能迈向通用智能（AGI）的漫长征程中，一个根本性的哲学问题日益凸显：在构建超级智能之前，我们首先需要什么？近期，由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S：迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向，更可能重新定义AI感知能力的演进路径。

三位作者的组合本身就极具象征意义。LeCun作为世界模型的坚定倡导者和LLM的直言批评者，李飞飞在计算机视觉领域的奠基性贡献，以及谢赛宁在生成模型和视觉理解方面的前沿探索，共同指向了一个共识：当前基于大语言模型（LLM）的AI范式存在根本性局限。LeCun多次强调，LLM技术无法实现真正的AGI，因为它们缺乏对物理世界的内在理解。这种批评并非否定LLM的成就，而是指出其感知能力的缺失——这正是《Cambrian-S》试图解决的核心问题。

论文提出的“超感知”（supersensing）概念，彻底超越了传统多模态模型的框架。它并非指更先进的传感器或更高分辨率的摄像头，而是关乎数字生命如何真正体验世界：如何从源源不断的输入流中学习，构建内部世界模型，并主动预判、筛选和组织感官信息。正如谢赛宁在博客中所言，在实现“超感知”之前，不可能真正构建“超级智能”。这种观点呼应了神经科学家对感知与智能关系的深刻理解：智能并非脱离感知的抽象推理，而是根植于对世界的持续交互和理解。

研究团队对感知能力的演进路径进行了系统性分类，揭示了当前AI系统的局限性：

1. 纯语言理解阶段：仅处理文本和符号，缺乏感官能力。

2. 语义感知阶段：将像素解析为物体和关系，对应现有多模态模型的“看图说话”能力。

3. 流式事件认知阶段：处理实时数据流并响应持续事件，与实时助手方向一致。

4. 隐式3D空间认知阶段：理解视频作为三维世界的投影，需要知道物体位置、关系和时空变化。

5. 预测性世界建模阶段：通过先验期望预测未来状态，保持长期记忆并进行规划。

当前多模态模型在第三、四阶段能力极其有限，完全缺乏第五阶段的能力。这正是《Cambrian-S》试图突破的瓶颈。

视频被选为实现超感知的最佳媒介，因为它最接近人类日常体验世界的方式——连续、动态、富含时空信息。然而，现有的视频基准测试存在严重缺陷：许多任务甚至不需要真正的感知能力，仅靠单帧图像或字幕就能获得高分。这导致了一个恶性循环：科技公司构建强大的语言模型→基准测试奖励文本记忆能力→模型通过扩大规模获得高分→行业盲目跟从。结果就是，即使最先进的模型在感知能力上仍落后于一只猫或松鼠，再次验证了莫拉维克悖论：对人类而言毫不费力的感知，对AI却难如登天。

为了打破这一僵局，研究团队开发了VSI-Super基准测试，包含两个看似简单却极具挑战的任务：

– 任务1（VS）：长时程空间记忆测试，通过扩散模型在视频中插入视觉融合但上下文不合的物体，考验模型对物体顺序和位置关系的持续记忆能力。

– 任务2（VSC）：持续计数测试，在变化的视角和场景下进行物体计数，考验模型在动态环境中的稳定感知能力。

令人震惊的是，即使是Gemini 2.5等顶尖模型，在VSC任务中只能数到几十个物体，视频更长时就会停止计数。这暴露了LLM的根本缺陷：缺乏真正的空间认知和泛化能力。人类可以处理“无限的Token”，通过有损但高效的感知系统记住数天甚至数周的经历，而模型却受限于固定的上下文窗口和浅层的空间理解。

超感知的实现需要视觉空间智能作为关键一环。谢赛宁团队此前开发的VSI-Bench基准因视频过短、任务简单而受限，VSI-Super则通过更长的视频序列和更复杂的空间关系，迫使模型发展出真正的时空理解能力。这种能力对于现实世界应用至关重要：从工厂机器人精准操作、农业无人机监测作物生长，到医疗AI辅助诊断手术，再到可穿戴AI眼镜提供实时环境感知，都需要模型能够像人类一样持续理解动态世界。

《Cambrian-S》的研究意义远超出学术范畴。它挑战了当前以LLM为中心的AI发展范式，指出了一条更接近生物智能的演进路径：通过视频空间超感知，构建能够真正体验世界的数字生命。这不仅仅是技术路线的调整，更是对智能本质的重新思考。如果AI要成为人类的伙伴而非工具，它必须首先学会像我们一样感知世界——连续、主动、基于预测和记忆。

展望未来，超感知研究可能引发AI架构的范式转移：从依赖大规模文本训练的LLM，转向基于视频流和世界模型的多模态系统。这种转变需要新的算法、新的基准和新的评估标准，但回报将是巨大的——能够真正理解物理世界的AI，才可能实现可靠的推理、规划和创造。正如论文所暗示的，超级智能始于超感知，而视频空间理解可能是打开这扇大门的第一把钥匙。

在技术细节上，《Cambrian-S》模型通过结合时空注意力机制、记忆增强架构和预测性编码，尝试模拟人类视觉系统的核心功能：选择性注意、短期记忆整合和长期模式学习。初步结果显示，在VSI-Super基准上，专门设计的视频理解模型相比通用多模态LLM有显著优势，尤其是在长序列空间任务中。这验证了专用架构的必要性，也暗示了未来AI系统可能需要模块化设计，将感知、记忆、推理等功能解耦并优化。