寒武纪-S：重新定义空间智能，开启AI超感知时代

在人工智能技术快速迭代的当下，一个名为“寒武纪-S”（Cambrian-S）的项目正悄然引发行业深度思考。该项目由谢赛宁牵头，并获得了李飞飞和Yann LeCun等顶尖学者的支持，其核心目标并非追逐传统的芯片硬件竞赛，而是直指AI发展的一个根本性挑战：如何让人工智能真正学会感知和理解三维空间世界。

寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模型。它突破了当前多数模型仅停留在图像描述或简单视频理解的局限，致力于让AI系统能够像人类一样，从连续的视频流中理解物体间的空间关系、动态变化和长时程场景记忆。例如，模型不仅能识别视频中出现的“人”、“沙发”和“书”，还能理解“人从门口走到沙发旁”这一路径的空间关系，以及“书在桌上的具体方位”这种精细的空间定位。这种能力对于机器人导航、自动驾驶、增强现实等需要与环境进行深度空间交互的应用至关重要。

项目的突破性成果体现在其推出的多模态视频大模型上。该模型在短视频空间推理任务中取得了当前最优（SOTA）性能，并兼顾了通用视频与图像的理解能力。更引人注目的是，通过引入创新的**预测感知模块**，寒武纪-S能够有效处理超长视频中的空间任务——这恰恰是许多主流大模型的软肋。该模块使模型能够主动预测视频的下一帧内容，从而在推理时更高效地分配注意力，识别关键信息，同时显著控制GPU内存消耗，避免了单纯依靠堆叠硬件来提升性能的粗放模式。

要理解寒武纪-S的价值，需回溯其研发路径。2024年6月，团队首先发布了Cambrian-1，这是一次针对图像多模态模型的系统性探索。该阶段工作从五个维度进行了扎实的基础建设：一是系统测评了超过20种视觉编码器及其组合，明确了不同编码器（如语言监督、自监督等）的适用场景；二是设计了**空间视觉聚合器（SVA）**，以更少的视觉token高效融合多源视觉特征，平衡了高分辨率处理与计算效率；

三是构建并优化了视觉指令训练数据集，从千万级原始数据中筛选出700万条高质量样本，并通过系统提示工程提升了模型的交互能力；

四是推出了**CV-Bench基准测试**，专注于评估2D/3D视觉理解的核心任务，弥补了现有评测体系对深度视觉能力考核的不足；

五是总结出最优训练方案，验证了两阶段训练、解冻视觉编码器等策略对模型性能的显著提升作用。

然而，团队并未循惯例继续扩大模型参数规模，而是进行了关键的战略转向。他们深入反思“什么是真正的多模态智能”，指出当前许多模型实质上只是将图像信息“翻译”成文本，再交由语言模型处理，缺乏对视觉场景的本质理解。为此，团队提出了**“超感知”（Hyper-perception）** 的核心理念。谢赛宁对此的阐释切中要害：这关乎数字生命如何真正“体验”世界，即系统吸收连续输入流并从中学习的能力。超感知意味着AI不仅能识别物体，更能记忆其位置、理解相互关系、甚至预测其动态变化。谢赛宁进一步强调，在实现超感知之前，构建真正的超级智能无从谈起。

基于此理念，团队将焦点转向视频这一更符合人类连续感知特性的媒介，确立了“视频空间超感知”为核心研究方向。为实现该目标，他们首先解决了两个基础问题：如何评估AI的空间感知能力？以及用什么数据来训练这种能力？

针对评估问题，团队创建了**VSI-SUPER基准测试**，专门用于考核AI的空间智能。该测试包含两项关键任务：一是**长时程空间记忆（VSR）**，要求模型观看长达数小时的室内漫游视频后，回忆其中特定物体的位置；

二是**持续计数（VSC）**，要求模型在长视频中持续追踪并统计特定物体的总数。

测试结果揭示了当前技术的局限：包括Gemini-Live、GPT-Realtime在内的知名商业模型，在处理10分钟视频时平均准确率不足15%，当视频延长至120分钟时，其记忆能力几乎失效。这实证了主流模型在复杂空间感知任务上的明显短板。

针对训练数据问题，团队构建了**VSI-590K数据集**，包含59万条精心标注的训练样本，涵盖真实场景与模拟环境，重点标注了物体位置、运动轨迹等空间信息，为模型学习提供了高质量的“教材”。

在此基础上，寒武纪-S模型家族正式亮相。其参数规模从0.5B到7B不等，虽非巨量，但凭借高度针对性的架构设计取得了卓越效果。

模型的核心训练逻辑基于**预测下一帧**的机制。通过让模型学习预测视频序列的后续内容，它在推理时能够运用“意外度”来识别场景中的关键变化与信息，从而实现对超长视频的深度空间理解与任务处理。

性能表现方面，寒武纪-S在短视频空间推理任务中达到SOTA水平。在VSI-SUPER基准测试中，其空间记忆准确率相比优秀开源模型提升超过30%，部分任务性能甚至超越了某些商业模型。

其预测感知模块不仅提升了处理长视频的效率，还通过智能的内存管理降低了对计算资源的依赖，展示了更优的工程可行性。

项目由纽约大学博士生Shusheng Yang领导，他曾参与Qwen等模型的开发。核心团队还包括专注多模态大模型研究的博士后研究员Jihan Yang、曾在Google Gemini实习的本科生黄品志，以及卡内基梅隆大学硕士、现纽约大学博士生Ellis Brown。李飞飞与Yann LeCun的学术支持也为项目提供了重要背书。