寒武纪-S:重新定义空间智能,开启AI超感知时代

在人工智能技术快速迭代的当下,一个名为“寒武纪-S”(Cambrian-S)的项目正悄然引发行业深度思考。该项目由谢赛宁牵头,并获得了李飞飞和Yann LeCun等顶尖学者的支持,其核心目标并非追逐传统的芯片硬件竞赛,而是直指AI发展的一个根本性挑战:如何让人工智能真正学会感知和理解三维空间世界。

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模型。它突破了当前多数模型仅停留在图像描述或简单视频理解的局限,致力于让AI系统能够像人类一样,从连续的视频流中理解物体间的空间关系、动态变化和长时程场景记忆。例如,模型不仅能识别视频中出现的“人”、“沙发”和“书”,还能理解“人从门口走到沙发旁”这一路径的空间关系,以及“书在桌上的具体方位”这种精细的空间定位。这种能力对于机器人导航、自动驾驶、增强现实等需要与环境进行深度空间交互的应用至关重要。

寒武纪-S:重新定义空间智能,开启AI超感知时代

项目的突破性成果体现在其推出的多模态视频大模型上。该模型在短视频空间推理任务中取得了当前最优(SOTA)性能,并兼顾了通用视频与图像的理解能力。更引人注目的是,通过引入创新的**预测感知模块**,寒武纪-S能够有效处理超长视频中的空间任务——这恰恰是许多主流大模型的软肋。该模块使模型能够主动预测视频的下一帧内容,从而在推理时更高效地分配注意力,识别关键信息,同时显著控制GPU内存消耗,避免了单纯依靠堆叠硬件来提升性能的粗放模式。

寒武纪-S:重新定义空间智能,开启AI超感知时代

要理解寒武纪-S的价值,需回溯其研发路径。2024年6月,团队首先发布了Cambrian-1,这是一次针对图像多模态模型的系统性探索。该阶段工作从五个维度进行了扎实的基础建设:一是系统测评了超过20种视觉编码器及其组合,明确了不同编码器(如语言监督、自监督等)的适用场景;二是设计了**空间视觉聚合器(SVA)**,以更少的视觉token高效融合多源视觉特征,平衡了高分辨率处理与计算效率;

寒武纪-S:重新定义空间智能,开启AI超感知时代

三是构建并优化了视觉指令训练数据集,从千万级原始数据中筛选出700万条高质量样本,并通过系统提示工程提升了模型的交互能力;

寒武纪-S:重新定义空间智能,开启AI超感知时代

四是推出了**CV-Bench基准测试**,专注于评估2D/3D视觉理解的核心任务,弥补了现有评测体系对深度视觉能力考核的不足;

寒武纪-S:重新定义空间智能,开启AI超感知时代

五是总结出最优训练方案,验证了两阶段训练、解冻视觉编码器等策略对模型性能的显著提升作用。

然而,团队并未循惯例继续扩大模型参数规模,而是进行了关键的战略转向。他们深入反思“什么是真正的多模态智能”,指出当前许多模型实质上只是将图像信息“翻译”成文本,再交由语言模型处理,缺乏对视觉场景的本质理解。为此,团队提出了**“超感知”(Hyper-perception)** 的核心理念。谢赛宁对此的阐释切中要害:这关乎数字生命如何真正“体验”世界,即系统吸收连续输入流并从中学习的能力。超感知意味着AI不仅能识别物体,更能记忆其位置、理解相互关系、甚至预测其动态变化。谢赛宁进一步强调,在实现超感知之前,构建真正的超级智能无从谈起。

寒武纪-S:重新定义空间智能,开启AI超感知时代

基于此理念,团队将焦点转向视频这一更符合人类连续感知特性的媒介,确立了“视频空间超感知”为核心研究方向。为实现该目标,他们首先解决了两个基础问题:如何评估AI的空间感知能力?以及用什么数据来训练这种能力?

针对评估问题,团队创建了**VSI-SUPER基准测试**,专门用于考核AI的空间智能。该测试包含两项关键任务:一是**长时程空间记忆(VSR)**,要求模型观看长达数小时的室内漫游视频后,回忆其中特定物体的位置;

寒武纪-S:重新定义空间智能,开启AI超感知时代

二是**持续计数(VSC)**,要求模型在长视频中持续追踪并统计特定物体的总数。

寒武纪-S:重新定义空间智能,开启AI超感知时代

测试结果揭示了当前技术的局限:包括Gemini-Live、GPT-Realtime在内的知名商业模型,在处理10分钟视频时平均准确率不足15%,当视频延长至120分钟时,其记忆能力几乎失效。这实证了主流模型在复杂空间感知任务上的明显短板。

寒武纪-S:重新定义空间智能,开启AI超感知时代

针对训练数据问题,团队构建了**VSI-590K数据集**,包含59万条精心标注的训练样本,涵盖真实场景与模拟环境,重点标注了物体位置、运动轨迹等空间信息,为模型学习提供了高质量的“教材”。

寒武纪-S:重新定义空间智能,开启AI超感知时代

在此基础上,寒武纪-S模型家族正式亮相。其参数规模从0.5B到7B不等,虽非巨量,但凭借高度针对性的架构设计取得了卓越效果。

寒武纪-S:重新定义空间智能,开启AI超感知时代

模型的核心训练逻辑基于**预测下一帧**的机制。通过让模型学习预测视频序列的后续内容,它在推理时能够运用“意外度”来识别场景中的关键变化与信息,从而实现对超长视频的深度空间理解与任务处理。

寒武纪-S:重新定义空间智能,开启AI超感知时代

性能表现方面,寒武纪-S在短视频空间推理任务中达到SOTA水平。在VSI-SUPER基准测试中,其空间记忆准确率相比优秀开源模型提升超过30%,部分任务性能甚至超越了某些商业模型。

寒武纪-S:重新定义空间智能,开启AI超感知时代

其预测感知模块不仅提升了处理长视频的效率,还通过智能的内存管理降低了对计算资源的依赖,展示了更优的工程可行性。

寒武纪-S:重新定义空间智能,开启AI超感知时代

项目由纽约大学博士生Shusheng Yang领导,他曾参与Qwen等模型的开发。核心团队还包括专注多模态大模型研究的博士后研究员Jihan Yang、曾在Google Gemini实习的本科生黄品志,以及卡内基梅隆大学硕士、现纽约大学博士生Ellis Brown。李飞飞与Yann LeCun的学术支持也为项目提供了重要背书。

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S的出现,标志着AI研究从追求参数规模和数据量,向深化感知与理解能力的重要转变。它通过聚焦空间智能这一关键维度,不仅推动了视频理解技术的发展,更为构建真正具备环境交互能力的下一代AI系统奠定了理论基础与实践路径。其构建的评测基准与数据集,也将为后续研究提供宝贵的工具与参照。

寒武纪-S:重新定义空间智能,开启AI超感知时代


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/6365

(0)
上一篇 2025年11月24日 上午11:10
下一篇 2025年11月24日 下午12:33

相关推荐

  • 从LLM到多智能体系统:一份免费的AI技术学习地图与工程化指南

    如果你最近在关注 LLM、AI Agent、MCP、多智能体系统 ,那你大概率有过这种感觉: 信息太多,但没有一条清晰主线 视频、论文、课程一大堆,却不知道先学哪个 Demo 看懂了,但不知道怎么做成系统 这份文档旨在解决这些问题,它做了一件非常「工程化」的事: 把从 LLM → Agent → MCP → Multi-Agent 的完整学习路径,一次性整理…

    2026年2月9日
    40300
  • 从监狱到AI独角兽:Firmus如何用690亿债务融资打造1.6GW绿色算力工厂

    澳洲AI基础设施独角兽狂吸金,要建出1.6GW的数据“巨兽”。 他蹲过大牢,做过加密货币,现在转投AI基础设施,一次直接融资超100亿美元。这一句话,浓缩了澳洲AI基础设施独角兽Firmus联合创始人兼首席执行官Oliver Curtis的十年。 智东西2月14日报道,2月9日,Firmus宣布获得了约100亿美元(约合人民币690亿元) 的债务融资,融资由…

    2026年2月14日
    32500
  • OpenAI深夜突袭!GPT-5.4 mini/nano发布:速度翻倍、成本骤降,编码推理直逼满血版

    OpenAI 在毫无预热的情况下,正式推出了 GPT-5.4 mini 和 GPT-5.4 nano。这两款模型旨在解决生产环境中对 AI 能力、速度与成本的核心诉求,继承了 GPT-5.4 的优势,在轻量级模型中达到了新的高度。 最引人注目的性能数据如下:* 编码能力(SWE-Bench Pro):GPT-5.4 mini 取得了 54.4% 的成绩,与 …

    2026年3月18日
    87100
  • 英伟达财报深度解析:2026年AI算力万亿市场,数据中心业务占比超88%引领增长

    2026年AI算力市场的竞争格局与增长轨迹,与英伟达的战略动向紧密相连。从2025财年财报的超预期表现,到2026财年的强劲业绩指引,再到管理层对远期芯片收入预期的上调,英伟达不仅以财务数据验证了全球AI算力需求的持续性与韧性,更通过其技术路线与业务布局,揭示了万亿级市场的未来轮廓。 本文将以英伟达2025财年财报为核心切入点,系统分析其各业务板块表现,解读…

    2026年3月2日
    1.1K00
  • AI科学家Kosmos:结构化世界模型如何将科研效率提升至“数月等效”,开启科学丰饶时代

    在人工智能加速渗透科学研究的浪潮中,一项名为Kosmos的AI科学家平台近期引发了行业高度关注,其核心突破在于通过结构化世界模型实现了对大规模科学文献的深度整合与推理,将传统需要数月完成的科研工作压缩至一天内完成。这一进展不仅得到了OpenAI首席执行官Sam Altman的公开祝贺,更被视为AI推动科学从“稀缺”走向“丰饶”的关键里程碑。本文将从技术架构、…

    2025年11月22日
    38400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注