寒武纪-S:重新定义空间智能,开启AI超感知时代

在人工智能技术快速迭代的当下,一个名为“寒武纪-S”(Cambrian-S)的项目正悄然引发行业深度思考。该项目由谢赛宁牵头,并获得了李飞飞和Yann LeCun等顶尖学者的支持,其核心目标并非追逐传统的芯片硬件竞赛,而是直指AI发展的一个根本性挑战:如何让人工智能真正学会感知和理解三维空间世界。

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模型。它突破了当前多数模型仅停留在图像描述或简单视频理解的局限,致力于让AI系统能够像人类一样,从连续的视频流中理解物体间的空间关系、动态变化和长时程场景记忆。例如,模型不仅能识别视频中出现的“人”、“沙发”和“书”,还能理解“人从门口走到沙发旁”这一路径的空间关系,以及“书在桌上的具体方位”这种精细的空间定位。这种能力对于机器人导航、自动驾驶、增强现实等需要与环境进行深度空间交互的应用至关重要。

寒武纪-S:重新定义空间智能,开启AI超感知时代

项目的突破性成果体现在其推出的多模态视频大模型上。该模型在短视频空间推理任务中取得了当前最优(SOTA)性能,并兼顾了通用视频与图像的理解能力。更引人注目的是,通过引入创新的**预测感知模块**,寒武纪-S能够有效处理超长视频中的空间任务——这恰恰是许多主流大模型的软肋。该模块使模型能够主动预测视频的下一帧内容,从而在推理时更高效地分配注意力,识别关键信息,同时显著控制GPU内存消耗,避免了单纯依靠堆叠硬件来提升性能的粗放模式。

寒武纪-S:重新定义空间智能,开启AI超感知时代

要理解寒武纪-S的价值,需回溯其研发路径。2024年6月,团队首先发布了Cambrian-1,这是一次针对图像多模态模型的系统性探索。该阶段工作从五个维度进行了扎实的基础建设:一是系统测评了超过20种视觉编码器及其组合,明确了不同编码器(如语言监督、自监督等)的适用场景;二是设计了**空间视觉聚合器(SVA)**,以更少的视觉token高效融合多源视觉特征,平衡了高分辨率处理与计算效率;

寒武纪-S:重新定义空间智能,开启AI超感知时代

三是构建并优化了视觉指令训练数据集,从千万级原始数据中筛选出700万条高质量样本,并通过系统提示工程提升了模型的交互能力;

寒武纪-S:重新定义空间智能,开启AI超感知时代

四是推出了**CV-Bench基准测试**,专注于评估2D/3D视觉理解的核心任务,弥补了现有评测体系对深度视觉能力考核的不足;

寒武纪-S:重新定义空间智能,开启AI超感知时代

五是总结出最优训练方案,验证了两阶段训练、解冻视觉编码器等策略对模型性能的显著提升作用。

然而,团队并未循惯例继续扩大模型参数规模,而是进行了关键的战略转向。他们深入反思“什么是真正的多模态智能”,指出当前许多模型实质上只是将图像信息“翻译”成文本,再交由语言模型处理,缺乏对视觉场景的本质理解。为此,团队提出了**“超感知”(Hyper-perception)** 的核心理念。谢赛宁对此的阐释切中要害:这关乎数字生命如何真正“体验”世界,即系统吸收连续输入流并从中学习的能力。超感知意味着AI不仅能识别物体,更能记忆其位置、理解相互关系、甚至预测其动态变化。谢赛宁进一步强调,在实现超感知之前,构建真正的超级智能无从谈起。

寒武纪-S:重新定义空间智能,开启AI超感知时代

基于此理念,团队将焦点转向视频这一更符合人类连续感知特性的媒介,确立了“视频空间超感知”为核心研究方向。为实现该目标,他们首先解决了两个基础问题:如何评估AI的空间感知能力?以及用什么数据来训练这种能力?

针对评估问题,团队创建了**VSI-SUPER基准测试**,专门用于考核AI的空间智能。该测试包含两项关键任务:一是**长时程空间记忆(VSR)**,要求模型观看长达数小时的室内漫游视频后,回忆其中特定物体的位置;

寒武纪-S:重新定义空间智能,开启AI超感知时代

二是**持续计数(VSC)**,要求模型在长视频中持续追踪并统计特定物体的总数。

寒武纪-S:重新定义空间智能,开启AI超感知时代

测试结果揭示了当前技术的局限:包括Gemini-Live、GPT-Realtime在内的知名商业模型,在处理10分钟视频时平均准确率不足15%,当视频延长至120分钟时,其记忆能力几乎失效。这实证了主流模型在复杂空间感知任务上的明显短板。

寒武纪-S:重新定义空间智能,开启AI超感知时代

针对训练数据问题,团队构建了**VSI-590K数据集**,包含59万条精心标注的训练样本,涵盖真实场景与模拟环境,重点标注了物体位置、运动轨迹等空间信息,为模型学习提供了高质量的“教材”。

寒武纪-S:重新定义空间智能,开启AI超感知时代

在此基础上,寒武纪-S模型家族正式亮相。其参数规模从0.5B到7B不等,虽非巨量,但凭借高度针对性的架构设计取得了卓越效果。

寒武纪-S:重新定义空间智能,开启AI超感知时代

模型的核心训练逻辑基于**预测下一帧**的机制。通过让模型学习预测视频序列的后续内容,它在推理时能够运用“意外度”来识别场景中的关键变化与信息,从而实现对超长视频的深度空间理解与任务处理。

寒武纪-S:重新定义空间智能,开启AI超感知时代

性能表现方面,寒武纪-S在短视频空间推理任务中达到SOTA水平。在VSI-SUPER基准测试中,其空间记忆准确率相比优秀开源模型提升超过30%,部分任务性能甚至超越了某些商业模型。

寒武纪-S:重新定义空间智能,开启AI超感知时代

其预测感知模块不仅提升了处理长视频的效率,还通过智能的内存管理降低了对计算资源的依赖,展示了更优的工程可行性。

寒武纪-S:重新定义空间智能,开启AI超感知时代

项目由纽约大学博士生Shusheng Yang领导,他曾参与Qwen等模型的开发。核心团队还包括专注多模态大模型研究的博士后研究员Jihan Yang、曾在Google Gemini实习的本科生黄品志,以及卡内基梅隆大学硕士、现纽约大学博士生Ellis Brown。李飞飞与Yann LeCun的学术支持也为项目提供了重要背书。

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S:重新定义空间智能,开启AI超感知时代

寒武纪-S的出现,标志着AI研究从追求参数规模和数据量,向深化感知与理解能力的重要转变。它通过聚焦空间智能这一关键维度,不仅推动了视频理解技术的发展,更为构建真正具备环境交互能力的下一代AI系统奠定了理论基础与实践路径。其构建的评测基准与数据集,也将为后续研究提供宝贵的工具与参照。

寒武纪-S:重新定义空间智能,开启AI超感知时代


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6365

(0)
上一篇 2025年11月24日 上午11:10
下一篇 2025年11月24日 下午2:55

相关推荐

  • InfinityStar:时空金字塔架构革新视频生成,自回归模型挑战DiT主导地位

    在人工智能生成内容领域,视频生成技术正经历从扩散模型向自回归架构的范式转移。字节跳动商业化技术团队最新提出的InfinityStar方法,凭借其创新的时空金字塔建模框架,在NeurIPS’25 Oral论文中展示了挑战当前主流Diffusion Transformer(DiT)视频生成方案的潜力。这一突破不仅体现在生成质量上,更关键的是在计算效率方面实现了数…

    2025年11月14日
    400
  • 摩尔线程科创板上市:国产GPU的里程碑与AI智算战略转型深度解析

    2024年11月28日,中国半导体产业迎来标志性事件——摩尔线程正式登陆科创板,成为“国产通用GPU第一股”。这不仅是一次资本市场的成功,更是中国在高性能计算芯片领域自主创新战略的重要突破。开盘价650元,较发行价114.28元暴涨469%,市值突破3055亿元,这一系列数字背后,折射出市场对国产GPU技术路径与商业前景的强烈信心。 从技术演进视角分析,摩尔…

    2025年12月5日
    300
  • 高德空间智能:从地图导航到物理世界建模,如何重塑Robotaxi与AGI路径

    近日,一张神秘海报在科技圈引发广泛讨论,最终揭晓为高德与小鹏汽车达成合作,共同面向全球提供Robotaxi服务。这一合作不仅是高德将“空间智能+出行服务能力”整合开放的关键一步,更标志着“空间智能”这一理念从概念走向现实的重要起点。 高德此次合作背后,是其从传统地图导航向空间智能全面转型的战略深化。过去几个月,高德先后发布“小高老师”、“高德扫街榜”等产品,…

    2025年11月6日
    100
  • 欧洲AI新锐Mistral AI再发力:Devstral 2代码模型与Vibe CLI工具深度解析

    在人工智能领域竞争日益激烈的背景下,欧洲的Mistral AI近期以惊人的发布频率再次成为行业焦点。继一周前发布Mistral 3系列模型后,该公司又迅速推出了下一代代码模型系列Devstral 2以及原生命令行工具Mistral Vibe CLI。这一系列动作不仅展示了欧洲在AI前沿技术研发上的加速态势,也为全球开发者社区带来了新的技术选择。 Devstr…

    2025年12月10日
    400
  • 阿里开源ROCK:构建智能体规模化训练的“实战演练场”,打通Agentic AI落地关键环节

    在人工智能技术快速演进的当下,大语言模型正经历从静态文本生成到动态环境交互的深刻范式转变。最前沿的模型已进化为能够与外部环境深度交互的Agentic模型,这不仅代表技术层面的进步,更标志着AI应用场景的根本性扩展。当前几乎所有SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行实质性交互。简单来说,模型仅“能说”已无…

    2025年11月26日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注