迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

在人工智能迈向通用智能(AGI)的漫长征程中,一个根本性的哲学问题日益凸显:在构建超级智能之前,我们首先需要什么?近期,由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S:迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向,更可能重新定义AI感知能力的演进路径。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

三位作者的组合本身就极具象征意义。LeCun作为世界模型的坚定倡导者和LLM的直言批评者,李飞飞在计算机视觉领域的奠基性贡献,以及谢赛宁在生成模型和视觉理解方面的前沿探索,共同指向了一个共识:当前基于大语言模型(LLM)的AI范式存在根本性局限。LeCun多次强调,LLM技术无法实现真正的AGI,因为它们缺乏对物理世界的内在理解。这种批评并非否定LLM的成就,而是指出其感知能力的缺失——这正是《Cambrian-S》试图解决的核心问题。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

论文提出的“超感知”(supersensing)概念,彻底超越了传统多模态模型的框架。它并非指更先进的传感器或更高分辨率的摄像头,而是关乎数字生命如何真正体验世界:如何从源源不断的输入流中学习,构建内部世界模型,并主动预判、筛选和组织感官信息。正如谢赛宁在博客中所言,在实现“超感知”之前,不可能真正构建“超级智能”。这种观点呼应了神经科学家对感知与智能关系的深刻理解:智能并非脱离感知的抽象推理,而是根植于对世界的持续交互和理解。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

研究团队对感知能力的演进路径进行了系统性分类,揭示了当前AI系统的局限性:

1. 纯语言理解阶段:仅处理文本和符号,缺乏感官能力。

2. 语义感知阶段:将像素解析为物体和关系,对应现有多模态模型的“看图说话”能力。

3. 流式事件认知阶段:处理实时数据流并响应持续事件,与实时助手方向一致。

4. 隐式3D空间认知阶段:理解视频作为三维世界的投影,需要知道物体位置、关系和时空变化。

5. 预测性世界建模阶段:通过先验期望预测未来状态,保持长期记忆并进行规划。

当前多模态模型在第三、四阶段能力极其有限,完全缺乏第五阶段的能力。这正是《Cambrian-S》试图突破的瓶颈。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

视频被选为实现超感知的最佳媒介,因为它最接近人类日常体验世界的方式——连续、动态、富含时空信息。然而,现有的视频基准测试存在严重缺陷:许多任务甚至不需要真正的感知能力,仅靠单帧图像或字幕就能获得高分。这导致了一个恶性循环:科技公司构建强大的语言模型→基准测试奖励文本记忆能力→模型通过扩大规模获得高分→行业盲目跟从。结果就是,即使最先进的模型在感知能力上仍落后于一只猫或松鼠,再次验证了莫拉维克悖论:对人类而言毫不费力的感知,对AI却难如登天。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

为了打破这一僵局,研究团队开发了VSI-Super基准测试,包含两个看似简单却极具挑战的任务:

– 任务1(VS):长时程空间记忆测试,通过扩散模型在视频中插入视觉融合但上下文不合的物体,考验模型对物体顺序和位置关系的持续记忆能力。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

– 任务2(VSC):持续计数测试,在变化的视角和场景下进行物体计数,考验模型在动态环境中的稳定感知能力。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

令人震惊的是,即使是Gemini 2.5等顶尖模型,在VSC任务中只能数到几十个物体,视频更长时就会停止计数。这暴露了LLM的根本缺陷:缺乏真正的空间认知和泛化能力。人类可以处理“无限的Token”,通过有损但高效的感知系统记住数天甚至数周的经历,而模型却受限于固定的上下文窗口和浅层的空间理解。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

超感知的实现需要视觉空间智能作为关键一环。谢赛宁团队此前开发的VSI-Bench基准因视频过短、任务简单而受限,VSI-Super则通过更长的视频序列和更复杂的空间关系,迫使模型发展出真正的时空理解能力。这种能力对于现实世界应用至关重要:从工厂机器人精准操作、农业无人机监测作物生长,到医疗AI辅助诊断手术,再到可穿戴AI眼镜提供实时环境感知,都需要模型能够像人类一样持续理解动态世界。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

《Cambrian-S》的研究意义远超出学术范畴。它挑战了当前以LLM为中心的AI发展范式,指出了一条更接近生物智能的演进路径:通过视频空间超感知,构建能够真正体验世界的数字生命。这不仅仅是技术路线的调整,更是对智能本质的重新思考。如果AI要成为人类的伙伴而非工具,它必须首先学会像我们一样感知世界——连续、主动、基于预测和记忆。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

展望未来,超感知研究可能引发AI架构的范式转移:从依赖大规模文本训练的LLM,转向基于视频流和世界模型的多模态系统。这种转变需要新的算法、新的基准和新的评估标准,但回报将是巨大的——能够真正理解物理世界的AI,才可能实现可靠的推理、规划和创造。正如论文所暗示的,超级智能始于超感知,而视频空间理解可能是打开这扇大门的第一把钥匙。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

在技术细节上,《Cambrian-S》模型通过结合时空注意力机制、记忆增强架构和预测性编码,尝试模拟人类视觉系统的核心功能:选择性注意、短期记忆整合和长期模式学习。初步结果显示,在VSI-Super基准上,专门设计的视频理解模型相比通用多模态LLM有显著优势,尤其是在长序列空间任务中。这验证了专用架构的必要性,也暗示了未来AI系统可能需要模块化设计,将感知、记忆、推理等功能解耦并优化。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

总之,LeCun、李飞飞和谢赛宁的这项工作不仅是一次技术突破,更是一次哲学宣言:AI的未来不在于更大的语言模型,而在于更好的感知模型。只有当机器学会看世界如我们所见,理解空间如我们所感,记忆事件如我们所忆,真正的通用智能才可能从幻想变为现实。视频空间超感知,或许正是这个漫长旅程中最关键的第一步。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

— 图片补充 —

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/11918

(0)
上一篇 2025年11月10日 下午12:32
下一篇 2025年11月10日 下午12:56

相关推荐

  • 深势科技C轮融资8亿,AI for Science如何重塑300万科学家的科研范式?

    近日,深势科技完成总额超8亿人民币的C轮融资。本轮融资由达晨财智、京国瑞基金、北京市人工智能产业投资基金、北京市医药健康产业投资基金、联想创投、元禾璞华等机构共同出资。 本轮融资资金将主要用于持续吸引和培养行业内顶尖人才,进一步进化迭代深势科技的“科学发现智能引擎”,持续夯实从原始技术创新、到智能科研工具产品及行业解决方案的全栈能力,加速围绕科学发现的智能产…

    2025年12月24日
    11900
  • Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

    在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…

    2025年11月5日
    8700
  • AI模型周报:通义千问、MiniMax、智谱AI等巨头齐发新版,图像编辑与编程能力全面升级

    12月23日 【闭源】通义千问发布图像编辑模型快照通义千问团队发布了 qwen-image-edit-plus-2025-12-15 图像编辑模型的最新快照。该版本在角色一致性、工业设计能力和几何推理能力上相较前代实现显著提升,优化了编辑后图片与原图在空间布局、纹理和风格上的匹配度,编辑效果更为精准细腻,旨在为专业图像处理提供更强大的工具支持。 【开源】Mi…

    2025年12月29日
    11200
  • 从感恩节AI狂欢到数字记忆危机:当虚假图像比真实更“完美”

    今年感恩节期间,社交媒体被一系列“名人聚餐”的AI生成图像刷屏,从科技大佬围坐火鸡宴到政治人物共进健康餐,这些从未真实发生的场景却以惊人的真实感席卷网络。这不仅是技术进步的展示,更揭示了AI图像生成技术对节日文化、社交传播乃至人类记忆机制的深刻影响。 这些图像之所以引发广泛关注,关键在于其细节的极致真实感。以Newman发布的“科技大佬感恩节晚宴”为例,画面…

    2025年11月28日
    7900
  • EfficientFlow:融合等变建模与流匹配,破解生成式策略学习效率瓶颈

    生成式模型在机器人与具身智能领域正迅速崛起,成为从高维视觉观测直接生成复杂动作策略的重要范式。这类方法在操作、抓取等任务中展现出卓越的灵活性与适应性,然而在真实系统部署时,却面临两大根本性挑战:一是训练过程极度依赖大规模演示数据,数据获取成本高昂且标注困难;二是推理阶段需要大量迭代计算,导致动作生成延迟严重,难以满足实时控制需求。这些瓶颈严重制约了生成式策略…

    2025年12月16日
    7800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注