迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

在人工智能迈向通用智能(AGI)的漫长征程中,一个根本性的哲学问题日益凸显:在构建超级智能之前,我们首先需要什么?近期,由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S:迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向,更可能重新定义AI感知能力的演进路径。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

三位作者的组合本身就极具象征意义。LeCun作为世界模型的坚定倡导者和LLM的直言批评者,李飞飞在计算机视觉领域的奠基性贡献,以及谢赛宁在生成模型和视觉理解方面的前沿探索,共同指向了一个共识:当前基于大语言模型(LLM)的AI范式存在根本性局限。LeCun多次强调,LLM技术无法实现真正的AGI,因为它们缺乏对物理世界的内在理解。这种批评并非否定LLM的成就,而是指出其感知能力的缺失——这正是《Cambrian-S》试图解决的核心问题。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

论文提出的“超感知”(supersensing)概念,彻底超越了传统多模态模型的框架。它并非指更先进的传感器或更高分辨率的摄像头,而是关乎数字生命如何真正体验世界:如何从源源不断的输入流中学习,构建内部世界模型,并主动预判、筛选和组织感官信息。正如谢赛宁在博客中所言,在实现“超感知”之前,不可能真正构建“超级智能”。这种观点呼应了神经科学家对感知与智能关系的深刻理解:智能并非脱离感知的抽象推理,而是根植于对世界的持续交互和理解。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

研究团队对感知能力的演进路径进行了系统性分类,揭示了当前AI系统的局限性:

1. 纯语言理解阶段:仅处理文本和符号,缺乏感官能力。

2. 语义感知阶段:将像素解析为物体和关系,对应现有多模态模型的“看图说话”能力。

3. 流式事件认知阶段:处理实时数据流并响应持续事件,与实时助手方向一致。

4. 隐式3D空间认知阶段:理解视频作为三维世界的投影,需要知道物体位置、关系和时空变化。

5. 预测性世界建模阶段:通过先验期望预测未来状态,保持长期记忆并进行规划。

当前多模态模型在第三、四阶段能力极其有限,完全缺乏第五阶段的能力。这正是《Cambrian-S》试图突破的瓶颈。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

视频被选为实现超感知的最佳媒介,因为它最接近人类日常体验世界的方式——连续、动态、富含时空信息。然而,现有的视频基准测试存在严重缺陷:许多任务甚至不需要真正的感知能力,仅靠单帧图像或字幕就能获得高分。这导致了一个恶性循环:科技公司构建强大的语言模型→基准测试奖励文本记忆能力→模型通过扩大规模获得高分→行业盲目跟从。结果就是,即使最先进的模型在感知能力上仍落后于一只猫或松鼠,再次验证了莫拉维克悖论:对人类而言毫不费力的感知,对AI却难如登天。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

为了打破这一僵局,研究团队开发了VSI-Super基准测试,包含两个看似简单却极具挑战的任务:

– 任务1(VS):长时程空间记忆测试,通过扩散模型在视频中插入视觉融合但上下文不合的物体,考验模型对物体顺序和位置关系的持续记忆能力。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

– 任务2(VSC):持续计数测试,在变化的视角和场景下进行物体计数,考验模型在动态环境中的稳定感知能力。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

令人震惊的是,即使是Gemini 2.5等顶尖模型,在VSC任务中只能数到几十个物体,视频更长时就会停止计数。这暴露了LLM的根本缺陷:缺乏真正的空间认知和泛化能力。人类可以处理“无限的Token”,通过有损但高效的感知系统记住数天甚至数周的经历,而模型却受限于固定的上下文窗口和浅层的空间理解。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

超感知的实现需要视觉空间智能作为关键一环。谢赛宁团队此前开发的VSI-Bench基准因视频过短、任务简单而受限,VSI-Super则通过更长的视频序列和更复杂的空间关系,迫使模型发展出真正的时空理解能力。这种能力对于现实世界应用至关重要:从工厂机器人精准操作、农业无人机监测作物生长,到医疗AI辅助诊断手术,再到可穿戴AI眼镜提供实时环境感知,都需要模型能够像人类一样持续理解动态世界。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

《Cambrian-S》的研究意义远超出学术范畴。它挑战了当前以LLM为中心的AI发展范式,指出了一条更接近生物智能的演进路径:通过视频空间超感知,构建能够真正体验世界的数字生命。这不仅仅是技术路线的调整,更是对智能本质的重新思考。如果AI要成为人类的伙伴而非工具,它必须首先学会像我们一样感知世界——连续、主动、基于预测和记忆。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

展望未来,超感知研究可能引发AI架构的范式转移:从依赖大规模文本训练的LLM,转向基于视频流和世界模型的多模态系统。这种转变需要新的算法、新的基准和新的评估标准,但回报将是巨大的——能够真正理解物理世界的AI,才可能实现可靠的推理、规划和创造。正如论文所暗示的,超级智能始于超感知,而视频空间理解可能是打开这扇大门的第一把钥匙。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

在技术细节上,《Cambrian-S》模型通过结合时空注意力机制、记忆增强架构和预测性编码,尝试模拟人类视觉系统的核心功能:选择性注意、短期记忆整合和长期模式学习。初步结果显示,在VSI-Super基准上,专门设计的视频理解模型相比通用多模态LLM有显著优势,尤其是在长序列空间任务中。这验证了专用架构的必要性,也暗示了未来AI系统可能需要模块化设计,将感知、记忆、推理等功能解耦并优化。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

总之,LeCun、李飞飞和谢赛宁的这项工作不仅是一次技术突破,更是一次哲学宣言:AI的未来不在于更大的语言模型,而在于更好的感知模型。只有当机器学会看世界如我们所见,理解空间如我们所感,记忆事件如我们所忆,真正的通用智能才可能从幻想变为现实。视频空间超感知,或许正是这个漫长旅程中最关键的第一步。

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

— 图片补充 —

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/11918

(0)
上一篇 2025年11月10日 下午12:32
下一篇 2025年11月10日 下午12:56

相关推荐

  • 深夜,Anthropic官宣重磅更新:Claude「顾问策略」(Advisor Strategy)上线。 这一架构的核心逻辑是—— 让智商最高的Opus 4.6退居幕后当「顾问」; 让性价比极高的Sonnet 4.6或Haiku 4.5冲在前面当「执行者」。 简单来说,Opus做「大脑」,Sonnet/Haiku做「手脚」。 在全新的工作流中,核心是由Son…

    2026年4月10日
    31500
  • Meta引领AI绩效革命:从工具依赖到能力量化的职场范式重构

    在硅谷的科技浪潮中,Meta近期宣布的一项内部政策变革,正引发业界对人工智能与职场生态关系的深度思考。该公司计划从2026年起,将AI使用情况正式纳入员工绩效考核体系,这不仅是技术应用的简单延伸,更是对现代工作价值评估机制的一次结构性重塑。 这一决策的核心逻辑在于构建“AI评估AI使用”的闭环系统:员工通过AI工具提升工作效率,而公司则通过AI系统量化员工对…

    2025年11月17日
    38700
  • Meta AI大模型Avocado延期发布:性能未达预期,内部曾讨论授权Google Gemini

    Meta 的 AI 计划,突然踩了刹车。 据《纽约时报》、路透社、彭博社等多家媒体报道,Meta 正在开发的新一代基础大模型 Avocado(牛油果),原本计划在本月发布,但由于性能未达预期,发布时间被推迟到至少 5 月。 原因很直接:模型表现尚未追上头部玩家。 在 Meta 的内部测试中,Avocado 在推理、代码生成和写作能力上,仍落后于竞争对手的最新…

    AI产业动态 2026年3月14日
    38800
  • 京东全球首推全链路具身智能数据基础设施,发动60万人采集1000万小时真实场景数据

    继宣布将建成全球最大具身数据采集中心后,京东在具身智能领域公布了新的进展。4月16日,京东在具身智能生态发布会上,宣布推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,并展示了自研的超高清采集终端JoyEgoCam、具身大模型JoyAI-RA及具身智能数据交易平台。 依托该基础设施及其在零售、物流、工业、健康等领域的场景优势,京东旨在推动具…

    2026年4月16日
    31300
  • OpenAI内部揭秘:95%工程师用Codex,AI将吃掉所有脚手架,B2B SaaS黄金时代来临

    “我们可能真的会进入一个B2B SaaS的黄金时代!”“接近100%的代码最初都是由AI生成的。”“我们活在‘硅谷泡泡’里。” 春节前夕,OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。API作为OpenAI的第一个产品,也是几乎所有AI创业公司都在集成的产品,这给了Sherwin一个极其独特且宏观…

    2026年2月19日
    66900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注