突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

视觉是人类认知物理世界的核心通道,赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间,计算机视觉技术取得显著进展,在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而,当前主流的高精度视觉模型在实际部署中面临严峻挑战:这些模型通常需要激活数亿参数来处理高分辨率图像或视频数据,以应对复杂的视觉问题,导致计算功耗、存储需求和响应延迟急剧增加。这一瓶颈使得它们难以在资源受限的实际系统中有效部署,包括机器人、自动驾驶车辆、移动设备和边缘计算终端等场景。在医疗诊断、智能交通等对实时性要求极高的领域,延迟决策甚至可能危及生命安全。此外,大规模视觉模型部署带来的巨大能耗也引发了环境可持续性方面的担忧。

这些挑战的根源在于现有视觉模型普遍采用的全局表征学习范式。这种范式一次性并行处理整幅图像或视频的所有像素,提取全部特征后再应用于具体任务。这种“全局并行计算”模式导致模型计算复杂度随输入尺寸呈至少平方或立方级增长,形成了日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理这三者难以同时满足。这一矛盾正在成为制约视觉智能技术大规模、可部署、低碳环保应用的关键障碍。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

人类视觉系统为解决这一难题提供了重要启示。在观察复杂环境时,人眼并非一次性处理全部视觉信息,而是通过一系列“注视”动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步构建对物理世界的认知。这种高效机制能够在庞杂信息流中快速筛选要点,大幅降低计算开销,使人类视觉系统在资源受限条件下仍能高效运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在2015年,深度学习先驱LeCun、Bengio和Hinton就在《Nature》综述论文中指出,未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性突破。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

2025年11月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》期刊上发表了题为《模拟人类自适应视觉,实现高效灵活的机器视觉感知》的重要论文。该研究提出了AdaptiveNN架构,通过借鉴人类“主动自适应视觉”机制,将视觉感知建模为由粗到精的最优序贯决策过程:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了AdaptiveNN所面临的离散-连续混合优化问题的无需额外监督的端到端求解方法。在涵盖9类任务的广泛实验中,AdaptiveNN在保持精度的同时实现了最高28倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束。同时,其基于注视路径的推理机制显著提升了模型的可解释性。AdaptiveNN展现出构建高效、灵活且可解释的计算机视觉新范式的巨大潜力。此外,AdaptiveNN的感知行为在多项测试中与人类接近,这为未来探索人类视觉认知机制提供了新的研究工具和见解。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

AdaptiveNN将视觉感知建模为一个多步序贯决策过程,而非传统的“全图并行处理”。模型在视觉环境(如图像或视频帧)中,依次在若干感兴趣区域

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

上进行“注视”,逐步积累信息形成内部视觉表征s_t,并动态决定何时结束观察。在第t步,Vision Agent基于当前视觉状态s_t评估任务完成度,若信息不足,则通过策略网络π选择下一次注视位置

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

。每个选定的注视区域由表征网络

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

提取判别性特征,不断更新视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉策略:模型先快速扫视建立低分辨率初始状态,再通过一系列精细注视捕获关键信息。当任务需求满足时,感知过程自动终止。

借助这一机制,AdaptiveNN能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知能力,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。值得注意的是,AdaptiveNN在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

AdaptiveNN的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散-连续混合优化问题的端到端求解方法,使AdaptiveNN能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数L(θ)进行分解,AdaptiveNN的端到端优化过程可自然地分解为两部分:

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

其中第一项为表征学习目标,对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标,对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了AdaptiveNN的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一。

— 图片补充 —

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7210

(0)
上一篇 2025年11月28日 上午11:51
下一篇 2025年11月28日 下午12:50

相关推荐

  • 从数据闭环到训练闭环:理想汽车世界模型如何重塑自动驾驶AI范式

    近期,人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出,AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”,强调需要为现实世界任务开发新的评估体系,并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下,自动驾驶作为AI技术落地的前沿阵地,其范…

    2025年10月31日
    100
  • 分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

    声音的“外科手术刀”:SAM Audio如何用多模态提示重塑音频编辑的未来 当Meta在深夜悄然发布SAM Audio时,音频处理领域迎来了一场静默的革命。这不仅仅是一个新的技术模型,而是一个能够理解人类意图、响应自然交互的智能音频编辑系统。在AI技术不断突破边界的今天,SAM Audio的出现标志着音频处理从工具化向智能化的根本性转变。 想象一下这样的场景…

    16小时前
    1000
  • MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

    在当今数字时代,用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而,当前主流推荐系统普遍面临着一个严峻挑战:它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求,这些系统往往只能处理用户最近数千条行为数据,而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为,传统基于ID…

    3天前
    400
  • 从罗永浩数字人直播看百度高拟真数字人技术:剧本驱动多模协同如何重塑AI交互边界

    在2025年世界互联网大会乌镇峰会上,百度凭借其「剧本驱动多模协同」高拟真数字人技术再次斩获领先科技奖,实现了在该峰会的三连冠,成为唯一连续三年获奖的AI公司。这一成就背后,是数字人技术从简单的语音合成与形象生成,向具备深度交互能力、情感表现力与场景适应性的全面演进。本文将从技术架构、应用场景与行业影响三个维度,深入剖析百度高拟真数字人技术的核心突破与未来潜…

    2025年11月7日
    100
  • 从万能钥匙到AI钥匙:谷歌创始人布林复盘技术决策与未来展望

    在斯坦福大学的演讲中,谷歌联合创始人谢尔盖·布林以罕见的坦诚,回顾了谷歌从诞生到AI竞争中的关键转折点。这场演讲不仅是对一家科技巨头历史的梳理,更是对技术决策、创新节奏与产业趋势的深刻反思。 布林首先指出,谷歌的诞生源于一次“无心插柳”的创业。1995年,他与拉里·佩奇在斯坦福相遇,最初的目标是开发一个名为“BackRub”的搜索算法,希望通过链接分析评估网…

    4天前
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注