突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

视觉是人类认知物理世界的核心通道,赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间,计算机视觉技术取得显著进展,在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而,当前主流的高精度视觉模型在实际部署中面临严峻挑战:这些模型通常需要激活数亿参数来处理高分辨率图像或视频数据,以应对复杂的视觉问题,导致计算功耗、存储需求和响应延迟急剧增加。这一瓶颈使得它们难以在资源受限的实际系统中有效部署,包括机器人、自动驾驶车辆、移动设备和边缘计算终端等场景。在医疗诊断、智能交通等对实时性要求极高的领域,延迟决策甚至可能危及生命安全。此外,大规模视觉模型部署带来的巨大能耗也引发了环境可持续性方面的担忧。

这些挑战的根源在于现有视觉模型普遍采用的全局表征学习范式。这种范式一次性并行处理整幅图像或视频的所有像素,提取全部特征后再应用于具体任务。这种“全局并行计算”模式导致模型计算复杂度随输入尺寸呈至少平方或立方级增长,形成了日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理这三者难以同时满足。这一矛盾正在成为制约视觉智能技术大规模、可部署、低碳环保应用的关键障碍。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

人类视觉系统为解决这一难题提供了重要启示。在观察复杂环境时,人眼并非一次性处理全部视觉信息,而是通过一系列“注视”动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步构建对物理世界的认知。这种高效机制能够在庞杂信息流中快速筛选要点,大幅降低计算开销,使人类视觉系统在资源受限条件下仍能高效运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在2015年,深度学习先驱LeCun、Bengio和Hinton就在《Nature》综述论文中指出,未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性突破。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

2025年11月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》期刊上发表了题为《模拟人类自适应视觉,实现高效灵活的机器视觉感知》的重要论文。该研究提出了AdaptiveNN架构,通过借鉴人类“主动自适应视觉”机制,将视觉感知建模为由粗到精的最优序贯决策过程:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了AdaptiveNN所面临的离散-连续混合优化问题的无需额外监督的端到端求解方法。在涵盖9类任务的广泛实验中,AdaptiveNN在保持精度的同时实现了最高28倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束。同时,其基于注视路径的推理机制显著提升了模型的可解释性。AdaptiveNN展现出构建高效、灵活且可解释的计算机视觉新范式的巨大潜力。此外,AdaptiveNN的感知行为在多项测试中与人类接近,这为未来探索人类视觉认知机制提供了新的研究工具和见解。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

AdaptiveNN将视觉感知建模为一个多步序贯决策过程,而非传统的“全图并行处理”。模型在视觉环境(如图像或视频帧)中,依次在若干感兴趣区域

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

上进行“注视”,逐步积累信息形成内部视觉表征s_t,并动态决定何时结束观察。在第t步,Vision Agent基于当前视觉状态s_t评估任务完成度,若信息不足,则通过策略网络π选择下一次注视位置

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

。每个选定的注视区域由表征网络

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

提取判别性特征,不断更新视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉策略:模型先快速扫视建立低分辨率初始状态,再通过一系列精细注视捕获关键信息。当任务需求满足时,感知过程自动终止。

借助这一机制,AdaptiveNN能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知能力,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。值得注意的是,AdaptiveNN在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

AdaptiveNN的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散-连续混合优化问题的端到端求解方法,使AdaptiveNN能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数L(θ)进行分解,AdaptiveNN的端到端优化过程可自然地分解为两部分:

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

其中第一项为表征学习目标,对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标,对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了AdaptiveNN的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一。

— 图片补充 —

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/7210

(0)
上一篇 2025年11月28日 上午11:51
下一篇 2025年11月28日 下午12:26

相关推荐

  • 图灵奖得主Yann LeCun离职Meta创业:以世界模型推动高级机器智能革命

    近日,人工智能领域的标志性人物、图灵奖得主Yann LeCun宣布将在年底离开Meta,并创立一家专注于高级机器智能(Advanced Machine Intelligence,AMI)的初创公司。这一消息在科技界引发广泛关注,不仅因为LeCun作为深度学习先驱的行业地位,更因为其新公司的目标直指AI发展的核心挑战——构建能够理解物理世界、具备持久记忆和复杂…

    2025年11月20日
    17000
  • Chrome 146重磅更新:原生MCP支持让AI Agent直接操控真实浏览器会话,自动化门槛大幅降低

    Chrome 146 版本引入了一项关键更新:原生支持模型上下文协议(MCP)。这一特性将显著改变 AI Agent 与浏览器交互的方式。 以往,通过 AI 操作浏览器通常面临两种选择:使用无头模式,或手动移植登录状态。这两种方法都存在局限——无头浏览器易被网站检测并限制;而移植 Cookie、Token 等登录凭证则过程繁琐。尽管存在通过中继插件调用浏览器…

    6天前
    1.0K00
  • 仿真合成数据:驱动具身智能与世界模型突破的关键燃料

    在AI技术从信息处理向物理世界交互演进的关键拐点,仿真合成数据正从辅助工具转变为基础设施,成为训练下一代AI模型的核心要素。近期,专注于该领域的光轮智能完成数亿元融资,其客户涵盖英伟达、谷歌、阿里、字节等科技巨头,以及Figure AI、智元机器人、丰田、比亚迪等产业代表,凸显了仿真合成数据在AI生态中的战略地位。 当前AI发展的核心矛盾在于:模型在文本、图…

    2025年11月19日
    17700
  • 国产算力新纪元:阿里真武810E GPU性能超越英伟达A800,开启万卡集群时代

    前言:算力突围,国产GPU迎来里程碑式突破 2026年1月29日,中国算力产业迎来历史性时刻——阿里平头哥官网上线一款名为“真武810E”的高端AI芯片,这款定位为并行处理单元(PPU)的GPU算力芯片,以“性能超越英伟达A800、支持万卡集群部署、全栈自研软硬件”三大核心亮点,瞬间引爆科技圈与资本市场。 这并非一次仓促的新品亮相,而是一场历经六年秘密研发、…

    AI产业动态 2026年1月30日
    66300
  • 高通发布骁龙可穿戴平台至尊版,AI可穿戴市场规模或达十亿量级

    在今年的MWC巴塞罗那展会上,科技行业聚焦于“智能跃升”这一主题。行业趋势显示,用户已不再满足于执行单一任务的AI,开始追求能够提供高度个性化体验的专属AI智能体。这需要海量的真实情境数据作为基础,而手机、PC等终端设备因其能安全处理私密信息,被视为理想的载体。 高通进一步提出,AI需要进驻更微型化的载体,即“AI穿戴”设备,才能实现自适应、即时响应且高度个…

    2026年3月4日
    10100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注