突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

视觉是人类认知物理世界的核心通道,赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间,计算机视觉技术取得显著进展,在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而,当前主流的高精度视觉模型在实际部署中面临严峻挑战:这些模型通常需要激活数亿参数来处理高分辨率图像或视频数据,以应对复杂的视觉问题,导致计算功耗、存储需求和响应延迟急剧增加。这一瓶颈使得它们难以在资源受限的实际系统中有效部署,包括机器人、自动驾驶车辆、移动设备和边缘计算终端等场景。在医疗诊断、智能交通等对实时性要求极高的领域,延迟决策甚至可能危及生命安全。此外,大规模视觉模型部署带来的巨大能耗也引发了环境可持续性方面的担忧。

这些挑战的根源在于现有视觉模型普遍采用的全局表征学习范式。这种范式一次性并行处理整幅图像或视频的所有像素,提取全部特征后再应用于具体任务。这种“全局并行计算”模式导致模型计算复杂度随输入尺寸呈至少平方或立方级增长,形成了日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理这三者难以同时满足。这一矛盾正在成为制约视觉智能技术大规模、可部署、低碳环保应用的关键障碍。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

人类视觉系统为解决这一难题提供了重要启示。在观察复杂环境时,人眼并非一次性处理全部视觉信息,而是通过一系列“注视”动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步构建对物理世界的认知。这种高效机制能够在庞杂信息流中快速筛选要点,大幅降低计算开销,使人类视觉系统在资源受限条件下仍能高效运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在2015年,深度学习先驱LeCun、Bengio和Hinton就在《Nature》综述论文中指出,未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性突破。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

2025年11月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》期刊上发表了题为《模拟人类自适应视觉,实现高效灵活的机器视觉感知》的重要论文。该研究提出了AdaptiveNN架构,通过借鉴人类“主动自适应视觉”机制,将视觉感知建模为由粗到精的最优序贯决策过程:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了AdaptiveNN所面临的离散-连续混合优化问题的无需额外监督的端到端求解方法。在涵盖9类任务的广泛实验中,AdaptiveNN在保持精度的同时实现了最高28倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束。同时,其基于注视路径的推理机制显著提升了模型的可解释性。AdaptiveNN展现出构建高效、灵活且可解释的计算机视觉新范式的巨大潜力。此外,AdaptiveNN的感知行为在多项测试中与人类接近,这为未来探索人类视觉认知机制提供了新的研究工具和见解。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

AdaptiveNN将视觉感知建模为一个多步序贯决策过程,而非传统的“全图并行处理”。模型在视觉环境(如图像或视频帧)中,依次在若干感兴趣区域

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

上进行“注视”,逐步积累信息形成内部视觉表征s_t,并动态决定何时结束观察。在第t步,Vision Agent基于当前视觉状态s_t评估任务完成度,若信息不足,则通过策略网络π选择下一次注视位置

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

。每个选定的注视区域由表征网络

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

提取判别性特征,不断更新视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉策略:模型先快速扫视建立低分辨率初始状态,再通过一系列精细注视捕获关键信息。当任务需求满足时,感知过程自动终止。

借助这一机制,AdaptiveNN能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知能力,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。值得注意的是,AdaptiveNN在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

AdaptiveNN的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散-连续混合优化问题的端到端求解方法,使AdaptiveNN能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数L(θ)进行分解,AdaptiveNN的端到端优化过程可自然地分解为两部分:

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

其中第一项为表征学习目标,对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标,对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了AdaptiveNN的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一。

— 图片补充 —

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/7210

(0)
上一篇 2025年11月28日 上午11:51
下一篇 2025年11月28日 下午12:26

相关推荐

  • 零代码革命:Postman AI Agent Builder一键将10万API转化为MCP服务器

    在技术领域,总有一些时刻会让人感到“魔法”般不可思议。 现在就是这样一个时刻。 Postman 悄然发布了一款 AI Agent Builder,它能够将超过 100,000 个现成的 API 一键转换为功能完备的 MCP(Model Context Protocol)服务器,整个过程无需编写任何代码。 你只需简单点击几下,下载一个 ZIP 文件,然后——你…

    2025年12月12日
    12700
  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    22200
  • 信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境

    在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…

    2025年12月19日
    8600
  • AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

    11月17日 【闭源|语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。 11月18日 【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

    2025年11月24日
    7800
  • 火山引擎斩获4600万AI大单,日均Tokens调用量突破50万亿,领跑中国MaaS市场

    火山引擎日均Tokens调用量已达50万亿量级。 智东西1月23日报道,1月22日,江苏省南京市鼓楼高新科技发展集团有限公司《“人工智能+”产业创新平台》项目发布中标候选人公示,火山引擎 为第一中标候选人,中标金额为4688.35万元。 该项目于2025年12月31日发布招标公告,其项目要求为打造一个基座和两大中心 ,即开放共享的公共技术基座和产业赋能中心、…

    2026年1月23日
    3500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注