突破视觉AI能效瓶颈：清华团队提出类人主动感知新范式AdaptiveNN

视觉是人类认知物理世界的核心通道，赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间，计算机视觉技术取得显著进展，在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而，当前主流的高精度视觉模型在实际部署中面临严峻挑战：这些模型通常需要激活数亿参数来处理高分辨率图像或视频数据，以应对复杂的视觉问题，导致计算功耗、存储需求和响应延迟急剧增加。这一瓶颈使得它们难以在资源受限的实际系统中有效部署，包括机器人、自动驾驶车辆、移动设备和边缘计算终端等场景。在医疗诊断、智能交通等对实时性要求极高的领域，延迟决策甚至可能危及生命安全。此外，大规模视觉模型部署带来的巨大能耗也引发了环境可持续性方面的担忧。

这些挑战的根源在于现有视觉模型普遍采用的全局表征学习范式。这种范式一次性并行处理整幅图像或视频的所有像素，提取全部特征后再应用于具体任务。这种“全局并行计算”模式导致模型计算复杂度随输入尺寸呈至少平方或立方级增长，形成了日益严峻的能效瓶颈：信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理这三者难以同时满足。这一矛盾正在成为制约视觉智能技术大规模、可部署、低碳环保应用的关键障碍。

人类视觉系统为解决这一难题提供了重要启示。在观察复杂环境时，人眼并非一次性处理全部视觉信息，而是通过一系列“注视”动作主动、选择性地采样关键区域，以小范围高分辨率的感知逐步构建对物理世界的认知。这种高效机制能够在庞杂信息流中快速筛选要点，大幅降低计算开销，使人类视觉系统在资源受限条件下仍能高效运行。无论外界场景多么复杂，人类视觉的能耗主要取决于注视带宽与注视次数，而非全局像素量。早在2015年，深度学习先驱LeCun、Bengio和Hinton就在《Nature》综述论文中指出，未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来，这一方向仍缺乏系统性突破。

2025年11月，清华大学自动化系宋士吉、黄高团队在《自然・机器智能》期刊上发表了题为《模拟人类自适应视觉，实现高效灵活的机器视觉感知》的重要论文。该研究提出了AdaptiveNN架构，通过借鉴人类“主动自适应视觉”机制，将视觉感知建模为由粗到精的最优序贯决策过程：逐步定位关键区域、累积多次注视信息，并在信息足够完成任务时主动终止观察。在理论上，该研究通过结合表征学习与自奖励强化学习，给出了AdaptiveNN所面临的离散-连续混合优化问题的无需额外监督的端到端求解方法。在涵盖9类任务的广泛实验中，AdaptiveNN在保持精度的同时实现了最高28倍的推理成本降低，可在线动态调整其行为以适配不同任务需求与算力约束。同时，其基于注视路径的推理机制显著提升了模型的可解释性。AdaptiveNN展现出构建高效、灵活且可解释的计算机视觉新范式的巨大潜力。此外，AdaptiveNN的感知行为在多项测试中与人类接近，这为未来探索人类视觉认知机制提供了新的研究工具和见解。

AdaptiveNN将视觉感知建模为一个多步序贯决策过程，而非传统的“全图并行处理”。模型在视觉环境（如图像或视频帧）中，依次在若干感兴趣区域

上进行“注视”，逐步积累信息形成内部视觉表征s_t，并动态决定何时结束观察。在第t步，Vision Agent基于当前视觉状态s_t评估任务完成度，若信息不足，则通过策略网络π选择下一次注视位置

。每个选定的注视区域由表征网络

提取判别性特征，不断更新视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉策略：模型先快速扫视建立低分辨率初始状态，再通过一系列精细注视捕获关键信息。当任务需求满足时，感知过程自动终止。

借助这一机制，AdaptiveNN能够在保证高精度的同时显著降低计算量，实现“看得清，也看得省”。它使神经网络具备了类人式的主动感知能力，从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。值得注意的是，AdaptiveNN在设计上具有较强的兼容性和灵活性，适用于多种不同的深度神经网络基础架构（如卷积网络、Transformer等）和多种类型的任务（如纯视觉感知、视觉-语言多模态联合建模等）。

AdaptiveNN的训练过程同时涉及连续变量（如从注视区域中提取特征）与离散变量（如决定下一次注视位置）的优化，传统反向传播算法难以直接处理这一混合问题。为此，研究团队在理论上提出了面向离散-连续混合优化问题的端到端求解方法，使AdaptiveNN能够在统一框架下简单易行地完成整体训练。具体而言，从期望优化目标出发，对整体损失函数L(θ)进行分解，AdaptiveNN的端到端优化过程可自然地分解为两部分：