SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

Youtu-Agent团队 投稿

量子位 | 公众号 QbitAI

在学校里做实验时,老师如何确认学生完成了实验并达到了预期效果?最常见的做法是要求学生提交一份实验报告。

那么,当AI智能体执行一项任务后,我们如何检验其执行效果是否达标?一个可行的思路是:让AI在执行任务的同时,主动收集并提交一份“证据链报告”。智能体可以边执行边取证,自我检查是否符合预期,若未达标则继续执行。

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

在基于大语言模型(LLM)或视觉语言模型(VLM)的智能体强化学习研究中,一直存在一个核心挑战:

当你交给智能体一个任务,它执行完毕后,你往往难以准确评估其完成度。

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

为了确认智能体是否真正准确完成了任务,研究者通常需要构建庞大的“监督系统”来复核其每一步操作。这种“被动验证”模式通常要求:

  1. 手工设计复杂的校验机制(例如,要求输出内容完全匹配);
  2. 采用强大的轨迹级验证方法(例如,使用LLM/VLM作为裁判进行众投决策)。

然而,上述“先执行任务,后校验轨迹”的机制存在明显缺陷:

  1. 效率低下,泛化性差:人工设计的评估准则依赖于预先编写的脚本,难以简单迁移到新任务(例如新的应用程序)上。
  2. 轨迹噪声干扰大:将冗长的完整操作轨迹直接提交给LLM/VLM进行评判,容易被无关的环境信息干扰,降低评估的可靠性。
  3. 依赖持续可观测环境:部分操作可能因为环境状态变化(如页面刷新、操作过期)而导致后续验证失败。

针对这些问题,我们提出了一种简洁的强化学习训练方法——让智能体自己成为“质检员”。该方法旨在最小化外部校验器的审核压力,同时教导智能体学会主动分解子目标并留存证据。

什么是SmartSnap?

SmartSnap 的核心思想是推动GUI智能体从“被动的执行者”转变为“主动的自证者”。

简而言之,智能体在完成任务的过程中,会主动收集、筛选并提交一组“证据快照”。这份证据集如同任务的“结项报告”,让验证者仅需浏览关键快照,即可快速确认任务是否成功完成。

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

三大核心突破:从“执行”到“自证”

1. 角色升级:肩负双重使命的“自证代理”

传统智能体仅负责“执行”,而SmartSnap提出了“自证智能体”的概念,为其赋予了“自我验证”的第二使命。

在操作过程中,智能体会像人类一样思考:“为了证明我已修改了设置,我需要截图显示开关状态,并将其作为证据提交。”

2. “3C原则”:高效证据策展的美学

为避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则

  • 完整性:证据必须足以证明任务已形成闭环。
  • 简洁性:无需冗长的操作视频,只需提交最关键的几张“定格”快照。
  • 创造性:为获取有效证据,智能体甚至会主动执行“额外操作”。例如,在完成订票后,主动跳转回订单页面进行截图。

3. 强化学习驱动:GRPO算法与内在奖励塑造

我们采用GRPO算法对智能体进行训练。通过精心设计的内在奖励机制,引导智能体在确保任务成功率的同时,持续提升所提交证据的质量,并尽可能减少奖励黑客行为。

战绩显赫:小模型亦有不俗表现

SmartSnap在AndroidLab等复杂任务集上表现卓越,提升显著:

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

  • 性能飞跃:在不同规模的模型上均实现了显著的性能提升(最高提升达26.08%)。
  • 以小博大:经过SmartSnap训练的中等参数模型(如Qwen3-32B),在自证能力的加持下,其表现甚至能够媲美DeepSeek-V3/Qwen3-235B等开源大模型

通过定性分析,我们还观察到以下特点:

  • 举证高效:平均每个任务仅需提交1.5张关键快照作为证据,极大降低了后端验证成本。
  • 交互精简:智能体在训练过程中因拟合少量训练集而变得游刃有余,任务交互轮数持续减少。
  • 知识局限:在部分应用程序(如地图APP的复杂路径规划任务)上,智能体表现出反复尝试却无显著进展的情况,这反映了其领域知识的欠缺,导致无法收敛到有效解决方案。这表明模型需要更多知识注入来指导探索。

为何SmartSnap能简化智能体RL训练的准备工作?

在手机端、操作系统端等具有强时效性的环境中,传统的外部验证器很难精准捕捉转瞬即逝的成功信号。

SmartSnap如同为智能体配备了一台取证相机。 它不再要求训练者预先对环境所有可能的状态变化编写校验脚本,也无需让裁判模型全程紧盯冗长的操作轨迹进行推演。相反,智能体学会了自己在执行过程中收集必要的证据。

这使得我们能够基于合成任务轻松拓展训练场景,并仅依据有限的证据链来判断任务成功与否,从而让强化学习训练变得更加便捷。

面向未来

SmartSnap的出现,标志着GUI智能体正从“蛮力执行”迈向“认知协同”。这种主动寻求证据的能力,不仅提升了AI的可靠性,也为未来大规模、低成本的AI部署铺平了道路。

未来的AI,不仅要“能干”,更要“可信”。

论文标题:SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:https://arxiv.org/abs/2512.22322
代码地址:https://github.com/TencentYoutuResearch/SmartSnap


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17960

(0)
上一篇 2026年1月10日 上午10:38
下一篇 2026年1月10日 上午10:48

相关推荐

  • ATEC2025线下挑战赛:全户外自主机器人极限测试,揭示具身智能四大技术瓶颈

    近日,第五届ATEC科技精英赛线下赛在香港中文大学圆满落幕。作为全球首个聚焦实景极端环境的人工智能与机器人赛事,本届比赛首次将机器人从实验室完全迁移至户外复杂场景,在无遥操作干预的前提下,要求机器人自主完成一系列高难度任务。这不仅是对当前机器人技术极限的公开检验,更是具身智能发展进程中的一次里程碑式事件。 比赛设置了垃圾分拣、自主浇花、定向越野和吊桥穿越四大…

    2025年12月8日
    17900
  • HyperBookLM:开源研究助手,用Web Agent构建NotebookLM替代方案

    当下的研究流程常常是混乱的。 你需要在多个标签页中打开博客链接,将 PDF 下载到本地,而笔记则散落在 Notion 或 Google Docs 等不同工具里。现有的 AI 工具通常一次只能处理一个信息来源。Google 的 NotebookLM 在一定程度上缓解了这个问题,但它是一个封闭、受限且对开发者不友好的系统。 这正是 HyperBookLM 的价值…

    2026年1月18日
    25100
  • 告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

    大型语言模型在处理长对话或多步复杂任务时,最头疼的就是记忆管理问题。现有的方法往往采用人工设定的规则来决定哪些信息该存、哪些该删,效果有限且不够灵活。 阿里巴巴团队最近在论文《Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Langua…

    2026年1月10日
    29700
  • 信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境

    在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…

    2025年12月19日
    15700
  • 突破SNN性能瓶颈:Max-Former揭示频率偏置是核心问题,以高频增强实现精度与能效双提升

    脉冲神经网络(SNN)长期以来被视为实现超低功耗智能计算的希望,但其性能往往落后于传统人工神经网络(ANN)。传统观点认为,SNN中二进制脉冲激活导致的信息损失是性能差距的主要原因。然而,香港科技大学(广州)等单位在NeurIPS 2025发表的研究提出了颠覆性见解:SNN性能不佳的根源并非二进制激活本身,而在于脉冲神经元固有的频率偏置问题。 研究团队通过深…

    2025年11月26日
    13300