SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

Youtu-Agent团队 投稿

量子位 | 公众号 QbitAI

在学校里做实验时,老师如何确认学生完成了实验并达到了预期效果?最常见的做法是要求学生提交一份实验报告。

那么,当AI智能体执行一项任务后,我们如何检验其执行效果是否达标?一个可行的思路是:让AI在执行任务的同时,主动收集并提交一份“证据链报告”。智能体可以边执行边取证,自我检查是否符合预期,若未达标则继续执行。

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

在基于大语言模型(LLM)或视觉语言模型(VLM)的智能体强化学习研究中,一直存在一个核心挑战:

当你交给智能体一个任务,它执行完毕后,你往往难以准确评估其完成度。

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

为了确认智能体是否真正准确完成了任务,研究者通常需要构建庞大的“监督系统”来复核其每一步操作。这种“被动验证”模式通常要求:

  1. 手工设计复杂的校验机制(例如,要求输出内容完全匹配);
  2. 采用强大的轨迹级验证方法(例如,使用LLM/VLM作为裁判进行众投决策)。

然而,上述“先执行任务,后校验轨迹”的机制存在明显缺陷:

  1. 效率低下,泛化性差:人工设计的评估准则依赖于预先编写的脚本,难以简单迁移到新任务(例如新的应用程序)上。
  2. 轨迹噪声干扰大:将冗长的完整操作轨迹直接提交给LLM/VLM进行评判,容易被无关的环境信息干扰,降低评估的可靠性。
  3. 依赖持续可观测环境:部分操作可能因为环境状态变化(如页面刷新、操作过期)而导致后续验证失败。

针对这些问题,我们提出了一种简洁的强化学习训练方法——让智能体自己成为“质检员”。该方法旨在最小化外部校验器的审核压力,同时教导智能体学会主动分解子目标并留存证据。

什么是SmartSnap?

SmartSnap 的核心思想是推动GUI智能体从“被动的执行者”转变为“主动的自证者”。

简而言之,智能体在完成任务的过程中,会主动收集、筛选并提交一组“证据快照”。这份证据集如同任务的“结项报告”,让验证者仅需浏览关键快照,即可快速确认任务是否成功完成。

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

三大核心突破:从“执行”到“自证”

1. 角色升级:肩负双重使命的“自证代理”

传统智能体仅负责“执行”,而SmartSnap提出了“自证智能体”的概念,为其赋予了“自我验证”的第二使命。

在操作过程中,智能体会像人类一样思考:“为了证明我已修改了设置,我需要截图显示开关状态,并将其作为证据提交。”

2. “3C原则”:高效证据策展的美学

为避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则

  • 完整性:证据必须足以证明任务已形成闭环。
  • 简洁性:无需冗长的操作视频,只需提交最关键的几张“定格”快照。
  • 创造性:为获取有效证据,智能体甚至会主动执行“额外操作”。例如,在完成订票后,主动跳转回订单页面进行截图。

3. 强化学习驱动:GRPO算法与内在奖励塑造

我们采用GRPO算法对智能体进行训练。通过精心设计的内在奖励机制,引导智能体在确保任务成功率的同时,持续提升所提交证据的质量,并尽可能减少奖励黑客行为。

战绩显赫:小模型亦有不俗表现

SmartSnap在AndroidLab等复杂任务集上表现卓越,提升显著:

SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

  • 性能飞跃:在不同规模的模型上均实现了显著的性能提升(最高提升达26.08%)。
  • 以小博大:经过SmartSnap训练的中等参数模型(如Qwen3-32B),在自证能力的加持下,其表现甚至能够媲美DeepSeek-V3/Qwen3-235B等开源大模型

通过定性分析,我们还观察到以下特点:

  • 举证高效:平均每个任务仅需提交1.5张关键快照作为证据,极大降低了后端验证成本。
  • 交互精简:智能体在训练过程中因拟合少量训练集而变得游刃有余,任务交互轮数持续减少。
  • 知识局限:在部分应用程序(如地图APP的复杂路径规划任务)上,智能体表现出反复尝试却无显著进展的情况,这反映了其领域知识的欠缺,导致无法收敛到有效解决方案。这表明模型需要更多知识注入来指导探索。

为何SmartSnap能简化智能体RL训练的准备工作?

在手机端、操作系统端等具有强时效性的环境中,传统的外部验证器很难精准捕捉转瞬即逝的成功信号。

SmartSnap如同为智能体配备了一台取证相机。 它不再要求训练者预先对环境所有可能的状态变化编写校验脚本,也无需让裁判模型全程紧盯冗长的操作轨迹进行推演。相反,智能体学会了自己在执行过程中收集必要的证据。

这使得我们能够基于合成任务轻松拓展训练场景,并仅依据有限的证据链来判断任务成功与否,从而让强化学习训练变得更加便捷。

面向未来

SmartSnap的出现,标志着GUI智能体正从“蛮力执行”迈向“认知协同”。这种主动寻求证据的能力,不仅提升了AI的可靠性,也为未来大规模、低成本的AI部署铺平了道路。

未来的AI,不仅要“能干”,更要“可信”。

论文标题:SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:https://arxiv.org/abs/2512.22322
代码地址:https://github.com/TencentYoutuResearch/SmartSnap


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17960

(0)
上一篇 2026年1月10日 上午10:38
下一篇 2026年1月10日 上午10:48

相关推荐