Youtu-Agent团队 投稿
量子位 | 公众号 QbitAI
在学校里做实验时,老师如何确认学生完成了实验并达到了预期效果?最常见的做法是要求学生提交一份实验报告。
那么,当AI智能体执行一项任务后,我们如何检验其执行效果是否达标?一个可行的思路是:让AI在执行任务的同时,主动收集并提交一份“证据链报告”。智能体可以边执行边取证,自我检查是否符合预期,若未达标则继续执行。

在基于大语言模型(LLM)或视觉语言模型(VLM)的智能体强化学习研究中,一直存在一个核心挑战:
当你交给智能体一个任务,它执行完毕后,你往往难以准确评估其完成度。

为了确认智能体是否真正准确完成了任务,研究者通常需要构建庞大的“监督系统”来复核其每一步操作。这种“被动验证”模式通常要求:
- 手工设计复杂的校验机制(例如,要求输出内容完全匹配);
- 采用强大的轨迹级验证方法(例如,使用LLM/VLM作为裁判进行众投决策)。
然而,上述“先执行任务,后校验轨迹”的机制存在明显缺陷:
- 效率低下,泛化性差:人工设计的评估准则依赖于预先编写的脚本,难以简单迁移到新任务(例如新的应用程序)上。
- 轨迹噪声干扰大:将冗长的完整操作轨迹直接提交给LLM/VLM进行评判,容易被无关的环境信息干扰,降低评估的可靠性。
- 依赖持续可观测环境:部分操作可能因为环境状态变化(如页面刷新、操作过期)而导致后续验证失败。
针对这些问题,我们提出了一种简洁的强化学习训练方法——让智能体自己成为“质检员”。该方法旨在最小化外部校验器的审核压力,同时教导智能体学会主动分解子目标并留存证据。
什么是SmartSnap?
SmartSnap 的核心思想是推动GUI智能体从“被动的执行者”转变为“主动的自证者”。
简而言之,智能体在完成任务的过程中,会主动收集、筛选并提交一组“证据快照”。这份证据集如同任务的“结项报告”,让验证者仅需浏览关键快照,即可快速确认任务是否成功完成。

三大核心突破:从“执行”到“自证”
1. 角色升级:肩负双重使命的“自证代理”
传统智能体仅负责“执行”,而SmartSnap提出了“自证智能体”的概念,为其赋予了“自我验证”的第二使命。
在操作过程中,智能体会像人类一样思考:“为了证明我已修改了设置,我需要截图显示开关状态,并将其作为证据提交。”
2. “3C原则”:高效证据策展的美学
为避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则:
- 完整性:证据必须足以证明任务已形成闭环。
- 简洁性:无需冗长的操作视频,只需提交最关键的几张“定格”快照。
- 创造性:为获取有效证据,智能体甚至会主动执行“额外操作”。例如,在完成订票后,主动跳转回订单页面进行截图。
3. 强化学习驱动:GRPO算法与内在奖励塑造
我们采用GRPO算法对智能体进行训练。通过精心设计的内在奖励机制,引导智能体在确保任务成功率的同时,持续提升所提交证据的质量,并尽可能减少奖励黑客行为。
战绩显赫:小模型亦有不俗表现
SmartSnap在AndroidLab等复杂任务集上表现卓越,提升显著:

- 性能飞跃:在不同规模的模型上均实现了显著的性能提升(最高提升达26.08%)。
- 以小博大:经过SmartSnap训练的中等参数模型(如Qwen3-32B),在自证能力的加持下,其表现甚至能够媲美DeepSeek-V3/Qwen3-235B等开源大模型。
通过定性分析,我们还观察到以下特点:
- 举证高效:平均每个任务仅需提交1.5张关键快照作为证据,极大降低了后端验证成本。
- 交互精简:智能体在训练过程中因拟合少量训练集而变得游刃有余,任务交互轮数持续减少。
- 知识局限:在部分应用程序(如地图APP的复杂路径规划任务)上,智能体表现出反复尝试却无显著进展的情况,这反映了其领域知识的欠缺,导致无法收敛到有效解决方案。这表明模型需要更多知识注入来指导探索。
为何SmartSnap能简化智能体RL训练的准备工作?
在手机端、操作系统端等具有强时效性的环境中,传统的外部验证器很难精准捕捉转瞬即逝的成功信号。
SmartSnap如同为智能体配备了一台取证相机。 它不再要求训练者预先对环境所有可能的状态变化编写校验脚本,也无需让裁判模型全程紧盯冗长的操作轨迹进行推演。相反,智能体学会了自己在执行过程中收集必要的证据。
这使得我们能够基于合成任务轻松拓展训练场景,并仅依据有限的证据链来判断任务成功与否,从而让强化学习训练变得更加便捷。
面向未来
SmartSnap的出现,标志着GUI智能体正从“蛮力执行”迈向“认知协同”。这种主动寻求证据的能力,不仅提升了AI的可靠性,也为未来大规模、低成本的AI部署铺平了道路。
未来的AI,不仅要“能干”,更要“可信”。
论文标题:SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:https://arxiv.org/abs/2512.22322
代码地址:https://github.com/TencentYoutuResearch/SmartSnap
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17960
