SmartSnap：让AI智能体变身“自证质检员”，1.5张截图完成结项报告的革命性训练方法

Youtu-Agent团队投稿

量子位 | 公众号 QbitAI

在学校里做实验时，老师如何确认学生完成了实验并达到了预期效果？最常见的做法是要求学生提交一份实验报告。

那么，当AI智能体执行一项任务后，我们如何检验其执行效果是否达标？一个可行的思路是：让AI在执行任务的同时，主动收集并提交一份“证据链报告”。智能体可以边执行边取证，自我检查是否符合预期，若未达标则继续执行。

在基于大语言模型（LLM）或视觉语言模型（VLM）的智能体强化学习研究中，一直存在一个核心挑战：

当你交给智能体一个任务，它执行完毕后，你往往难以准确评估其完成度。

为了确认智能体是否真正准确完成了任务，研究者通常需要构建庞大的“监督系统”来复核其每一步操作。这种“被动验证”模式通常要求：

手工设计复杂的校验机制（例如，要求输出内容完全匹配）；
采用强大的轨迹级验证方法（例如，使用LLM/VLM作为裁判进行众投决策）。

然而，上述“先执行任务，后校验轨迹”的机制存在明显缺陷：

效率低下，泛化性差：人工设计的评估准则依赖于预先编写的脚本，难以简单迁移到新任务（例如新的应用程序）上。
轨迹噪声干扰大：将冗长的完整操作轨迹直接提交给LLM/VLM进行评判，容易被无关的环境信息干扰，降低评估的可靠性。
依赖持续可观测环境：部分操作可能因为环境状态变化（如页面刷新、操作过期）而导致后续验证失败。

针对这些问题，我们提出了一种简洁的强化学习训练方法——让智能体自己成为“质检员”。该方法旨在最小化外部校验器的审核压力，同时教导智能体学会主动分解子目标并留存证据。

什么是SmartSnap？

SmartSnap 的核心思想是推动GUI智能体从“被动的执行者”转变为“主动的自证者”。

简而言之，智能体在完成任务的过程中，会主动收集、筛选并提交一组“证据快照”。这份证据集如同任务的“结项报告”，让验证者仅需浏览关键快照，即可快速确认任务是否成功完成。

三大核心突破：从“执行”到“自证”

1. 角色升级：肩负双重使命的“自证代理”

传统智能体仅负责“执行”，而SmartSnap提出了“自证智能体”的概念，为其赋予了“自我验证”的第二使命。

在操作过程中，智能体会像人类一样思考：“为了证明我已修改了设置，我需要截图显示开关状态，并将其作为证据提交。”

2. “3C原则”：高效证据策展的美学

为避免给验证者造成信息过载，SmartSnap提出了证据策展的3C原则：

完整性：证据必须足以证明任务已形成闭环。
简洁性：无需冗长的操作视频，只需提交最关键的几张“定格”快照。
创造性：为获取有效证据，智能体甚至会主动执行“额外操作”。例如，在完成订票后，主动跳转回订单页面进行截图。

3. 强化学习驱动：GRPO算法与内在奖励塑造

我们采用GRPO算法对智能体进行训练。通过精心设计的内在奖励机制，引导智能体在确保任务成功率的同时，持续提升所提交证据的质量，并尽可能减少奖励黑客行为。

战绩显赫：小模型亦有不俗表现

SmartSnap在AndroidLab等复杂任务集上表现卓越，提升显著：

性能飞跃：在不同规模的模型上均实现了显著的性能提升（最高提升达26.08%）。
以小博大：经过SmartSnap训练的中等参数模型（如Qwen3-32B），在自证能力的加持下，其表现甚至能够媲美DeepSeek-V3/Qwen3-235B等开源大模型。

通过定性分析，我们还观察到以下特点：

举证高效：平均每个任务仅需提交1.5张关键快照作为证据，极大降低了后端验证成本。
交互精简：智能体在训练过程中因拟合少量训练集而变得游刃有余，任务交互轮数持续减少。
知识局限：在部分应用程序（如地图APP的复杂路径规划任务）上，智能体表现出反复尝试却无显著进展的情况，这反映了其领域知识的欠缺，导致无法收敛到有效解决方案。这表明模型需要更多知识注入来指导探索。

为何SmartSnap能简化智能体RL训练的准备工作？

在手机端、操作系统端等具有强时效性的环境中，传统的外部验证器很难精准捕捉转瞬即逝的成功信号。

SmartSnap如同为智能体配备了一台取证相机。 它不再要求训练者预先对环境所有可能的状态变化编写校验脚本，也无需让裁判模型全程紧盯冗长的操作轨迹进行推演。相反，智能体学会了自己在执行过程中收集必要的证据。

这使得我们能够基于合成任务轻松拓展训练场景，并仅依据有限的证据链来判断任务成功与否，从而让强化学习训练变得更加便捷。

面向未来

SmartSnap的出现，标志着GUI智能体正从“蛮力执行”迈向“认知协同”。这种主动寻求证据的能力，不仅提升了AI的可靠性，也为未来大规模、低成本的AI部署铺平了道路。

未来的AI，不仅要“能干”，更要“可信”。

论文标题：SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址：https://arxiv.org/abs/2512.22322
代码地址：https://github.com/TencentYoutuResearch/SmartSnap

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17960

SmartSnap：让AI智能体变身“自证质检员”，1.5张截图完成结项报告的革命性训练方法

Youtu-Agent团队 投稿

什么是SmartSnap？

三大核心突破：从“执行”到“自证”

1. 角色升级：肩负双重使命的“自证代理”

2. “3C原则”：高效证据策展的美学

3. 强化学习驱动：GRPO算法与内在奖励塑造

战绩显赫：小模型亦有不俗表现

为何SmartSnap能简化智能体RL训练的准备工作？

面向未来

相关推荐

谷歌开源Computer Use Preview：视觉AI革新浏览器自动化，让Selenium黯然失色

LeMiCa：突破视频生成瓶颈的全局最优缓存加速框架

谷歌Gemini 3.0 Pro与Nano Banana Pro：创始人回归如何重塑AI霸权格局

微软MIRA：基于4540亿医疗时序数据的通用基座模型，突破不规则采样难题

从指令到协作：基于Anthropic研究的10个高效提示工程技巧深度解析

Youtu-Agent团队投稿