腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

一句话让照片变大片,比专业软件简单、比AI修图更可控!

腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体,旨在模拟人类专家设计师,通过迭代编辑、视觉感知、自我评估和自我反思来完成图像处理。

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

“像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能调用Lightroom等专业工具进行修图,更能“看见”修图后的变化并进行自我评判,从而实现无需外部奖励的自我进化

自我评估和修正

研究背景与动机

近年来,基于指令的图像编辑模型虽取得显著进展,但在追求“专业级”修图体验时,仍面临两大核心挑战:

  1. 指令幻觉 (Instruction Hallucination):
    现有的纯文本思维链存在信息瓶颈。模型在推理过程中“看不见”中间的修图结果,仅凭文本“脑补”假设进行下一步操作的视觉结果,容易导致事实性错误,无法确保每一步都符合用户意图。
  2. 奖励黑客 (Reward Hacking):
    强化学习进行偏好对齐的过程中,策略模型是动态更新的,而奖励模型通常是静态的。这导致策略模型容易“钻空子”,通过欺骗奖励函数获取高分,而非真正提升修图质量和自我评估能力。

为解决上述问题,团队推出了JarvisEvo。

iMCoT:交互式多模态思维链

JarvisEvo引入了iMCoT (Interleaved Multimodal Chain-of-Thought) 机制,打破了传统“盲修”的局限。与纯文本推理不同,JarvisEvo在每一步编辑后都会生成新的图像,并基于视觉反馈进行下一步推理。

模型在“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”的循环中工作,确保每一步操作都精准落地。

SEPO:协同编辑-评估策略优化

这是JarvisEvo实现“自进化”的引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization) 框架,包含两个协同进化的优化环:

  • 编辑者优化环 (Loop 1): 模型利用自我评估分数作为内在奖励,不再依赖容易被hack的外部奖励模型。
  • 评估者优化环 (Loop 2): 利用人类标注数据持续校准模型的评估能力,防止模型在自我打分时“自欺欺人”。

在线反思与自我修正

JarvisEvo具备从错误中学习的能力。在训练过程中,系统会自动将低分轨迹与高分轨迹进行对比,生成反思数据 (Reflection Data)。模型通过分析“为什么修错了”以及“如何修正”,习得强大的自我纠错能力。

像人类一样“边看边修”

JarvisEvo系统架构

传统的纯文本思维链通常是“盲修”,即一次性生成所有步骤。JarvisEvo则采用了交互式多模态思维链 (iMCoT),模拟了人类设计师“观察-操作-检查”的闭环工作流。

整个推理过程分为四个核心步骤:

  1. 视觉感知与规划 (Perception & Planning): 模型首先分析原图(I)与用户指令(Q),生成初始的修图思路。
  2. 多步工具执行 (Step-by-Step Execution):
    • 模型生成交错的文本推理内容(C)和工具调用指令(T)。
    • 工具沙盒 (Sandbox): 指令被发送到外部的Adobe Lightroom等环境中执行,生成中间态的编辑图像(O)。
    • 视觉反馈 (Visual Feedback): 这一点至关重要。模型会“看”到刚刚修好的图,基于最新的视觉状态决定下一步是继续调整还是修正错误。
  3. 自我评估 (Self-Evaluation): 修图结束后,模型会对最终结果(Ot)的美学质量和指令符合度进行自我打分(S)。
  4. 自我反思 (Self-Reflection): 如果结果不理想,模型会触发反思机制,分析偏差原因并尝试纠正。

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

三阶段的训练框架

为打造这样一个全能Agent,团队设计了一套严谨的三阶段训练流水线

  1. Stage 1: 冷启动监督微调 (Cold-Start SFT)
    • 数据量: 150K标注样本(110K编辑数据+40K评估数据)。
    • 目标: 教会模型“基本功”。这包括掌握多模态推理的语法、能够交替生成文本与图像内容、学会根据视觉线索选择正确的工具,以及初步建立审美评估能力。
  2. Stage 2: SEPO强化学习 (The Evolution)
    • 数据量: 20K标准指令数据(10K编辑+10K评估)。
    • 核心机制: 引入协同编辑-评估策略优化 (SEPO)。在此阶段,模型脱离了对标准答案的模仿,开始自主探索。
    • 双优化驱动: 此阶段让模型从“会用工具”进化为“精通修图”。
      • 编辑者优化: 通过自我打分优化修图策略,并利用选择性损失掩码防止奖励作弊。
      • 评估者优化: 利用人类评分数据校准模型的审美眼光,确保其能做出公正的评判。
  3. Stage 3: 反思微调 (Reflection Fine-Tuning)
    • 数据量: 5K少量在线生成的反思样本。
    • 目标: 这是JarvisEvo具备“自我纠错”能力的关键。通过学习如何在错误路径上进行反思和修正,模型在处理复杂指令时的鲁棒性大幅提升。

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

SEPO:协同编辑-评估策略优化

在传统的强化学习中,模型通常依赖一个静态的“奖励模型”来打分。但这存在一个致命缺陷:随着策略模型越来越强,它会学会“钻空子”,即通过生成某些特定的模式来骗取高分,而不是真正提升自己的编辑能力。

为解决这个问题,JarvisEvo提出了SEPO框架。其核心思想是:让模型既做“运动员”也做“裁判员”,并通过两个并行的优化环,让这两种能力同步提升,互相制约。

  • 编辑者优化环 (Editor Policy Optimization) 是让模型学会如何更好地使用工具来修出好图。
    • 自我奖励 (Self-Reward) 机制: JarvisEvo不再依赖外部黑盒模型打分,而是利用自身的自我评估能力。在生成修图轨迹后,模型会根据最终图像的美学质量和指令遵循度,自己给自己打分。
    • GRPO优化目标: 采用群相对策略优化。对于同一个输入,模型生成多条修图轨迹,通过比较这些轨迹的“胜率”来进行更新,而非单纯依赖绝对分数,这使得训练更加稳定。

选择性损失掩码 (SLM) 是其中的关键技术,这是一个防止“作弊”的机制。如果没有SLM,模型可能会发现:“只要我最后生成的自我评分文本是满分,loss就会变小”。为防止这种“信息泄露”,在计算编辑器的梯度时,强制掩盖掉自我评分部分的token。这样逼迫模型只能通过切实提升前面的推理质量和工具使用准确性来间接获得高分,而不是直接生成高分文本。

  • 评估者优化环 (Evaluator Policy Optimization) 确保这个“裁判员”是公正、客观且符合人类审美的。
  • 可验证的强化学习 (Verifiable RL):为解决模型在自我评估中可能出现的审美偏差,第二个训练循环引入了人类专家标注的数据集来校准模型的评估能力。
  • 分数对齐奖励 (Score Alignment Reward):在此循环中,模型的奖励信号取决于其打分与人类专家打分的一致程度。
  • 作用:该循环旨在持续校准模型的审美标准,防止其在自我奖励循环中陷入“自欺欺人”的困境,从而确保自我评估信号的有效性。

这两个训练循环交替进行,形成一种“左右互搏”的进化效应,打破了静态奖励模型的限制,实现了一种闭环、可持续的自我能力提升

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

在线反思数据生成机制 (On-Policy Reflection)

JarvisEvo 如何学会“从错误中学习”?团队在第二阶段训练中植入了自动化数据生成流程:

  1. 捕捉契机:当模型生成了一条得分(s0)显著高于先前尝试(得分s3)的修图轨迹时,触发反思生成。
  2. 归因分析:调用商业大模型(如 Gemini-2.5-Pro)作为“导师”,向其输入源图像、错误修图结果、正确修图结果以及用户指令。
  3. 生成反思链:“导师”会生成一段详细的分析文本,解释错误原因(例如“白平衡参数过高导致偏色”)并指出正确做法。
  4. 构建样本:将这段包含“错误尝试 → 深刻反思 → 正确修正”的完整轨迹存入反思数据集,用于第三阶段的模型微调。

ArtEdit 数据集

为支撑上述训练流程,团队构建了 ArtEdit——一个包含 170K 样本的双语(中/英)专业修图数据集。该数据集涵盖人像、风光、建筑、静物、夜景等 10 大类、37 个子类的专业摄影场景。通过 A2L (Agent-to-Lightroom) 协议,无缝集成了 Adobe Lightroom 中的 200+ 个修图工具。

  • ArtEdit-Lr (120K):专注于修图任务,包含完整的推理链、工具参数及中间图像。
  • ArtEdit-Eval (50K):专注于审美评估,包含人类专家对图像质量和指令遵循度的打分。

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

实验结果

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具
腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

在 ArtEdit-Bench 评测中,JarvisEvo 在 L1 和 L2 指标上相比商业级模型 Nano-Banana 提升了 44.96%,并最大程度保留了原图细节。

在语义一致性和感知质量指标上,JarvisEvo 全面领先,平均提升 18.95%。

其评估分数与人类主观偏好的相关性(SRCC 0.7243)超越了 GPT-4o、Gemini-2.5-Flash 以及专门的图像质量评估模型。

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

在视觉效果上,对比其他模型,JarvisEvo 处理后的图像更贴合用户指令,在风格营造、细节呈现等方面表现突出。

腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

在包含 200 个样本的人类主观评测中,JarvisEvo 在与 Nano-Banana 的对决中取得了 49% 的胜率(远超对手的 28%),证明其修图结果更符合人类审美。

这种“生成器-内部批评家”的协同进化范式具备强大的通用性,未来有望从修图领域拓展至数学推理、代码生成及长程规划等任务。

同时,团队将致力于突破当前步数限制,探索超过 10 步的复杂长程推理任务。

  • 项目主页: https://jarvisevo.vercel.app/
  • 论文全文: https://arxiv.org/pdf/2511.23002
  • GitHub: https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper: https://huggingface.co/papers/2511.23002

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15351

(0)
上一篇 2025年12月26日 下午12:00
下一篇 2025年12月26日 下午12:05

相关推荐

  • 2025年AI编码工具全景解析:从Cursor到Cline,八大助手如何重塑开发流程

    本指南深入解析当前最优秀的AI编码助手,并探讨一项正在解决AI访问实时数据局限性的关键技术:模型上下文协议(Model Context Protocol, MCP)。 总览 Cursor – 以AI为核心的代码编辑器,具备先进的上下文感知能力 GitHub Copilot – 行业领先的结对编程工具,与GitHub深度集成 Winds…

    2025年12月1日
    7500
  • 视觉感知与主动智能:AI耳机如何重塑人机交互范式

    Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件轮廓正逐渐清晰。供应链信息显示,这款产品并未配备屏幕,形态更接近可穿戴设备:体积与 iPod Shuffle 相仿,便于放入口袋或随身佩戴;内置麦克风与摄像头,可持续感知用户所处的真实环境,并主动提供建议。 在“无屏、主动式 AI”这条赛道上,中国公司已率先迈出步伐。 12 月底,光帆科技…

    2026年1月4日
    6700
  • 揭秘国内首个真人级AI导师:自研原生教育框架如何实现92.4%完课率

    第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和英语成了她最不愿面对的两门课。 直到有一天,她开始反复和一个「不会不耐烦」的对象对话。一句没听懂,就一直追问,直到彻底弄清楚。对方有表情,会根据她的反应实时调整讲解节奏,…

    2025年12月29日
    6800
  • Google File Search:零门槛RAG工具,让AI直接理解你的数据

    如果你曾尝试自己搭建一套 RAG(检索增强生成)系统,大概深有体会:管理向量嵌入、配置向量数据库、进行文本切分,还要确保整个流程与模型顺畅协作且成本可控,过程相当繁琐。 现在,Google 用一个新工具解决了这些麻烦。 他们在 Gemini API 中悄然推出了全新的 File Search Tool,它能替你处理 RAG 流程中的所有繁重工作。你只需上传文…

    2025年11月16日
    9700
  • Cursor 2.0 正式发布:自研模型 Composer 与多智能体协作界面同步上线

    Cursor 2.0 正式发布,推出自研编码模型 Composer 及多智能体并行协作界面。Composer 在编码智能上达到前沿水平,生成速度达每秒 250 个 token,为同类模型的四倍,支持低延迟交互式编程。新版本界面以智能体为中心,支持多任务并行处理,并优化了代码评审与测试流程。此次更新标志着 Cursor 从依赖第三方模型的“AI 外壳”转型为“AI 原生平台”。

    2025年10月30日
    59600