无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

告别“网页操作翻车”:开源Web Agent Avenir-Web 刷新纪录,成功率飙至53.7%

伦敦大学学院(UCL)、普林斯顿大学与爱丁堡大学的联合研究团队,近日推出了名为 Avenir-Web开源框架。它让现有的多模态模型具备了像人类一样操作网页的能力,无需任何额外训练即可投入使用。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

现有的Web Agent在处理复杂网页结构(例如 iframe 和 Shadow DOM)时,常常会遇到“定位不准”、“缺乏常识”或“操作过程中遗忘目标”等棘手问题。

尤其是在长程任务(Long-horizon tasks)中,由于Agent对特定网站的操作流程缺乏认知,常常只能进行盲目探索,导致任务成功率普遍偏低。

Avenir-Web 本质上是一套开源的 Agent Harness,即一个无需训练(training-free)的框架。在ONLINE-MIND2WEB基准测试中,它取得了53.7%的成功率,一举刷新了开源领域的最佳纪录。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

Web Agent 面临的三大核心挑战

研究团队指出,当前Web Agent在实际部署中普遍存在三个关键瓶颈:

  1. 元素定位不精准(Inaccurate Grounding):过度依赖DOM树,在处理Canvas、嵌套iframe等非标准结构时,常常失效。
  2. 缺乏站点特定流程知识(Site-specific Procedural Knowledge):Agent无法像人类一样查阅“用户手册”或“攻略”,只能在页面中盲目摸索。
  3. 长程任务跟踪与记忆不稳定(Unstable Memory):在跨页面操作时,容易发生“导航漂移”,陷入反复出错的死循环。

针对上述痛点,Avenir-Web 提出了一套模块化的 Agent Harness 框架。由于它本身是一个 Harness 而非需要重新训练的模型,因此天然具备无需训练(training-free)的部署优势。

Avenir-Web Agent Harness 的核心设计

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

经验模仿规划(Experience-Imitation Planning, EIP)

人类在操作陌生网站时,往往会先搜索一下攻略。EIP模块模仿了这一行为:在任务开始前,它会利用大模型的在线搜索能力,检索目标网站的帮助中心、论坛或使用指南,并将这些信息转化为高层次的策略路线图。

这种“先读攻略再动手”的方式,显著减少了Agent的盲目探索时间,并有效规避了不可逆的导航错误。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

混合定位专家(Mixture of Grounding Experts, MoGE)

MoGE 采用了“视觉优先”的原则。它将整个网页视为一张统一的视觉画布,直接基于坐标进行交互。这种方法天然地解决了让依赖 DOM 树的 Agent 头疼的嵌套 iframe 问题。

当视觉信息不足以支撑精准定位时,MoGE 会触发语义结构推理作为兜底方案。这种“视觉坐标 + 语义兜底”的混合策略,使 Agent 在处理各种 UI 范式时都具备极强的鲁棒性。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

任务跟踪清单(Task-Tracking Checklist)

为了防止 Agent 在执行任务时“跑偏”,研究团队引入了结构化的任务清单。它将复杂的指令分解为2到6个可验证的原子里程碑(Milestones),并在每一步操作后,利用轻量级模型(如 Qwen-3-VL-8B)实时更新每个里程碑的状态(Pending、In Progress、Completed、Failed)。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

自适应记忆(Adaptive Memory)

针对上下文过长导致的幻觉问题,Avenir-Web 采用了分块递归摘要(Chunked Recursive Summarization)机制。它维持一个固定大小的滑动窗口,将历史操作提炼为抽象的记忆状态,并专门设置了“失败反思缓冲区”(Failure Reflection Buffer),确保 Agent 能从过去的错误中学习。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

实验结果

研究团队在 ONLINE-MIND2WEB 这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。结果显示,以 Gemini 3 Pro 为内核的 Avenir-Web 取得了53.7%的成功率,相比之前的开源标杆 SeeAct(30.0%),性能提升了23.7个百分点。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

更令人瞩目的是,Avenir-Web 的表现超越了闭源模型 Claude Computer Use 3.7(47.3%)和 ACT-1(52.7%),并开始逼近 OpenAI Operator(58.3%)等顶级商业 Agent 的水平。

即使使用完全开源且轻量的 Qwen-3-VL-8B 作为内核,Avenir-Web 依然取得了25.7%的成功率,逼近了早期基于 GPT-4o 的重型 Agent,如 Browser Use(26.0%)和 Agent-E(27.0%)。这充分说明,作为一套无需额外训练即可接入现有模型的开源 Agent Harness,Avenir-Web 在轻量模型上同样具备可观的实战价值。

消融实验:哪个模块最关键?

研究人员通过消融实验验证了各模块的贡献度。结果显示:

  • 去除 EIP(经验模仿)后,成功率从48.0%骤降至36.0%,暴跌12个百分点,证明了外部知识对 Web 任务至关重要。
  • 去除 MoGE(混合定位)后,成功率从48.0%降至40.0%;去除自适应记忆后,成功率进一步降至42.0%甚至36.0%。这说明定位与记忆模块都不可或缺。

对于长程任务,递归摘要机制有效避免了上下文溢出带来的决策混乱。

无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

研究团队表示,Avenir-Web 为构建具备人类级可靠性的通用数字助理迈出了坚实的一步。目前该项目已开源,开发者无需训练新模型,即可将这套 Agent Harness 应用于自动化、软件测试及智能助手等场景的进一步探索。

  • 论文链接:https://arxiv.org/abs/2602.02468
  • 代码链接:https://github.com/Princeton-AI2-Lab/Avenir-Web

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32695

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 6款AI驱动的开源CLI工具:让终端开发更智能高效

    如果你大部分时间都在终端里工作,你一定知道一个得心应手的命令能省下数小时的工夫。如今,新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体,让开发工作重新变得高效而有趣。 这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨,但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终…

    2026年1月2日
    63500
  • 开源平替神器:一键部署你的私有SaaS服务栈

    在浏览 GitHub 时,我发现了一个非常实用的开源项目 Deploy Your Own SaaS。 该项目汇集了大量可自行部署的开源软件,覆盖笔记工具、云盘、在线会议、记账工具等多个领域。其中绝大多数项目都支持 Docker 容器化部署,能够帮助用户快速上线服务。 这个 GitHub 项目已获得超过 6000 个 Star。本文将从中挑选几个有趣的开源替代…

    2025年11月27日
    49100
  • 三大惊艳GitHub项目:AI论文助手、UI主题定制与开源知识库,提升你的技术生产力

    读论文 Agent 面对专业学术论文,理解内容已属不易,总结要点与生成思维导图更是耗时费力。Paper Burner X 这款开源工具,集文献识别、翻译、阅读与智能分析于一体,在浏览器中即可直接使用,旨在化解这一难题。 它是一个纯前端实现的智能分析系统,能够自主调用工具进行多步推理,并支持长论文翻译,同时完整保留原文中的公式、图表等复杂格式。 主要功能:* …

    2025年12月3日
    52600
  • 6款颠覆开发体验的开源CLI工具:AI、自动化与隐私的完美融合

    如果你大部分时间都在终端里工作,你一定知道一个得力的命令行工具能节省大量时间。如今,新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体,让开发工作重新变得高效而有趣。 这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨,但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终端…

    2026年1月2日
    53900
  • Vibe Coding革命:从代码苦力到AI导演,GitHub神级指南引领开发新范式

    Vibe Coding 的核心,是让开发者从编写每一行代码的“苦力”中解放出来,转而扮演“导演”的角色。 开发者只需专注于把握产品的核心逻辑、用户流程、审美与交互等宏观“感觉”(Vibe),而将具体的编码实现工作交给 Cursor、Windsurf、Trae 等 AI 编程工具来完成。正如 Andrej Karpathy 所言:“我几乎不写代码了,我只负责调…

    2025年12月27日
    33500