无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

告别“网页操作翻车”：开源Web Agent Avenir-Web 刷新纪录，成功率飙至53.7%

伦敦大学学院（UCL）、普林斯顿大学与爱丁堡大学的联合研究团队，近日推出了名为 Avenir-Web 的开源框架。它让现有的多模态模型具备了像人类一样操作网页的能力，无需任何额外训练即可投入使用。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

现有的Web Agent在处理复杂网页结构（例如 iframe 和 Shadow DOM）时，常常会遇到“定位不准”、“缺乏常识”或“操作过程中遗忘目标”等棘手问题。

尤其是在长程任务（Long-horizon tasks）中，由于Agent对特定网站的操作流程缺乏认知，常常只能进行盲目探索，导致任务成功率普遍偏低。

Avenir-Web 本质上是一套开源的 Agent Harness，即一个无需训练（training-free）的框架。在ONLINE-MIND2WEB基准测试中，它取得了53.7%的成功率，一举刷新了开源领域的最佳纪录。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

Web Agent 面临的三大核心挑战

研究团队指出，当前Web Agent在实际部署中普遍存在三个关键瓶颈：

元素定位不精准（Inaccurate Grounding）：过度依赖DOM树，在处理Canvas、嵌套iframe等非标准结构时，常常失效。
缺乏站点特定流程知识（Site-specific Procedural Knowledge）：Agent无法像人类一样查阅“用户手册”或“攻略”，只能在页面中盲目摸索。
长程任务跟踪与记忆不稳定（Unstable Memory）：在跨页面操作时，容易发生“导航漂移”，陷入反复出错的死循环。

针对上述痛点，Avenir-Web 提出了一套模块化的 Agent Harness 框架。由于它本身是一个 Harness 而非需要重新训练的模型，因此天然具备无需训练（training-free）的部署优势。

Avenir-Web Agent Harness 的核心设计

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

经验模仿规划（Experience-Imitation Planning, EIP）

人类在操作陌生网站时，往往会先搜索一下攻略。EIP模块模仿了这一行为：在任务开始前，它会利用大模型的在线搜索能力，检索目标网站的帮助中心、论坛或使用指南，并将这些信息转化为高层次的策略路线图。

这种“先读攻略再动手”的方式，显著减少了Agent的盲目探索时间，并有效规避了不可逆的导航错误。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

混合定位专家（Mixture of Grounding Experts, MoGE）

MoGE 采用了“视觉优先”的原则。它将整个网页视为一张统一的视觉画布，直接基于坐标进行交互。这种方法天然地解决了让依赖 DOM 树的 Agent 头疼的嵌套 iframe 问题。

当视觉信息不足以支撑精准定位时，MoGE 会触发语义结构推理作为兜底方案。这种“视觉坐标 + 语义兜底”的混合策略，使 Agent 在处理各种 UI 范式时都具备极强的鲁棒性。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

任务跟踪清单（Task-Tracking Checklist）

为了防止 Agent 在执行任务时“跑偏”，研究团队引入了结构化的任务清单。它将复杂的指令分解为2到6个可验证的原子里程碑（Milestones），并在每一步操作后，利用轻量级模型（如 Qwen-3-VL-8B）实时更新每个里程碑的状态（Pending、In Progress、Completed、Failed）。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

自适应记忆（Adaptive Memory）

针对上下文过长导致的幻觉问题，Avenir-Web 采用了分块递归摘要（Chunked Recursive Summarization）机制。它维持一个固定大小的滑动窗口，将历史操作提炼为抽象的记忆状态，并专门设置了“失败反思缓冲区”（Failure Reflection Buffer），确保 Agent 能从过去的错误中学习。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

实验结果

研究团队在 ONLINE-MIND2WEB 这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。结果显示，以 Gemini 3 Pro 为内核的 Avenir-Web 取得了53.7%的成功率，相比之前的开源标杆 SeeAct（30.0%），性能提升了23.7个百分点。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

更令人瞩目的是，Avenir-Web 的表现超越了闭源模型 Claude Computer Use 3.7（47.3%）和 ACT-1（52.7%），并开始逼近 OpenAI Operator（58.3%）等顶级商业 Agent 的水平。

即使使用完全开源且轻量的 Qwen-3-VL-8B 作为内核，Avenir-Web 依然取得了25.7%的成功率，逼近了早期基于 GPT-4o 的重型 Agent，如 Browser Use（26.0%）和 Agent-E（27.0%）。这充分说明，作为一套无需额外训练即可接入现有模型的开源 Agent Harness，Avenir-Web 在轻量模型上同样具备可观的实战价值。

消融实验：哪个模块最关键？

研究人员通过消融实验验证了各模块的贡献度。结果显示：

去除 EIP（经验模仿）后，成功率从48.0%骤降至36.0%，暴跌12个百分点，证明了外部知识对 Web 任务至关重要。
去除 MoGE（混合定位）后，成功率从48.0%降至40.0%；去除自适应记忆后，成功率进一步降至42.0%甚至36.0%。这说明定位与记忆模块都不可或缺。

对于长程任务，递归摘要机制有效避免了上下文溢出带来的决策混乱。

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

研究团队表示，Avenir-Web 为构建具备人类级可靠性的通用数字助理迈出了坚实的一步。目前该项目已开源，开发者无需训练新模型，即可将这套 Agent Harness 应用于自动化、软件测试及智能助手等场景的进一步探索。

论文链接：https://arxiv.org/abs/2602.02468
代码链接：https://github.com/Princeton-AI2-Lab/Avenir-Web

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/32695

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

告别“网页操作翻车”：开源Web Agent Avenir-Web 刷新纪录，成功率飙至53.7%

Web Agent 面临的三大核心挑战

Avenir-Web Agent Harness 的核心设计

经验模仿规划（Experience-Imitation Planning, EIP）

混合定位专家（Mixture of Grounding Experts, MoGE）

任务跟踪清单（Task-Tracking Checklist）

自适应记忆（Adaptive Memory）

实验结果

消融实验：哪个模块最关键？

相关推荐

6款AI驱动的开源CLI工具：让终端开发更智能高效

开源平替神器：一键部署你的私有SaaS服务栈

三大惊艳GitHub项目：AI论文助手、UI主题定制与开源知识库，提升你的技术生产力

6款颠覆开发体验的开源CLI工具：AI、自动化与隐私的完美融合

Vibe Coding革命：从代码苦力到AI导演，GitHub神级指南引领开发新范式