告别“网页操作翻车”:开源Web Agent Avenir-Web 刷新纪录,成功率飙至53.7%
伦敦大学学院(UCL)、普林斯顿大学与爱丁堡大学的联合研究团队,近日推出了名为 Avenir-Web 的开源框架。它让现有的多模态模型具备了像人类一样操作网页的能力,无需任何额外训练即可投入使用。

现有的Web Agent在处理复杂网页结构(例如 iframe 和 Shadow DOM)时,常常会遇到“定位不准”、“缺乏常识”或“操作过程中遗忘目标”等棘手问题。
尤其是在长程任务(Long-horizon tasks)中,由于Agent对特定网站的操作流程缺乏认知,常常只能进行盲目探索,导致任务成功率普遍偏低。
Avenir-Web 本质上是一套开源的 Agent Harness,即一个无需训练(training-free)的框架。在ONLINE-MIND2WEB基准测试中,它取得了53.7%的成功率,一举刷新了开源领域的最佳纪录。

Web Agent 面临的三大核心挑战
研究团队指出,当前Web Agent在实际部署中普遍存在三个关键瓶颈:
- 元素定位不精准(Inaccurate Grounding):过度依赖DOM树,在处理Canvas、嵌套iframe等非标准结构时,常常失效。
- 缺乏站点特定流程知识(Site-specific Procedural Knowledge):Agent无法像人类一样查阅“用户手册”或“攻略”,只能在页面中盲目摸索。
- 长程任务跟踪与记忆不稳定(Unstable Memory):在跨页面操作时,容易发生“导航漂移”,陷入反复出错的死循环。
针对上述痛点,Avenir-Web 提出了一套模块化的 Agent Harness 框架。由于它本身是一个 Harness 而非需要重新训练的模型,因此天然具备无需训练(training-free)的部署优势。
Avenir-Web Agent Harness 的核心设计

经验模仿规划(Experience-Imitation Planning, EIP)
人类在操作陌生网站时,往往会先搜索一下攻略。EIP模块模仿了这一行为:在任务开始前,它会利用大模型的在线搜索能力,检索目标网站的帮助中心、论坛或使用指南,并将这些信息转化为高层次的策略路线图。
这种“先读攻略再动手”的方式,显著减少了Agent的盲目探索时间,并有效规避了不可逆的导航错误。

混合定位专家(Mixture of Grounding Experts, MoGE)
MoGE 采用了“视觉优先”的原则。它将整个网页视为一张统一的视觉画布,直接基于坐标进行交互。这种方法天然地解决了让依赖 DOM 树的 Agent 头疼的嵌套 iframe 问题。
当视觉信息不足以支撑精准定位时,MoGE 会触发语义结构推理作为兜底方案。这种“视觉坐标 + 语义兜底”的混合策略,使 Agent 在处理各种 UI 范式时都具备极强的鲁棒性。

任务跟踪清单(Task-Tracking Checklist)
为了防止 Agent 在执行任务时“跑偏”,研究团队引入了结构化的任务清单。它将复杂的指令分解为2到6个可验证的原子里程碑(Milestones),并在每一步操作后,利用轻量级模型(如 Qwen-3-VL-8B)实时更新每个里程碑的状态(Pending、In Progress、Completed、Failed)。

自适应记忆(Adaptive Memory)
针对上下文过长导致的幻觉问题,Avenir-Web 采用了分块递归摘要(Chunked Recursive Summarization)机制。它维持一个固定大小的滑动窗口,将历史操作提炼为抽象的记忆状态,并专门设置了“失败反思缓冲区”(Failure Reflection Buffer),确保 Agent 能从过去的错误中学习。

实验结果
研究团队在 ONLINE-MIND2WEB 这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。结果显示,以 Gemini 3 Pro 为内核的 Avenir-Web 取得了53.7%的成功率,相比之前的开源标杆 SeeAct(30.0%),性能提升了23.7个百分点。

更令人瞩目的是,Avenir-Web 的表现超越了闭源模型 Claude Computer Use 3.7(47.3%)和 ACT-1(52.7%),并开始逼近 OpenAI Operator(58.3%)等顶级商业 Agent 的水平。
即使使用完全开源且轻量的 Qwen-3-VL-8B 作为内核,Avenir-Web 依然取得了25.7%的成功率,逼近了早期基于 GPT-4o 的重型 Agent,如 Browser Use(26.0%)和 Agent-E(27.0%)。这充分说明,作为一套无需额外训练即可接入现有模型的开源 Agent Harness,Avenir-Web 在轻量模型上同样具备可观的实战价值。
消融实验:哪个模块最关键?
研究人员通过消融实验验证了各模块的贡献度。结果显示:
- 去除 EIP(经验模仿)后,成功率从48.0%骤降至36.0%,暴跌12个百分点,证明了外部知识对 Web 任务至关重要。
- 去除 MoGE(混合定位)后,成功率从48.0%降至40.0%;去除自适应记忆后,成功率进一步降至42.0%甚至36.0%。这说明定位与记忆模块都不可或缺。
对于长程任务,递归摘要机制有效避免了上下文溢出带来的决策混乱。

研究团队表示,Avenir-Web 为构建具备人类级可靠性的通用数字助理迈出了坚实的一步。目前该项目已开源,开发者无需训练新模型,即可将这套 Agent Harness 应用于自动化、软件测试及智能助手等场景的进一步探索。
- 论文链接:https://arxiv.org/abs/2602.02468
- 代码链接:https://github.com/Princeton-AI2-Lab/Avenir-Web
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32695

