谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。

为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。

那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。

如今,Google 将这个想法变成了现实。他们在 GitHub 上开源了一个名为 Computer Use Preview 的项目,让 Gemini 模型直接接管了浏览器。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

简单来说,过去的自动化是“盲人摸象”,依赖代码定位;现在的自动化则是“睁眼看世界”,依靠视觉识别。

这个工具背后的逻辑非常符合直觉,它模拟了人的操作流程:截图 → 分析 → 行动

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

它会先为网页截图,然后利用 Gemini 2.5 Pro 模型强大的视觉能力,分析页面上有哪些输入框、按钮和下拉菜单,再决定下一步该做什么。

数据最能说明问题。在官方进行的网页任务完成度测试中,Gemini 获得了 69% 的高分。

这个成绩相当出色,直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

这意味着在处理复杂任务时,它更不容易“翻车”。

官方演示了几个令人印象深刻的实用场景。

一个是跨网站数据搬运

过去,要将一个宠物登记网站的信息录入到另一个 CRM 系统,需要编写复杂的脚本来处理数据接口。现在,只需告诉 AI:“把这上面的加州宠物信息填到那个系统里,顺便预约个时间。”它就能自行切换页面,完成复制粘贴等一系列操作。

另一个是视觉交互

面对一个贴满杂乱便签的网页,给它一个指令,它就能精准识别出每张便签的内容,并将它们拖拽到相应的分类区域。这种涉及空间理解和精细操作的任务,传统脚本很难处理。

如果想上手体验,目前有两种选择。

第一种是懒人模式:

不想折腾环境的用户,可以使用 Browserbase 提供的在线演示环境,直接打开网页即可试用,感受指挥 AI 上网的体验。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

在线体验地址:https://gemini.browserbase.com/

第二种是开发者模式:

如果希望将数据掌握在自己手中,可以在本地部署。Google 提供了详细的部署教程,几行命令即可运行。

# 1. 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 2. 安装依赖和浏览器内核
pip install -r requirements.txt
playwright install chrome

# 3. 开始运行
python main.py --query "去 Google 搜索一下 GitHubDaily"

不过需要提醒的是,虽然功能强大,但目前它仍是一个 Preview(预览版)

官方文档明确指出了一个已知 Bug:在某些系统上,底层的 Playwright 可能无法正确抓取系统原生的下拉菜单(<select> 元素)。因此,如果发现它对着下拉框发呆无法选择,这是目前的已知限制。

总的来说,Google 的这次开源,让浏览器自动化的水准迈上了一个新台阶。它不再仅仅是机械地执行死板的代码,而是开始具备了“看懂”和“思考”的能力。

GitHub 项目地址:https://github.com/google-gemini/computer-use-preview


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17037

(2)
上一篇 2026年1月6日 上午8:39
下一篇 2026年1月6日 下午12:52

相关推荐

  • 视频生成迈向通用世界模拟器:从视觉保真到因果推理的技术演进

    近年来,视频生成(Video Generation)与世界模型(World Models)已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,促使学界与业界开始严肃探讨:能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。 与…

    2026年2月7日
    44100
  • LangGraph 2026版:从核心概念到实战,构建自适应AI Agents的完整指南

    用 LangGraph 构建 AI Agents(2026 版):保姆级指南 过去两年里,LangGraph 已成为我在 AI 领域构建各类应用的核心工具。无论是聊天机器人、MCP助手、语音机器人还是内部自动化智能体,只要涉及推理、工具调用或多步骤工作流,我几乎都会选择 LangGraph。它反复出现在我的客户项目、个人实验乃至日常的生产系统中。 去年我撰写…

    2026年1月24日
    1.3K00
  • 从Sora到Seko:视频生成“不可能三角”的破局者与AI短剧工业化之路

    自Sora 2发布以来,全球科技巨头纷纷加码视频生成赛道,谷歌Veo 3.1、Runway Gen-4.5、快手Kling 2.6等迭代产品层出不穷,在控制精度、物理模拟、音画同步等维度持续突破。然而,当技术演示的光环褪去,一个根本性问题浮出水面:这些模型距离成为真正的生产力工具,究竟还有多远?答案或许隐藏在效率、成本与质量构成的“不可能三角”之中。 当前主…

    2025年12月15日
    58000
  • Greg Brockman亲述:奥特曼被解雇72小时全回顾

    真够抓马的!这可能是全网最详细的奥特曼宫斗大戏完整版回顾。 事件的另一位主人公、OpenAI二号位Greg Brockman 亲自揭秘: 奥特曼被解雇后的72小时,究竟发生了什么? 真相频出,但相当扎心: Greg和奥特曼真的在事发之前一无所知,直到现在,当事人自己都还在反思哪个环节出了错。 董事会一开始只想踢走奥特曼,但Greg太义气,当天就提了离职。 解…

    2026年4月24日
    11600
  • 2025人工智能年度榜单深度解析:评选机制、行业趋势与未来展望

    随着人工智能技术从实验室走向产业化,行业竞争格局日益清晰,权威评选成为衡量企业实力、产品创新与人物贡献的重要标尺。量子位主办的「2025人工智能年度榜单」已进入第八个年头,这不仅是一个简单的奖项申报活动,更是对中国AI产业发展脉络的年度梳理与前瞻性洞察。 从评选维度来看,本届榜单延续了企业、产品、人物三大核心板块,但细分为五类奖项,体现了对产业生态的精细化观…

    2025年11月13日
    29300