做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。
为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。
那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。
如今,Google 将这个想法变成了现实。他们在 GitHub 上开源了一个名为 Computer Use Preview 的项目,让 Gemini 模型直接接管了浏览器。

简单来说,过去的自动化是“盲人摸象”,依赖代码定位;现在的自动化则是“睁眼看世界”,依靠视觉识别。
这个工具背后的逻辑非常符合直觉,它模拟了人的操作流程:截图 → 分析 → 行动。

它会先为网页截图,然后利用 Gemini 2.5 Pro 模型强大的视觉能力,分析页面上有哪些输入框、按钮和下拉菜单,再决定下一步该做什么。
数据最能说明问题。在官方进行的网页任务完成度测试中,Gemini 获得了 69% 的高分。
这个成绩相当出色,直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

这意味着在处理复杂任务时,它更不容易“翻车”。
官方演示了几个令人印象深刻的实用场景。
一个是跨网站数据搬运。
过去,要将一个宠物登记网站的信息录入到另一个 CRM 系统,需要编写复杂的脚本来处理数据接口。现在,只需告诉 AI:“把这上面的加州宠物信息填到那个系统里,顺便预约个时间。”它就能自行切换页面,完成复制粘贴等一系列操作。
另一个是视觉交互。
面对一个贴满杂乱便签的网页,给它一个指令,它就能精准识别出每张便签的内容,并将它们拖拽到相应的分类区域。这种涉及空间理解和精细操作的任务,传统脚本很难处理。
如果想上手体验,目前有两种选择。
第一种是懒人模式:
不想折腾环境的用户,可以使用 Browserbase 提供的在线演示环境,直接打开网页即可试用,感受指挥 AI 上网的体验。

在线体验地址:https://gemini.browserbase.com/
第二种是开发者模式:
如果希望将数据掌握在自己手中,可以在本地部署。Google 提供了详细的部署教程,几行命令即可运行。
# 1. 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate
# 2. 安装依赖和浏览器内核
pip install -r requirements.txt
playwright install chrome
# 3. 开始运行
python main.py --query "去 Google 搜索一下 GitHubDaily"
不过需要提醒的是,虽然功能强大,但目前它仍是一个 Preview(预览版)。
官方文档明确指出了一个已知 Bug:在某些系统上,底层的 Playwright 可能无法正确抓取系统原生的下拉菜单(<select> 元素)。因此,如果发现它对着下拉框发呆无法选择,这是目前的已知限制。
总的来说,Google 的这次开源,让浏览器自动化的水准迈上了一个新台阶。它不再仅仅是机械地执行死板的代码,而是开始具备了“看懂”和“思考”的能力。
GitHub 项目地址:https://github.com/google-gemini/computer-use-preview
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17037
