谷歌开源Computer Use Preview：视觉AI革新浏览器自动化，让Selenium黯然失色

2026年1月6日上午10:55 • AI产业动态 • 阅读 231

做过爬虫或自动化测试的人，大多体会过被 Selenium 和 Puppeteer 支配的恐惧。

为了点击一个按钮，我们不得不去扒网页源码，寻找 ID 或 Class。一旦网页改版，精心编写的脚本瞬间报错，维护起来耗时耗力。

那时我就在想，如果 AI 能像人一样，看一眼屏幕就知道该点哪里，该多好。

如今，Google 将这个想法变成了现实。他们在 GitHub 上开源了一个名为 Computer Use Preview 的项目，让 Gemini 模型直接接管了浏览器。

谷歌开源Computer Use Preview：视觉AI革新浏览器自动化，让Selenium黯然失色

简单来说，过去的自动化是“盲人摸象”，依赖代码定位；现在的自动化则是“睁眼看世界”，依靠视觉识别。

这个工具背后的逻辑非常符合直觉，它模拟了人的操作流程：截图 → 分析 → 行动。

它会先为网页截图，然后利用 Gemini 2.5 Pro 模型强大的视觉能力，分析页面上有哪些输入框、按钮和下拉菜单，再决定下一步该做什么。

数据最能说明问题。在官方进行的网页任务完成度测试中，Gemini 获得了 69% 的高分。

这个成绩相当出色，直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

这意味着在处理复杂任务时，它更不容易“翻车”。

官方演示了几个令人印象深刻的实用场景。

一个是跨网站数据搬运。

过去，要将一个宠物登记网站的信息录入到另一个 CRM 系统，需要编写复杂的脚本来处理数据接口。现在，只需告诉 AI：“把这上面的加州宠物信息填到那个系统里，顺便预约个时间。”它就能自行切换页面，完成复制粘贴等一系列操作。

另一个是视觉交互。

面对一个贴满杂乱便签的网页，给它一个指令，它就能精准识别出每张便签的内容，并将它们拖拽到相应的分类区域。这种涉及空间理解和精细操作的任务，传统脚本很难处理。

如果想上手体验，目前有两种选择。

第一种是懒人模式：

不想折腾环境的用户，可以使用 Browserbase 提供的在线演示环境，直接打开网页即可试用，感受指挥 AI 上网的体验。

在线体验地址：https://gemini.browserbase.com/

第二种是开发者模式：

如果希望将数据掌握在自己手中，可以在本地部署。Google 提供了详细的部署教程，几行命令即可运行。

# 1. 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 2. 安装依赖和浏览器内核
pip install -r requirements.txt
playwright install chrome

# 3. 开始运行
python main.py --query "去 Google 搜索一下 GitHubDaily"

不过需要提醒的是，虽然功能强大，但目前它仍是一个 Preview（预览版）。

官方文档明确指出了一个已知 Bug：在某些系统上，底层的 Playwright 可能无法正确抓取系统原生的下拉菜单（<select> 元素）。因此，如果发现它对着下拉框发呆无法选择，这是目前的已知限制。

总的来说，Google 的这次开源，让浏览器自动化的水准迈上了一个新台阶。它不再仅仅是机械地执行死板的代码，而是开始具备了“看懂”和“思考”的能力。

GitHub 项目地址：https://github.com/google-gemini/computer-use-preview

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17037

谷歌开源Computer Use Preview：视觉AI革新浏览器自动化，让Selenium黯然失色

相关推荐

寒武纪-S：重新定义空间智能，开启AI超感知时代

阿里千问3.5-Plus重磅开源：原生多模态、性能倒挂、价格屠夫，开源大模型迎来王炸级突破

智谱冲刺全球大模型第一股：IPO募资43亿港元，GLM-4.7登顶开源与国产双榜

共享自主框架突破灵巧操作数据瓶颈：字节跳动Seed团队VLA策略研究深度解析

高通进军AI推理芯片市场：挑战英伟达霸权的移动技术新路径