谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。

为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。

那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。

如今,Google 将这个想法变成了现实。他们在 GitHub 上开源了一个名为 Computer Use Preview 的项目,让 Gemini 模型直接接管了浏览器。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

简单来说,过去的自动化是“盲人摸象”,依赖代码定位;现在的自动化则是“睁眼看世界”,依靠视觉识别。

这个工具背后的逻辑非常符合直觉,它模拟了人的操作流程:截图 → 分析 → 行动

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

它会先为网页截图,然后利用 Gemini 2.5 Pro 模型强大的视觉能力,分析页面上有哪些输入框、按钮和下拉菜单,再决定下一步该做什么。

数据最能说明问题。在官方进行的网页任务完成度测试中,Gemini 获得了 69% 的高分。

这个成绩相当出色,直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

这意味着在处理复杂任务时,它更不容易“翻车”。

官方演示了几个令人印象深刻的实用场景。

一个是跨网站数据搬运

过去,要将一个宠物登记网站的信息录入到另一个 CRM 系统,需要编写复杂的脚本来处理数据接口。现在,只需告诉 AI:“把这上面的加州宠物信息填到那个系统里,顺便预约个时间。”它就能自行切换页面,完成复制粘贴等一系列操作。

另一个是视觉交互

面对一个贴满杂乱便签的网页,给它一个指令,它就能精准识别出每张便签的内容,并将它们拖拽到相应的分类区域。这种涉及空间理解和精细操作的任务,传统脚本很难处理。

如果想上手体验,目前有两种选择。

第一种是懒人模式:

不想折腾环境的用户,可以使用 Browserbase 提供的在线演示环境,直接打开网页即可试用,感受指挥 AI 上网的体验。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

在线体验地址:https://gemini.browserbase.com/

第二种是开发者模式:

如果希望将数据掌握在自己手中,可以在本地部署。Google 提供了详细的部署教程,几行命令即可运行。

# 1. 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 2. 安装依赖和浏览器内核
pip install -r requirements.txt
playwright install chrome

# 3. 开始运行
python main.py --query "去 Google 搜索一下 GitHubDaily"

不过需要提醒的是,虽然功能强大,但目前它仍是一个 Preview(预览版)

官方文档明确指出了一个已知 Bug:在某些系统上,底层的 Playwright 可能无法正确抓取系统原生的下拉菜单(<select> 元素)。因此,如果发现它对着下拉框发呆无法选择,这是目前的已知限制。

总的来说,Google 的这次开源,让浏览器自动化的水准迈上了一个新台阶。它不再仅仅是机械地执行死板的代码,而是开始具备了“看懂”和“思考”的能力。

GitHub 项目地址:https://github.com/google-gemini/computer-use-preview


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17037

(2)
上一篇 2026年1月6日 上午8:39
下一篇 2026年1月6日 下午12:52

相关推荐

  • 寒武纪-S:重新定义空间智能,开启AI超感知时代

    在人工智能技术快速迭代的当下,一个名为“寒武纪-S”(Cambrian-S)的项目正悄然引发行业深度思考。该项目由谢赛宁牵头,并获得了李飞飞和Yann LeCun等顶尖学者的支持,其核心目标并非追逐传统的芯片硬件竞赛,而是直指AI发展的一个根本性挑战:如何让人工智能真正学会感知和理解三维空间世界。 寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模…

    2025年11月24日
    15500
  • 阿里千问3.5-Plus重磅开源:原生多模态、性能倒挂、价格屠夫,开源大模型迎来王炸级突破

    前阵子,各大模型厂商纷纷迭代产品,功能之多令人眼花缭乱。 就在大家以为临近春节,AI圈已无新牌可打时,阿里通义千问却毫无预兆地甩出了一对“王炸”——全新一代大模型 Qwen 3.5-Plus 正式重磅开源。 该模型在多模态理解、复杂推理、编程及Agent等核心维度上,不仅全面领先于同级开源模型,更在多项基准测试中足以媲美顶级闭源模型。 此次发布的核心亮点如下…

    2026年2月16日
    25500
  • 智谱冲刺全球大模型第一股:IPO募资43亿港元,GLM-4.7登顶开源与国产双榜

    Jay 发自 凹非寺 全球大模型第一股,进入最后冲刺阶段。 智谱AI正式启动公开招股,股票代码2513。公司预计将于2026年1月8日在香港交易所主板挂牌上市。 根据招股文件披露,本次IPO预计募集资金总额约43亿港元,上市后市值预计将超过511亿港元。 核心信息如下—— 股票名称: 智谱 股份代号: 2513 预募资总额:约43亿港元 IPO预估值:超51…

    2025年12月30日
    36700
  • 共享自主框架突破灵巧操作数据瓶颈:字节跳动Seed团队VLA策略研究深度解析

    实现通用机器人的类人灵巧操作能力,始终是机器人学领域最具挑战性的前沿课题。传统机器人系统在结构化环境中表现稳定,但面对复杂、非结构化的日常场景时,其操作灵活性、适应性和泛化能力严重不足。近年来,视觉-语言-动作(Vision-Language-Action,VLA)模型通过融合多模态感知与自然语言理解,为机器人技能学习开辟了新路径,展现出从单一任务执行向通用…

    2025年12月11日
    19000
  • 高通进军AI推理芯片市场:挑战英伟达霸权的移动技术新路径

    在人工智能芯片领域,英伟达长期占据主导地位,其GPU在训练和推理市场均形成近乎垄断的格局。然而,这种局面正面临来自多方的挑战。高通作为移动通信和计算领域的巨头,近日宣布将于明年推出AI200芯片,并计划在2027年跟进AI250芯片,正式进军AI推理芯片市场。这一战略举措不仅反映了高通自身业务拓展的雄心,更揭示了AI芯片市场格局可能发生的深刻变化。 高通此次…

    2025年10月28日
    17300