谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。

为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。

那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。

如今,Google 将这个想法变成了现实。他们在 GitHub 上开源了一个名为 Computer Use Preview 的项目,让 Gemini 模型直接接管了浏览器。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

简单来说,过去的自动化是“盲人摸象”,依赖代码定位;现在的自动化则是“睁眼看世界”,依靠视觉识别。

这个工具背后的逻辑非常符合直觉,它模拟了人的操作流程:截图 → 分析 → 行动

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

它会先为网页截图,然后利用 Gemini 2.5 Pro 模型强大的视觉能力,分析页面上有哪些输入框、按钮和下拉菜单,再决定下一步该做什么。

数据最能说明问题。在官方进行的网页任务完成度测试中,Gemini 获得了 69% 的高分。

这个成绩相当出色,直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

这意味着在处理复杂任务时,它更不容易“翻车”。

官方演示了几个令人印象深刻的实用场景。

一个是跨网站数据搬运

过去,要将一个宠物登记网站的信息录入到另一个 CRM 系统,需要编写复杂的脚本来处理数据接口。现在,只需告诉 AI:“把这上面的加州宠物信息填到那个系统里,顺便预约个时间。”它就能自行切换页面,完成复制粘贴等一系列操作。

另一个是视觉交互

面对一个贴满杂乱便签的网页,给它一个指令,它就能精准识别出每张便签的内容,并将它们拖拽到相应的分类区域。这种涉及空间理解和精细操作的任务,传统脚本很难处理。

如果想上手体验,目前有两种选择。

第一种是懒人模式:

不想折腾环境的用户,可以使用 Browserbase 提供的在线演示环境,直接打开网页即可试用,感受指挥 AI 上网的体验。

谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

在线体验地址:https://gemini.browserbase.com/

第二种是开发者模式:

如果希望将数据掌握在自己手中,可以在本地部署。Google 提供了详细的部署教程,几行命令即可运行。

# 1. 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 2. 安装依赖和浏览器内核
pip install -r requirements.txt
playwright install chrome

# 3. 开始运行
python main.py --query "去 Google 搜索一下 GitHubDaily"

不过需要提醒的是,虽然功能强大,但目前它仍是一个 Preview(预览版)

官方文档明确指出了一个已知 Bug:在某些系统上,底层的 Playwright 可能无法正确抓取系统原生的下拉菜单(<select> 元素)。因此,如果发现它对着下拉框发呆无法选择,这是目前的已知限制。

总的来说,Google 的这次开源,让浏览器自动化的水准迈上了一个新台阶。它不再仅仅是机械地执行死板的代码,而是开始具备了“看懂”和“思考”的能力。

GitHub 项目地址:https://github.com/google-gemini/computer-use-preview


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17037

(2)
上一篇 2026年1月6日 上午8:39
下一篇 2026年1月6日 下午12:52

相关推荐

  • AI巨头的商业分岔:OpenAI的规模扩张与Anthropic的利润深耕

    2025年的AI产业格局正在经历一场深刻的结构性分化。OpenAI与Anthropic这两家源自同一技术血脉的公司,正沿着截然不同的商业路径向前推进——前者致力于构建面向大众的AI生态系统,后者则专注于企业级市场的利润深耕。这种分化不仅反映了AI技术商业化进程中的战略选择差异,更预示着整个行业将从技术驱动转向商业可持续性驱动的关键转折。 从技术同源到商业分道…

    2025年11月24日
    8100
  • 英伟达Rubin架构深度解析:六芯片协同设计如何重塑AI算力基础设施与供应链格局

    Rubin架构开启AI新纪元:CES 2026的算力革命 2026年1月,拉斯维加斯国际消费电子展(CES 2026)如期而至。作为全球科技产业的“风向标”,本次展会聚焦AI、机器人、智能驾驶等前沿领域,而英伟达CEO黄仁勋长达90分钟的主题演讲,无疑成为整场展会的焦点。 演讲中,黄仁勋正式宣布新一代AI超级计算平台——Vera Rubin(以下简称“Rub…

    AI产业动态 2026年1月20日
    14200
  • 大模型议会:多模型协同决策如何重塑AI信息处理范式

    在信息爆炸的时代,人类获取知识的模式正经历着深刻变革。从传统的线性阅读到如今的碎片化吸收,再到AI辅助的即时总结,效率已成为内容消费的核心驱动力。这种转变不仅体现在普通用户的行为中,连AI领域的顶尖专家也深度参与其中。前OpenAI联合创始人、特斯拉AI总监Andrej Karpathy近期公开表示已“养成用LLM阅读一切的习惯”,这标志着AI工具正从辅助角…

    2025年11月23日
    7400
  • AGI时间线之争:DeepMind与Anthropic领袖罕见同台,揭示AI造AI才是实现通用人工智能的关键拐点

    近日,在达沃斯世界经济论坛上,一场关于人工智能的对话因其嘉宾的分量而格外引人注目。台上两位核心人物,是当前AI领域最具影响力的领袖: Dario Amodei, Anthropic CEO,近年来对通用人工智能(AGI)时间线最为激进的预测者之一。 Demis Hassabis, Google DeepMind 创始人,AlphaFold 等突破性项目的核心…

    2026年1月21日
    6800
  • 共享自主框架突破灵巧操作数据瓶颈:字节跳动Seed团队VLA策略研究深度解析

    实现通用机器人的类人灵巧操作能力,始终是机器人学领域最具挑战性的前沿课题。传统机器人系统在结构化环境中表现稳定,但面对复杂、非结构化的日常场景时,其操作灵活性、适应性和泛化能力严重不足。近年来,视觉-语言-动作(Vision-Language-Action,VLA)模型通过融合多模态感知与自然语言理解,为机器人技能学习开辟了新路径,展现出从单一任务执行向通用…

    2025年12月11日
    8600