Skyvern：用大模型革新浏览器自动化，告别传统RPA的脆弱性

2025年12月5日下午2:29 • 开源项目 • 阅读 184

逛 GitHub 的时候，发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目，目前在 GitHub 上已斩获近 2 万的 Star。

01 开源项目简介

在传统的网页自动化 RPA 开发中，最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本，一定经历过因为网站开发者修改了一个 CSS 类名或调整了按钮位置，导致整套脚本报错失效的崩溃瞬间。为了维护这些脚本，开发者往往需要花费大量时间去修补 XPath 或 CSS 选择器。

Skyvern 这个开源项目试图用大模型和计算机视觉彻底解决这个问题。它不再依赖死板的代码选择器，而是像人类一样“看懂”网页，从而进行自动化操作。

下面这张图展示了 Skyvern 的核心原理，以 AI 在亚马逊（Amazon.com）上完成购物任务为例：

整个系统分为三个主要模块：Planner（规划器）、Task（任务执行器） 和 Validator（验证器），本质上是一个规划-执行-验证的 AI 架构。

用户输入：去亚马逊网站买一台 iPhone 16，一个手机壳和一个屏幕保护膜。
Planner：负责将上述复杂的宏观指令拆解成一步步可执行的子步骤。
Task：负责具体执行 Planner 分配的某一个步骤。
Validator：作为一个反馈机制，用于确认任务是否真的完成了。

Validator 的存在确保了每一步都确实完成后才进行下一步，防止 AI 在网页加载失败或操作失误时继续盲目执行。

例如，下面这个视频展示了使用该项目自动化获取 Hacker News 上热门帖子的过程：

你也可以前往 Skyvern 部署的网站亲自体验，通过界面可以观察到浏览器自动操作的实时画面。

体验地址：https://app.skyvern.com/workflows

02 如何使用

Skyvern 提供了 Python 库和基于 Docker 的独立服务两种主要使用方式。为了体验完整功能（包括 UI 界面），推荐使用 Docker 部署。

① 部署环境
你需要安装 Docker 和 Docker Desktop。

② 快速启动（Docker Compose）
克隆开源项目并启动服务：

“`bash

克隆代码

git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern

初始化配置文件（会生成 .env 文件）

此时需要根据提示填入你的 LLM API Key（如 OpenAI 或 Claude 的 Key）

./run_skyvern.sh init

启动服务

docker compose up -d
“`

启动成功后，访问浏览器 http://localhost:8080 即可看到可视化的操作界面。

③ 通过 Python 代码调用
如果你希望将它集成到自己的代码中，可以安装 SDK：

bash pip install skyvern

简单的代码示例：

“`python
from skyvern import Skyvern

初始化

skyvern = Skyvern(api_key=”你的_SKYVERN_API_KEY”) # 注：如果是本地部署，需配置 base_url 指向本地服务

下达任务

task = await skyvern.run_task(
prompt=”去 Hacker News 网站找到今天热度最高的帖子，并返回标题和链接”
)
print(task)
“`

在运行过程中，你甚至可以通过 UI 界面看到浏览器自动操作的实时画面，非常适合调试和监控。

开源地址：https://github.com/Skyvern-AI/skyvern

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15713

Skyvern：用大模型革新浏览器自动化，告别传统RPA的脆弱性

01 开源项目简介

02 如何使用

克隆代码

初始化配置文件（会生成 .env 文件）

此时需要根据提示填入你的 LLM API Key（如 OpenAI 或 Claude 的 Key）

启动服务

初始化

下达任务

相关推荐

GitNexus：为AI编程助手装上“代码透视眼”，彻底告别瞎改代码时代

TuriX-CUA：让AI像人类一样操作电脑，跨应用自动化新突破

3分钟部署AI生成网站：PinMe神器让Gemini代码秒变全球可访问应用

GitHub热榜开源项目The Agency：55个AI专家角色库，打造你的虚拟AI公司

30B参数开源模型UniScientist：实现自主科研闭环，将开放式问题转化为可验证单元测试