Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

逛 GitHub 的时候,发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目,目前在 GitHub 上已斩获近 2 万的 Star。

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

01 开源项目简介

在传统的网页自动化 RPA 开发中,最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本,一定经历过因为网站开发者修改了一个 CSS 类名或调整了按钮位置,导致整套脚本报错失效的崩溃瞬间。为了维护这些脚本,开发者往往需要花费大量时间去修补 XPath 或 CSS 选择器。

Skyvern 这个开源项目试图用大模型和计算机视觉彻底解决这个问题。它不再依赖死板的代码选择器,而是像人类一样“看懂”网页,从而进行自动化操作。

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

下面这张图展示了 Skyvern 的核心原理,以 AI 在亚马逊(Amazon.com)上完成购物任务为例:

整个系统分为三个主要模块:Planner(规划器)Task(任务执行器)Validator(验证器),本质上是一个规划-执行-验证的 AI 架构。

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

  • 用户输入:去亚马逊网站买一台 iPhone 16,一个手机壳和一个屏幕保护膜。
  • Planner:负责将上述复杂的宏观指令拆解成一步步可执行的子步骤。
  • Task:负责具体执行 Planner 分配的某一个步骤。
  • Validator:作为一个反馈机制,用于确认任务是否真的完成了。

Validator 的存在确保了每一步都确实完成后才进行下一步,防止 AI 在网页加载失败或操作失误时继续盲目执行。

例如,下面这个视频展示了使用该项目自动化获取 Hacker News 上热门帖子的过程:

你也可以前往 Skyvern 部署的网站亲自体验,通过界面可以观察到浏览器自动操作的实时画面。

  • 体验地址:https://app.skyvern.com/workflows

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

02 如何使用

Skyvern 提供了 Python 库和基于 Docker 的独立服务两种主要使用方式。为了体验完整功能(包括 UI 界面),推荐使用 Docker 部署。

① 部署环境
你需要安装 Docker 和 Docker Desktop。

② 快速启动(Docker Compose)
克隆开源项目并启动服务:

“`bash

克隆代码

git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern

初始化配置文件(会生成 .env 文件)

此时需要根据提示填入你的 LLM API Key(如 OpenAI 或 Claude 的 Key)

./run_skyvern.sh init

启动服务

docker compose up -d
“`

启动成功后,访问浏览器 http://localhost:8080 即可看到可视化的操作界面。

③ 通过 Python 代码调用
如果你希望将它集成到自己的代码中,可以安装 SDK:

bash
pip install skyvern

简单的代码示例:

“`python
from skyvern import Skyvern

初始化

skyvern = Skyvern(api_key=”你的_SKYVERN_API_KEY”) # 注:如果是本地部署,需配置 base_url 指向本地服务

下达任务

task = await skyvern.run_task(
prompt=”去 Hacker News 网站找到今天热度最高的帖子,并返回标题和链接”
)
print(task)
“`

在运行过程中,你甚至可以通过 UI 界面看到浏览器自动操作的实时画面,非常适合调试和监控。

  • 开源地址:https://github.com/Skyvern-AI/skyvern

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15713

(0)
上一篇 2025年12月5日 下午1:02
下一篇 2025年12月6日 上午6:17

相关推荐

  • 本周GitHub精选:8个AI开源项目,从智能体UI到文档处理,全面提升开发效率

    Skills 开源合集 该项目由 Anthropic 发布并维护,在 GitHub 上已获得 28K Star。它汇集了多种可复用的“Skills”(技能包)。 Skills 本质上是将复杂的提示词、脚本、模板和资源打包成标准化的能力单元。在向 Claude 分派任务时,它可以动态加载并使用相关的 Skill。 该仓库提供了多种类型的 Skill 示例,涵盖…

    2025年12月28日
    8700
  • 2026年工作流升级指南:10个现代Python库助你提升开发效率

    现代 Python 强调速度、清晰性和低摩擦。开发者期待能消除环境搭建之痛、缩短反馈回路的工具。 以下这些库可以在不增加复杂度的前提下,帮助你改进日常工作。 1. Pixi 📦 如果你曾花更多时间在排查虚拟环境而不是写代码上,Pixi 就是为你准备的。它是一个构建在 Conda 生态上的高性能包管理器,但针对速度与简洁做了优化。 为什么值得切换: 相比传统 …

    6天前
    4500
  • AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

    01 通过终端控制电脑 把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。 Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python、JavaScript、Shell 等语言,直接运行在你的终端里。 通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完…

    2025年12月22日
    6500
  • Vibe Coding革命:从代码苦力到AI导演,GitHub神级指南引领开发新范式

    Vibe Coding 的核心,是让开发者从编写每一行代码的“苦力”中解放出来,转而扮演“导演”的角色。 开发者只需专注于把握产品的核心逻辑、用户流程、审美与交互等宏观“感觉”(Vibe),而将具体的编码实现工作交给 Cursor、Windsurf、Trae 等 AI 编程工具来完成。正如 Andrej Karpathy 所言:“我几乎不写代码了,我只负责调…

    2025年12月27日
    7400
  • 2026年重塑工作流自动化:n8n的15大开源AI应用场景解析

    如果你还在手动在应用之间复制数据、为每个集成编写自定义脚本,或为 Zapier 支付高昂费用——你将很快明白为什么有超过 7,264+ 个 workflow 模板 和 55,000+ 名社区成员 选择用 n8n 来搭建他们的自动化流程。 n8n(读作“n-eight-n”)不只是另一个自动化工具。它是一个开源、可自托管的 workflow 平台,在无代码的易…

    2026年1月9日
    22300