Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

逛 GitHub 的时候,发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目,目前在 GitHub 上已斩获近 2 万的 Star。

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

01 开源项目简介

在传统的网页自动化 RPA 开发中,最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本,一定经历过因为网站开发者修改了一个 CSS 类名或调整了按钮位置,导致整套脚本报错失效的崩溃瞬间。为了维护这些脚本,开发者往往需要花费大量时间去修补 XPath 或 CSS 选择器。

Skyvern 这个开源项目试图用大模型和计算机视觉彻底解决这个问题。它不再依赖死板的代码选择器,而是像人类一样“看懂”网页,从而进行自动化操作。

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

下面这张图展示了 Skyvern 的核心原理,以 AI 在亚马逊(Amazon.com)上完成购物任务为例:

整个系统分为三个主要模块:Planner(规划器)Task(任务执行器)Validator(验证器),本质上是一个规划-执行-验证的 AI 架构。

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

  • 用户输入:去亚马逊网站买一台 iPhone 16,一个手机壳和一个屏幕保护膜。
  • Planner:负责将上述复杂的宏观指令拆解成一步步可执行的子步骤。
  • Task:负责具体执行 Planner 分配的某一个步骤。
  • Validator:作为一个反馈机制,用于确认任务是否真的完成了。

Validator 的存在确保了每一步都确实完成后才进行下一步,防止 AI 在网页加载失败或操作失误时继续盲目执行。

例如,下面这个视频展示了使用该项目自动化获取 Hacker News 上热门帖子的过程:

你也可以前往 Skyvern 部署的网站亲自体验,通过界面可以观察到浏览器自动操作的实时画面。

  • 体验地址:https://app.skyvern.com/workflows

Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

02 如何使用

Skyvern 提供了 Python 库和基于 Docker 的独立服务两种主要使用方式。为了体验完整功能(包括 UI 界面),推荐使用 Docker 部署。

① 部署环境
你需要安装 Docker 和 Docker Desktop。

② 快速启动(Docker Compose)
克隆开源项目并启动服务:

“`bash

克隆代码

git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern

初始化配置文件(会生成 .env 文件)

此时需要根据提示填入你的 LLM API Key(如 OpenAI 或 Claude 的 Key)

./run_skyvern.sh init

启动服务

docker compose up -d
“`

启动成功后,访问浏览器 http://localhost:8080 即可看到可视化的操作界面。

③ 通过 Python 代码调用
如果你希望将它集成到自己的代码中,可以安装 SDK:

bash
pip install skyvern

简单的代码示例:

“`python
from skyvern import Skyvern

初始化

skyvern = Skyvern(api_key=”你的_SKYVERN_API_KEY”) # 注:如果是本地部署,需配置 base_url 指向本地服务

下达任务

task = await skyvern.run_task(
prompt=”去 Hacker News 网站找到今天热度最高的帖子,并返回标题和链接”
)
print(task)
“`

在运行过程中,你甚至可以通过 UI 界面看到浏览器自动操作的实时画面,非常适合调试和监控。

  • 开源地址:https://github.com/Skyvern-AI/skyvern

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15713

(0)
上一篇 2025年12月5日 下午1:02
下一篇 2025年12月6日 上午6:17

相关推荐

  • GitNexus:为AI编程助手装上“代码透视眼”,彻底告别瞎改代码时代

    如今的开发工具,正从早期的简单代码补全,向能够自主工作的智能体(Agent)方向快速演进。 诸如 Cursor 和 Claude Code 等 AI 编程助手,已成为许多开发者日常必备的工具。 然而,使用 AI 辅助编程时,一个令人头疼的问题是:刚刚修复了一个 Bug,却可能在意想不到的地方引入三个新的 Bug。 其根本原因在于,当前的 AI 编程助手普遍缺…

    2026年2月26日
    96500
  • TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

    TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破 在浏览GitHub时,一个名为 TuriX-CUA 的开源项目引起了我的注意。这是一个 Computer-Use Agent(电脑使用智能体)框架。 其核心目标是让大型AI模型能够像人类用户一样,直接观察电脑屏幕并执行鼠标、键盘等操作,从而完成跨多个桌面应用程序的复杂任务,而不仅限于在聊天对话…

    2026年3月8日
    18000
  • 3分钟部署AI生成网站:PinMe神器让Gemini代码秒变全球可访问应用

    Gemini 3 发布后令人惊艳的效果还在持续发酵。现在的 Gemini 3 写前端代码,尤其是 HTML/Tailwind/JS 这一套已经非常强大。你只需提供一个草图或几句描述,它就能生成可运行的代码。相信你也看到过类似下面这种炫酷的 Vibe Coding 网站: 比如上面这两个,像贾维斯一样手势操控仪表球;还有手势控制 3D 粒子旋转,效果非常出色。…

    2025年12月16日
    42100
  • GitHub热榜开源项目The Agency:55个AI专家角色库,打造你的虚拟AI公司

    最近,GitHub 趋势榜上出现了一个引人注目的开源项目——The Agency。它本质上是一个AI专家角色库,汇集了55个专业AI角色,并划分为9个部门,涵盖了从工程师、设计师到产品经理、增长黑客等各类常见岗位。 该项目起源于Reddit论坛上的一场讨论。作者发布想法后,短短12小时内便收到超过50位用户的资源请求,进而促成了该项目的诞生。 项目概览:它是…

    2026年3月9日
    52900
  • 30B参数开源模型UniScientist:实现自主科研闭环,将开放式问题转化为可验证单元测试

    30B参数开源模型UniScientist:实现自主科研闭环,将开放式问题转化为可验证单元测试(1/2) 当前许多大语言模型能够生成看似专业的论文,但其“科研能力”往往停留在表面——它们擅长模仿格式、排列逻辑和引用文献,却难以进行严谨、可验证的科学推理。模型常陷入“叙事推理”的陷阱,结论缺乏稳固的证据支撑,可复现性弱。 近期,UniPat AI团队发布了一个…

    2026年3月9日
    12000