TuriX-CUA:让AI接管你的电脑,跨平台智能体实现自动化操作

TuriX-CUA(Computer Use Agent)是一个基于 Python 的开源 AI 智能体项目,旨在让 AI 接管你的电脑,通过观察屏幕、操作鼠标和键盘来自动化执行任务。

该项目近期进行了重大更新,引入了多模型架构,在标准测试集上的通过率超过了 80%。

TuriX-CUA:让AI接管你的电脑,跨平台智能体实现自动化操作

  • 项目地址:https://github.com/TurixAI/TuriX-CUA

项目简介

TuriX-CUA 的核心工作逻辑遵循“看-想-动”的暴力美学流程:

  1. 看(See):周期性地截取屏幕画面。
  2. 想(Think):将截图发送给多模态大语言模型,询问在当前界面状态下应执行何种操作(例如:“用户要求预订机票,接下来应该点击哪里?”)。
  3. 动(Act):接收模型返回的坐标或指令,控制鼠标移动、点击或键盘输入。

与预设的固定“宏”不同,TuriX-CUA 具备动态响应能力,能够处理弹窗关闭、等待网页加载等意外情况。其宣称在成功率和执行速度上优于其他开源智能体。

TuriX-CUA:让AI接管你的电脑,跨平台智能体实现自动化操作

核心特性

跨平台支持
项目最初专注于 macOS,现已扩展支持 Windows 系统。用户只需切换到相应的分支即可在对应平台上运行。

  • macOS 端演示能力
    • 预订机票、酒店和 Uber。
    • 搜索 iPhone 价格,创建 Pages 文档并发送给联系人。
    • 从 Discord 中提取数字文件生成柱状图,插入 PowerPoint 并回复老板。
  • Windows 端演示能力
    • 在 YouTube 搜索视频内容并点赞。

支持 MCP 协议
通过支持模型上下文协议(MCP),TuriX-CUA 可以作为工具被集成到 Claude for Desktop 或 Cursor 等应用中。用户可以直接向 Claude 发出高级指令(如“查找最近的 AI 新闻并撰写文档发送给老张”),Claude 将通过 MCP 调度 TuriX-CUA 执行具体的网页搜索、文档编辑和消息发送操作。

多模型架构
项目采用 Planner(规划师)与 Executor(执行者)分离的多智能体架构。Planner 负责将复杂任务拆解为具体步骤,Executor 负责执行精确的界面操作。这种“脑手分离”的设计旨在提升任务规划的可靠性,减少模型误操作。

快速上手指南

以下以 macOS 为例,Windows 平台操作逻辑类似。

第一步:环境准备
建议使用 Conda 管理 Python 环境以避免依赖冲突。
bash
conda create -n turix_env python=3.12
conda activate turix_env
git clone https://github.com/TurixAI/TuriX-CUA.git
cd TuriX-CUA
pip install -r requirements.txt

第二步:配置模型
examples/config.json 中配置使用的模型。项目默认推荐使用其官方 API(提供初始额度)。用户也可替换为其他 OpenAI 兼容的 API 或本地模型(如 Qwen3-VL),这需要修改 main.py 中的 build_llm 函数。Qwen3-VL 在 UI 元素识别方面表现优异。

第三步:系统权限配置
由于需要控制输入设备和屏幕录制,需在系统设置中授予必要权限:
* macOS:前往“系统设置 > 隐私与安全性 > 辅助功能”,为使用的终端和 IDE 授予权限。
* 若需控制 Safari,需在其“开发”菜单中启用“允许远程自动化”。
* 首次运行时,请务必允许系统弹出的控制权限请求。

第四步:运行任务
config.json 中配置任务描述,例如:
json
{
"agent": {
"task": "打开Safari,搜索iPhone 17 Pro当前的价格,并在备忘录中记录下来"
}
}

运行命令启动智能体:
bash
python examples/main.py


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16867

(0)
上一篇 2026年1月4日 下午1:25
下一篇 2026年1月4日 下午3:08

相关推荐

  • 阿里开源OpenSandbox:AI智能体的生产级沙盒来了,支持多语言、K8s原生部署

    沙盒已成为智能体开发的关键基础设施。近期,阿里巴巴开源了其生产级沙盒解决方案——OpenSandbox。 该平台的核心目标是确保不可信代码的安全执行。它提供了统一的多语言 SDK 接口,支持 Python、Java、JavaScript、C# 等主流编程语言。底层同时兼容 Docker 与 Kubernetes 运行时环境,既便于本地快速测试,也能无缝部署至…

    2026年3月1日
    1.3K00
  • AI工具新突破:Claude联网神器、Zig浏览器11倍速、白嫖全家桶,你的浏览器就是API!

    AI 工具新突破:Claude 联网神器、Zig 浏览器 11 倍速、白嫖全家桶,你的浏览器就是 API! 01 为 Claude Code 赋予完整联网能力 近期使用 Claude Code 的用户可能发现,其网络搜索功能时常失效。它要么过度依赖搜索工具而忽略网页内容,要么在遇到需要登录的网站时直接停止工作。 一位开发者于六天前开源了一个名为 Web Ac…

    2026年3月29日
    63600
  • 3分钟部署AI生成网站:PinMe神器让Gemini代码秒变全球可访问应用

    Gemini 3 发布后令人惊艳的效果还在持续发酵。现在的 Gemini 3 写前端代码,尤其是 HTML/Tailwind/JS 这一套已经非常强大。你只需提供一个草图或几句描述,它就能生成可运行的代码。相信你也看到过类似下面这种炫酷的 Vibe Coding 网站: 比如上面这两个,像贾维斯一样手势操控仪表球;还有手势控制 3D 粒子旋转,效果非常出色。…

    2025年12月16日
    60700
  • AI编码效率革命!5个开源工具让你的代码生成快10倍

    01 一份CLAUDE.md文件 有开发者将Andrej Karpathy对AI编程的各类点评与建议,系统性地提炼为一套编码规范,并打包成Claude Code专用的CLAUDE.md配置文件。 目前,该项目已斩获8.6万Star。 该插件的核心理念可归纳为四条准则:构思清晰后再动笔、代码力求精简、仅修改必要之处、一切行动围绕目标展开。 听上去似乎很简单,但…

    6天前
    48100
  • 揭秘OpenClaw:从周末项目到现象级开源AI的5个惊人真相

    OpenClaw 创始人 Peter Steinberger 过去几天,OpenClaw 几乎席卷了技术社区的信息流。每一位 AI 爱好者都在讨论它——人们利用这个自动化系统构建各类项目,探索着无穷无尽的应用场景。 简单来说,OpenClaw 是一个开源的自主智能体,旨在扮演一个主动的 AI 助手。它不同于需要等待指令的标准聊天机器人,而是作为一个常驻服务运…

    开源项目 2026年2月26日
    41200