TuriX-CUA：让AI接管你的电脑，跨平台智能体实现自动化操作

2026年1月4日下午2:35 • 开源项目 • 阅读 398

TuriX-CUA（Computer Use Agent）是一个基于 Python 的开源 AI 智能体项目，旨在让 AI 接管你的电脑，通过观察屏幕、操作鼠标和键盘来自动化执行任务。

该项目近期进行了重大更新，引入了多模型架构，在标准测试集上的通过率超过了 80%。

项目地址：https://github.com/TurixAI/TuriX-CUA

项目简介

TuriX-CUA 的核心工作逻辑遵循“看-想-动”的暴力美学流程：

看（See）：周期性地截取屏幕画面。
想（Think）：将截图发送给多模态大语言模型，询问在当前界面状态下应执行何种操作（例如：“用户要求预订机票，接下来应该点击哪里？”）。
动（Act）：接收模型返回的坐标或指令，控制鼠标移动、点击或键盘输入。

与预设的固定“宏”不同，TuriX-CUA 具备动态响应能力，能够处理弹窗关闭、等待网页加载等意外情况。其宣称在成功率和执行速度上优于其他开源智能体。

核心特性

跨平台支持
项目最初专注于 macOS，现已扩展支持 Windows 系统。用户只需切换到相应的分支即可在对应平台上运行。

macOS 端演示能力：
- 预订机票、酒店和 Uber。
- 搜索 iPhone 价格，创建 Pages 文档并发送给联系人。
- 从 Discord 中提取数字文件生成柱状图，插入 PowerPoint 并回复老板。
Windows 端演示能力：
- 在 YouTube 搜索视频内容并点赞。

支持 MCP 协议
通过支持模型上下文协议（MCP），TuriX-CUA 可以作为工具被集成到 Claude for Desktop 或 Cursor 等应用中。用户可以直接向 Claude 发出高级指令（如“查找最近的 AI 新闻并撰写文档发送给老张”），Claude 将通过 MCP 调度 TuriX-CUA 执行具体的网页搜索、文档编辑和消息发送操作。

多模型架构
项目采用 Planner（规划师）与 Executor（执行者）分离的多智能体架构。Planner 负责将复杂任务拆解为具体步骤，Executor 负责执行精确的界面操作。这种“脑手分离”的设计旨在提升任务规划的可靠性，减少模型误操作。

快速上手指南

以下以 macOS 为例，Windows 平台操作逻辑类似。

第一步：环境准备
建议使用 Conda 管理 Python 环境以避免依赖冲突。
bash conda create -n turix_env python=3.12 conda activate turix_env git clone https://github.com/TurixAI/TuriX-CUA.git cd TuriX-CUA pip install -r requirements.txt

第二步：配置模型
在 examples/config.json 中配置使用的模型。项目默认推荐使用其官方 API（提供初始额度）。用户也可替换为其他 OpenAI 兼容的 API 或本地模型（如 Qwen3-VL），这需要修改 main.py 中的 build_llm 函数。Qwen3-VL 在 UI 元素识别方面表现优异。

第三步：系统权限配置
由于需要控制输入设备和屏幕录制，需在系统设置中授予必要权限：
* macOS：前往“系统设置 > 隐私与安全性 > 辅助功能”，为使用的终端和 IDE 授予权限。
* 若需控制 Safari，需在其“开发”菜单中启用“允许远程自动化”。
* 首次运行时，请务必允许系统弹出的控制权限请求。

第四步：运行任务
在 config.json 中配置任务描述，例如：
json { "agent": { "task": "打开Safari，搜索iPhone 17 Pro当前的价格，并在备忘录中记录下来" } }
运行命令启动智能体：
bash python examples/main.py

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16867

TuriX-CUA：让AI接管你的电脑，跨平台智能体实现自动化操作

项目简介

核心特性

快速上手指南

相关推荐

11月GitHub开源项目盘点：从AI代码助手到隐私优先工具，这些YYDS项目值得关注

GitNexus：为AI编程助手装上“代码透视眼”，彻底告别瞎改代码时代

字节携手北大开源Helios视频模型：14B参数实现19.5FPS，登顶Hugging Face！

LeRobot v0.5.0重磅发布：全面支持类人机器人Unitree G1，硬件生态与算法能力双突破

Context Mode：开源神器为AI开发节省98%上下文token，让工具调用不再“吃掉”你的工作空间