TuriX-CUA(Computer Use Agent)是一个基于 Python 的开源 AI 智能体项目,旨在让 AI 接管你的电脑,通过观察屏幕、操作鼠标和键盘来自动化执行任务。
该项目近期进行了重大更新,引入了多模型架构,在标准测试集上的通过率超过了 80%。

- 项目地址:https://github.com/TurixAI/TuriX-CUA
项目简介
TuriX-CUA 的核心工作逻辑遵循“看-想-动”的暴力美学流程:
- 看(See):周期性地截取屏幕画面。
- 想(Think):将截图发送给多模态大语言模型,询问在当前界面状态下应执行何种操作(例如:“用户要求预订机票,接下来应该点击哪里?”)。
- 动(Act):接收模型返回的坐标或指令,控制鼠标移动、点击或键盘输入。
与预设的固定“宏”不同,TuriX-CUA 具备动态响应能力,能够处理弹窗关闭、等待网页加载等意外情况。其宣称在成功率和执行速度上优于其他开源智能体。

核心特性
跨平台支持
项目最初专注于 macOS,现已扩展支持 Windows 系统。用户只需切换到相应的分支即可在对应平台上运行。
- macOS 端演示能力:
- 预订机票、酒店和 Uber。
- 搜索 iPhone 价格,创建 Pages 文档并发送给联系人。
- 从 Discord 中提取数字文件生成柱状图,插入 PowerPoint 并回复老板。
- Windows 端演示能力:
- 在 YouTube 搜索视频内容并点赞。
支持 MCP 协议
通过支持模型上下文协议(MCP),TuriX-CUA 可以作为工具被集成到 Claude for Desktop 或 Cursor 等应用中。用户可以直接向 Claude 发出高级指令(如“查找最近的 AI 新闻并撰写文档发送给老张”),Claude 将通过 MCP 调度 TuriX-CUA 执行具体的网页搜索、文档编辑和消息发送操作。
多模型架构
项目采用 Planner(规划师)与 Executor(执行者)分离的多智能体架构。Planner 负责将复杂任务拆解为具体步骤,Executor 负责执行精确的界面操作。这种“脑手分离”的设计旨在提升任务规划的可靠性,减少模型误操作。
快速上手指南
以下以 macOS 为例,Windows 平台操作逻辑类似。
第一步:环境准备
建议使用 Conda 管理 Python 环境以避免依赖冲突。bash
conda create -n turix_env python=3.12
conda activate turix_env
git clone https://github.com/TurixAI/TuriX-CUA.git
cd TuriX-CUA
pip install -r requirements.txt
第二步:配置模型
在 examples/config.json 中配置使用的模型。项目默认推荐使用其官方 API(提供初始额度)。用户也可替换为其他 OpenAI 兼容的 API 或本地模型(如 Qwen3-VL),这需要修改 main.py 中的 build_llm 函数。Qwen3-VL 在 UI 元素识别方面表现优异。
第三步:系统权限配置
由于需要控制输入设备和屏幕录制,需在系统设置中授予必要权限:
* macOS:前往“系统设置 > 隐私与安全性 > 辅助功能”,为使用的终端和 IDE 授予权限。
* 若需控制 Safari,需在其“开发”菜单中启用“允许远程自动化”。
* 首次运行时,请务必允许系统弹出的控制权限请求。
第四步:运行任务
在 config.json 中配置任务描述,例如:json
{
"agent": {
"task": "打开Safari,搜索iPhone 17 Pro当前的价格,并在备忘录中记录下来"
}
}
运行命令启动智能体:bash
python examples/main.py
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16867
