TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破
在浏览GitHub时,一个名为 TuriX-CUA 的开源项目引起了我的注意。这是一个 Computer-Use Agent(电脑使用智能体)框架。
其核心目标是让大型AI模型能够像人类用户一样,直接观察电脑屏幕并执行鼠标、键盘等操作,从而完成跨多个桌面应用程序的复杂任务,而不仅限于在聊天对话框中输出文本。

核心原理:模拟人类交互
TuriX-CUA 的实现路径与传统方案截然不同:
* 区别于传统RPA或API集成:它不依赖于软件提供的专用API接口。
* 模拟人类操作:其核心理念是“如果人类用户能够通过点击、输入完成的操作,TuriX-CUA 也能通过模拟相同的方式完成”。这使得它能够操作那些未开放API的应用程序。
用户只需用自然语言描述任务,AI便会自动规划步骤并执行操作。目前,已有专门的Skill(技能)能让 OpenClaw 或 Claude Code 调用 TuriX-CUA 的能力。在相关技能平台中,其“Computer Use Agent”技能评分名列前茅。

项目概述
该项目专注于对整个桌面环境进行自动化操作。
* 在 macOS 上:可操作浏览器、文档应用(如Pages、Numbers)、邮件/聊天软件,并进行系统设置等。
* 在 Windows 上(有专门分支支持):支持GUI自动化和浏览器操作,例如自动搜索YouTube视频并点赞。

这种基于视觉和模拟交互的方式,使其比那些仅限于浏览器内或仅能控制网页DOM的智能体(Agent)具有更广泛的通用性。
项目开源地址:https://github.com/TurixAI/TuriX-CUA
功能演示
macOS 端演示
- 预订机票、酒店和网约车:
- 查询iPhone价格,创建Pages文档并发送给联系人:
- 处理老板通过Discord发送的Numbers文件,生成柱状图插入PowerPoint,并回复老板:
Windows 端演示
- 在YouTube搜索指定内容视频并点赞:
与Claude集成演示
- Claude搜索AI新闻,通过MCP调用TuriX,将研究结果写入Pages文档并发送给联系人:
架构设计:多角色模型协作
TuriX-CUA 在架构上将AI大模型的职责拆分为四个角色,每个角色可配置不同的模型,并通过配置文件实现热插拔:
* brain_llm(大脑):负责高层决策与整体任务策略。
* actor_llm(执行者):负责根据当前屏幕界面和指令,生成具体操作动作(如点击位置、输入内容)。
* planner_llm(规划者):负责将自然语言描述的任务拆解为可执行的步骤序列。
* memory_llm(记忆管理):负责读取、整理长程记忆,并帮助系统恢复任务状态。

这种设计提供了高度的灵活性。例如,用户可以单独替换 planner_llm 以进行规划器对比实验;也可以用较小成本的模型担任 memory_llm,同时用能力更强的大模型作为 brain_llm 以保证智能度。这使其非常适合作为研究多智能体协作的基础框架。
通过OpenClaw使用
可以通过OpenClaw的ClawHub Skills来使用TuriX-CUA:
* Skill地址:https://clawhub.ai/Tongyu-Yan/turix-cua
安装此Skill后,OpenClaw即可调用TuriX-CUA,作为你的桌面操作智能体。

如何开始使用
方法一:使用官方应用(最简单)
直接访问官方网站下载并安装应用程序。
* 官网地址:https://turix.ai/
方法二:自行部署开源项目(以macOS为例)
① 安装环境
bash
git clone https://github.com/TurixAI/TuriX-CUA.git
conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt
② 配置系统权限(关键步骤)
为确保自动化操作能顺利进行,需配置以下权限:
1. 辅助功能(Accessibility):在“系统设置 > 隐私与安全 > 辅助功能”中,勾选终端(Terminal)、VS Code等你将使用的应用。必要时,将 /usr/bin/python3 也添加进去。
2. Safari浏览器自动化:
* 在Safari的“设置 > 高级”中,开启“显示开发者菜单”。
* 在出现的“开发者”菜单中,启用“Allow Remote Automation”和“Allow JavaScript from Apple Events”。
3. 触发权限弹窗:在不同终端中分别运行以下命令,以触发系统权限请求:
bash
osascript -e 'tell application "Safari" to do JavaScript "alert("Triggering accessibility request")" in document 1'
③ 配置任务与模型
在 config.json 配置文件中,填写 agent.task 描述,并配置 brain_llm、actor_llm 等角色的模型提供商(provider)、模型名称(model_name)及API密钥(api_key)。
④ 启动示例
运行以下命令启动示例程序:bash
python examples/main.py

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24727
