TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

在浏览GitHub时,一个名为 TuriX-CUA开源项目引起了我的注意。这是一个 Computer-Use Agent(电脑使用智能体)框架。

其核心目标是让大型AI模型能够像人类用户一样,直接观察电脑屏幕并执行鼠标、键盘等操作,从而完成跨多个桌面应用程序的复杂任务,而不仅限于在聊天对话框中输出文本。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

核心原理:模拟人类交互

TuriX-CUA 的实现路径与传统方案截然不同:
* 区别于传统RPA或API集成:它不依赖于软件提供的专用API接口。
* 模拟人类操作:其核心理念是“如果人类用户能够通过点击、输入完成的操作,TuriX-CUA 也能通过模拟相同的方式完成”。这使得它能够操作那些未开放API的应用程序。

用户只需用自然语言描述任务,AI便会自动规划步骤并执行操作。目前,已有专门的Skill(技能)能让 OpenClawClaude Code 调用 TuriX-CUA 的能力。在相关技能平台中,其“Computer Use Agent”技能评分名列前茅。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

项目概述

该项目专注于对整个桌面环境进行自动化操作。
* 在 macOS 上:可操作浏览器、文档应用(如Pages、Numbers)、邮件/聊天软件,并进行系统设置等。
* 在 Windows 上(有专门分支支持):支持GUI自动化和浏览器操作,例如自动搜索YouTube视频并点赞。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

这种基于视觉和模拟交互的方式,使其比那些仅限于浏览器内或仅能控制网页DOM的智能体(Agent)具有更广泛的通用性。

项目开源地址https://github.com/TurixAI/TuriX-CUA

功能演示

macOS 端演示

  • 预订机票、酒店和网约车
  • 查询iPhone价格,创建Pages文档并发送给联系人
  • 处理老板通过Discord发送的Numbers文件,生成柱状图插入PowerPoint,并回复老板

Windows 端演示

  • 在YouTube搜索指定内容视频并点赞

与Claude集成演示

  • Claude搜索AI新闻,通过MCP调用TuriX,将研究结果写入Pages文档并发送给联系人

架构设计:多角色模型协作

TuriX-CUA 在架构上将AI大模型的职责拆分为四个角色,每个角色可配置不同的模型,并通过配置文件实现热插拔:
* brain_llm(大脑):负责高层决策与整体任务策略。
* actor_llm(执行者):负责根据当前屏幕界面和指令,生成具体操作动作(如点击位置、输入内容)。
* planner_llm(规划者):负责将自然语言描述的任务拆解为可执行的步骤序列。
* memory_llm(记忆管理):负责读取、整理长程记忆,并帮助系统恢复任务状态。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

这种设计提供了高度的灵活性。例如,用户可以单独替换 planner_llm 以进行规划器对比实验;也可以用较小成本的模型担任 memory_llm,同时用能力更强的大模型作为 brain_llm 以保证智能度。这使其非常适合作为研究多智能体协作的基础框架。

通过OpenClaw使用

可以通过OpenClaw的ClawHub Skills来使用TuriX-CUA:
* Skill地址https://clawhub.ai/Tongyu-Yan/turix-cua
安装此Skill后,OpenClaw即可调用TuriX-CUA,作为你的桌面操作智能体。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

如何开始使用

方法一:使用官方应用(最简单)

直接访问官方网站下载并安装应用程序。
* 官网地址https://turix.ai/
TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

方法二:自行部署开源项目(以macOS为例)

① 安装环境

bash
git clone https://github.com/TurixAI/TuriX-CUA.git
conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt

② 配置系统权限(关键步骤)

为确保自动化操作能顺利进行,需配置以下权限:
1. 辅助功能(Accessibility):在“系统设置 > 隐私与安全 > 辅助功能”中,勾选终端(Terminal)、VS Code等你将使用的应用。必要时,将 /usr/bin/python3 也添加进去。
2. Safari浏览器自动化
* 在Safari的“设置 > 高级”中,开启“显示开发者菜单”。
* 在出现的“开发者”菜单中,启用“Allow Remote Automation”和“Allow JavaScript from Apple Events”。
3. 触发权限弹窗:在不同终端中分别运行以下命令,以触发系统权限请求:
bash
osascript -e 'tell application "Safari" to do JavaScript "alert("Triggering accessibility request")" in document 1'

③ 配置任务与模型

config.json 配置文件中,填写 agent.task 描述,并配置 brain_llmactor_llm 等角色的模型提供商(provider)、模型名称(model_name)及API密钥(api_key)。

④ 启动示例

运行以下命令启动示例程序:
bash
python examples/main.py

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24727

(0)
上一篇 2天前
下一篇 2天前

相关推荐