TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

在浏览GitHub时,一个名为 TuriX-CUA开源项目引起了我的注意。这是一个 Computer-Use Agent(电脑使用智能体)框架。

其核心目标是让大型AI模型能够像人类用户一样,直接观察电脑屏幕并执行鼠标、键盘等操作,从而完成跨多个桌面应用程序的复杂任务,而不仅限于在聊天对话框中输出文本。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

核心原理:模拟人类交互

TuriX-CUA 的实现路径与传统方案截然不同:
* 区别于传统RPA或API集成:它不依赖于软件提供的专用API接口。
* 模拟人类操作:其核心理念是“如果人类用户能够通过点击、输入完成的操作,TuriX-CUA 也能通过模拟相同的方式完成”。这使得它能够操作那些未开放API的应用程序。

用户只需用自然语言描述任务,AI便会自动规划步骤并执行操作。目前,已有专门的Skill(技能)能让 OpenClawClaude Code 调用 TuriX-CUA 的能力。在相关技能平台中,其“Computer Use Agent”技能评分名列前茅。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

项目概述

该项目专注于对整个桌面环境进行自动化操作。
* 在 macOS 上:可操作浏览器、文档应用(如Pages、Numbers)、邮件/聊天软件,并进行系统设置等。
* 在 Windows 上(有专门分支支持):支持GUI自动化和浏览器操作,例如自动搜索YouTube视频并点赞。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

这种基于视觉和模拟交互的方式,使其比那些仅限于浏览器内或仅能控制网页DOM的智能体(Agent)具有更广泛的通用性。

项目开源地址https://github.com/TurixAI/TuriX-CUA

功能演示

macOS 端演示

  • 预订机票、酒店和网约车
  • 查询iPhone价格,创建Pages文档并发送给联系人
  • 处理老板通过Discord发送的Numbers文件,生成柱状图插入PowerPoint,并回复老板

Windows 端演示

  • 在YouTube搜索指定内容视频并点赞

与Claude集成演示

  • Claude搜索AI新闻,通过MCP调用TuriX,将研究结果写入Pages文档并发送给联系人

架构设计:多角色模型协作

TuriX-CUA 在架构上将AI大模型的职责拆分为四个角色,每个角色可配置不同的模型,并通过配置文件实现热插拔:
* brain_llm(大脑):负责高层决策与整体任务策略。
* actor_llm(执行者):负责根据当前屏幕界面和指令,生成具体操作动作(如点击位置、输入内容)。
* planner_llm(规划者):负责将自然语言描述的任务拆解为可执行的步骤序列。
* memory_llm(记忆管理):负责读取、整理长程记忆,并帮助系统恢复任务状态。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

这种设计提供了高度的灵活性。例如,用户可以单独替换 planner_llm 以进行规划器对比实验;也可以用较小成本的模型担任 memory_llm,同时用能力更强的大模型作为 brain_llm 以保证智能度。这使其非常适合作为研究多智能体协作的基础框架。

通过OpenClaw使用

可以通过OpenClaw的ClawHub Skills来使用TuriX-CUA:
* Skill地址https://clawhub.ai/Tongyu-Yan/turix-cua
安装此Skill后,OpenClaw即可调用TuriX-CUA,作为你的桌面操作智能体。

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

如何开始使用

方法一:使用官方应用(最简单)

直接访问官方网站下载并安装应用程序。
* 官网地址https://turix.ai/
TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破

方法二:自行部署开源项目(以macOS为例)

① 安装环境

bash
git clone https://github.com/TurixAI/TuriX-CUA.git
conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt

② 配置系统权限(关键步骤)

为确保自动化操作能顺利进行,需配置以下权限:
1. 辅助功能(Accessibility):在“系统设置 > 隐私与安全 > 辅助功能”中,勾选终端(Terminal)、VS Code等你将使用的应用。必要时,将 /usr/bin/python3 也添加进去。
2. Safari浏览器自动化
* 在Safari的“设置 > 高级”中,开启“显示开发者菜单”。
* 在出现的“开发者”菜单中,启用“Allow Remote Automation”和“Allow JavaScript from Apple Events”。
3. 触发权限弹窗:在不同终端中分别运行以下命令,以触发系统权限请求:
bash
osascript -e 'tell application "Safari" to do JavaScript "alert("Triggering accessibility request")" in document 1'

③ 配置任务与模型

config.json 配置文件中,填写 agent.task 描述,并配置 brain_llmactor_llm 等角色的模型提供商(provider)、模型名称(model_name)及API密钥(api_key)。

④ 启动示例

运行以下命令启动示例程序:
bash
python examples/main.py

TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24727

(0)
上一篇 2026年3月8日 上午8:39
下一篇 2026年3月8日 上午8:52

相关推荐

  • Karpathy开源autoresearch:630行代码实现AI自主科研进化,5分钟一轮实验效率超人类

    Karpathy开源autoresearch:630行代码实现AI自主科研进化 AI领域知名研究者Karpathy近日开源新项目 autoresearch,这是一个能够自主进化的AI科研循环系统。其核心目标是让智能体完全自主地进行科研探索:用户只需在Markdown文档中设定研究指令,后续的代码修改、实验运行、结果评估与决策优化等流程将全部由AI自动完成。 …

    2026年3月9日
    96900
  • 30秒极速部署:PinMe开源神器让静态网站上线零门槛

    在 AI 生成 HTML 页面成本极低的今天,快速部署与分享静态网站的需求日益凸显。PinMe 是一个能够将静态网站极速、免费部署上线的开源项目,无论是 AI 生成的单页,还是 Vue、React 等框架构建的项目,都能轻松应对。 开源项目介绍 PinMe 是一个静态网站一键部署工具,它能将你的网站文件快速发布到线上,生成一个可分享的永久链接。其核心原理是利…

    2025年11月18日
    33200
  • 商汤开源8B模型复刻GPT-Image-2绝活:图文生成连续一致,高密度信息图直接出

    henry 发自 凹非寺 量子位 | 公众号 QbitAI 最近刷朋友圈,10条动态里至少有7条是GPT-Image-2生成的图片。 中文海报、复古杂志封面、直播画面、社交截图,甚至连高考试卷都能被它复刻出一张几乎以假乱真的版本。 面对这一现象,大家的反应也出奇地一致—— 专业设计师要失业了,而我又觉得自己能行了! 但实际操作后你会发现:免费用户每天只能生成…

    2026年4月28日
    33500
  • NotebookLM开源替代方案全解析:三大GitHub明星项目打造本地化AI笔记助手

    NotebookLM 是谷歌推出的一款 AI 笔记助手。与普通 AI 不同,它严格限制在你上传的文档范围内进行回答,并能提供精准的原文引用。其标志性功能之一是播客生成,能将上传的复杂资料一键转换为逼真的双人英语对话播客,让学习过程更有趣,也支持通过“听”来消化信息。 本文将盘点 GitHub 上所有 NotebookLM 的开源替代方案,帮助你部署自己的本地…

    2025年12月19日
    1.8K00
  • 揭秘OpenClaw:从周末项目到现象级开源AI的5个惊人真相

    OpenClaw 创始人 Peter Steinberger 过去几天,OpenClaw 几乎席卷了技术社区的信息流。每一位 AI 爱好者都在讨论它——人们利用这个自动化系统构建各类项目,探索着无穷无尽的应用场景。 简单来说,OpenClaw 是一个开源的自主智能体,旨在扮演一个主动的 AI 助手。它不同于需要等待指令的标准聊天机器人,而是作为一个常驻服务运…

    开源项目 2026年2月26日
    46000