AI掌控电脑：9个颠覆性开源项目，让你的终端变身贾维斯

2025年12月22日下午2:56 • 开源项目 • 阅读 1367

01 通过终端控制电脑

把这个开源项目装进电脑，你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。

Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器，支持运行 Python、JavaScript、Shell 等语言，直接运行在你的终端里。

通过和它对话，它可以访问互联网，不仅仅是 Bing 搜索，而是完全自由的联网。

操作你的本地文件，比如批量重命名、转换格式、处理 Excel。还能控制你的电脑，比如打开浏览器、发邮件、甚至调整系统设置。

它还支持接入本地的模型，比如 Ollama、Jan。

例如，输入指令：“把我的系统设为深色模式，然后打开浏览器去查一下明天的天气。”

它会执行 Shell 命令来修改系统设置，并调用浏览器自动化工具 Selenium 或 Playwright 去查询信息。

你还可以把一个 500MB 的 Excel 表格扔给它：“分析这个表格，画出过去一年销售额的趋势图，并保存为 report.png。”

所有操作均在本地完成，无需上传云端，确保数据隐私安全。

开源地址：https://github.com/openinterpreter/open-interpreter

02 微软开源：OmniParser

OmniParser 是微软开源的一个专门用于屏幕解析的工具。

今年最新的 V2 版本，在 Hugging Face 榜单上长期占据领先位置，显著提升了 GUI Agent 的能力。

这是一个屏幕解析工具，可以把屏幕截图转化为结构化的数据，这是构建 AI 控制电脑 Agent 的核心组件。许多基于视觉的自动化项目都依赖这类技术来精准定位屏幕元素。

它的工作流程如下：

Detect：通过训练好的 YOLO 模型，精准框选出屏幕上所有的可交互区域，比如按钮、输入框、图标、侧边栏等。即便图标非常微小，V2 版本也能精准捕捉。
Caption：利用微软自家的 Florence-2 或 BLIP-2 模型，给每一个框选出来的元素加上功能描述，比如“这是一个搜索图标”、“这是一个设置按钮”。
Grounding：将这些坐标和描述打包喂给 GPT-4V 或 DeepSeek 等多模态大模型，让模型知道某个按钮的具体坐标（例如 (800, 600)）。

你可以把这个开源项目理解成连接大模型“大脑”和电脑屏幕之间的那副高精度眼镜。

开源地址：https://github.com/microsoft/OmniParser

03 自操作计算机框架

这个开源框架，旨在让多模态 AI 模型像人类一样操作计算机。目前已获得超过 1 万的 Star。

模型通过截图的方式视觉识别屏幕内容，直接调用系统的鼠标和键盘接口，使用 pyautogui 库进行交互，而非依赖后台 API。该项目兼容 macOS、Windows 和 Linux 系统。

为了解决大模型看不准或点不准屏幕元素的问题，它引入了以下几种关键模式：

OCR 模式：生成屏幕上可点击元素的坐标哈希图。当模型决定点击某段文字时，系统能精确映射到具体坐标，显著提高了点击准确率。
Set-of-Mark (SoM) 提示：在屏幕截图上的 UI 元素打上数字标记，让模型只需输出数字即可定位元素，类似于特斯拉自动驾驶的视觉标注逻辑。
Voice Mode：支持语音输入指令，增加交互的便捷性。
开源地址：https://github.com/OthersideAI/self-operating-computer

04 前沿的 GUI 智能体：Agent S

Agent S 是目前比较前沿的开源 GUI 智能体框架。其 S3 模型是首个在 OSWorld 基准测试上超越人类水平的模型，取得了 72.60% 的得分。目前已在 GitHub 上获得 9k 的 Star。

与普通脚本不同，Agent-S 引入了类似人类的认知架构：

经验增强的层次化规划：它不是盲目地一步步操作，而是先搜索外部知识（如在线教程）和检索内部记忆，将大任务拆解为子任务。
Agent-计算机接口：它不直接看原始像素，而是通过一个中间层更精确地感知 GUI 元素，增强了模型对屏幕的理解能力。
双重记忆机制：叙事记忆存储高层次的任务经验；情景记忆存储具体的步骤操作。它用得越多，越擅长处理复杂任务。
开源地址：https://github.com/simular-ai/Agent-S

05 微软开源：UFO

UFO 是微软开源的另一个框架，专为 Windows 生态深度定制的原生级智能体系统。它利用微软对自家系统的深入理解，实现了比普通视觉方案更深层的控制。

不同于仅依赖截图和鼠标模拟的视觉方案，UFO 结合了视觉感知与底层系统接口（如 Windows UI Automation, Win32, COM API）。它不仅看屏幕，还能直接读取控件树，准确获取按钮的名称、状态和隐藏属性，点击准确率极高。

此外，它专门针对 Windows 常用软件（如 Office 全家桶、文件资源管理器）进行了优化，能理解应用程序内部的逻辑。

它采用双代理架构（AppAgent 和 OSWorld Agent），深入理解 Windows 应用程序的 UI 结构，能够跨多个应用程序执行复杂请求，比如从 PPT 中提取内容并发邮件。专为 Windows 优化，能够利用 Windows 原生 API 进行更稳定的控制。

开源地址：https://github.com/microsoft/UFO

06 AI 玩荒野大镖客

Cradle 是由智源研究院 (BAAI) 团队开发的一个开源项目。

它让 AI 智能体能够像人类一样，仅通过屏幕截图和标准输入/输出接口来操作任何软件和游戏，而不需要依赖后端的 API 或内部代码访问。可以玩《荒野大镖客》、《城市天际线》，也会使用飞书、Chrome、剪映等软件。

它提供了一个标准化的框架，将控制过程分为几个关键模块：

感知：提取屏幕中的关键信息，识别 UI 界面、图标、文本或游戏中的 3D 场景。
决策与规划：根据当前任务目标和屏幕状态，规划下一步行动。具备自我反思能力，如果操作失败，它会分析原因并修正策略。
记忆系统：短期记忆记录最近的操作序列和截图；长期记忆存储成功经验和工具使用手册（通过 RAG 技术），以便在类似场景下快速调用。
执行：将规划转换为具体的键盘和鼠标指令。
开源地址：https://github.com/BAAI-Agents/Cradle

07 OS-Copilot

这是一个构建通用操作系统代理的框架，强调 Agent 的自我学习和自我改进能力，能够处理从未见过的应用。

其核心 Agent FRIDAY 能够通过自我改进机制来学习如何操作 Excel、PPT 以及浏览网页。该项目的目标是创建一个无缝集成到操作系统中的个人助理。

开源地址：https://github.com/OS-Copilot/OS-Copilot

08 ShowUI

这是一个轻量级的端到端视觉-语言-动作（Vision-Language-Action）模型，专为 GUI 智能体设计。

它旨在解决大模型在处理UI界面时面临的高延迟和高计算成本问题，提供更快速、更精准的屏幕元素定位与操作能力。

该模型小巧高效，适合在本地部署，以实现低延迟的UI自动化控制。

开源地址: https://github.com/showlab/ShowUI

09 UI-TARS Desktop

这是字节跳动开源的、基于UI-TARS视觉语言模型的GUI智能体桌面应用。它允许用户通过自然语言直接控制Windows或macOS电脑。

该项目结合了端到端的视觉模型，无需复杂的中间代码解析，能够像人类一样“观看”屏幕并直接操作鼠标和键盘。

其特点是开箱即用，支持远程计算机控制，是目前较新的高性能GUI Agent实现方案。

开源地址: https://github.com/bytedance/UI-TARS-desktop

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/15538

AI控制电脑 GUI智能体多模态AI 开源项目终端自动化

赞 (0)

0 0

AI周报：字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

上一篇 2025年12月22日下午12:15

揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

下一篇 2025年12月22日下午6:49

开源项目

OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

近期，一个名为OpenMythos的开源项目整合了公开研究及对Claude Mythos架构的主流推测，实现了一种创新的循环深度Transformer架构。该架构名为循环深度Transformer，其核心在于通过跨专家的权重共享与条件计算实现迭代深度。已有研究证实，这种设计能以仅一半的参数量，达到与传统模型同等的性能。核心思路：不堆叠参数，而增加循环该…

2026年4月21日
469000
开源项目

解锁自动化新境界：n8n与飞书多维表格的完美融合，打造高效工作流

解锁自动化新境界：n8n与飞书多维表格的完美融合，打造高效工作流在利用开源工作流工具 n8n 构建自动化流程时，数据的归档与存储是关键环节。飞书多维表格为此提供了一个优秀的解决方案。它不仅可作为结构化数据的中转站，更能借助其「字段捷径」功能，与 AI 处理或后续自动化流程无缝衔接，实现效率的倍增。值得一提的是，飞书多维表格现已支持网页端直接访问（base…

2025年11月7日
1.4K000
开源项目

GitNexus：为AI编程助手装上“代码透视眼”，彻底告别瞎改代码时代

如今的开发工具，正从早期的简单代码补全，向能够自主工作的智能体（Agent）方向快速演进。诸如 Cursor 和 Claude Code 等 AI 编程助手，已成为许多开发者日常必备的工具。然而，使用 AI 辅助编程时，一个令人头疼的问题是：刚刚修复了一个 Bug，却可能在意想不到的地方引入三个新的 Bug。其根本原因在于，当前的 AI 编程助手普遍缺…

2026年2月26日
2.2K000
开源项目

AI绘图革命：Next AI Draw.io一周斩获4500星，自然语言秒变专业图表

Next AI Draw.io：一周斩获4500星，用自然语言秒变专业图表在GitHub上，一个名为 Next AI Draw.io 的开源项目迅速走红，仅一周就获得了超过4500个Star，并登上了开源热榜。如果你在工作中经常需要绘制流程图、架构图或UML图，又觉得传统的拖拽连线方式效率低下，那么这个项目或许能成为你的效率利器。开源项目简介 Next…

2025年12月18日
692000
开源项目

OpenClaw 3.8闪电发布：ACP溯源让AI智能体终于认识你，官方备份工具拯救手滑党

在 OpenClaw 3.7 发布不到24小时后，3.8 稳定版紧随而至。本次更新聚焦于核心功能增强与系统稳定性，主要引入了 ACP 溯源机制以提升智能体交互安全性，并发布了官方备份工具，为关键操作提供保障。核心更新概览本次更新主要包含以下四项关键改进： ACP溯源机制：智能体现在能够识别指令来源与权限。官方备份工具：提供标准化的配置与数据备份方案。 …

2026年3月9日
771000