AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

01 通过终端控制电脑

把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。

Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python、JavaScript、Shell 等语言,直接运行在你的终端里。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完全自由的联网。

操作你的本地文件,比如批量重命名、转换格式、处理 Excel。还能控制你的电脑,比如打开浏览器、发邮件、甚至调整系统设置。

它还支持接入本地的模型,比如 Ollama、Jan。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

例如,输入指令:“把我的系统设为深色模式,然后打开浏览器去查一下明天的天气。”

它会执行 Shell 命令来修改系统设置,并调用浏览器自动化工具 Selenium 或 Playwright 去查询信息。

你还可以把一个 500MB 的 Excel 表格扔给它:“分析这个表格,画出过去一年销售额的趋势图,并保存为 report.png。”

所有操作均在本地完成,无需上传云端,确保数据隐私安全。

  • 开源地址:https://github.com/openinterpreter/open-interpreter

02 微软开源:OmniParser

OmniParser 是微软开源的一个专门用于屏幕解析的工具。

今年最新的 V2 版本,在 Hugging Face 榜单上长期占据领先位置,显著提升了 GUI Agent 的能力。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

这是一个屏幕解析工具,可以把屏幕截图转化为结构化的数据,这是构建 AI 控制电脑 Agent 的核心组件。许多基于视觉的自动化项目都依赖这类技术来精准定位屏幕元素。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯 AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

它的工作流程如下:

  • Detect:通过训练好的 YOLO 模型,精准框选出屏幕上所有的可交互区域,比如按钮、输入框、图标、侧边栏等。即便图标非常微小,V2 版本也能精准捕捉。
  • Caption:利用微软自家的 Florence-2 或 BLIP-2 模型,给每一个框选出来的元素加上功能描述,比如“这是一个搜索图标”、“这是一个设置按钮”。
  • Grounding:将这些坐标和描述打包喂给 GPT-4V 或 DeepSeek 等多模态大模型,让模型知道某个按钮的具体坐标(例如 (800, 600))。

你可以把这个开源项目理解成连接大模型“大脑”和电脑屏幕之间的那副高精度眼镜。

  • 开源地址:https://github.com/microsoft/OmniParser

03 自操作计算机框架

这个开源框架,旨在让多模态 AI 模型像人类一样操作计算机。目前已获得超过 1 万的 Star。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

模型通过截图的方式视觉识别屏幕内容,直接调用系统的鼠标和键盘接口,使用 pyautogui 库进行交互,而非依赖后台 API。该项目兼容 macOS、Windows 和 Linux 系统。

为了解决大模型看不准或点不准屏幕元素的问题,它引入了以下几种关键模式:

  • OCR 模式:生成屏幕上可点击元素的坐标哈希图。当模型决定点击某段文字时,系统能精确映射到具体坐标,显著提高了点击准确率。
  • Set-of-Mark (SoM) 提示:在屏幕截图上的 UI 元素打上数字标记,让模型只需输出数字即可定位元素,类似于特斯拉自动驾驶的视觉标注逻辑。
  • Voice Mode:支持语音输入指令,增加交互的便捷性。

  • 开源地址:https://github.com/OthersideAI/self-operating-computer

04 前沿的 GUI 智能体:Agent S

Agent S 是目前比较前沿的开源 GUI 智能体框架。其 S3 模型是首个在 OSWorld 基准测试上超越人类水平的模型,取得了 72.60% 的得分。目前已在 GitHub 上获得 9k 的 Star。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

与普通脚本不同,Agent-S 引入了类似人类的认知架构:

  • 经验增强的层次化规划:它不是盲目地一步步操作,而是先搜索外部知识(如在线教程)和检索内部记忆,将大任务拆解为子任务。
  • Agent-计算机接口:它不直接看原始像素,而是通过一个中间层更精确地感知 GUI 元素,增强了模型对屏幕的理解能力。
  • 双重记忆机制叙事记忆存储高层次的任务经验;情景记忆存储具体的步骤操作。它用得越多,越擅长处理复杂任务。

  • 开源地址:https://github.com/simular-ai/Agent-S

05 微软开源:UFO

UFO 是微软开源的另一个框架,专为 Windows 生态深度定制的原生级智能体系统。它利用微软对自家系统的深入理解,实现了比普通视觉方案更深层的控制。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

不同于仅依赖截图和鼠标模拟的视觉方案,UFO 结合了视觉感知与底层系统接口(如 Windows UI Automation, Win32, COM API)。它不仅看屏幕,还能直接读取控件树,准确获取按钮的名称、状态和隐藏属性,点击准确率极高。

此外,它专门针对 Windows 常用软件(如 Office 全家桶、文件资源管理器)进行了优化,能理解应用程序内部的逻辑。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

它采用双代理架构(AppAgent 和 OSWorld Agent),深入理解 Windows 应用程序的 UI 结构,能够跨多个应用程序执行复杂请求,比如从 PPT 中提取内容并发邮件。专为 Windows 优化,能够利用 Windows 原生 API 进行更稳定的控制。

  • 开源地址:https://github.com/microsoft/UFO

06 AI 玩荒野大镖客

Cradle 是由智源研究院 (BAAI) 团队开发的一个开源项目。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

它让 AI 智能体能够像人类一样,仅通过屏幕截图和标准输入/输出接口来操作任何软件和游戏,而不需要依赖后端的 API 或内部代码访问。可以玩《荒野大镖客》、《城市天际线》,也会使用飞书、Chrome、剪映等软件。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

它提供了一个标准化的框架,将控制过程分为几个关键模块:

  • 感知:提取屏幕中的关键信息,识别 UI 界面、图标、文本或游戏中的 3D 场景。
  • 决策与规划:根据当前任务目标和屏幕状态,规划下一步行动。具备自我反思能力,如果操作失败,它会分析原因并修正策略。
  • 记忆系统短期记忆记录最近的操作序列和截图;长期记忆存储成功经验和工具使用手册(通过 RAG 技术),以便在类似场景下快速调用。
  • 执行:将规划转换为具体的键盘和鼠标指令。

  • 开源地址:https://github.com/BAAI-Agents/Cradle

07 OS-Copilot

这是一个构建通用操作系统代理的框架,强调 Agent 的自我学习和自我改进能力,能够处理从未见过的应用。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

其核心 Agent FRIDAY 能够通过自我改进机制来学习如何操作 Excel、PPT 以及浏览网页。该项目的目标是创建一个无缝集成到操作系统中的个人助理。

  • 开源地址:https://github.com/OS-Copilot/OS-Copilot

08 ShowUI

这是一个轻量级的端到端视觉-语言-动作(Vision-Language-Action)模型,专为 GUI 智能体设计。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

它旨在解决大模型在处理UI界面时面临的高延迟和高计算成本问题,提供更快速、更精准的屏幕元素定位与操作能力。

该模型小巧高效,适合在本地部署,以实现低延迟的UI自动化控制。

  • 开源地址: https://github.com/showlab/ShowUI

09 UI-TARS Desktop

这是字节跳动开源的、基于UI-TARS视觉语言模型的GUI智能体桌面应用。它允许用户通过自然语言直接控制Windows或macOS电脑。

该项目结合了端到端的视觉模型,无需复杂的中间代码解析,能够像人类一样“观看”屏幕并直接操作鼠标和键盘。

AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

其特点是开箱即用,支持远程计算机控制,是目前较新的高性能GUI Agent实现方案。

  • 开源地址: https://github.com/bytedance/UI-TARS-desktop

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15538

(0)
上一篇 2025年12月22日 下午12:15
下一篇 2025年12月22日 下午6:49

相关推荐

  • AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性

    AutoMV团队 投稿 量子位 | 公众号 QbitAI 现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。 近日,来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV。 这是一个无需训练的多智能体(Multi-Agent)系统,它像一个专…

    2025年12月29日
    11200
  • 性能飙升8倍!Vortex RISC-V GPGPU通过解耦控制流与内存访问实现革命性突破

    关键词: RISC-V GPGPU 、Vortex、控制流管理、 解耦内存访问 、硬件优化 、性能加速 从开源 GPU 的机遇与挑战说起。在当今计算领域,图形处理器(GPU)已从专为图形渲染设计的硬件,演变为支撑人工智能、科学计算和高性能计算的关键通用计算平台。 然而,绝大多数 GPU 研究依赖于 NVIDIA 等商业 GPU 的模拟框架,这些框架虽然功能强…

    2026年1月19日
    10800
  • 五大前沿AI开源项目盘点:从PPT生成到金融强化学习,赋能未来工作流

    Nano Banana PPT Banana-slides 是基于 Nano Banana Pro 模型开源的 AI PPT 生成应用,旨在解决传统 AI PPT 工具模板僵化、设计感差和素材质量低的问题。 一句话生成 PPT:用户只需输入一个简单的想法,即可快速获得完整的大纲、页面描述以及最终的 PPT 文稿。 该工具支持上传参考风格图片或示例 PPT 模…

    2025年12月11日
    12300
  • 五大AI开源神器:从GLM-4.7编程突破到手机集群推理,重塑开发新范式

    智谱开源 GLM-4.7 智谱 GLM-4.7 正式发布并官宣即将开源。 在 LiveCodeBench 和 Code Arena 等多个权威榜单中,它取得了国产第一、开源第一的成绩。其综合编程能力已直逼甚至在某些维度超越了 Claude 4.5 Sonnet。 近期,智谱已向港交所递交招股书,冲击全球大模型第一股。这表明国产大模型在编程这一核心赛道上,已具…

    2025年12月24日
    17700
  • LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

    大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。 作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。 从技术架构看,LTX-2采用了非对称双流扩散变换器:一个…

    2026年1月8日
    7300