AI掌控安卓手机:四大开源项目深度解析与实战指南
去年11月,一篇盘点GitHub上AI操控手机开源项目的文章引发了广泛关注。文章发布仅五天后,豆包便官宣推出AI手机,紧接着智谱AI开源了AutoGLM模型。这标志着AI与移动设备交互进入了一个新的阶段。
本文将整合最新的开源项目,对当前GitHub上主流的AI控制手机方案进行一次全面的梳理和解析。
01 智谱开源:Open-AutoGLM

智谱AI开源的Open-AutoGLM项目一经发布便迅速走红,不到一周即获得超过1.3万Star。该项目构建了一个框架,使AI能够像人眼一样“看”手机屏幕,并像人手一样执行点击、滑动等操作。
其工作流程如下:用户下达一个复合任务指令(例如:“总结长春景点,在高德地图收藏,查询博物馆门票,并在12306预订北京至长春的高铁票”),系统会首先截取手机屏幕。模型分析截图,通过视觉定位技术识别当前界面中的可操作元素(如按钮、输入框),然后通过ADB(Android Debug Bridge)工具向手机发送相应的点击、滑动或输入文本指令,从而一步步模拟人类操作,完成任务。

- 核心特点:
- 端到端视觉驱动:完全基于屏幕截图进行分析和决策。
- 本地化部署:支持在本地运行,若使用显卡部署,建议显存24GB以上。此方案能确保聊天记录、支付界面等敏感隐私数据无需上传至云端。
- 开源地址:
https://github.com/zai-org/Open-AutoGLM - 快速部署:可通过Claude Code,配置GLM Coding Plan后,使用提示词指令访问项目文档进行安装。
02 通过MCP控制手机:DroidMind

DroidMind项目的核心思路并非从头训练新模型,而是扮演一个“超级适配器”的角色。它通过MCP(Model Context Protocol)协议,将Android手机直接挂载到Claude Desktop、Cursor或Claude Code等开发环境中。
这意味着用户无需在本地运行庞大的模型,可以直接利用云端强大的Claude或Gemini等模型的能力。DroidMind作为“翻译官”,将模型的自然语言指令转化为对手机的实际控制命令。

- 核心特点:
- 轻量级接入:无需本地大模型,直接利用现有顶尖AI的能力。
- 协议化集成:通过MCP协议实现与多种AI开发环境的无缝连接。
- 开源地址:
https://github.com/hyperb1iss/DroidMind
03 微软开源:UFO
UFO项目最初是微软开源的AI操作Windows系统的框架。其最新版本UFO³ Galaxy已演变为一个跨设备、跨平台的智能体编排框架,对Android设备的支持是本次更新的核心亮点。

UFO³ Galaxy同样通过引入MCP架构来扩展其控制范围,使其能够像指挥官一样调度包括安卓手机在内的多种设备。其核心理念包含两部分:
* Galaxy(星系):作为中央控制中枢,负责接收和分发用户指令。
* Constellation(星座):负责将复杂的用户指令(例如“将手机刚拍的照片传到电脑并用Photoshop编辑”)拆解成一个由多个子任务组成的DAG(有向无环图),并协调不同设备节点执行。
Windows电脑、Linux服务器、Android手机等均可作为独立节点接入这个“星系”网络,由框架统一编排。

- 核心特点:
- 多设备编排:专注于复杂跨设备任务的自动化流程编排。
- 平台无关性:通过MCP抽象层,实现对不同操作系统和设备类型的统一控制。
- 开源地址:
https://github.com/microsoft/UFO
04 字节开源:UI-TARS

UI-TARS是字节跳动开源的基于视觉-语言模型(VLM)的GUI智能体项目,旨在让AI通过视觉识别和模拟交互来控制各种设备界面。
在安卓手机控制方面,UI-TARS采用端到端、纯视觉驱动、基于ADB的控制方案。其流程与AutoGLM类似:截取屏幕→VLM模型结合用户指令分析界面元素并决策→输出动作指令→转化为ADB命令执行。

- 核心特点:
- 通用GUI智能体:设计目标不限于手机,可扩展至计算机、网页等图形界面。
- 强大的VLM基础:依托先进的视觉-语言模型进行精准的屏幕理解和推理。
- 开源地址:
https://github.com/bytedance/UI-TARS
总结
当前AI控制手机的开源方案主要呈现两大技术路径:
1. 视觉驱动+ADB控制(如AutoGLM, UI-TARS):通过模型直接理解屏幕像素,生成底层控制命令,适合深度定制和复杂任务。
2. 协议桥接+现有模型(如DroidMind, UFO):利用MCP等协议将手机能力暴露给外部AI模型,实现快速集成和利用现有大模型能力,适合轻量级和跨平台任务。
开发者可根据对隐私性、部署复杂度、任务复杂性以及是否需要跨平台协作的不同需求,选择最适合的项目进行探索和实践。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15592
