AI视觉革命：5大开源项目让大模型像人类一样操控手机

2025年11月25日下午3:28 • 开源项目 • 阅读 1265

在过去，自动化操作手机通常需要依赖 Appium 或 Airtest 等工具，这要求开发者必须深入了解应用的底层元素标识，如 resource-id 或 xpath。一旦应用更新导致这些标识符发生变化，自动化脚本便会失效。

如今，随着 AI 大模型，尤其是视觉模型的发展，让 AI 像人类一样“看懂”并操控手机屏幕成为可能。本文将介绍几个热门的、利用 AI 实现手机自动化操作的开源项目。

01 MobiAgent：移动智能体框架

MobiAgent 是 IPADS 实验室专为手机交互设计的开源智能体框架，旨在让 AI 自主完成复杂的手机操作任务。

任务示例：
* 帮我在小红书找一下推荐的最畅销的男士牛仔裤，然后在淘宝搜这一款裤子，把淘宝中裤子品牌、名称和价格用微信发给小赵。

* 打开饿了么点一杯蜜雪冰城的柠檬水。

该框架将复杂任务分解为三个专业化模块协同工作：
* Planner：负责制定整体任务计划。
* Decider：判断每一步应该执行何种操作（如点击、滑动）。
* Grounder：精准定位屏幕上具体操作的位置坐标。

从技术架构上看，MobiAgent 包含三个核心组件：
1. MobiMind 模型家族：作为系统的智能核心，包含多个不同参数规模的视觉语言模型。
2. AgentRR 加速框架：对重复性任务进行优化，能大幅降低二次执行的耗时。

3. MobiFlow 基准测试平台：覆盖小红书、高德地图、饿了么、淘宝等 10 余款主流 App，包含简单和困难两个难度等级，为移动智能体的性能评估提供了标准化场景。

开源地址：https://github.com/IPADS-SAI/MobiAgent

02 Mobile-Agent：阿里开源

Mobile-Agent 是阿里巴巴开源的项目。其核心特点是让 AI 通过“视觉”来理解屏幕内容，像人类一样点击按钮、跨应用操作，而无需依赖复杂的系统后台接口。

任务示例：请帮我在小红书上搜索济南旅游攻略，按收藏数排序，并保存第一篇笔记。

其工作原理是：AI 模型识别屏幕上的所有图标、文字和按钮（即使是无文字的图标），理解其含义。根据用户指令生成分步计划，并结合当前屏幕状态，决定下一步是点击、滑动还是输入。最后通过 ADB (Android Debug Bridge) 向手机发送指令。每执行一步后，系统会重新截图确认状态，具备自我修正能力。

开源地址：https://github.com/X-PLUG/MobileAgent

03 Droidrun：手机自动化 Agent 框架

Droidrun 是一个基于 AI 大模型的 Android/iOS 自动化 Agent 框架，在 GitHub 上已获得超过 6.2K Star。其核心理念是“将思考交给 AI，将执行交给框架”，从而打破传统自动化脚本对特定 UI 控件的强依赖。

任务示例：搜索下周旧金山可供两人入住的公寓房源，并提供最便宜的选项。

开源地址：https://github.com/droidrun/droidrun

04 AppAgent：腾讯开源

AppAgent 的全称是 “Multimodal Agents as Smartphone Users”（像智能手机用户一样的多模态智能体）。其设计初衷是赋予 AI 智能体类似人类用户的感知和操作能力。

它通过 ADB 获取手机屏幕截图，发送给多模态大模型进行分析。模型识别 UI 元素后，决定下一步操作的坐标或手势，实现真正的视觉驱动交互。

与其他项目不同，AppAgent 模仿了人类学习使用新软件的过程：
1. 学习阶段：面对一个新应用，它可以通过自主探索或观察人类演示进行学习，记录每个 UI 元素的功能，并生成一份知识文档（Knowledge Base）。
2. 执行阶段：当需要执行具体任务时，它会调用之前生成的知识文档来精准操作，无需每次都重新摸索界面。

开源地址：https://github.com/TencentQQGYLab/AppAgent

05 mobile-use：说句话自动化你的手机

Mobile-Use 是由 Minitap AI 团队开源的 Python 库，支持安卓和 iOS 系统，在 GitHub 上拥有 1.8k Star。其核心逻辑是让 AI 模型模拟人类的操作行为。

工作流程如下：
1. 截取当前手机屏幕图像。
2. 将截图和用户指令发送给多模态大模型。
3. 模型分析截图，判断为完成任务所需执行的操作（点击坐标、滑动、输入等）。
4. Mobile-Use 将模型返回的指令转换为底层 ADB 命令并执行。
5. 执行后再次截图确认状态，循环此过程直至任务完成。

在技术实现上，mobile-use 集成了 Maestro 移动测试框架作为底层交互引擎，确保了对真实设备操作的稳定性。同时，项目支持多种大模型后端，用户可根据需要选择 OpenAI API、本地部署模型或其他兼容服务。

开源地址：https://github.com/minitap-ai/mobile-use

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15874

AI视觉革命：5大开源项目让大模型像人类一样操控手机

01 MobiAgent：移动智能体框架

02 Mobile-Agent：阿里开源

03 Droidrun：手机自动化 Agent 框架

04 AppAgent：腾讯开源

05 mobile-use：说句话自动化你的手机

相关推荐

LeRobot v0.5.0重磅发布：全面支持类人机器人Unitree G1，硬件生态与算法能力双突破

AI舆情分析神器BettaFish：多智能体协作打破信息茧房，24小时生成深度报告

多智能体协同新范式：华为支持openJiuwen发布Coordination Engineering全家桶，实现团队能力可复制进化

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

GitHub 六大 Agent 开源项目：从零构建智能体，打破信息壁垒