AI视觉革命:5大开源项目让大模型像人类一样操控手机

在过去,自动化操作手机通常需要依赖 Appium 或 Airtest 等工具,这要求开发者必须深入了解应用的底层元素标识,如 resource-idxpath。一旦应用更新导致这些标识符发生变化,自动化脚本便会失效。

如今,随着 AI 大模型,尤其是视觉模型的发展,让 AI 像人类一样“看懂”并操控手机屏幕成为可能。本文将介绍几个热门的、利用 AI 实现手机自动化操作的开源项目

01 MobiAgent:移动智能体框架

MobiAgent 是 IPADS 实验室专为手机交互设计的开源智能体框架,旨在让 AI 自主完成复杂的手机操作任务。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

任务示例
* 帮我在小红书找一下推荐的最畅销的男士牛仔裤,然后在淘宝搜这一款裤子,把淘宝中裤子品牌、名称和价格用微信发给小赵。

* 打开饿了么点一杯蜜雪冰城的柠檬水。

该框架将复杂任务分解为三个专业化模块协同工作:
* Planner:负责制定整体任务计划。
* Decider:判断每一步应该执行何种操作(如点击、滑动)。
* Grounder:精准定位屏幕上具体操作的位置坐标。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

从技术架构上看,MobiAgent 包含三个核心组件:
1. MobiMind 模型家族:作为系统的智能核心,包含多个不同参数规模的视觉语言模型。
2. AgentRR 加速框架:对重复性任务进行优化,能大幅降低二次执行的耗时。

3. MobiFlow 基准测试平台:覆盖小红书、高德地图、饿了么、淘宝等 10 余款主流 App,包含简单和困难两个难度等级,为移动智能体的性能评估提供了标准化场景。

  • 开源地址:https://github.com/IPADS-SAI/MobiAgent

02 Mobile-Agent:阿里开源

Mobile-Agent 是阿里巴巴开源的项目。其核心特点是让 AI 通过“视觉”来理解屏幕内容,像人类一样点击按钮、跨应用操作,而无需依赖复杂的系统后台接口。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

任务示例:请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一篇笔记。

其工作原理是:AI 模型识别屏幕上的所有图标、文字和按钮(即使是无文字的图标),理解其含义。根据用户指令生成分步计划,并结合当前屏幕状态,决定下一步是点击、滑动还是输入。最后通过 ADB (Android Debug Bridge) 向手机发送指令。每执行一步后,系统会重新截图确认状态,具备自我修正能力。

  • 开源地址:https://github.com/X-PLUG/MobileAgent

03 Droidrun:手机自动化 Agent 框架

Droidrun 是一个基于 AI 大模型的 Android/iOS 自动化 Agent 框架,在 GitHub 上已获得超过 6.2K Star。其核心理念是“将思考交给 AI,将执行交给框架”,从而打破传统自动化脚本对特定 UI 控件的强依赖。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

任务示例:搜索下周旧金山可供两人入住的公寓房源,并提供最便宜的选项。

  • 开源地址:https://github.com/droidrun/droidrun

04 AppAgent:腾讯开源

AppAgent 的全称是 “Multimodal Agents as Smartphone Users”(像智能手机用户一样的多模态智能体)。其设计初衷是赋予 AI 智能体类似人类用户的感知和操作能力。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

它通过 ADB 获取手机屏幕截图,发送给多模态大模型进行分析。模型识别 UI 元素后,决定下一步操作的坐标或手势,实现真正的视觉驱动交互。

与其他项目不同,AppAgent 模仿了人类学习使用新软件的过程:
1. 学习阶段:面对一个新应用,它可以通过自主探索或观察人类演示进行学习,记录每个 UI 元素的功能,并生成一份知识文档(Knowledge Base)。
2. 执行阶段:当需要执行具体任务时,它会调用之前生成的知识文档来精准操作,无需每次都重新摸索界面。

  • 开源地址:https://github.com/TencentQQGYLab/AppAgent

05 mobile-use:说句话自动化你的手机

Mobile-Use 是由 Minitap AI 团队开源的 Python 库,支持安卓和 iOS 系统,在 GitHub 上拥有 1.8k Star。其核心逻辑是让 AI 模型模拟人类的操作行为。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

工作流程如下:
1. 截取当前手机屏幕图像。
2. 将截图和用户指令发送给多模态大模型。
3. 模型分析截图,判断为完成任务所需执行的操作(点击坐标、滑动、输入等)。
4. Mobile-Use 将模型返回的指令转换为底层 ADB 命令并执行。
5. 执行后再次截图确认状态,循环此过程直至任务完成。

在技术实现上,mobile-use 集成了 Maestro 移动测试框架作为底层交互引擎,确保了对真实设备操作的稳定性。同时,项目支持多种大模型后端,用户可根据需要选择 OpenAI API、本地部署模型或其他兼容服务。

  • 开源地址:https://github.com/minitap-ai/mobile-use

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15874

(0)
上一篇 2025年11月25日 下午12:30
下一篇 2025年11月25日 下午5:08

相关推荐