AI视觉革命:5大开源项目让大模型像人类一样操控手机

在过去,自动化操作手机通常需要依赖 Appium 或 Airtest 等工具,这要求开发者必须深入了解应用的底层元素标识,如 resource-idxpath。一旦应用更新导致这些标识符发生变化,自动化脚本便会失效。

如今,随着 AI 大模型,尤其是视觉模型的发展,让 AI 像人类一样“看懂”并操控手机屏幕成为可能。本文将介绍几个热门的、利用 AI 实现手机自动化操作的开源项目

01 MobiAgent:移动智能体框架

MobiAgent 是 IPADS 实验室专为手机交互设计的开源智能体框架,旨在让 AI 自主完成复杂的手机操作任务。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

任务示例
* 帮我在小红书找一下推荐的最畅销的男士牛仔裤,然后在淘宝搜这一款裤子,把淘宝中裤子品牌、名称和价格用微信发给小赵。

* 打开饿了么点一杯蜜雪冰城的柠檬水。

该框架将复杂任务分解为三个专业化模块协同工作:
* Planner:负责制定整体任务计划。
* Decider:判断每一步应该执行何种操作(如点击、滑动)。
* Grounder:精准定位屏幕上具体操作的位置坐标。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

从技术架构上看,MobiAgent 包含三个核心组件:
1. MobiMind 模型家族:作为系统的智能核心,包含多个不同参数规模的视觉语言模型。
2. AgentRR 加速框架:对重复性任务进行优化,能大幅降低二次执行的耗时。

3. MobiFlow 基准测试平台:覆盖小红书、高德地图、饿了么、淘宝等 10 余款主流 App,包含简单和困难两个难度等级,为移动智能体的性能评估提供了标准化场景。

  • 开源地址:https://github.com/IPADS-SAI/MobiAgent

02 Mobile-Agent:阿里开源

Mobile-Agent 是阿里巴巴开源的项目。其核心特点是让 AI 通过“视觉”来理解屏幕内容,像人类一样点击按钮、跨应用操作,而无需依赖复杂的系统后台接口。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

任务示例:请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一篇笔记。

其工作原理是:AI 模型识别屏幕上的所有图标、文字和按钮(即使是无文字的图标),理解其含义。根据用户指令生成分步计划,并结合当前屏幕状态,决定下一步是点击、滑动还是输入。最后通过 ADB (Android Debug Bridge) 向手机发送指令。每执行一步后,系统会重新截图确认状态,具备自我修正能力。

  • 开源地址:https://github.com/X-PLUG/MobileAgent

03 Droidrun:手机自动化 Agent 框架

Droidrun 是一个基于 AI 大模型的 Android/iOS 自动化 Agent 框架,在 GitHub 上已获得超过 6.2K Star。其核心理念是“将思考交给 AI,将执行交给框架”,从而打破传统自动化脚本对特定 UI 控件的强依赖。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

任务示例:搜索下周旧金山可供两人入住的公寓房源,并提供最便宜的选项。

  • 开源地址:https://github.com/droidrun/droidrun

04 AppAgent:腾讯开源

AppAgent 的全称是 “Multimodal Agents as Smartphone Users”(像智能手机用户一样的多模态智能体)。其设计初衷是赋予 AI 智能体类似人类用户的感知和操作能力。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

它通过 ADB 获取手机屏幕截图,发送给多模态大模型进行分析。模型识别 UI 元素后,决定下一步操作的坐标或手势,实现真正的视觉驱动交互。

与其他项目不同,AppAgent 模仿了人类学习使用新软件的过程:
1. 学习阶段:面对一个新应用,它可以通过自主探索或观察人类演示进行学习,记录每个 UI 元素的功能,并生成一份知识文档(Knowledge Base)。
2. 执行阶段:当需要执行具体任务时,它会调用之前生成的知识文档来精准操作,无需每次都重新摸索界面。

  • 开源地址:https://github.com/TencentQQGYLab/AppAgent

05 mobile-use:说句话自动化你的手机

Mobile-Use 是由 Minitap AI 团队开源的 Python 库,支持安卓和 iOS 系统,在 GitHub 上拥有 1.8k Star。其核心逻辑是让 AI 模型模拟人类的操作行为。

AI视觉革命:5大开源项目让大模型像人类一样操控手机

工作流程如下:
1. 截取当前手机屏幕图像。
2. 将截图和用户指令发送给多模态大模型。
3. 模型分析截图,判断为完成任务所需执行的操作(点击坐标、滑动、输入等)。
4. Mobile-Use 将模型返回的指令转换为底层 ADB 命令并执行。
5. 执行后再次截图确认状态,循环此过程直至任务完成。

在技术实现上,mobile-use 集成了 Maestro 移动测试框架作为底层交互引擎,确保了对真实设备操作的稳定性。同时,项目支持多种大模型后端,用户可根据需要选择 OpenAI API、本地部署模型或其他兼容服务。

  • 开源地址:https://github.com/minitap-ai/mobile-use

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15874

(0)
上一篇 2025年11月25日 下午12:30
下一篇 2025年11月25日 下午5:08

相关推荐

  • LeRobot v0.5.0重磅发布:全面支持类人机器人Unitree G1,硬件生态与算法能力双突破

    自 v0.4.0 版本以来,项目已合并超过 200 个 PR,并新增了 50 多位贡献者。因此,LeRobot v0.5.0 成为迄今为止规模最大的一次发布,在几乎所有关键方向上都实现了显著扩展:支持更多机器人(包括首个类人机器人)、集成更多策略模型(包括回归的自回归 VLA)、提供更快的数据集处理流程、支持直接从 Hub 加载的仿真环境,以及基于 Pyth…

    2026年3月11日
    78301
  • AI舆情分析神器BettaFish:多智能体协作打破信息茧房,24小时生成深度报告

    看今天的 GitHub 开源热榜,一个名为 BettaFish 的开源项目登顶了。这个又名“微舆”的项目,定位为一个人人可用的多智能体舆情分析助手,旨在帮助用户打破信息茧房、还原舆情原貌、预测未来走向并辅助决策。 简单来说,它将多个 AI 智能体组织在一起,各司其职,通过模拟专业团队协作的方式来处理复杂的舆情分析任务。使用它,你可以洞察各大媒体平台上对特定品…

    2025年11月6日
    36400
  • 多智能体协同新范式:华为支持openJiuwen发布Coordination Engineering全家桶,实现团队能力可复制进化

    从Prompt Engineering(提示词工程)、Context Engineering(上下文工程)到如今备受瞩目的Harness Engineering,围绕大模型落地的技术方法论持续迭代,其核心目标始终是打磨单个智能体的能力。 然而,复杂任务的多元化趋势日益显著,越来越多的场景需要多智能体协同作战,分工完成信息调研、逻辑分析、任务执行、结果核验等环…

    4天前
    18800
  • 蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

    蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈 什么在限制空间智能的落地? 从自动驾驶到具身智能,行业共识指向一个核心要素:数据。数据不足导致模型泛化能力弱,往往只能依赖硬件堆叠来弥补。 这一挑战在机器人领域尤为突出。机器人依赖RGB-D相机来感知三维空间,这类设备能同时获取RGB图像和深度信息。然而,当遇到镜子、电梯门、玻璃等透明或高反光物体…

    2026年3月31日
    26400
  • GitHub 六大 Agent 开源项目:从零构建智能体,打破信息壁垒

    2025年,无疑是Agent(智能体)元年,GitHub作为重要的学习平台,汇聚了大量优质的开源教程与项目。 01 Hello-Agents 这是由国内社区Datawhale开源的教程,在GitHub上已获得5700+ Star。该教程不仅深入讲解底层原理,更注重实践,手把手指导你编写可运行的Agent代码。它不仅仅是一个代码仓库,更像一本互动式的教科书,旨…

    2025年12月9日
    1.4K00