移动智能体

  • 突破GUI像素瓶颈!面向端侧Agent语义世界建模 MobileWorldBench!1.4M 数据样本驱动 7.4%性能跃升!

    关键词: 语义世界建模 、移动智能体 、MobileWorldBench、MobileWorld、 视觉语言模型 、GUI 世界建模 在手机 APP 操作中,我们早已习惯了“点击-反馈”的即时互动——但对 AI 智能体来说,要预判“点击按钮后界面会怎么变”,曾是个棘手难题。 传统 AI 依赖像素级世界建模,试图精准预测未来界面的每一个像素点,却因 GUI(图…

    2025年12月28日
    8200
  • AI视觉革命:5大开源项目让大模型像人类一样操控手机

    在过去,自动化操作手机通常需要依赖 Appium 或 Airtest 等工具,这要求开发者必须深入了解应用的底层元素标识,如 resource-id 或 xpath。一旦应用更新导致这些标识符发生变化,自动化脚本便会失效。 如今,随着 AI 大模型,尤其是视觉模型的发展,让 AI 像人类一样“看懂”并操控手机屏幕成为可能。本文将介绍几个热门的、利用 AI 实…

    2025年11月25日
    13900