MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

关键词:MobileRL框架、端侧GUI智能体、强化学习、ADAGRPO算法、Android基准测试

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

  • MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents
  • https://arxiv.org/pdf/2509.18119
  • 代码:https://github.com/THUDM/MobileRL

本文针对移动端图形用户界面(GUI)智能体强化学习面临的任务难度长尾分布、大规模环境采样低效等核心挑战,提出在线智能体强化学习框架 MobileRL

该框架包含无推理监督微调、推理监督微调及智能体强化学习三部分,前两阶段为强化学习提供预热,提升指令理解能力并降低探索成本。其核心创新在于 Difficulty-ADAptive GRPO(ADAGRPO)算法,融合三大关键策略:

  • 难度自适应正向重放(AdaPR):通过复用高价值轨迹强化学习信号。
  • 失败课程过滤(FCF):筛选不可解任务以优化计算资源分配。
  • 最短路径奖励调整(SPA):依据任务完成长度重塑奖励,兼顾准确性与效率。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架
图 2:MobileRL 概览。它包括1)无推理监督微调(SFT)和推理监督微调(SFT)的推理预热,以及2)采用ADAGRPO的在线智能体强化学习(RL)。在ADAGRPO中,经过预热的策略与移动环境交互以生成轨迹,这些轨迹通过最短路径奖励调整(SPA)进行评分。高质量的正向轨迹被存储在AdaPR缓冲区中,而表现不佳的轨迹则通过失败课程过滤被修剪掉。

框架基于 Verl 实现,支持多任务多轮训练,通过 Docker 化 Android 虚拟设备实现千级环境并发交互,保障可复现性与兼容性。实验中,MobileRL 分别基于 Qwen2.5-VL-7B-Instruct 和 GLM-4.1V-9B-Base 训练出 MobileRL-7B 和 MobileRL-9B 模型。

  • MobileRL-9B 在 AndroidWorld 和 AndroidLab 基准测试中成功率分别达 80.2%53.6%,显著超越现有最优结果。
  • MobileRL-7B 虽规模更小,却优于 72B 参数 的 UI-TARS-1.5 等模型。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架
图1:性能对比与训练曲线。左图和中图:AndroidWorld(Rawles等人,2024)和AndroidLab(Xu等人,2024)上的任务成功率;阴影区域表示在SFT模型基础上使用MOBILERL所获得的提升。右图:强化学习训练期间,AndroidWorld训练集和测试集上的轨迹级成功率曲线。

消融实验验证了各组件在稳定训练、提升采样效率上的有效性。该框架已开源,为移动 GUI 智能体的高效训练提供了创新解决方案,推动其在多样化移动应用中的实用化进程。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架
图 6:移动任务执行示例。我们的智能体能够在学术基准测试与实际应用场景中,依据人类指令自动执行任务。如在 OsmAnd 地图添加坐标标记、Temu 搜索并按低价排序无线耳机、Booking 筛选指定日期酒店等。这些案例印证了 MOBILERL 框架的实用性 —— 其依托 ADAGRPO 算法,能在 AndroidWorld 等学术基准与实际 App 中稳定执行多步任务,大幅提升移动 GUI 交互的自动化效率。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

一、引言

在视觉语言模型(Vision Language Models, VLMs)的发展推动下,构建通用图形用户界面智能体的前景日益广阔。

然而,利用强化学习开发高效的移动 GUI 智能体仍面临诸多挑战, 主要源于任务难度的长尾分布以及大规模环境采样的低效性

为此,我们提出一种在线智能体强化学习框架 MobileRL,用于增强移动环境中的 GUI 智能体性能。该框架的 核心组件是难度自适应分组相对策略优化(Difficulty-ADAptive GRPO, ADAGRPO)算法

  • 在 ADAGRPO 中,我们设计了难度自适应正向回放失败课程过滤机制,以帮助模型适应不同难度的任务。
  • 同时引入最短路径奖励调整策略,在多轮智能体任务中根据任务长度重构奖励。

这些策略共同作用,稳定了强化学习训练过程、提升了样本利用效率,并使模型在各类移动应用和任务中均能展现出优异性能。

我们将 MobileRL 应用于两个开源模型(Qwen2.5-VL-7B-Instruct 和 GLM-4.1V-9B-Base),最终得到的 MobileRL-9B 模型在 AndroidWorld(80.2%)和 AndroidLab(53.6%)两个基准测试集上的 任务成功率均达到当前最优水平

视觉语言模型驱动的 GUI 智能体已实现对网页和移动界面的零样本交互。为进一步提升其性能,现有研究主要聚焦于 基于静态专家演示数据的监督微调(SFT)或离线模仿学习。然而, 这些方法存在行为覆盖范围有限和错误恢复能力弱的问题

具有可验证奖励的强化学习为解决上述问题提供了可行方案。但现有带单步专家标签的数据集,对于训练或评估智能体任务的策略而言仍显不足。尽管已有研究在 GUI 智能体的在线学习方向取得初步进展,但如何在交互式移动模拟器中高效扩展智能体强化学习,仍是一个尚未充分探索的领域。

具体而言,该领域主要面临以下技术挑战:

二、MobileRL

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架
图 2:MobileRL 概览。它包括1)无推理监督微调(SFT)和推理监督微调(SFT)的推理预热,以及2)采用ADAGRPO的在线智能体强化学习(RL)。在ADAGRPO中,经过预热的策略与移动环境交互以生成轨迹,这些轨迹通过最短路径奖励调整(SPA)进行评分。高质量的正向轨迹被存储在AdaPR缓冲区中,而表现不佳的轨迹则通过失败课程过滤被修剪掉。

本文针对移动 GUI 智能体展开研究,提出 MobileRL 框架如图 2 所示,旨在解决交互式移动环境中的三大关键挑战:

  1. 稀疏正向信号下的复杂指令遵循问题:基础模型通常难以针对复杂的、GUI 特有的指令稳定生成正确的动作指令。由于移动仿真的高成本和高延迟,成功执行的轨迹数量稀少,导致早期探索阶段的样本利用效率极低。
  2. 任务难度分布的广泛性与不稳定性:部分任务仅需几次轨迹尝试即可成功,而另一些任务则始终难以被模型解决。简单的随机采样会浪费计算资源,且无法充分利用那些数量稀少但信息丰富的轨迹。
  3. 大规模移动环境中的采样瓶颈:部署和管理数百个并发移动实例需要大量资源,且难以在不同配置环境下复现。低采样吞吐量进一步限制了在线智能体强化学习的规模和效率。

为应对上述挑战,我们提出一种自适应在线智能体强化学习框架 MobileRL,用于改进移动 GUI 智能体。MobileRL 包含三个组件:无推理监督微调、推理监督微调和智能体强化学习。前两个微调阶段为后续的强化学习提供“预热”作用。

具体而言,推理监督微调增强了模型对长指令和组合型指令的处理能力,减少了在移动模拟器中高成本的在线策略尝试。

为实现高效的在线智能体强化学习,我们引入难度自适应分组相对策略优化(ADAGRPO)算法。该算法基于分组相对策略优化构建,核心思想是让优化过程适应任务实例的难度,并明确对高效解决方案给予奖励。ADAGRPO 设计了三个关键策略:

  1. 难度自适应正向回放:维护一个包含具有挑战性的高质量轨迹的精选缓冲区,并将其与在线策略样本进行平衡。在稀疏奖励的移动环境中,难度较高的成功轨迹虽稀少但信息价值极高,对这些轨迹进行回放可增强学习信号,稳定策略更新。
  2. 失败课程过滤:作为课程学习的简化版本,FCF 利用在线难度统计信息降低对始终无法解决的任务的权重,将计算资源重新分配给可行的任务实例。鉴于在移动智能体基准测试中观察到的任务难度长尾分布,剔除那些“硬死角”可提升样本效率,同时保留可恢复失败所包含的学习信号。
  3. 最短路径奖励调整:根据任务完成长度重构奖励函数,为更短的解决方案分配更高的回报。这种对长度敏感的奖励机制可抵消模型对冗长动作序列的偏好,更符合移动交互场景下的用户需求。

我们在基于 Verl 的框架中实现 MobileRL,该框架支持多任务、多轮智能体强化学习训练。与以往的 Android 模拟器实现方案不同,我们的框架能实现高吞吐量,可跨多台机器协调数百个 Docker 化的 Android 虚拟设备。这种配置支持与超过 1000 个环境的并发交互,同时保证了实验的可复现性。由于大多数开源基准测试集和模拟器均基于 Android 操作系统构建,该设计确保了与现有环境的无缝兼容性,并能真实复现环境行为。

我们在 Qwen2.5-VL-7B-Instruct 和 GLM-4-1V-9B-Base 两个基础模型上训练 MobileRL,分别得到 MobileRL-7B 和 MobileRL-9B 模型。

  • 其中,MobileRL-9B 将 AndroidWorld 和 AndroidLab 的任务成功率分别提升至 80.2% 和 53.6%,显著超过此前的最优结果。
  • 尽管 MobileRL-7B 的模型规模远小于 720 亿参数的 UI-TARS-1.5 和 UI-GENIE-AGENT 模型,但其性能仍优于这两个大模型。

此外,大量消融实验也证明了 ADAGRPO 设计的有效性。综上,本文的贡献如下:

  • MobileRL 框架与可扩展采样:我们开发了 MobileRL 框架,通过两阶段预热和后续的在线智能体强化学习,实现移动 GUI 智能体的训练。我们还构建了一个分布式采样实现方案,协调数百个 Docker 化的 Android 虚拟设备,支持在 Android 基准测试集上进行可复现的大规模训练。
  • ADAGRPO 算法:我们提出难度自适应分组相对策略优化算法,该算法在 GRPO 基础上扩展了三个策略:(i)用于回放具有挑战性的成功轨迹的 AdaPR;(ii)用于降低始终无法解决的任务权重的 FCF;(iii)用于基于长度调整奖励的 SPA。这些策略使算法能够适应任务实例难度并考虑解决方案的效率。
  • 实验结果:在 Qwen2.5-VL-7B-Instruct 和 GLM-4-1V-9B-Base 上训练得到的 MobileRL-7B 和 MobileRL-9B 模型,其中 MobileRL-9B 在 AndroidWorld 和 AndroidLab 上的成功率分别达到 80.2% 和 53.6%,超过了此前的最优结果。

问题建模

给定自然语言指令,智能体需与移动设备进行自主闭环交互。首先,智能体感知当前屏幕状态、定位 UI 元素,并执行一系列动作,全程无需人工干预。奖励信号具有稀疏性,仅在任务成功完成时才能获得,此时交互终止或达到预定义的最大步骤数。

训练目标是学习一种策略,使其在不同应用和任务中均能表现出优异性能,同时最大限度减少不必要的交互,并提高任务成功率。

我们将移动 GUI 智能体建模为有限步长马尔可夫决策过程,记为 $mathcal{M}$,各组件定义如下:

  • 状态空间 $mathcal{S}$:包含所有可能的 GUI 状态。时刻 $t$ 的具体状态记为 $s_t$,由设备屏幕截图和从 XML 元数据解析得到的结构化 UI 层级构成。
  • 动作空间 $mathcal{A}$:包含有限个原子 GUI 操作。时刻 $t$ 的动作记为 $a_t$,包括点击、滑动、输入文本、长按、启动应用、返回主页、返回上一页、等待以及终止动作。
  • 状态转移概率 $P$:表示 Android 操作系统和已安装应用的随机状态转移机制。
  • 有限步长 $T$:表示每个任务允许的最大交互步骤数。
  • 初始分布 $rho$:初始状态和指令对 $(s_0, g)$ 服从初始分布 $rho$。

在每个时间步 $t$,智能体仅观察当前状态 $s_t$,并根据策略 $pi$ 采样动作 $a_t$,即 $a_t sim pi(cdot|s_t, g)$。环境随后根据状态转移概率 $P$ 转移到新状态 $s_{t+1}$。一个任务回合产生一条轨迹 $tau = (s_0, a_0, s_1, a_1, …, s_T)$,当智能体在成功状态下主动选择“Finish”动作或达到最大步长 $T$ 时,回合终止。

奖励仅在任务完成后分配,即 $R(tau) in {0, 1}$,其中:1 表示任务成功,0 表示任务失败。因此,学习目标是最大化任务成功概率 $mathbb{E}_{tau sim pi}[R(tau)]$。

2.1 MobileRL 框架

为构建高性能的移动 GUI 智能体,我们提出 MobileRL 框架,该框架包含三个组件:基于专家演示数据的无推理监督微调、通过推理监督微调实现的迭代预热阶段,以及基于本文提出的难度自适应策略优化策略的智能体强化学习。

无推理监督微调

在智能体强化学习训练中,在虚拟设备环境中进行采样通常效率较低,因此直接从基础模型开始在线强化学习会消耗大量时间。为此,我们使用专家演示数据进行监督微调,这些数据遵循相应的数据收集协议,并补充了公开可用的 AndroidControl 数据集的训练集部分。需注意的是,该数据集不包含推理过程。

推理监督微调

为进一步构建更强的推理策略初始化模型,我们通过在专家数据集上执行迭代推理优化策略,进行推理监督微调。人工收集的移动智能体专家演示数据集通常仅包含最终的动作序列,而省略了中间的推理过程。

仅基于这种“黑箱”式轨迹训练会导致策略缺乏可解释性。因此,我们利用一个现成的指令模型,从原始演示数据中构建增强推理的训练集,得到结构化且可解释的策略初始化模型。具体而言,我们通过三个阶段迭代构建推理指令微调对:

  1. 引导采样:对于每个带有专家动作答案的任务,指令模型生成多个候选推理-动作对。若候选对中的动作与专家答案一致,则将该推理-动作对保留到推理训练集中。
  2. 监督微调:在收集到的推理训练集上训练初始推理策略。
  3. 迭代优化:在第 t 次迭代中,使用当前策略为训练集中的任务生成候选推理-动作对;对与专家动作匹配的候选对,根据其推理链的正确性进行评分;将最优解释添加到新数据集中;通过混合新旧数据进行微调得到更新后的策略。

将最终得到的推理导向微调语料库训练两个轮次,得到用于智能体强化学习训练的推理预热模型。

智能体强化学习

在智能体强化学习训练过程中,我们面临即时奖励分配和采样效率的挑战。本文基于分组相对策略优化(GRPO)对这些挑战进行解决。

简单来说,GRPO 通过将近端策略优化中的学习价值基线替换为“即时分组相对基线”,实现了性能提升。

给定初始条件,我们通过滚动执行采样策略,得到一组包含 N 条轨迹的轨迹组。记 T_i 为轨迹 τ_i 的步骤数,s_t^ia_t^i 分别为轨迹 τ_i 在时刻 t 的状态和动作,R_i 为轨迹 τ_i 的轨迹级奖励。对于轨迹 τ_i 上的任意步骤 t,其分组相对轨迹级优势函数定义为:

[
hat{A}{i,t} = frac{R_i – mu{mathcal{B}}}{sigma_{mathcal{B}}}
]

其中 μ_Bσ_B 分别是轨迹组 B 中所有轨迹奖励的均值和标准差。

GRPO 的损失函数可表示为以下经验形式:

[
mathcal{L}{text{GRPO}}(theta) = mathbb{E}{(s,a) sim pi_{theta_{text{old}}}} left[ minleft( r(theta) hat{A}, text{clip}(r(theta), 1-epsilon, 1+epsilon) hat{A} right) right]
]

其中 r(θ) 是基于 token 的重要性采样比。为防止模型与先验分布偏差过大,我们还添加了 KL 散度损失:L_KL(θ) = β * KL[π_θ || π_ref],其中 β 为 KL 损失系数,π_ref 为参考策略。

难度自适应分组相对策略优化(ADAGRPO)

我们提出难度自适应分组相对策略优化(ADAGRPO)算法,通过三个关键策略——最短路径奖励调整(SPA)、难度自适应正向回放(AdaPR)和失败课程过滤(FCF)——解决移动智能体强化学习中的挑战。

  • 首先,在多轮移动智能体任务中,奖励分配策略需要重新设计。除了分配统一的终端奖励,我们引入最短路径奖励调整,根据任务完成长度对奖励进行重构。该调整的目标是提供更具信息性的学习信号,引导模型选择准确且高效的完成路径,并便于计算轨迹级优势函数。
  • 其次,标准 GRPO 中采用的均匀采样策略存在进一步优化空间。在移动应用场景中,每个样本的计算成本较高,这种采样策略会导致样本效率低下——尤其是反复采样那些本质上无法解决的任务。为缓解这一问题,我们通过两个机制根据任务实例难度调整数据收集和训练过程:难度自适应正向回放和失败课程过滤。同时,我们限制冗余的成功轨迹,以避免不必要的更新,提升训练效率。

最短路径奖励调整(SPA)

在移动任务中,环境返回二元终端奖励,用于表示任务成功或失败。以往方法通常将该奖励广播到每个时间步,即 r_t = R∀t),以确保每一步的信号与稀疏奖励目标一致。然而,为所有成功轨迹分配相同的奖励会导致训练偏向更长的轨迹

为解决这一问题,我们引入 SPA,对每条轨迹的奖励进行重新缩放,公式如下:

[
R_i’ = maxleft(0, R_i – lambda cdot frac{T_i – min_{j in mathcal{S}} T_j}{min_{j in mathcal{S}} T_j} right)
]

其中:
* T_i 为轨迹 τ_i 的长度;
* S 表示当前任务实例的所有成功轨迹集合;
* min_{j∈S} T_j 为成功轨迹集合中最短轨迹的长度;
* λ 为惩罚强度系数。

在该公式中,较短的轨迹并非自动被判定为“更好”——过早终止且任务失败的轨迹仍会获得 0 奖励这种调整机制在不牺牲成功率的前提下,鼓励策略选择更短的成功路径。

难度自适应正向回放(AdaPR)

在稀疏奖励的移动环境中,成功且具有挑战性的轨迹虽稀少但信息价值极高——有效利用这些轨迹可增强学习信号,稳定策略更新。因此,受经验回放思想启发,我们引入难度自适应正向回放,有策略地保留和复用具有挑战性的高价值轨迹,并将其与新的在线样本进行混合。以下介绍 AdaPR 的关键组件:用于选择高质量轨迹的缓冲区构建和用于平衡回放与探索的混合采样。

缓冲区构建

在第 k 次迭代中,轨迹集合 B_k 由当前策略生成。我们计算每条轨迹的轨迹级优势函数 Â_i,将优势值最高的 M 条轨迹插入回放缓冲区 D 中。

混合采样

每次策略更新均基于一个包含 B 条轨迹的迷你批次,这些轨迹从混合分布 P_mix = (1-α)P_online + αP_replay 中采样得到,其中:
* P_online 为在线策略分布;
* P_replay 为回放缓冲区中轨迹的经验分布;
* α 为回放比例系数。

为控制回放轨迹对更新的贡献,从缓冲区中采样的轨迹数量最多不超过 αB,且优先选择当前优势值最高的轨迹,以保留在线策略的多样性。

失败课程过滤(FCF)

为避免反复采样那些始终产生零奖励的任务,我们提出失败课程过滤策略。在 FCF 中,若某个任务连续两个轮次均产生零奖励,则该任务进入一个为期三个轮次的“冷却期”。在冷却期内,该任务的采样概率根据以下公式降低:p = p_0 * exp(-γ * c),其中 c 为该任务连续失败的轮次;冷却期结束后,若任务仍无法成功,则将其永久移除出采样池。

该方法可视为课程采样的一种变体。为避免过多的超参数调优,我们将其简化为仅剔除难度最高的那部分任务。对于连续失败次数较多的任务,将其永久从采样池中移除。为保证训练稳定性,保留之前训练过程中的失败历史。

总结

综上,MobileRL 框架包含无推理监督微调、推理监督微调以及用于训练移动 GUI 智能体的难度自适应强化学习三个部分。其中:
* 无推理监督微调通过专家演示数据为模型构建坚实的动作基础;
* 推理监督微调通过添加中间推理过程,提升模型的指令遵循能力和策略可解释性;
* 在上述初始化基础上,基于 ADAGRPO 的智能体强化学习解决了稀疏终端奖励、任务难度长尾分布和高采样成本的挑战——具体而言,SPA 通过重构终端奖励提供更密集的反馈,AdaPR 有策略地复用具有挑战性的成功轨迹,FCF 则过滤掉始终无法解决的任务。

三、实验

3.1 实验设置

数据集与基准测试集

在两阶段监督微调过程中,我们使用人工标注数据和 AndroidControl 数据集,分别构建了包含 97.9k 和 23.6k 训练步骤的训练数据。在强化学习阶段,我们采用 AndroidWorld 和 AndroidLab 的交互式训练集,分别包含 2000 个和 1103 个任务。这些任务均配有可验证奖励和基于视觉语言模型的奖励模型。

实验评估在两个交互式移动基准测试集上进行:
* AndroidWorld:包含 20 个应用的 116 个任务;
* AndroidLab:包含 9 个应用的 138 个任务。

两个基准测试集均提供交互式环境。此外,我们还在静态数据集 AndroidControl(包含 8444 个测试样本)上评估模型性能。

基线模型

实验选用的基线模型包括闭源智能体/模型和开源智能体/模型,具体如下:
* 闭源大语言模型:GPT-4o-2024-11-20、Claude-Sonnet-4-20250514-thinking;
* 闭源智能体:UI-Tars-1.5、AutoGLM;
* 开源视觉语言模型:Qwen2.5-VL-7B-Instruct、GLM-4.1V-9B-Thinking、UI-Tars-7B、V-Droid、UI-Genie-Agent。

3.2 主要结果

我们以 Qwen2.5-VL-7B 和 GLM-4.1V-9B-Base 为基础模型,在 AndroidWorld 和 AndroidLab 两个在线交互式基准测试集上评估 MobileRL 的性能。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架
表1:专有模型和开源模型在AndroidWorld和AndroidLab上执行移动GUI交互任务的成功率(%)

如表 1 所示,MobileRL 的性能显著优于此前的结果:

3.3 消融实验

为验证 MobileRL 框架及 ADAGRPO 算法各组件的作用,研究团队进行了系统的消融实验。首先,以两个基础模型为起点,逐步应用无推理监督微调、推理监督微调及 ADAGRPO 算法,评估各阶段贡献。随后,以经过推理监督微调训练的 Qwen2.5-VL-7B-Instruct 模型为初始模型,在 AndroidWorld 训练集上深入分析了 ADAGRPO 的三个核心组件(AdaPR、SPA、FCF)的影响。

MobileRL 框架消融

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

表 3a 总结了 MobileRL 框架各训练阶段对模型成功率的提升效果:
* 对于 Qwen2.5-VL-7B 模型,完整的 MobileRL 框架使其在 AndroidWorld 和 AndroidLab 上的成功率分别提升了 44.4% 和 32.4%。
* 对于 GLM-4.1V-9B 模型,MobileRL 框架在两个测试集上的成功率提升更为显著,分别达到 72.5% 和 43.5%。

总体而言,无推理监督微调为模型提供了显著的初始性能提升,推理监督微调在此基础上进一步优化了模型能力。在这两个阶段构建的坚实基础上,ADAGRPO 强化学习阶段最终将模型性能推至新高。

ADAGRPO 算法消融

ADAGRPO 算法包含三个关键组件:状态-动作对增强、自适应优先级回放和失败条件过滤。消融实验设置了四个对比组以评估各组件的作用:
1. MobileRL w/o AdaPR;
2. MobileRL w/o SPA;
3. MobileRL w/o AdaPR & SPA;
4. MobileRL w/o FCF。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

实验记录了训练过程中的在线轨迹奖励曲线(图 3b)以及各对比组在 AndroidWorld 上的最终成功率(表 3c)。结果表明,ADAGRPO 的每个组件均对 MobileRL 的整体性能提升有重要贡献
* FCF 的约束作用:在有限的 100 步预算下,FCF 在过滤无效或难度过高的任务方面发挥了关键作用。移除 FCF 后,早期采样会偏向于难度过高的任务,导致产生大量负样本,并降低了奖励上限。
* 仅保留 FCF 的局限性:仅使用 FCF 的训练在初期较为稳定,但在约 30 步后出现性能崩溃,这表明 AdaPR 和 SPA 对于维持训练的长期稳定性至关重要
* AdaPR 的优势:在约 7 步训练后,“w/o AdaPR”组与完整 MobileRL 方法的性能差距开始逐渐扩大,体现了自适应优先级回放机制在高效利用经验数据方面的优势
* SPA 的效能:在约 60 步后,SPA 的性能增益开始显现。这可能是因为缺乏步长控制会导致智能体轨迹过长,而SPA 通过奖励重构有效缓解了这一问题

无推理监督微调的必要性验证

无推理监督微调指在不包含推理过程的专家数据集上进行监督微调。实验旨在探究一个关键问题:使用不含明确推理步骤的专家数据进行微调是否仍有价值?

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

实验对比了完整 MobileRL 与“跳过无推理监督微调阶段的 MobileRL”的性能。结果显示,加入无推理监督微调阶段始终能提升模型在 AndroidWorld 上的性能,这表明即使没有显式的推理轨迹,该阶段仍能为模型的最终性能提升做出基础性贡献

模型在离线数据集上的性能

无推理监督微调与推理监督微调阶段的训练数据包含了 AndroidControl 数据集(已转换为 MobileRL 格式)。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

表 2 展示了 MobileRL 在 AndroidControl 离线测试集上的性能:
* MobileRL-9B 的“无 RL”版本(即仅经过监督微调)性能已超过所有此前模型,达到当前最优水平。
* MobileRL-9B 的“有 RL”版本(经过完整训练)性能基本保持稳定,表明强化学习阶段未对离线任务性能产生负面影响。

不同任务复杂度下的成功率

实验将 AndroidWorld 测试集按任务所需步数(复杂度)分为四个等级:
* 等级 1:≤ 10 步;
* 等级 2:11 – 20 步;
* 等级 3:21 – 30 步;
* 等级 4 及以上:> 30 步。

在温度参数为 1.0 的设置下运行 8 次测试,并报告 pass@1/2/4/8 结果。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

结果表明,MobileRL 在所有任务复杂度等级下均实现了稳定的性能提升。一个显著的发现是,经过强化学习训练后的模型,其 pass@1 成功率甚至超过了强化学习前模型的 pass@8 成功率,这充分体现了 MobileRL 框架的有效性。与 AdaPR 组件针对难度长尾分布的设计目标一致,模型在高复杂度任务(等级 3 和 4)上的性能提升尤为明显。

SPA 对步长效率的影响

尽管在之前的消融实验中,SPA 对整体任务成功率的影响相对最小,但其对提升智能体步长效率(即用更少的步骤完成任务)的效果非常显著。

MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

如图 5 所示,按任务复杂度分组分析发现,在所有难度等级下,集成 SPA 组件的 MobileRL 智能体完成任务所需的平均步骤数均更少。此外,通过对比“两个模型均正确完成任务”、“两个模型均失败”以及“仅一个模型正确”三种场景,发现在所有场景中,带有 SPA 的 MobileRL 都更倾向于产生更短的行动轨迹。

四、相关工作

4.1 移动 GUI 智能体

近年来,利用强大的多模态语言模型构建能够操作真实计算设备(如手机)的智能体已成为研究热点。这类 Android 智能体能够感知图形用户界面,并通过点击、滑动、文本输入等动作与环境进行交互。

为提升动作预测的准确性和学习效率,现有框架探索了多种技术方向,包括多模态探索模块化推理验证器驱动控制以及基于轻量级语言模型的代码执行等。

然而,许多现有系统仍主要依赖于离线强化学习或在单轮交互数据上进行训练:
* DigiRL 使用离线演示数据进行策略学习。
* UI-R1 在单步决策回合上训练模型。
* UI-Tars 在离线场景中应用直接偏好优化方法。

目前,针对自适应移动 GUI 智能体的在线、多轮交互式强化学习方法仍未得到充分探索。此外,部分研究也开始关注更贴近实际的应用场景评估:
* AppAgent 在真实世界移动应用上评估闭源模型的能力。
* A3 提供了一套真实应用测试套件和自动化评估协议,旨在减少对人工评估的依赖。

4.2 移动智能体基准测试集

移动智能体基准测试集的构建主要分为两个方向:

方向一:静态或回放式基准测试集

AndroidControl、Android in the Wild、MobileAgentBench 和 Mobile-Bench 等基准测试集提供了大量任务和轨迹,但这些基准测试集在真实世界评估中存在局限性——固定的轨迹和屏幕限制了智能体处理不确定性和进行探索的能力。

方向二:交互式模拟器环境

AndroidWorld、AndroidLab 和 B-MOCA 等环境涵盖了多种应用和真实任务,但对现有智能体而言仍具有挑战性。当前移动 GUI 基准测试集的一个局限是:缺乏支持异步、并行虚拟设备交互的能力,难以实现大规模训练。 据我们所知,目前所有公开的移动 GUI 基准测试集均基于 Android 操作系统构建。

五、结论

本文提出 MobileRL——一种用于改进移动 GUI 智能体的智能体强化学习框架。该框架通过“分阶段初始化+自适应强化学习算法(ADAGRPO) ”的组合方式,实现了性能突破。具体而言:

  1. 训练始于基于大规模专家演示数据的无推理监督微调;
  2. 随后进入推理监督微调阶段,通过添加中间推理过程,减少“冷启动”探索成本;
  3. 在上述基础上,提出难度自适应分组相对策略优化算法——该算法在 GRPO 基础上,结合了最短路径奖励调整、自适应正向回放和失败课程过滤三个策略,提升了样本效率,并引导策略生成更准确、更高效的任务解决方案。

在 AndroidWorld 和 AndroidLab 两个基准测试集上的实验表明,基于开源模型的 MobileRL 在性能上显著优于开源和闭源基线模型。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17370

(0)
上一篇 2026年1月6日 下午12:52
下一篇 2026年1月7日 上午10:55

相关推荐