GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

随着移动智能技术的快速发展,手机端AI交互正迎来革命性变革。GUI Agent(图形用户界面智能体)作为新一代人机交互范式,正在重塑流量分发格局,催生千亿级市场机遇。苹果、华为、字节跳动、美团、智谱AI等科技巨头纷纷布局这一赛道,而中兴通讯凭借其自研技术框架,在这一领域取得了突破性进展。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

2025年9月,美团率先推出支持平台内“一句话点餐”的AI Agent,标志着该技术从研发走向实用化。而中兴通讯的Nebula-GUI模型在2025年10月SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,以7B参数量斩获总榜银牌,总分84.38分,其中UI元素定位得分高达93.17分。这一成绩充分证明了中兴在自动点餐、订票等复杂任务中的准确率与操作速度优势,展现了强大的手机端侧部署能力。

目前,Nebula-GUI的“一句话订票”“一句话拍照”功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用。该模型已覆盖30余款主流APP,常用场景平均准确率超过90%,未来计划进一步扩展覆盖范围,新增购物比价、旅游出行等场景级服务,持续深化“手机小秘”的实用价值。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**数据制备系统的技术突破**

GUI Agent的性能表现高度依赖于训练数据的质量。当前行业面临的核心挑战在于:高质量中文GUI数据稀缺——公开英文数据集已达百万级,而中文数据仅数千组,且标注粒度粗、属性缺失;跨APP操作的复杂任务轨迹数据不足;人工标注流程低效,难以记录触控坐标与UI控件元数据;思维链等语义信息缺失,核查成本高;人工标注易受主观影响,导致数据泛化性差。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

为解决这些痛点,中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统。该系统显著提升了数据标注效率和质量,目前基于该系统生成的数据占训练数据的90%,覆盖了出行、社交、生活服务等多元场景下的主流APP,为项目高效、稳定地输出高质量数据。

**一体化数据标注工具的创新**

GUI数据标注工具将原本分散、依赖人工的截屏、操作、标注、核查、归档流程整合为一站式自动化流水线。其核心价值在于通过一体化标注方案,系统性解决了屏幕交互数据制作中的效率、精度与成本难题。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

通过引入GUI数据标注工具,数据标注效率实现了3倍提升。该工具不仅提高了标注速度,更重要的是保证了数据的一致性和准确性,为模型训练提供了高质量、多维度的数据支撑。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**智能化数据PIPELINE的构建**

为实现对大模型训练数据的质量优化,中兴开发了一套自动化数据Pipeline,系统化解决因人工标注导致的语言表达单一、思维链缺失或逻辑不一致等问题。这一举措显著提升了数据的多样性与逻辑完整性,增强了模型的泛化能力。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**全时数据飞轮系统的实现**

面对屏幕数据标注对人力与设备资源的双重依赖,中兴推出了集任务调度、任务管理、联邦设备管理与GUI Agent于一体的数据自动化生成平台。该平台通过对分散的实体手机和虚拟机进行集约化管控,有效解决了设备资源利用率低、管理分散的痛点。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

基于高效的任务调度引擎,平台能够全时自动化运行,构建了从任务下发到数据生成的闭环流水线。这不仅大幅降低了对人工标注的依赖,更实现了数据生产规模与整体效率的同步飞跃,为AI模型的快速迭代提供了强大助力。

**监督微调技术的突破**

业界现有多模态大模型在处理GUI屏幕时存在三大局限:感知失准——能识别界面元素但无法理解其功能语义;推理脱节——难以将高阶指令转化为具体操作序列;交互缺失——缺乏输出结构化、可执行操作指令的能力。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

中兴通讯通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,成功让通用多模态模型进化为具备“感知-理解-执行-规划-纠错”能力的GUI操作智能体。这一技术突破带来了三个层面的显著提升:基础操作鲁棒性显著增强,模型对中文GUI页面的动态变化具备了更强的理解能力;长任务流程成功率有效提升,智能体能够像人类用户一样在执行中监测状态、在偏离时回溯路径;从“实验室原型”迈向“商业可用”,GUI智能体进化为能够适应真实世界动态环境的“准生产级”助手。

**中文GUI数据集的构建**

为了让模型精准理解中文GUI界面的复杂结构与语义,中兴针对开源视觉模型严重缺乏中文场景训练数据的问题,整合开源与自研数据,构建了一套融合XML解析、OCR识别、UI元素检测与大语言模型标注的自动化数据标注流程。最终,中兴自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,为GUI Agent的中文优化奠定了坚实基础。

— 图片补充 —

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8208

(0)
上一篇 2025年11月4日 上午11:30
下一篇 2025年11月4日 下午12:45

相关推荐

  • GRPO-Guard:破解流模型强化学习过优化难题,重塑视觉生成对齐新范式

    在视觉生成领域,强化学习从人类反馈(RLHF)及其变体已成为提升模型与人类偏好对齐的关键技术。其中,基于梯度的奖励策略优化(GRPO)因其高效性,在图像和视频生成的流模型中展现出显著潜力,如FlowGRPO和DanceGRPO等应用,已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而,近期研究发现,GRPO在流模型训练中存在一个隐蔽却致命的问题——…

    2025年11月13日
    18400
  • AI驱动PC产业新周期:联想财报揭示硬件巨头的智能化转型路径

    近期IDC发布的2025年第三季度全球PC出货量数据显示,市场总量达到7590万台,同比增长9.4%,实现连续四个季度的正增长。这一数据有力驳斥了“PC行业触顶论”,表明在AI技术赋能下,传统硬件产业正迎来结构性复苏。作为行业风向标的联想集团,其最新财报更揭示了AI如何重塑PC价值链,推动硬件制造商向智能化服务商转型。 联想2025/26财年第二财季财报显示…

    2025年11月23日
    20500
  • INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

    近日,Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有106B参数的混合专家(Mixture-of-Experts)架构模型,基于其自研的强化学习技术栈进行训练。该模型在数学、代码、科学和推理等多个基准测试中取得了同规模模型中的最佳表现,甚至超越了部分参数更大的前沿模型。更重要的是,Prime Intellect将完整的训练流…

    2025年12月10日
    22800
  • PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

    PerturbDiff:将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA 如何利用AI预测一款抗癌新药对特定癌细胞的影响?一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。 然而,单细胞转录组测序(scRNA-seq)的“破坏性”构成了根本障碍:一旦对细胞状态进行观测,该细胞即被溶解。因此,我们无法在施加微扰(如药物干预、基因编辑)…

    2026年3月12日
    11400
  • 仿真合成数据:驱动具身智能与世界模型突破的关键燃料

    在AI技术从信息处理向物理世界交互演进的关键拐点,仿真合成数据正从辅助工具转变为基础设施,成为训练下一代AI模型的核心要素。近期,专注于该领域的光轮智能完成数亿元融资,其客户涵盖英伟达、谷歌、阿里、字节等科技巨头,以及Figure AI、智元机器人、丰田、比亚迪等产业代表,凸显了仿真合成数据在AI生态中的战略地位。 当前AI发展的核心矛盾在于:模型在文本、图…

    2025年11月19日
    17700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注