GUI Agent技术深度解析：中兴通讯如何突破手机端AI交互瓶颈

2025年11月4日下午12:37 • AI产业动态 • 阅读 92

随着移动智能技术的快速发展，手机端AI交互正迎来革命性变革。GUI Agent（图形用户界面智能体）作为新一代人机交互范式，正在重塑流量分发格局，催生千亿级市场机遇。苹果、华为、字节跳动、美团、智谱AI等科技巨头纷纷布局这一赛道，而中兴通讯凭借其自研技术框架，在这一领域取得了突破性进展。

2025年9月，美团率先推出支持平台内“一句话点餐”的AI Agent，标志着该技术从研发走向实用化。而中兴通讯的Nebula-GUI模型在2025年10月SuperCLUE发布的AgentCLUE-mobile手机GUI Agent（离线）基准测评中，以7B参数量斩获总榜银牌，总分84.38分，其中UI元素定位得分高达93.17分。这一成绩充分证明了中兴在自动点餐、订票等复杂任务中的准确率与操作速度优势，展现了强大的手机端侧部署能力。

目前，Nebula-GUI的“一句话订票”“一句话拍照”功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用。该模型已覆盖30余款主流APP，常用场景平均准确率超过90%，未来计划进一步扩展覆盖范围，新增购物比价、旅游出行等场景级服务，持续深化“手机小秘”的实用价值。

**数据制备系统的技术突破**

GUI Agent的性能表现高度依赖于训练数据的质量。当前行业面临的核心挑战在于：高质量中文GUI数据稀缺——公开英文数据集已达百万级，而中文数据仅数千组，且标注粒度粗、属性缺失；跨APP操作的复杂任务轨迹数据不足；人工标注流程低效，难以记录触控坐标与UI控件元数据；思维链等语义信息缺失，核查成本高；人工标注易受主观影响，导致数据泛化性差。

为解决这些痛点，中兴开发了一套完整的端到端数据制备系统，包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统。该系统显著提升了数据标注效率和质量，目前基于该系统生成的数据占训练数据的90%，覆盖了出行、社交、生活服务等多元场景下的主流APP，为项目高效、稳定地输出高质量数据。

**一体化数据标注工具的创新**

GUI数据标注工具将原本分散、依赖人工的截屏、操作、标注、核查、归档流程整合为一站式自动化流水线。其核心价值在于通过一体化标注方案，系统性解决了屏幕交互数据制作中的效率、精度与成本难题。

通过引入GUI数据标注工具，数据标注效率实现了3倍提升。该工具不仅提高了标注速度，更重要的是保证了数据的一致性和准确性，为模型训练提供了高质量、多维度的数据支撑。

**智能化数据PIPELINE的构建**

为实现对大模型训练数据的质量优化，中兴开发了一套自动化数据Pipeline，系统化解决因人工标注导致的语言表达单一、思维链缺失或逻辑不一致等问题。这一举措显著提升了数据的多样性与逻辑完整性，增强了模型的泛化能力。

**全时数据飞轮系统的实现**

面对屏幕数据标注对人力与设备资源的双重依赖，中兴推出了集任务调度、任务管理、联邦设备管理与GUI Agent于一体的数据自动化生成平台。该平台通过对分散的实体手机和虚拟机进行集约化管控，有效解决了设备资源利用率低、管理分散的痛点。

基于高效的任务调度引擎，平台能够全时自动化运行，构建了从任务下发到数据生成的闭环流水线。这不仅大幅降低了对人工标注的依赖，更实现了数据生产规模与整体效率的同步飞跃，为AI模型的快速迭代提供了强大助力。

**监督微调技术的突破**

业界现有多模态大模型在处理GUI屏幕时存在三大局限：感知失准——能识别界面元素但无法理解其功能语义；推理脱节——难以将高阶指令转化为具体操作序列；交互缺失——缺乏输出结构化、可执行操作指令的能力。

中兴通讯通过构建VLA（屏幕截图+操作指令+执行动作）数据对，对模型进行系统性监督微调，成功让通用多模态模型进化为具备“感知-理解-执行-规划-纠错”能力的GUI操作智能体。这一技术突破带来了三个层面的显著提升：基础操作鲁棒性显著增强，模型对中文GUI页面的动态变化具备了更强的理解能力；长任务流程成功率有效提升，智能体能够像人类用户一样在执行中监测状态、在偏离时回溯路径；从“实验室原型”迈向“商业可用”，GUI智能体进化为能够适应真实世界动态环境的“准生产级”助手。

**中文GUI数据集的构建**

为了让模型精准理解中文GUI界面的复杂结构与语义，中兴针对开源视觉模型严重缺乏中文场景训练数据的问题，整合开源与自研数据，构建了一套融合XML解析、OCR识别、UI元素检测与大语言模型标注的自动化数据标注流程。最终，中兴自主构建了百万级规模的中文GUI数据集，覆盖数十款主流中文APP及数百种高频交互场景，为GUI Agent的中文优化奠定了坚实基础。

— 图片补充 —