GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

随着移动智能技术的快速发展,手机端AI交互正迎来革命性变革。GUI Agent(图形用户界面智能体)作为新一代人机交互范式,正在重塑流量分发格局,催生千亿级市场机遇。苹果、华为、字节跳动、美团、智谱AI等科技巨头纷纷布局这一赛道,而中兴通讯凭借其自研技术框架,在这一领域取得了突破性进展。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

2025年9月,美团率先推出支持平台内“一句话点餐”的AI Agent,标志着该技术从研发走向实用化。而中兴通讯的Nebula-GUI模型在2025年10月SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,以7B参数量斩获总榜银牌,总分84.38分,其中UI元素定位得分高达93.17分。这一成绩充分证明了中兴在自动点餐、订票等复杂任务中的准确率与操作速度优势,展现了强大的手机端侧部署能力。

目前,Nebula-GUI的“一句话订票”“一句话拍照”功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用。该模型已覆盖30余款主流APP,常用场景平均准确率超过90%,未来计划进一步扩展覆盖范围,新增购物比价、旅游出行等场景级服务,持续深化“手机小秘”的实用价值。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**数据制备系统的技术突破**

GUI Agent的性能表现高度依赖于训练数据的质量。当前行业面临的核心挑战在于:高质量中文GUI数据稀缺——公开英文数据集已达百万级,而中文数据仅数千组,且标注粒度粗、属性缺失;跨APP操作的复杂任务轨迹数据不足;人工标注流程低效,难以记录触控坐标与UI控件元数据;思维链等语义信息缺失,核查成本高;人工标注易受主观影响,导致数据泛化性差。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

为解决这些痛点,中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统。该系统显著提升了数据标注效率和质量,目前基于该系统生成的数据占训练数据的90%,覆盖了出行、社交、生活服务等多元场景下的主流APP,为项目高效、稳定地输出高质量数据。

**一体化数据标注工具的创新**

GUI数据标注工具将原本分散、依赖人工的截屏、操作、标注、核查、归档流程整合为一站式自动化流水线。其核心价值在于通过一体化标注方案,系统性解决了屏幕交互数据制作中的效率、精度与成本难题。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

通过引入GUI数据标注工具,数据标注效率实现了3倍提升。该工具不仅提高了标注速度,更重要的是保证了数据的一致性和准确性,为模型训练提供了高质量、多维度的数据支撑。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**智能化数据PIPELINE的构建**

为实现对大模型训练数据的质量优化,中兴开发了一套自动化数据Pipeline,系统化解决因人工标注导致的语言表达单一、思维链缺失或逻辑不一致等问题。这一举措显著提升了数据的多样性与逻辑完整性,增强了模型的泛化能力。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**全时数据飞轮系统的实现**

面对屏幕数据标注对人力与设备资源的双重依赖,中兴推出了集任务调度、任务管理、联邦设备管理与GUI Agent于一体的数据自动化生成平台。该平台通过对分散的实体手机和虚拟机进行集约化管控,有效解决了设备资源利用率低、管理分散的痛点。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

基于高效的任务调度引擎,平台能够全时自动化运行,构建了从任务下发到数据生成的闭环流水线。这不仅大幅降低了对人工标注的依赖,更实现了数据生产规模与整体效率的同步飞跃,为AI模型的快速迭代提供了强大助力。

**监督微调技术的突破**

业界现有多模态大模型在处理GUI屏幕时存在三大局限:感知失准——能识别界面元素但无法理解其功能语义;推理脱节——难以将高阶指令转化为具体操作序列;交互缺失——缺乏输出结构化、可执行操作指令的能力。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

中兴通讯通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,成功让通用多模态模型进化为具备“感知-理解-执行-规划-纠错”能力的GUI操作智能体。这一技术突破带来了三个层面的显著提升:基础操作鲁棒性显著增强,模型对中文GUI页面的动态变化具备了更强的理解能力;长任务流程成功率有效提升,智能体能够像人类用户一样在执行中监测状态、在偏离时回溯路径;从“实验室原型”迈向“商业可用”,GUI智能体进化为能够适应真实世界动态环境的“准生产级”助手。

**中文GUI数据集的构建**

为了让模型精准理解中文GUI界面的复杂结构与语义,中兴针对开源视觉模型严重缺乏中文场景训练数据的问题,整合开源与自研数据,构建了一套融合XML解析、OCR识别、UI元素检测与大语言模型标注的自动化数据标注流程。最终,中兴自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,为GUI Agent的中文优化奠定了坚实基础。

— 图片补充 —

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8208

(0)
上一篇 2025年11月4日 上午11:30
下一篇 2025年11月4日 下午12:45

相关推荐

  • 何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练

    训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…

    2026年2月8日
    39800
  • 仙工智能IPO透视:工业机器人控制器的隐形冠军,三年亏损1.22亿背后的战略抉择

    在具身智能成为创投风口的当下,工业机器人领域正迎来新一轮技术迭代与市场洗牌。仙工智能作为以机器人控制系统为核心的智能机器人公司,近期再次向港交所递交招股书,其业务模式、财务表现与战略布局引发行业深度关注。本文将从技术架构、商业模式、财务数据及行业竞争四个维度,系统分析这家隐形冠军企业的机遇与挑战。 **一、技术架构:控制器为核心的四大产品矩阵** 仙工智能的…

    2025年12月3日
    41000
  • 宇树科技发布390万载人机甲GD01,现实版高达量产在即

    《铁甲钢拳》和《机动战士高达》中的那些机械巨兽,终于从二次元世界闯入了现实。 就在最近,宇树科技推出了一款极具科幻色彩的载人机器人:GD01 载人变形机甲,起售价高达390万元。 官方将其定义为“民用交通工具”,但说实话,连交警看到它估计都得连夜翻查交通法规。值得一提的是,这也是全球首款实现量产的载人机甲。 在重量方面,官方数据显示,包括驾驶员在内,整机总重…

    1天前
    30100
  • 智谱GLM-4.7登顶开源模型榜首,以511亿港元市值冲刺“全球大模型第一股”

    “全球大模型第一股”即将登陆港股!北京智谱华章科技股份有限公司(下称“智谱”)今起招股,预计2026年1月5日结束,并计划于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市。 全球公开发售文件显示,智谱(02513.HK)计划在本次IPO中发行3741.95万股H股。其中,香港公开发售187.1万股H股,国际发售3554.85万股H股。以每…

    2025年12月30日
    43100
  • 构建自更新知识图谱:利用LLM与Neo4j智能解析会议纪要

    将非结构化会议记录转化为可查询的知识图谱,并支持增量更新——无需每次进行全量重处理。 会议记录是组织智能的金矿,其中记录了决策、行动项、参与者信息以及人与任务之间的关系。然而,多数组织仍将其视为静态文档,仅能进行基础的全文检索。 试想一下,能够像查询数据库一样查询你的会议记录: “谁参加过主题为‘预算规划’的会议?” “Sarah 在所有会议中被分配了哪些任…

    2026年2月3日
    71300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注