GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

随着移动智能技术的快速发展,手机端AI交互正迎来革命性变革。GUI Agent(图形用户界面智能体)作为新一代人机交互范式,正在重塑流量分发格局,催生千亿级市场机遇。苹果、华为、字节跳动、美团、智谱AI等科技巨头纷纷布局这一赛道,而中兴通讯凭借其自研技术框架,在这一领域取得了突破性进展。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

2025年9月,美团率先推出支持平台内“一句话点餐”的AI Agent,标志着该技术从研发走向实用化。而中兴通讯的Nebula-GUI模型在2025年10月SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,以7B参数量斩获总榜银牌,总分84.38分,其中UI元素定位得分高达93.17分。这一成绩充分证明了中兴在自动点餐、订票等复杂任务中的准确率与操作速度优势,展现了强大的手机端侧部署能力。

目前,Nebula-GUI的“一句话订票”“一句话拍照”功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用。该模型已覆盖30余款主流APP,常用场景平均准确率超过90%,未来计划进一步扩展覆盖范围,新增购物比价、旅游出行等场景级服务,持续深化“手机小秘”的实用价值。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**数据制备系统的技术突破**

GUI Agent的性能表现高度依赖于训练数据的质量。当前行业面临的核心挑战在于:高质量中文GUI数据稀缺——公开英文数据集已达百万级,而中文数据仅数千组,且标注粒度粗、属性缺失;跨APP操作的复杂任务轨迹数据不足;人工标注流程低效,难以记录触控坐标与UI控件元数据;思维链等语义信息缺失,核查成本高;人工标注易受主观影响,导致数据泛化性差。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

为解决这些痛点,中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统。该系统显著提升了数据标注效率和质量,目前基于该系统生成的数据占训练数据的90%,覆盖了出行、社交、生活服务等多元场景下的主流APP,为项目高效、稳定地输出高质量数据。

**一体化数据标注工具的创新**

GUI数据标注工具将原本分散、依赖人工的截屏、操作、标注、核查、归档流程整合为一站式自动化流水线。其核心价值在于通过一体化标注方案,系统性解决了屏幕交互数据制作中的效率、精度与成本难题。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

通过引入GUI数据标注工具,数据标注效率实现了3倍提升。该工具不仅提高了标注速度,更重要的是保证了数据的一致性和准确性,为模型训练提供了高质量、多维度的数据支撑。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**智能化数据PIPELINE的构建**

为实现对大模型训练数据的质量优化,中兴开发了一套自动化数据Pipeline,系统化解决因人工标注导致的语言表达单一、思维链缺失或逻辑不一致等问题。这一举措显著提升了数据的多样性与逻辑完整性,增强了模型的泛化能力。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

**全时数据飞轮系统的实现**

面对屏幕数据标注对人力与设备资源的双重依赖,中兴推出了集任务调度、任务管理、联邦设备管理与GUI Agent于一体的数据自动化生成平台。该平台通过对分散的实体手机和虚拟机进行集约化管控,有效解决了设备资源利用率低、管理分散的痛点。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

基于高效的任务调度引擎,平台能够全时自动化运行,构建了从任务下发到数据生成的闭环流水线。这不仅大幅降低了对人工标注的依赖,更实现了数据生产规模与整体效率的同步飞跃,为AI模型的快速迭代提供了强大助力。

**监督微调技术的突破**

业界现有多模态大模型在处理GUI屏幕时存在三大局限:感知失准——能识别界面元素但无法理解其功能语义;推理脱节——难以将高阶指令转化为具体操作序列;交互缺失——缺乏输出结构化、可执行操作指令的能力。

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

中兴通讯通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,成功让通用多模态模型进化为具备“感知-理解-执行-规划-纠错”能力的GUI操作智能体。这一技术突破带来了三个层面的显著提升:基础操作鲁棒性显著增强,模型对中文GUI页面的动态变化具备了更强的理解能力;长任务流程成功率有效提升,智能体能够像人类用户一样在执行中监测状态、在偏离时回溯路径;从“实验室原型”迈向“商业可用”,GUI智能体进化为能够适应真实世界动态环境的“准生产级”助手。

**中文GUI数据集的构建**

为了让模型精准理解中文GUI界面的复杂结构与语义,中兴针对开源视觉模型严重缺乏中文场景训练数据的问题,整合开源与自研数据,构建了一套融合XML解析、OCR识别、UI元素检测与大语言模型标注的自动化数据标注流程。最终,中兴自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,为GUI Agent的中文优化奠定了坚实基础。

— 图片补充 —

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈

GUI Agent技术深度解析:中兴通讯如何突破手机端AI交互瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8208

(0)
上一篇 2025年11月4日 上午11:30
下一篇 2025年11月4日 下午12:47

相关推荐

  • 高通进军AI推理芯片市场:挑战英伟达霸权的移动技术新路径

    在人工智能芯片领域,英伟达长期占据主导地位,其GPU在训练和推理市场均形成近乎垄断的格局。然而,这种局面正面临来自多方的挑战。高通作为移动通信和计算领域的巨头,近日宣布将于明年推出AI200芯片,并计划在2027年跟进AI250芯片,正式进军AI推理芯片市场。这一战略举措不仅反映了高通自身业务拓展的雄心,更揭示了AI芯片市场格局可能发生的深刻变化。 高通此次…

    2025年10月28日
    300
  • 从TNT到AutoGLM:开源GUI Agent如何重塑人机交互与隐私边界

    在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT…

    2025年12月10日
    200
  • WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

    在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主…

    2025年10月29日
    200
  • AgentFS:基于SQLite的AI智能体状态管理革命,单文件封装完整运行时

    在AI智能体(Agent)系统快速发展的当下,状态管理、审计追踪和合规性保障成为制约其规模化应用的关键技术瓶颈。传统解决方案往往依赖复杂的分布式数据库或云存储服务,不仅增加了系统架构的复杂性,还带来了性能开销、数据迁移困难和平台依赖等问题。近日,由Pekka Enberg与Turso数据库的Glenn Snelling合作开发的AgentFS项目,为这一领域…

    2025年11月6日
    500
  • 华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命

    在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…

    2025年12月5日
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注