近日,智谱AI全面开源了AutoGLM项目,这一基于视觉语言模型的手机智能助理框架,标志着大模型技术从“对话”到“行动”的范式转变迈出了关键一步。用户仅需用自然语言描述任务,AI便能理解意图、识别手机屏幕内容并自动执行操作,真正实现了让手机“自己动起来”的愿景。这一突破不仅为AI应用落地开辟了新路径,更在具身智能与智能体领域引发了广泛关注。

从技术架构来看,AutoGLM的核心创新在于其多模态感知与执行能力的深度融合。传统大模型虽在自然语言处理上表现卓越,但缺乏对物理环境的直接交互能力。AutoGLM通过视觉语言模型(VLM)解析手机屏幕的图形界面元素,结合强化学习与规划算法,将用户指令转化为一系列可执行的操作序列,如点击、滑动、输入等。这种“感知-理解-规划-执行”的闭环,首次在大规模应用中实现了数字世界的行为自动化。例如,当用户说出“帮我在美团上点一杯冰豆花”时,系统不仅能理解外卖订购的意图,还能自动打开美团APP、定位商品、完成支付流程,全程无需人工干预。
这一技术突破的背后,是智谱AI长达32个月的研发积累。回顾其发展历程,三个关键节点尤为突出:2024年10月,AutoGLM发布首个能自动操作手机的Agent,被视为全球首个具备Phone Use能力的AI智能体;2024年11月,它完成了人类历史上第一个由AI全自动发出的红包,彻底打通了从意图理解到真实手机操作的完整链路;2025年8月,智谱推出AutoGLM 2.0云机版,将系统部署于云端虚拟手机,实现了敏感数据的严格隔离。这些进展不仅验证了技术的可行性,更逐步解决了安全性、可扩展性等核心挑战。
开源后,AutoGLM的部署灵活性显著提升。用户既可在本地设备上自主部署,完全掌控数据与流程,保障隐私安全;也可通过云端环境快速体验,即开即用。针对早期用户反馈的安装复杂度问题,社区已涌现出简化方案,例如结合Claude Code与GLM-4.6模型,通过提示词驱动自动化安装流程。具体操作中,用户需先在安卓手机安装ADB Keyboard并连接电脑,随后在Claude Code中输入指定提示词,系统即可自动访问文档并完成部署,大幅降低了使用门槛。

从产业视角分析,AutoGLM的开源具有多重意义。首先,它推动了大模型工程从训练、推理向部署与应用层的延伸,为智能体(Agent)技术的普及提供了实践基础。其次,在具身智能领域,尽管AutoGLM作用于数字界面而非物理实体,但其“感知-行动”框架为更广泛的机器人控制、自动驾驶等场景提供了参考范式。此外,开源生态有望加速相关工具链的成熟,例如ADB Keyboard等辅助工具已形成协同效应,共同促进移动端自动化生态的发展。
然而,挑战依然存在。当前系统对复杂任务(如动态界面适配、多应用协同)的鲁棒性仍需优化;隐私与安全风险,特别是云端部署中的数据隔离机制,需持续加强;此外,如何平衡自动化效率与用户控制权,避免“黑箱”操作引发的信任问题,也是未来发展的关键。展望未来,随着多模态模型性能的提升与边缘计算能力的增强,AutoGLM有望进一步扩展至物联网设备、工业控制等更广阔领域,真正实现“万物皆可自动”的智能愿景。
开源地址:https://github.com/zai-org/Open-AutoGLM
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5006
