AutoGLM开源：大模型从Chat到Act的范式突破，开启手机智能体新纪元

2025年12月12日下午2:18 • AI产业动态 • 阅读 102

近日，智谱AI全面开源了AutoGLM项目，这一基于视觉语言模型的手机智能助理框架，标志着大模型技术从“对话”到“行动”的范式转变迈出了关键一步。用户仅需用自然语言描述任务，AI便能理解意图、识别手机屏幕内容并自动执行操作，真正实现了让手机“自己动起来”的愿景。这一突破不仅为AI应用落地开辟了新路径，更在具身智能与智能体领域引发了广泛关注。

从技术架构来看，AutoGLM的核心创新在于其多模态感知与执行能力的深度融合。传统大模型虽在自然语言处理上表现卓越，但缺乏对物理环境的直接交互能力。AutoGLM通过视觉语言模型（VLM）解析手机屏幕的图形界面元素，结合强化学习与规划算法，将用户指令转化为一系列可执行的操作序列，如点击、滑动、输入等。这种“感知-理解-规划-执行”的闭环，首次在大规模应用中实现了数字世界的行为自动化。例如，当用户说出“帮我在美团上点一杯冰豆花”时，系统不仅能理解外卖订购的意图，还能自动打开美团APP、定位商品、完成支付流程，全程无需人工干预。

这一技术突破的背后，是智谱AI长达32个月的研发积累。回顾其发展历程，三个关键节点尤为突出：2024年10月，AutoGLM发布首个能自动操作手机的Agent，被视为全球首个具备Phone Use能力的AI智能体；2024年11月，它完成了人类历史上第一个由AI全自动发出的红包，彻底打通了从意图理解到真实手机操作的完整链路；2025年8月，智谱推出AutoGLM 2.0云机版，将系统部署于云端虚拟手机，实现了敏感数据的严格隔离。这些进展不仅验证了技术的可行性，更逐步解决了安全性、可扩展性等核心挑战。

开源后，AutoGLM的部署灵活性显著提升。用户既可在本地设备上自主部署，完全掌控数据与流程，保障隐私安全；也可通过云端环境快速体验，即开即用。针对早期用户反馈的安装复杂度问题，社区已涌现出简化方案，例如结合Claude Code与GLM-4.6模型，通过提示词驱动自动化安装流程。具体操作中，用户需先在安卓手机安装ADB Keyboard并连接电脑，随后在Claude Code中输入指定提示词，系统即可自动访问文档并完成部署，大幅降低了使用门槛。

从产业视角分析，AutoGLM的开源具有多重意义。首先，它推动了大模型工程从训练、推理向部署与应用层的延伸，为智能体（Agent）技术的普及提供了实践基础。其次，在具身智能领域，尽管AutoGLM作用于数字界面而非物理实体，但其“感知-行动”框架为更广泛的机器人控制、自动驾驶等场景提供了参考范式。此外，开源生态有望加速相关工具链的成熟，例如ADB Keyboard等辅助工具已形成协同效应，共同促进移动端自动化生态的发展。

然而，挑战依然存在。当前系统对复杂任务（如动态界面适配、多应用协同）的鲁棒性仍需优化；隐私与安全风险，特别是云端部署中的数据隔离机制，需持续加强；此外，如何平衡自动化效率与用户控制权，避免“黑箱”操作引发的信任问题，也是未来发展的关键。展望未来，随着多模态模型性能的提升与边缘计算能力的增强，AutoGLM有望进一步扩展至物联网设备、工业控制等更广阔领域，真正实现“万物皆可自动”的智能愿景。

开源地址：https://github.com/zai-org/Open-AutoGLM

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/5006

AutoGLM开源：大模型从Chat到Act的范式突破，开启手机智能体新纪元

相关推荐

开源对机器人的价值，远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人

SIMA 2：从指令执行到主动认知，Gemini驱动的具身智能新范式

AI智能体能力动态化革命：Skills系统架构解析与Minion开源实现

AI时代的人才革命：文科与技术的融合如何重塑未来职业版图

谷歌Gemini生态全面升级：Deep Research智能体与Interactions API重塑AI研究范式

发表回复