在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT所倡导的“按住屏幕说出需求,设备自动完成一切”的交互范式,正通过AutoGLM这类开源GUI Agent变为现实。这不仅是对历史愿景的回响,更是人机交互演进的关键转折点。
近期,豆包手机助手的爆火将AI Agent推向了公众视野,它凭借大模型与自动化系统,实现了通过自然语言操控手机完成跨任务复杂操作。然而,其引发的隐私担忧与大厂生态限制,凸显了当前AI手机应用的矛盾:便捷性与数据安全难以兼得。正是在此背景下,智谱AI于近日全面开源的AutoGLM项目,以“将能力交到所有人手中”的姿态,为行业提供了另一种可能——一个既能高效执行任务,又能将隐私握在用户自己手里,甚至支持DIY的GUI Agent解决方案。

AutoGLM的核心突破在于其实现了大模型“从Chat到Act”的范式转变。自2023年4月启动研究以来,智谱AI致力于打造一个不仅能“说”还能“做”的智能体模型。2024年10月,AutoGLM面世并被公认为全球首个真正能操控手机的Agent,它并非依赖模拟脚本,而是像人类一样“看”屏幕、分析UI布局,并模拟手指进行点击与滑动。这一能力的诞生,标志着AI从被动应答转向主动执行的关键里程碑。一个月后,AutoGLM完成了人类历史上第一个由AI全自动发出的微信红包,生动诠释了语言如何驱动实际行动。
然而,能力越强大,责任越重大。会操作的AI如同手持利器的孩童,若无约束,可能误触隐私或执行危险操作。为此,智谱AI在2025年8月推出AutoGLM 2.0云机版,将AI的行动舞台限制在云端虚拟手机中,与用户真实设备完全隔离。这种设计不仅保障了隐私安全(例如对微信等敏感应用选择不开放),更体现了“先学规则,再学本事”的负责任AI发展理念。

技术层面,Open-AutoGLM由手机端智能助手框架Phone Agent与9B参数模型AutoGLM-Phone-9B组成,其实现依赖于三大核心技术:第一,ADB(Android Debug Bridge)作为手机的“控制器”,负责将控制信号传输到设备,实现点按、滑动等基础操作;第二,视觉-语言模型(VLM)充当AI的“眼睛+大脑”,能实时解析屏幕上的文本、按钮与图标,理解界面状态并作出决策;第三,智能规划模块作为任务拆解的“策划师”,能将自然语言指令(如“发红包给小李”)分解为十几步可执行操作链,包括打开App、定位联系人、输入金额、确认支付等。这三者协同工作,形成了一个稳定、实用的完整执行框架。
开源地址:https://github.com/zai-org/Open-AutoGLM
那么,开源版的AutoGLM实际表现如何?以发送微信消息为例,当用户输入指令“给wupan发微信,说Panda的生日快到了,准备个蛋糕,多点水果”时,AutoGLM会启动自检流程,确认API与系统权限后,进入思维链(CoT)推理:先观察当前处于手机桌面,思考任务需打开微信,随后点击微信图标;进入微信后,进一步搜索联系人、输入文本并发送。整个过程行云流水,最终汇报“任务已完成”。这种端到端的自动化不仅展示了其操作精度,更揭示了未来“一句话搞定繁杂任务”的潜力。
进一步测试中,AutoGLM与小红书等应用的交互同样流畅。通过scrcpy投屏与自定义PowerShell函数,用户仅需输入简单指令即可触发复杂操作链。这种低门槛、高自由度的设计,正是开源精神的核心——智谱AI通过将顶级GUI Agent能力公开,打破了AI原生手机的技术壁垒,让开发者、企业甚至个人都能基于此构建定制化解决方案,从而避免被大厂生态“裹挟”。从行业影响看,AutoGLM的开源可能加速AI手机的普及与创新,推动隐私保护与便捷体验的平衡探索。
展望未来,AutoGLM所代表的GUI Agent技术,正重新定义人机交互的边界。它不仅是TNT理念的技术实现,更是迈向“智能体泛在化”的关键一步。随着开源生态的壮大,我们有望看到更多安全、可控、个性化的AI助手涌现,最终让技术真正服务于人,而非让人依附于技术。在这个进程中,AutoGLM的开源之举,无疑为行业投下了一颗重要的石子,其涟漪效应或将深远影响AI与移动计算的融合轨迹。
— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5156
