从TNT到AutoGLM：开源GUI Agent如何重塑人机交互与隐私边界

2025年12月10日下午12:52 • AI产业动态 • 阅读 79

在科技发展的长河中，某些超前的构想往往因时代局限而被视为激进的赌博，却在未来某个节点以更成熟的形式重新定义行业。七年前，锤子科技推出的TNT（Touch & Talk）系统，试图通过触控与语音结合的方式“重新定义个人电脑”，却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而，在2025年的今天，随着大模型与智能体技术的爆发，我们惊讶地发现：TNT所倡导的“按住屏幕说出需求，设备自动完成一切”的交互范式，正通过AutoGLM这类开源GUI Agent变为现实。这不仅是对历史愿景的回响，更是人机交互演进的关键转折点。

近期，豆包手机助手的爆火将AI Agent推向了公众视野，它凭借大模型与自动化系统，实现了通过自然语言操控手机完成跨任务复杂操作。然而，其引发的隐私担忧与大厂生态限制，凸显了当前AI手机应用的矛盾：便捷性与数据安全难以兼得。正是在此背景下，智谱AI于近日全面开源的AutoGLM项目，以“将能力交到所有人手中”的姿态，为行业提供了另一种可能——一个既能高效执行任务，又能将隐私握在用户自己手里，甚至支持DIY的GUI Agent解决方案。

AutoGLM的核心突破在于其实现了大模型“从Chat到Act”的范式转变。自2023年4月启动研究以来，智谱AI致力于打造一个不仅能“说”还能“做”的智能体模型。2024年10月，AutoGLM面世并被公认为全球首个真正能操控手机的Agent，它并非依赖模拟脚本，而是像人类一样“看”屏幕、分析UI布局，并模拟手指进行点击与滑动。这一能力的诞生，标志着AI从被动应答转向主动执行的关键里程碑。一个月后，AutoGLM完成了人类历史上第一个由AI全自动发出的微信红包，生动诠释了语言如何驱动实际行动。

然而，能力越强大，责任越重大。会操作的AI如同手持利器的孩童，若无约束，可能误触隐私或执行危险操作。为此，智谱AI在2025年8月推出AutoGLM 2.0云机版，将AI的行动舞台限制在云端虚拟手机中，与用户真实设备完全隔离。这种设计不仅保障了隐私安全（例如对微信等敏感应用选择不开放），更体现了“先学规则，再学本事”的负责任AI发展理念。

技术层面，Open-AutoGLM由手机端智能助手框架Phone Agent与9B参数模型AutoGLM-Phone-9B组成，其实现依赖于三大核心技术：第一，ADB（Android Debug Bridge）作为手机的“控制器”，负责将控制信号传输到设备，实现点按、滑动等基础操作；第二，视觉-语言模型（VLM）充当AI的“眼睛+大脑”，能实时解析屏幕上的文本、按钮与图标，理解界面状态并作出决策；第三，智能规划模块作为任务拆解的“策划师”，能将自然语言指令（如“发红包给小李”）分解为十几步可执行操作链，包括打开App、定位联系人、输入金额、确认支付等。这三者协同工作，形成了一个稳定、实用的完整执行框架。

开源地址：https://github.com/zai-org/Open-AutoGLM

那么，开源版的AutoGLM实际表现如何？以发送微信消息为例，当用户输入指令“给wupan发微信，说Panda的生日快到了，准备个蛋糕，多点水果”时，AutoGLM会启动自检流程，确认API与系统权限后，进入思维链（CoT）推理：先观察当前处于手机桌面，思考任务需打开微信，随后点击微信图标；进入微信后，进一步搜索联系人、输入文本并发送。整个过程行云流水，最终汇报“任务已完成”。这种端到端的自动化不仅展示了其操作精度，更揭示了未来“一句话搞定繁杂任务”的潜力。

进一步测试中，AutoGLM与小红书等应用的交互同样流畅。通过scrcpy投屏与自定义PowerShell函数，用户仅需输入简单指令即可触发复杂操作链。这种低门槛、高自由度的设计，正是开源精神的核心——智谱AI通过将顶级GUI Agent能力公开，打破了AI原生手机的技术壁垒，让开发者、企业甚至个人都能基于此构建定制化解决方案，从而避免被大厂生态“裹挟”。从行业影响看，AutoGLM的开源可能加速AI手机的普及与创新，推动隐私保护与便捷体验的平衡探索。

展望未来，AutoGLM所代表的GUI Agent技术，正重新定义人机交互的边界。它不仅是TNT理念的技术实现，更是迈向“智能体泛在化”的关键一步。随着开源生态的壮大，我们有望看到更多安全、可控、个性化的AI助手涌现，最终让技术真正服务于人，而非让人依附于技术。在这个进程中，AutoGLM的开源之举，无疑为行业投下了一颗重要的石子，其涟漪效应或将深远影响AI与移动计算的融合轨迹。

— 图片补充 —