AutoGLM开源:大模型从Chat到Act的范式突破,开启手机智能体新纪元

近日,智谱AI全面开源了AutoGLM项目,这一基于视觉语言模型的手机智能助理框架,标志着大模型技术从“对话”到“行动”的范式转变迈出了关键一步。用户仅需用自然语言描述任务,AI便能理解意图、识别手机屏幕内容并自动执行操作,真正实现了让手机“自己动起来”的愿景。这一突破不仅为AI应用落地开辟了新路径,更在具身智能与智能体领域引发了广泛关注。

AutoGLM开源:大模型从Chat到Act的范式突破,开启手机智能体新纪元

从技术架构来看,AutoGLM的核心创新在于其多模态感知与执行能力的深度融合。传统大模型虽在自然语言处理上表现卓越,但缺乏对物理环境的直接交互能力。AutoGLM通过视觉语言模型(VLM)解析手机屏幕的图形界面元素,结合强化学习与规划算法,将用户指令转化为一系列可执行的操作序列,如点击、滑动、输入等。这种“感知-理解-规划-执行”的闭环,首次在大规模应用中实现了数字世界的行为自动化。例如,当用户说出“帮我在美团上点一杯冰豆花”时,系统不仅能理解外卖订购的意图,还能自动打开美团APP、定位商品、完成支付流程,全程无需人工干预。

这一技术突破的背后,是智谱AI长达32个月的研发积累。回顾其发展历程,三个关键节点尤为突出:2024年10月,AutoGLM发布首个能自动操作手机的Agent,被视为全球首个具备Phone Use能力的AI智能体;2024年11月,它完成了人类历史上第一个由AI全自动发出的红包,彻底打通了从意图理解到真实手机操作的完整链路;2025年8月,智谱推出AutoGLM 2.0云机版,将系统部署于云端虚拟手机,实现了敏感数据的严格隔离。这些进展不仅验证了技术的可行性,更逐步解决了安全性、可扩展性等核心挑战。

开源后,AutoGLM的部署灵活性显著提升。用户既可在本地设备上自主部署,完全掌控数据与流程,保障隐私安全;也可通过云端环境快速体验,即开即用。针对早期用户反馈的安装复杂度问题,社区已涌现出简化方案,例如结合Claude Code与GLM-4.6模型,通过提示词驱动自动化安装流程。具体操作中,用户需先在安卓手机安装ADB Keyboard并连接电脑,随后在Claude Code中输入指定提示词,系统即可自动访问文档并完成部署,大幅降低了使用门槛。

AutoGLM开源:大模型从Chat到Act的范式突破,开启手机智能体新纪元

从产业视角分析,AutoGLM的开源具有多重意义。首先,它推动了大模型工程从训练、推理向部署与应用层的延伸,为智能体(Agent)技术的普及提供了实践基础。其次,在具身智能领域,尽管AutoGLM作用于数字界面而非物理实体,但其“感知-行动”框架为更广泛的机器人控制、自动驾驶等场景提供了参考范式。此外,开源生态有望加速相关工具链的成熟,例如ADB Keyboard等辅助工具已形成协同效应,共同促进移动端自动化生态的发展。

然而,挑战依然存在。当前系统对复杂任务(如动态界面适配、多应用协同)的鲁棒性仍需优化;隐私与安全风险,特别是云端部署中的数据隔离机制,需持续加强;此外,如何平衡自动化效率与用户控制权,避免“黑箱”操作引发的信任问题,也是未来发展的关键。展望未来,随着多模态模型性能的提升与边缘计算能力的增强,AutoGLM有望进一步扩展至物联网设备、工业控制等更广阔领域,真正实现“万物皆可自动”的智能愿景。

开源地址:https://github.com/zai-org/Open-AutoGLM


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/5006

(0)
上一篇 2025年12月12日 下午2:17
下一篇 2025年12月12日 下午2:19

相关推荐

  • 多模态深度研究评测新标准:MMDR-Bench实现过程可核验、证据可追溯

    Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…

    2026年2月14日
    35200
  • Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

    Anthropic发布了Claude Opus 4.6新版本,官方定位为“最智能的模型”,主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本,新版本在架构上进行了多项升级,包括首次在Opus级别支持100万token上下文窗口、引入自适应思考(adaptive thinking)机制等。 我们对这两个版本进行了全面的对比评测,测试其…

    2026年2月10日
    1.2K00
  • 从文本瓶颈到心灵感应:LatentMAS如何重塑多智能体协作范式

    在人工智能的演进历程中,多智能体系统(Multi-Agent Systems, MAS)正从理论构想走向工程实践,成为解决复杂任务的关键架构。传统基于大语言模型(LLM)的MAS依赖自然语言作为智能体间的通信媒介——智能体A生成文本输出,智能体B解析后再进行下一步推理。这种模式虽然具备良好的可解释性,却暴露了三大根本性缺陷:首先,文本序列化过程导致信息压缩与…

    2025年12月5日
    39100
  • 三大开源神器:PageLM重塑学习体验,DeepSeek-OCR革新视觉识别,Awesome Web Agents整合AI浏览器生态

    PageLM:NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于,用户只需上传学习资料,它便能生成播客对话、测验题或复习卡片。PageLM 同样如此,它不仅能够提炼资料重点,更能将静态文本转化为互动式的学习资源。 例如,上传一份历史课件后,PageLM 可以自…

    2026年2月6日
    44300
  • 国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

    近日,上海人工智能实验室团队推出的开源模型家族P1在国际物理奥林匹克竞赛(IPhO)2025理论考试中取得历史性突破。其旗舰模型P1-235B-A22B以21.2/30分的成绩,成为首个达到金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5。这一成就不仅标志着国产大模型在复杂科学推理领域的重大进展,更通过创新的多阶段强化学习与智能体框架设计,为…

    2025年11月22日
    37200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注