智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

GLM-5 技术论文完全公开

GLM-5 背后的技术论文现已完全公开。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。

正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(GBA)模拟器。

简而言之,GLM-5将开源AI带入了长任务时代。

海外社区对此反响热烈,有评论称“GLM-5是最好的开源模型”:

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

并认为其“极大拉近了与Claude Opus 4.6之间的距离”:

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

这份长达 40页 的论文,全面揭示了GLM-5背后的技术细节。主要亮点如下:

  • 架构方面:在上一代经过验证的ARC(智能体、推理与编程)能力和MoE架构基础上,引入了DeepSeek同款的动态稀疏注意力机制(DSA);在显著降低成本的同时,长上下文能力得以完整保留。
  • 后训练方面:全新构建了异步强化学习基础设施,将生成与训练过程解耦,配合独创的 异步智能体RL算法,大幅提升了训练效率。
  • 芯片适配方面:GLM-5完成了与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦以及燧原等 国产芯片的全栈适配

这也引发了部分网友的评论:

在成本效率方面,美国的AI赶不上中国。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

接下来,我们将深入解读这篇技术论文。

GLM-5的三大关键技术

在深入技术细节前,需要理解GLM-5所面临的核心挑战:大模型需要真正开始处理复杂、困难的任务

在GLM-4.5时代,智谱已经证明了将ARC能力融合进单一MoE架构的可行性。然而,当模型投入到复杂的软件工程、长周期多轮对话等真实业务场景时,算力成本和环境适应性成为主要瓶颈。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

GLM-5 的整体训练流程

GLM-5旨在解决这些瓶颈,其核心技术可归纳为三大创新。

第一板斧:引入动态稀疏注意力机制(DSA)

在Transformer架构中,传统的密集注意力计算复杂度随上下文长度呈平方级(O(N²))增长。当上下文窗口扩展至200K甚至更长时,计算成本将变得极其昂贵,成为限制智能体处理复杂任务的主要瓶颈。

GLM-5的解决方案是引入动态稀疏注意力机制。其核心理念是用动态的细粒度选择机制替换传统的密集注意力。与固定的滑动窗口模式不同,DSA会“审视”内容,动态决定哪些Token是重要的。

然而,直接基于DSA训练超大模型风险极高,容易因稀疏化导致的信息丢失而引发梯度爆炸或模型崩溃。因此,GLM-5团队采用了一种巧妙的 继续预训练 策略,包含两个关键步骤:

  1. 稠密预热:在预训练初始阶段,模型仍使用相对稠密的注意力机制,以建立稳固的全局语义表征能力。
  2. 平滑过渡与稀疏训练:当模型具备良好基础后,逐步提高稀疏度。DSA的核心逻辑是:在计算当前Token的注意力时,通过动态路由机制,只选取与之最相关的Top-K个历史Token进行计算。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

MLA与DSA训练的SFT损失曲线对比

根据技术报告,这一创新带来了显著效果:

  • KV Cache开销降低75%:同等硬件条件下,可支持4倍以上的并发请求或处理4倍长的上下文。
  • 推理速度提升3倍:注意力计算量大幅削减,首字响应时间和生成吞吐率达到行业顶尖水平。
  • 长文本能力几乎无损:在“大海捞针”及RULER等长文本复杂推理评测中,采用DSA的GLM-5与全稠密模型相比,性能下降微乎其微(小于0.5%)。

第二板斧:异步多任务强化学习

如果说DSA解决了推理成本问题,那么GLM-5的第二项创新则旨在解决训练效率问题,尤其是在决定模型最终性能的后训练阶段。

当前业界主流的强化学习对齐算法仍是PPO。标准的PPO是一个高度同步的过程,涉及Actor、Reference、Critic、Reward四个模型在多GPU上的协同。这种“走一步,停一下”的同步机制,导致GPU集群利用率经常徘徊在20%-30%,大量算力浪费在等待通信和同步上。

为打破此瓶颈,智谱基于GLM-4.5时代的Slime框架,为GLM-5从底层重构了一套 异步强化学习基础设施

其核心设计是将训练引擎与推理引擎解耦到不同的GPU设备上。推理引擎持续生成轨迹数据,一旦达到预定阈值,便发送给训练引擎更新模型。为减少策略滞后并保持训练的近似同策略性,推理引擎的模型权重会定期与训练侧同步。这种完全异步的训练范式,通过减少Agent rollout期间的“气泡”时间,显著提升了GPU利用率和整体训练效率。

支撑这种异步架构,需要解决几个关键技术难题:

第一,采用Token-in-Token-out(TITO)代替Text-in-Text-out。
在RL rollout设置中,TITO意味着训练流程直接使用推理引擎生成的精确token流来构建学习轨迹。相比之下,Text-in-Text-out将rollout引擎视为返回最终文本的黑箱,训练器需要重新进行tokenization。重新tokenization可能在token边界、空白处理等方面引入细微不匹配,影响对单个token采样概率的估计。GLM-5实现了一个TITO网关,拦截所有生成请求并记录每个轨迹的tokenID和元数据,将繁琐的token处理从下游Agent rollout逻辑中隔离。

第二,通过直接双侧重要性采样解决离策略偏差。
在异步设置中,rollout引擎可能在单个轨迹生成过程中经历多次模型更新,追踪所有历史模型的精确行为概率在计算上不可行。研究团队采用简化方案:将rollout期间生成的对数概率作为直接行为代理,通过计算重要性采样比,并采用双侧校准token级掩码策略,将信任域限制在特定区间,对落在此区间之外的token完全屏蔽梯度计算,从而消除单独旧策略推理的开销。

第三,DP感知路由加速长上下文推理。

在多轮Agent工作负载中,来自相同rollout的顺序请求共享相同前缀。研究团队提出通过一致性哈希将每个rollout ID映射到固定的数据并行(DP)rank,并结合哈希空间上的轻量级动态负载重新平衡。这避免了冗余的预填充计算,无需跨DP rank的KV同步,使得预填充成本随rollout长度增加时,仍仅与增量token成正比。

这套异步RL基础设施支撑了GLM-5在多领域的混合强化学习训练,涵盖数学、科学、代码和工具集成推理(TIR)。训练数据来源于开源数据集、与外部标注供应商共同构建的STEM问题、Codeforces及TACO等代表性数据集。训练过程中,为各领域分配了专属的裁判模型或评估系统,以生成二元结果作为奖励信号,四个领域的整体混合比例大致保持平衡。

第三板斧:投喂真实世界数据

传统的有监督微调(SFT)数据往往依赖于标准答案,但真实世界是复杂多变的。为了让模型具备真正的工程能力,GLM-5的第三板斧是构建大量可验证的真实世界环境数据

整个SFT语料库涵盖三大类别:通用对话、推理、编程与Agent。值得注意的是,GLM-5在SFT阶段将最大上下文长度扩展至202,752个token,并支持三种不同的思考特征:
* 交错思考:模型在每次响应和工具调用前进行思考,以提升指令遵循和生成质量;
* 保留思考:在Coding Agent场景中,模型自动在多轮对话中保留所有思考块,复用已有推理而非重新推导,减少信息丢失和不一致性;
* 轮级思考:支持在会话中对每轮推理进行精细控制,轻量级请求可禁用思考以降低延迟,复杂任务可启用思考以提升精度和稳定性。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

为了支持Agent的强化学习训练,研究团队还构建了大规模的、可验证的可执行环境:
* 软件工程环境:基于真实世界的Issue-PR对,采用RepoLaunch框架自动分析仓库安装和依赖设置,构建可执行环境并生成测试命令。最终,团队在涵盖Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby等9种编程语言的数千个仓库中,构建了超过10,000个可验证环境。
* 终端环境:采用三阶段Agent数据合成流程——任务草稿生成、具体任务实现、迭代任务优化。从种子任务出发,利用LLM生成可验证的终端任务草稿,由构建Agent在Harbor格式中实例化为具体任务(包含结构化任务描述、Docker化执行环境、测试脚本),再由精炼Agent迭代优化。整体流程产出数千个多样化的终端环境,Docker构建精度超过90%。
* 搜索任务:构建Web知识图谱,以低至中频实体为种子节点扩展多跳邻域,将每个子图转化为隐式编码多实体关系链的问题。再经过三阶段过滤(删除无工具推理模型能答对的、过滤早期Agent能几步解决的、双向验证拒绝非唯一答案或不一致证据的),最终获得高质量、高难度的多跳问答对。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

  • PPT生成:采用多层级奖励机制——第1级关注静态标记属性(定位、间距、颜色、字体等),第2级评估运行时渲染属性(元素宽高、边界框等),第3级引入视觉感知特征(异常空白模式等)。最终,生成的页面中严格符合16:9宽高比的比例从40%提升至92%,页面溢出问题显著减少。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

大模型的测试也更难了

技术的进步最终需要经受评测的检验。GLM-5的论文不仅展示了其在传统榜单上的成绩,更揭示了一个趋势:大模型的测试正在变得更难、更贴近真实。

在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等关键榜单上,数据显示:
* GLM-5在SWE-bench Verified上得分77.8%,在开源模型中达到SOTA,优于Gemini 3 Pro,并与Claude Opus 4.5相当。
* 在HLE(含工具)测试中,GLM-5得分50.4,优于Claude Opus 4.5和Gemini 3 Pro。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

  • 在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成为新的开源SOTA模型,这也是开放权重模型首次在该指数中达到50分。

然而,智谱团队认为,传统的SWE-bench已经不够全面,因为它是一个静态、公开且发布超过2年的测试集,模型可能存在记忆效应。为此,GLM-5团队推出了CC-Bench-V2,一个完全自动化的、模拟真实软件开发的评测集,涵盖前端、后端和长程任务。

在前端评估中,团队引入了Agent-as-a-Judge技术,通过GUI Agent模拟用户交互,验证生成项目的功能正确性。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

结果显示,GLM-5的构建成功率(BSR)达到98.0%,在检查项成功率(CSR)上与Claude Opus 4.5具备竞争力。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

在后端评估中,GLM-5在真实开源项目上的Pass@1达到25.8%,与Claude Opus 4.5相当,显著领先于GLM-4.7。

更值得一提的是长程任务评估。CC-Bench-V2通过挖掘已合并的Pull Request构建多步链式任务,评估模型在增量开发中的上下文跟踪与规划能力。虽然GLM-5在此项上较GLM-4.7有显著提升,但与Claude Opus 4.5仍有差距。团队坦言,这是因为链式任务中错误会累积放大,缩小这一差距需要在长上下文一致性和长程自纠错方面继续突破。

这一系列评测结果释放了两个明确信号:
1. GLM-5是开源界的第一个“全站工程师”,让AI能自主执行超长、超复杂的任务;
2. 通过单体MoE架构统一Agent、推理与代码能力的可行性得到了验证,同时证明了强化学习在复杂代码生成中的巨大潜力。

One More Thing

在论文的最后,团队透露了一个有趣的彩蛋——Pony Alpha实验

在论文公开前,GLM-5曾以Pony Alpha为代号,匿名发布在OpenRouter平台上。隐去品牌信息后,模型凭借卓越的性能在社区引发轰动。初步统计显示,25%的用户推测它是Claude Sonnet 5,20%认为是Grok的新版本,仅有部分用户猜中了GLM-5。

智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

这次匿名测试打破了先入为主的地缘偏见,让社区的认可回归到了“好用与否”这一最纯粹的技术本质。最终确认Pony Alpha真身即是GLM-5,这对团队是一次巨大的鼓舞。

GLM-5论文地址:
https://arxiv.org/abs/2602.15763


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22253

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • AI原生基础设施实践指南:2026年数智化转型的关键技术底座

    前言 随着数智化转型进入深水区,人工智能技术正以前所未有的深度和广度渗透各行各业,不仅重构了生产要素的配置逻辑,更催生出层出不穷的新型产业形态,驱动经济社会发展模式发生根本性变革。 2025年8月26日,国务院发布的《关于深入实施“人工智能+”行动的意见》提出“发展智能原生技术、产品和服务体系,培育智能原生企业,催生智能原生新业态”的总体要求,标志着我国数智…

    2026年2月16日
    23400
  • 英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

    这流畅的游戏动作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成,令人惊叹。 最令人震撼的是,上述操作完全由AI完成。 与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。 这就是来自英伟达的最新开源基础模型——NitroGen。 该模型的训练目标是玩1000款以上的游戏,无论是RPG、平台跳…

    2025年12月21日
    15300
  • AI范式革命:从预测下一个词到预测下一个物理状态

    又一位大佬准备对现有 AI 技术范式开刀了。 今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。 Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。 …

    2026年2月4日
    7900
  • 告别并行编程烦恼:Joblib如何让Python多进程变得优雅高效

    深夜,当办公室的灯光一盏盏熄灭,总有一块屏幕还在固执地亮着。 一位数据科学家靠在椅背上,目光紧盯着那条几乎停滞的进度条。数据集不大,机器也不差,问题在于 Python 正在忠实地、一个接一个地执行任务。 许多开发者都经历过这样的时刻。此时,“并行处理”的念头极具诱惑力——直到你真正尝试使用 Python 自带的 multiprocessing 模块,才发现它…

    2025年12月2日
    15800
  • AI与数学的深度拥抱:国产PackingStar系统在多维亲吻数难题上实现系统性突破

    2月14日,在一个以「亲吻」命名的问题上,人工智能与数学完成了一次「深度拥抱」。 1694年,牛顿和格雷戈里在剑桥提出一个问题:在一颗中心球周围,最多能紧贴放置多少颗相同的球?这就是三维空间的「亲吻数问题」。牛顿认为答案是12,格雷戈里则认为可能是13,直到1953年,数学家才彻底证实了牛顿的猜测。当维度升高,问题迅速进入「无人区」。过去50年,亲吻数构造仅…

    2026年2月14日
    8400