GLM-5.1 在 CUDA 优化领域实现突破:AI 以小时级效率完成传统需数月的工作
在 GPU 计算优化领域,一项新的进展正在改变工作范式。传统上,优化 CUDA Kernel 需要资深工程师投入数月时间进行反复测试与调优。如今,人工智能模型能在约 14 小时内自主完成同类复杂优化任务,并将性能加速比从初始的 2.6 倍显著提升至 35.7 倍。
这一过程展现了模型在复杂任务中类似专家的决策能力。例如,在优化初期,模型尝试在现有高层框架内寻找解决方案,但通过自主测试发现性能瓶颈后,它做出了转向底层 C++ 进行重写的关键决策。在整个 14 小时的任务周期内,模型实现了全自动化流程:自主发现瓶颈、切换技术栈、重新编译并完成测试。
完成这一任务的是智谱 AI 发布的开源模型 GLM-5.1。

随着其长程任务(Long Horizon Task) 能力的提升,智谱官方宣布了一项重要进展:该模型首次实现了与当前顶尖闭源模型 Claude Opus 4.6 的全面能力对齐。
在评估软件工程能力的 SWE-bench Pro 基准测试中,GLM-5.1 取得了当前的最佳成绩,超越了包括 Claude Opus 4.6 在内的多个领先模型。

社区反馈显示,部分开发者开始讨论其作为替代方案的潜力,主要基于其与顶尖模型相近的能力表现、更高的使用额度以及更低的成本。

HuggingFace 的 CEO 也对此表示关注,指出在 SWE-Bench Pro 中表现最强的模型现已开源。

这些成绩的背后,是 GLM-5.1 处理小时级长程复杂任务的能力支撑。
小时级任务交付:从概念到完整项目
当前多数大模型仍处于“分钟级交互”阶段,而 GLM-5.1 的交付单位则是一个完整的项目。以下通过实测案例展示其具体能力。
案例一:自动化优化真实机器学习负载
在 KernelBench Level 3 基准测试中,GLM-5.1 需要对 50 个真实的机器学习计算负载进行端到端优化。在超过 24 小时的不间断自主迭代中,模型完成了“编译-测试-分析-重写”的闭环,最终实现了 3.6 倍的几何平均加速比。作为对比,torch.compile max-autotune 模式在同一测试中的加速比为 1.49 倍。

优化过程中,模型自主应用了包括编写定制 Triton/CUDA Kernel、使用 cuBLASLt epilogue 融合、实施共享内存分块(tiling)与 CUDA Graph 优化等多种策略,展现了从高层算子融合到微架构调优的完整自主决策能力。
案例二:从零构建桌面环境
给定一份约 3000 字的需求文档(PRD),要求从零开始复刻 macOS 的核心 UI 与交互,并包含窗口管理器、Dock 栏调度及模拟文件系统。对于一个前端团队需要数天完成原型的任务,GLM-5.1 在分析需求后,开始了自主编程。


约 1 小时后,模型交付了一个功能完整的 macOS 风格桌面环境,实现了更改壁纸、调整 Dock 栏、执行终端命令、系统截图等功能。
在官方演示中,一个更为复杂的、具备完整桌面、窗口管理器、应用程序等功能的 Linux 系统模拟环境,则由 GLM-5.1 在 8 小时内完成,相当于一个 4 人团队约一周的工作量。
案例三:自动化重构复杂代码
面对结构混乱、变量命名无意义、包含深层嵌套和重复计算的代码(常被称为“遗留代码”或“代码债务”),GLM-5.1 能在约半小时内对其进行自动化重写与重构。

重写后的代码结构清晰、注释完整,符合编码规范。

案例四:持续优化向量数据库性能
在一项旨在突破性能瓶颈的测试中,GLM-5.1 的任务是尽可能提升现有向量数据库的查询吞吐(QPS)。模型开启了完全自主的“测试-分析-优化”闭环。
经过 655 轮迭代优化,最终将查询吞吐从初始的 3108 QPS 提升至 21472 QPS,达到初始版本的 6.9 倍。
长程任务能力成为新焦点
GLM-5.1 的表现凸显了 AI 行业的一个新兴核心赛点:长程任务(Long Horizon Task)能力。2025 年 3 月,AI 安全研究机构 METR 提出了“任务完成时间线”这一新指标,旨在衡量模型能独立完成多长时间的人类专家级任务,而非仅关注答题准确率。
研究表明,前沿模型的任务完成时间线大约每 7 个月翻倍。有行业观察者将 2023-2024 年的 AI 视为擅长对话的“交谈者”,而将 2026-2027 年的 AI 展望为能实际执行复杂任务的“行动者”。
GLM-5.1 是首个在真实工程任务中验证具备 8 小时持续自主工作能力的开源模型。它能在单次任务中自主规划、执行、测试,遇到障碍时主动切换策略,出错后自行修复,并最终交付完整的工程成果。
其能力源于三个维度的技术突破:
1. 增强的长程规划与目标保持能力:能够将复杂目标拆解为多阶段计划,并在长达数小时、上千步的执行过程中始终保持最终目标一致。
2. 稳健的自适应纠错与持续执行能力:能够稳定衔接编码、工具调用、环境调试等环节,出错时可自主查看日志、定位根源、修复问题,并编写测试用例验证修复效果。
第三,更强的状态保持与上下文整合能力。
面对长时间跨度、多轮反馈和百万级token的上下文信息,模型能够稳定追踪任务进度、当前阶段与后续核心动作,持续整合新信息,确保整个执行过程的一致性与连贯性。
开源模型的新标杆
GLM-5-1的发布,不仅标志着模型性能的显著提升,也在一定程度上影响了全球大型语言模型的发展叙事。
此前,中国开源模型常被视为追赶者,与国际顶尖闭源模型存在可感知的差距。GLM-5-1的出现改变了这一局面:它在多项权威评测中与Claude Opus 4.6表现相当,并在SWE-bench Pro等侧重于实际工程能力的基准测试中实现了超越。这使得中国开源AI在核心工程性能上达到了全球前沿水平。
其影响不止于模型本身,更可能触及IT服务市场的运作逻辑。AI编程的演进路径逐渐清晰:从辅助程序员提效的工具,到降低编码门槛的助手,再到能够独立处理任务的初级工程师角色。GLM-5-1所展现的“长视野”任务处理能力,将AI推向一个新阶段——能够持续工作数小时,并交付相对完整的项目成果。
当AI的产出单元从单行代码转变为完整项目时,软件工程的生产关系可能受到影响。以往需要小型团队数日完成的工作,或资深工程师耗时数月的优化任务,AI可能在数小时内即可交付。这或将促使相关行业重新评估项目定价与人力资源配置。
当然,技术演进并不意味着职业的简单替代。历史经验表明,工具的普及往往淘汰的是未能掌握新工具的人,而非整个职业。AI的发展同样如此,它更可能成为开发者能力的重要延伸和倍增器,而非替代者。
GLM-5-1带来的核心思考在于:当AI能够自主规划并执行长达数小时的复杂任务,实现从规划、执行、调试到交付的完整闭环时,人类的独特价值与不可替代性将更清晰地体现在何处?答案可能在于定义问题、创造价值以及做出关键战略决策的能力——这些仍是当前AI难以完全复制的核心领域。
对中国AI行业而言,GLM-5-1是一个重要的里程碑。当开源模型达到顶尖工程水平,且AI从对话工具转向任务执行体时,整个行业必将迎来更深层次的变革。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29138

