GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

GLM-5.1 在 CUDA 优化领域实现突破:AI 以小时级效率完成传统需数月的工作

在 GPU 计算优化领域,一项新的进展正在改变工作范式。传统上,优化 CUDA Kernel 需要资深工程师投入数月时间进行反复测试与调优。如今,人工智能模型能在约 14 小时内自主完成同类复杂优化任务,并将性能加速比从初始的 2.6 倍显著提升至 35.7 倍。

这一过程展现了模型在复杂任务中类似专家的决策能力。例如,在优化初期,模型尝试在现有高层框架内寻找解决方案,但通过自主测试发现性能瓶颈后,它做出了转向底层 C++ 进行重写的关键决策。在整个 14 小时的任务周期内,模型实现了全自动化流程:自主发现瓶颈、切换技术栈、重新编译并完成测试。

完成这一任务的是智谱 AI 发布的开源模型 GLM-5.1

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

随着其长程任务(Long Horizon Task) 能力的提升,智谱官方宣布了一项重要进展:该模型首次实现了与当前顶尖闭源模型 Claude Opus 4.6 的全面能力对齐。

在评估软件工程能力的 SWE-bench Pro 基准测试中,GLM-5.1 取得了当前的最佳成绩,超越了包括 Claude Opus 4.6 在内的多个领先模型。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

社区反馈显示,部分开发者开始讨论其作为替代方案的潜力,主要基于其与顶尖模型相近的能力表现、更高的使用额度以及更低的成本。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

HuggingFace 的 CEO 也对此表示关注,指出在 SWE-Bench Pro 中表现最强的模型现已开源。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

这些成绩的背后,是 GLM-5.1 处理小时级长程复杂任务的能力支撑。

小时级任务交付:从概念到完整项目

当前多数大模型仍处于“分钟级交互”阶段,而 GLM-5.1 的交付单位则是一个完整的项目。以下通过实测案例展示其具体能力。

案例一:自动化优化真实机器学习负载

KernelBench Level 3 基准测试中,GLM-5.1 需要对 50 个真实的机器学习计算负载进行端到端优化。在超过 24 小时的不间断自主迭代中,模型完成了“编译-测试-分析-重写”的闭环,最终实现了 3.6 倍的几何平均加速比。作为对比,torch.compile max-autotune 模式在同一测试中的加速比为 1.49 倍。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

优化过程中,模型自主应用了包括编写定制 Triton/CUDA Kernel、使用 cuBLASLt epilogue 融合、实施共享内存分块(tiling)与 CUDA Graph 优化等多种策略,展现了从高层算子融合到微架构调优的完整自主决策能力。

案例二:从零构建桌面环境

给定一份约 3000 字的需求文档(PRD),要求从零开始复刻 macOS 的核心 UI 与交互,并包含窗口管理器、Dock 栏调度及模拟文件系统。对于一个前端团队需要数天完成原型的任务,GLM-5.1 在分析需求后,开始了自主编程。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6
GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

约 1 小时后,模型交付了一个功能完整的 macOS 风格桌面环境,实现了更改壁纸、调整 Dock 栏、执行终端命令、系统截图等功能。

在官方演示中,一个更为复杂的、具备完整桌面、窗口管理器、应用程序等功能的 Linux 系统模拟环境,则由 GLM-5.1 在 8 小时内完成,相当于一个 4 人团队约一周的工作量。

案例三:自动化重构复杂代码

面对结构混乱、变量命名无意义、包含深层嵌套和重复计算的代码(常被称为“遗留代码”或“代码债务”),GLM-5.1 能在约半小时内对其进行自动化重写与重构。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

重写后的代码结构清晰、注释完整,符合编码规范。

GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

案例四:持续优化向量数据库性能

在一项旨在突破性能瓶颈的测试中,GLM-5.1 的任务是尽可能提升现有向量数据库的查询吞吐(QPS)。模型开启了完全自主的“测试-分析-优化”闭环。

经过 655 轮迭代优化,最终将查询吞吐从初始的 3108 QPS 提升至 21472 QPS,达到初始版本的 6.9 倍

长程任务能力成为新焦点

GLM-5.1 的表现凸显了 AI 行业的一个新兴核心赛点:长程任务(Long Horizon Task)能力。2025 年 3 月,AI 安全研究机构 METR 提出了“任务完成时间线”这一新指标,旨在衡量模型能独立完成多长时间的人类专家级任务,而非仅关注答题准确率。

研究表明,前沿模型的任务完成时间线大约每 7 个月翻倍。有行业观察者将 2023-2024 年的 AI 视为擅长对话的“交谈者”,而将 2026-2027 年的 AI 展望为能实际执行复杂任务的“行动者”。

GLM-5.1 是首个在真实工程任务中验证具备 8 小时持续自主工作能力的开源模型。它能在单次任务中自主规划、执行、测试,遇到障碍时主动切换策略,出错后自行修复,并最终交付完整的工程成果。

其能力源于三个维度的技术突破:
1. 增强的长程规划与目标保持能力:能够将复杂目标拆解为多阶段计划,并在长达数小时、上千步的执行过程中始终保持最终目标一致。
2. 稳健的自适应纠错与持续执行能力:能够稳定衔接编码、工具调用、环境调试等环节,出错时可自主查看日志、定位根源、修复问题,并编写测试用例验证修复效果。

第三,更强的状态保持与上下文整合能力。

面对长时间跨度、多轮反馈和百万级token的上下文信息,模型能够稳定追踪任务进度、当前阶段与后续核心动作,持续整合新信息,确保整个执行过程的一致性与连贯性。

开源模型的新标杆

GLM-5-1的发布,不仅标志着模型性能的显著提升,也在一定程度上影响了全球大型语言模型的发展叙事。

此前,中国开源模型常被视为追赶者,与国际顶尖闭源模型存在可感知的差距。GLM-5-1的出现改变了这一局面:它在多项权威评测中与Claude Opus 4.6表现相当,并在SWE-bench Pro等侧重于实际工程能力的基准测试中实现了超越。这使得中国开源AI在核心工程性能上达到了全球前沿水平。

其影响不止于模型本身,更可能触及IT服务市场的运作逻辑。AI编程的演进路径逐渐清晰:从辅助程序员提效的工具,到降低编码门槛的助手,再到能够独立处理任务的初级工程师角色。GLM-5-1所展现的“长视野”任务处理能力,将AI推向一个新阶段——能够持续工作数小时,并交付相对完整的项目成果。

当AI的产出单元从单行代码转变为完整项目时,软件工程的生产关系可能受到影响。以往需要小型团队数日完成的工作,或资深工程师耗时数月的优化任务,AI可能在数小时内即可交付。这或将促使相关行业重新评估项目定价与人力资源配置。

当然,技术演进并不意味着职业的简单替代。历史经验表明,工具的普及往往淘汰的是未能掌握新工具的人,而非整个职业。AI的发展同样如此,它更可能成为开发者能力的重要延伸和倍增器,而非替代者。

GLM-5-1带来的核心思考在于:当AI能够自主规划并执行长达数小时的复杂任务,实现从规划、执行、调试到交付的完整闭环时,人类的独特价值与不可替代性将更清晰地体现在何处?答案可能在于定义问题、创造价值以及做出关键战略决策的能力——这些仍是当前AI难以完全复制的核心领域。

对中国AI行业而言,GLM-5-1是一个重要的里程碑。当开源模型达到顶尖工程水平,且AI从对话工具转向任务执行体时,整个行业必将迎来更深层次的变革。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29138

(0)
上一篇 2026年4月8日 下午1:50
下一篇 2026年4月8日 下午1:55

相关推荐

  • 企业推进大模型落地的关键工程与核心指标

    企业推进大模型落地,需统筹五大关键工程:算力工程是基础设施,关注规模、效率与服务;应用工程是价值门户,衡量业务覆盖与成效;模型工程是技术核心,驱动算法效能与迭代;知识工程是企业智库,负责知识的沉淀与复用;数据工程是循环血脉,确保数据的贯通与消费。五者协同,方能实现真正的业务智能化。

    2025年10月2日
    87500
  • 告别并行编程烦恼:Joblib如何让Python多进程变得优雅高效

    深夜,当办公室的灯光一盏盏熄灭,总有一块屏幕还在固执地亮着。 一位数据科学家靠在椅背上,目光紧盯着那条几乎停滞的进度条。数据集不大,机器也不差,问题在于 Python 正在忠实地、一个接一个地执行任务。 许多开发者都经历过这样的时刻。此时,“并行处理”的念头极具诱惑力——直到你真正尝试使用 Python 自带的 multiprocessing 模块,才发现它…

    2025年12月2日
    44500
  • 清华团队提出ViT³:用深度学习革新序列建模,线性复杂度超越Transformer

    序列建模是大语言模型与计算机视觉等领域的核心基础问题。目前广泛采用的Transformer模型,其计算复杂度会随序列长度呈平方级增长,这在处理长序列任务时带来了显著的计算瓶颈。因此,学术界一直在积极探索具备线性计算复杂度的高效序列建模新方法。 测试时训练(Test-Time Training,TTT)模型作为一种新兴的序列建模范式,将注意力操作重新定义为在线…

    2026年5月17日
    11900
  • AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

    用AI,特别是大语言模型和智能体来解决数学问题,正成为科研领域的新趋势。近日,斯坦福大学副教授James Zou与TogetherAI的研究者Federico Bianchi、Yongchan Kwon展示了一种新颖的研究方法。 他们基于爱因斯坦、费曼等著名物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞赛平台。这些智能体可以在平…

    2026年3月9日
    39000
  • In-Place Test-Time Training:让大语言模型在推理时原地进化,长上下文任务准确率显著提升

    关键词:测试时训练、原位更新、大语言模型、长上下文 “静态的‘训练后部署’范式,从根本上限制了大语言模型在推理时根据新信息动态调整权重的能力。”这是来自字节跳动 Seed 团队与北京大学联合发表的论文《In-Place Test-Time Training》中的核心论断。 当 GPT-4、Llama 3 等大模型在部署后就“凝固”为静态的知识库,它们便无法像…

    2026年4月10日
    65500