GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

GLM-5正式发布,其定位直指Claude,专注于解决复杂的系统工程与长程智能体任务。模型参数规模从GLM-4.5的355B(32B活跃)大幅跃升至744B(40B活跃),预训练数据量也从23T token扩充至28.5T token。

GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

在技术层面,GLM-5采用了GlmMoeDsa架构,直接集成了来自DeepSeek的DSA稀疏注意力与MTP多标记预测技术,在显著降低部署成本的同时,保持了强大的长上下文处理能力。研发团队还构建了名为“slime”的异步强化学习基础设施,有效解决了大规模模型在强化学习训练中的效率瓶颈,大幅提升了训练吞吐量,使得更精细、更复杂的后训练迭代成为可能。

GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

性能评测表现:
* 推理能力:在HLE推理基准测试中,GLM-5获得30.5分,超越了Claude Opus 4.5的28.4分,但距离GPT-5.2的35.4分仍有差距。在启用工具调用功能后,其HLE得分进一步提升至50.4分。
* 编程能力:在SWE-bench Verified编程测试中,GLM-5取得了77.8%的通过率,达到开源模型的顶级水准。
* 综合与长程任务:在内部评测CC-Bench-V2中,GLM-5在前端、后端及长程任务上的表现均显著优于GLM-4.7,与Claude Opus 4.5的差距明显缩小。
* 长程规划能力:Vending Bench 2测试要求模型模拟经营一年的虚拟自动售货机业务。GLM-5最终获得4432美元的余额,在开源模型中排名第一,并逼近Claude Opus 4.5的4967美元成绩,而DeepSeek-V3.2在该测试中仅为1034美元。

GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

GLM-5还具备一项独特能力:能够直接生成可立即使用的Office文档。用户只需提出需求,模型即可直接输出格式完好的.docx.pdf.xlsx文件,如产品文档、财务报表、课程计划等,无需进行后期格式调整。这在开源大模型中尚属首次。

在部署方面,GLM-5支持vLLM、SGLang等主流推理框架,模型权重已在HuggingFace和ModelScope平台开源。同时,模型对国产芯片生态提供了广泛支持,包括华为昇腾、摩尔线程、寒武纪、昆仑芯、燧原科技、海光等,通过内核优化与模型量化技术,可在这些平台上实现合理的推理速度。

早期用户反馈积极。有开发者将其用于SwiftUI开发任务,发现其表现明显优于minimax m2.1模型。另有用户发现,GLM-5即是此前在OpenRouter平台上出现的代号为“Pony Alpha”的神秘模型。在voxel pagoda场景设计测试中,用户认为GLM-5的设计风格接近Claude Opus 4.6,但在“鸟居门”等细节元素上有所缺失。

作为国产开源模型的代表,GLM系列凭借其卓越的编程能力,在大模型应用从对话向智能体工程演进的过程中表现出色。其推出的免费额度计划以及近期在OpenClaw刺激下备受关注的Code Plan,成功吸引了大量开发者用户。随着模型生态的持续发展,其后续表现值得关注。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21261

(0)
上一篇 15小时前
下一篇 7小时前

相关推荐

  • 构建可自我进化的Agentic RAG系统:从医疗健康领域实践到通用设计模式

    Agentic RAG 系统可以被视为一个高维度的决策空间,其中每个维度都对应一项关键设计选择,例如提示工程、智能体协同机制或检索策略。手动调整这些维度以找到最优组合不仅极其困难,而且系统上线后遇到的未知数据也常常会打破在测试环境中有效的配置。 因此,一个更优的解决方案是让系统具备“自我优化”的能力。一条典型的、可自我进化的 Agentic RAG 流水线遵…

    2025年11月19日
    10100
  • 通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

    关键词:通用子空间、深度神经网络、低秩子空间、模型可复用性、权重空间分析 在大模型时代,一个核心矛盾始终困扰着研究者:我们训练的模型规模持续增长(从百亿到万亿参数),但每次为适配新任务都需要从头微调或训练全新模型。这不仅消耗海量算力,还导致严重的参数冗余。例如,排除任务特定的输入/输出层后,存储500个Vision Transformer(ViT)模型约需8…

    2026年1月3日
    9800
  • 英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

    驱动具身智能迈向通用领域的核心挑战是什么? 我们认为,关键在于实现“跨具身迁移”。 一个完善的世界模型是具身智能执行通用复杂任务的基础。然而,许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。 具体而言,当前应用于机器人或智能汽车的世界模型,大多针对特定硬件平台进行设计和训练,其泛化能力有限,跨平台迁移往往依赖运气。 本质上,许多机器人学习到的并非“…

    3天前
    600
  • Twill:斯坦福与NVIDIA联手打造Tensor Core GPU自动优化引擎,终结手工内核调优时代

    关键词: Tensor Core GPU 、Software Pipelining 、Warp Specialization 、Twill、Constraint Solving、 Modulo Scheduling 随着 AI 大模型向“更大参数、更长序列”发展,Tensor Core GPU 的优化需求将持续增长。Twill 所代表的“约束求解驱动的最优优…

    2025年12月29日
    9700
  • 从理论到实践:使用Model Context Protocol构建多工具AI代理的完整指南

    类比 我们都熟悉《Kaun Banega Crorepati(KBC)》节目中的“Phone a Friend(打电话求助)”环节。这是印度版的《Who Wants to Be a Millionaire?》。 现在,想象一下如果 KBC 节目诞生于“电话尚未发明”的时代。 在没有电话的世界里:如果节目想让选手“打电话”求助朋友,就必须为每一位求助的朋友进行…

    2025年11月25日
    12200