GLM-5正式发布,其定位直指Claude,专注于解决复杂的系统工程与长程智能体任务。模型参数规模从GLM-4.5的355B(32B活跃)大幅跃升至744B(40B活跃),预训练数据量也从23T token扩充至28.5T token。

在技术层面,GLM-5采用了GlmMoeDsa架构,直接集成了来自DeepSeek的DSA稀疏注意力与MTP多标记预测技术,在显著降低部署成本的同时,保持了强大的长上下文处理能力。研发团队还构建了名为“slime”的异步强化学习基础设施,有效解决了大规模模型在强化学习训练中的效率瓶颈,大幅提升了训练吞吐量,使得更精细、更复杂的后训练迭代成为可能。

性能评测表现:
* 推理能力:在HLE推理基准测试中,GLM-5获得30.5分,超越了Claude Opus 4.5的28.4分,但距离GPT-5.2的35.4分仍有差距。在启用工具调用功能后,其HLE得分进一步提升至50.4分。
* 编程能力:在SWE-bench Verified编程测试中,GLM-5取得了77.8%的通过率,达到开源模型的顶级水准。
* 综合与长程任务:在内部评测CC-Bench-V2中,GLM-5在前端、后端及长程任务上的表现均显著优于GLM-4.7,与Claude Opus 4.5的差距明显缩小。
* 长程规划能力:Vending Bench 2测试要求模型模拟经营一年的虚拟自动售货机业务。GLM-5最终获得4432美元的余额,在开源模型中排名第一,并逼近Claude Opus 4.5的4967美元成绩,而DeepSeek-V3.2在该测试中仅为1034美元。

GLM-5还具备一项独特能力:能够直接生成可立即使用的Office文档。用户只需提出需求,模型即可直接输出格式完好的.docx、.pdf或.xlsx文件,如产品文档、财务报表、课程计划等,无需进行后期格式调整。这在开源大模型中尚属首次。
在部署方面,GLM-5支持vLLM、SGLang等主流推理框架,模型权重已在HuggingFace和ModelScope平台开源。同时,模型对国产芯片生态提供了广泛支持,包括华为昇腾、摩尔线程、寒武纪、昆仑芯、燧原科技、海光等,通过内核优化与模型量化技术,可在这些平台上实现合理的推理速度。
早期用户反馈积极。有开发者将其用于SwiftUI开发任务,发现其表现明显优于minimax m2.1模型。另有用户发现,GLM-5即是此前在OpenRouter平台上出现的代号为“Pony Alpha”的神秘模型。在voxel pagoda场景设计测试中,用户认为GLM-5的设计风格接近Claude Opus 4.6,但在“鸟居门”等细节元素上有所缺失。
作为国产开源模型的代表,GLM系列凭借其卓越的编程能力,在大模型应用从对话向智能体工程演进的过程中表现出色。其推出的免费额度计划以及近期在OpenClaw刺激下备受关注的Code Plan,成功吸引了大量开发者用户。随着模型生态的持续发展,其后续表现值得关注。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21261
