GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

GLM-5正式发布,其定位直指Claude,专注于解决复杂的系统工程与长程智能体任务。模型参数规模从GLM-4.5的355B(32B活跃)大幅跃升至744B(40B活跃),预训练数据量也从23T token扩充至28.5T token。

GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

在技术层面,GLM-5采用了GlmMoeDsa架构,直接集成了来自DeepSeek的DSA稀疏注意力与MTP多标记预测技术,在显著降低部署成本的同时,保持了强大的长上下文处理能力。研发团队还构建了名为“slime”的异步强化学习基础设施,有效解决了大规模模型在强化学习训练中的效率瓶颈,大幅提升了训练吞吐量,使得更精细、更复杂的后训练迭代成为可能。

GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

性能评测表现:
* 推理能力:在HLE推理基准测试中,GLM-5获得30.5分,超越了Claude Opus 4.5的28.4分,但距离GPT-5.2的35.4分仍有差距。在启用工具调用功能后,其HLE得分进一步提升至50.4分。
* 编程能力:在SWE-bench Verified编程测试中,GLM-5取得了77.8%的通过率,达到开源模型的顶级水准。
* 综合与长程任务:在内部评测CC-Bench-V2中,GLM-5在前端、后端及长程任务上的表现均显著优于GLM-4.7,与Claude Opus 4.5的差距明显缩小。
* 长程规划能力:Vending Bench 2测试要求模型模拟经营一年的虚拟自动售货机业务。GLM-5最终获得4432美元的余额,在开源模型中排名第一,并逼近Claude Opus 4.5的4967美元成绩,而DeepSeek-V3.2在该测试中仅为1034美元。

GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

GLM-5还具备一项独特能力:能够直接生成可立即使用的Office文档。用户只需提出需求,模型即可直接输出格式完好的.docx.pdf.xlsx文件,如产品文档、财务报表、课程计划等,无需进行后期格式调整。这在开源大模型中尚属首次。

在部署方面,GLM-5支持vLLM、SGLang等主流推理框架,模型权重已在HuggingFace和ModelScope平台开源。同时,模型对国产芯片生态提供了广泛支持,包括华为昇腾、摩尔线程、寒武纪、昆仑芯、燧原科技、海光等,通过内核优化与模型量化技术,可在这些平台上实现合理的推理速度。

早期用户反馈积极。有开发者将其用于SwiftUI开发任务,发现其表现明显优于minimax m2.1模型。另有用户发现,GLM-5即是此前在OpenRouter平台上出现的代号为“Pony Alpha”的神秘模型。在voxel pagoda场景设计测试中,用户认为GLM-5的设计风格接近Claude Opus 4.6,但在“鸟居门”等细节元素上有所缺失。

作为国产开源模型的代表,GLM系列凭借其卓越的编程能力,在大模型应用从对话向智能体工程演进的过程中表现出色。其推出的免费额度计划以及近期在OpenClaw刺激下备受关注的Code Plan,成功吸引了大量开发者用户。随着模型生态的持续发展,其后续表现值得关注。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21261

(0)
上一篇 2026年2月12日 上午6:52
下一篇 2026年2月12日 下午2:37

相关推荐

  • 熵平衡革命:AEPO算法如何破解智能体强化学习的探索-稳定困境

    在智能体强化学习(Agentic RL)的快速发展浪潮中,如何在探索潜力与训练稳定之间取得精妙平衡,已成为制约多轮智能体性能提升的核心瓶颈。传统的熵驱动式智能体强化学习方法虽然通过在高不确定性节点触发分支探索来提升推理路径的多样性,但这种依赖单一熵信号的机制在实践中暴露出显著缺陷:过度追求探索往往导致训练过程剧烈震荡,甚至引发策略熵坍塌,使智能体陷入局部最优…

    2025年11月1日
    16100
  • 对话式AI的情感革命:从文字交互到实时陪伴的万亿产业跃迁

    在人工智能技术快速演进的今天,一段小女孩与AI玩具告别的视频引发了广泛的社会讨论。这看似简单的场景背后,实则揭示了对话式AI技术正在突破传统交互边界,悄然融入人类情感世界的深层变革。当AI不再仅仅是冰冷的工具,而是能够承载情感连接的伙伴时,我们正站在人机关系重塑的历史节点上。 传统AI交互大多停留在“短信时代”的异步模式:用户输入问题,AI输出文字回复。这种…

    2025年11月5日
    16400
  • NVIDIA ComputeEval:从基准建立到难度升级,全面评估 LLMs 的 CUDA 代码生成能力

    关键词:CUDA 代码生成 、NVIDIA、CUDA 代码数据集 、AI 辅助编程 大语言模型(LLMs)正深刻改变开发者的编码方式——无论是资深工程师还是入门开发者,如今的顶尖模型已能流畅生成 Python 脚本、React 网站代码等。 代码:https://github.com/nvidia/compute-eval 数据:https://huggin…

    2025年12月21日
    20800
  • 谷歌DeepMind掌门人揭示AGI路线图:2030年前需1-2个Transformer级突破,Titans架构或成关键

    在人工智能发展的关键节点,谷歌DeepMind首席执行官Demis Hassabis近期对未来技术趋势做出了系统性预测,为行业提供了清晰的路线图。这些预测不仅基于当前技术进展,更反映了全球顶尖研究机构对通用人工智能(AGI)实现路径的深刻思考。 Hassabis提出的五大核心趋势构成了未来AI发展的基本框架。首先是多模态融合的彻底打通,这意味着文本、图像、音…

    2025年12月7日
    23200
  • RoboBrain-Memory:具身智能的终身记忆系统如何重塑人机交互

    在人工智能与机器人技术深度融合的当下,具身智能体正逐步从实验室走向真实世界。然而,传统交互系统往往面临一个根本性挑战:每次对话都像初次见面,缺乏持续的记忆与个性化理解。这一瓶颈严重制约了智能体在家庭、医疗、教育等长期陪伴场景中的应用潜力。近期,由智源研究院、Spin Matrix、乐聚机器人与新加坡南洋理工大学等机构联合提出的RoboBrain-Memory…

    2025年11月5日
    15900