GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破,旨在对标当前顶尖闭源模型。

基准测试表现亮眼

根据官方信息,GLM-4.7在编程、复杂推理和工具使用方面均有显著提升,同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。

官方公布的测试结果显示,GLM-4.7在多项关键基准测试中表现优异:

  • LMArena代码竞技场(盲测):在开源模型中排名第一,超越GPT-5.2。
  • LiveCodeBench V6:得分84.8,超过Claude 4.5 Sonnet。
  • AIME 2025(数学):表现优于Claude 4.5 Sonnet和GPT-5.1。
  • 人类终极考试(HLE):得分42%,比GLM-4.6提升38%,接近GPT-5.1水平。
  • τ²-Bench:在真实世界交互任务中与Claude 4.5 Sonnet持平。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

在实际开发场景的对比中,GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6,后端任务胜率为46.7%,指令遵循任务胜率为58.3%。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

技术规格与特性

GLM-4.7支持200K上下文长度,最大输出128K tokens,处理速度达到每秒55+ tokens。该模型进一步优化了交织思维模式,并引入了保留思维和回合级思维机制。通过在执行动作之间进行思考并保持跨回合的一致性,使复杂任务的处理更加稳定和可控。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

定价策略

GLM-4.7已成为GLM Coding Plan的默认模型。该计划提供多种订阅选项,起价为每月3美元,兼容Claude Code、Cursor等10多种编程工具。

小结

GLM-4.7在基准测试中数据亮眼。据部分内测用户反馈,其真实编程水平确有显著提升,被认为可能迎来又一个“DeepSeek时刻”。然而,也有部分早期用户的测试反馈相对保守,表示在有限测试中,GLM-4.7的表现并未明显优于Claude 4.5 Sonnet或GPT-5.2,甚至可能不及Minimax M2.1。

智谱AI当前密集的模型发布节奏,让部分用户感叹“接受不了,GLM-4.6还没熟悉,GLM-4.7就来了”。这一策略或与智谱AI寻求提升市场竞争力有关。该公司已宣布将于明年1月在香港进行IPO。有市场观点认为,面对同样计划在港股上市、且海外市场影响力更强的竞争对手,智谱AI需要通过快速迭代和性能提升来增强其国际影响力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14761

(0)
上一篇 2025年12月23日 上午12:01
下一篇 2025年12月23日 上午8:32

相关推荐

  • AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式

    关键词: GEMM 、 Neural Processing Unit 、Hardware Acceleration 、Deep Learning、XDNA Architecture 在 AI 算力竞赛白热化的今天,从云端数据中心到边缘终端,专用硬件加速器已成为深度学习(DL)应用落地的核心支撑。而深度学习 workload 的核心——通用矩阵乘法(GEMM)…

    2026年1月1日
    11500
  • 特斯拉FSD V14.2创历史:Model 3横穿美国1万英里零干预,马斯克预言终成真

    在 2025 年的最后一天,一位名叫 David Moss 的特斯拉车主完成了一项创纪录的壮举:他驾驶一辆搭载 FSD V14.2 系统的 2025 款 Model 3,从美国西海岸的洛杉矶出发,全程零人工干预,成功抵达东海岸的南卡罗来纳州,实现了世界上首次横跨美国大陆的全自动驾驶旅程。 这次旅程始于洛杉矶的 Tesla Diner,终点是南卡罗来纳州的 M…

    2026年1月1日
    11400
  • 悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

    在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(M…

    2025年10月30日
    8900
  • Cloudflare全球宕机事件深度剖析:AI时代数字基建的脆弱性与系统性风险

    2025年11月18日,全球互联网经历了一场前所未有的系统性崩溃。Cloudflare作为支撑全球20%网站流量的基础设施服务商,因一次常规维护操作引发连锁反应,导致包括ChatGPT、X(原Twitter)、亚马逊、Zoom等在内的众多AI巨头和互联网服务陷入长达数小时的瘫痪。这起事件不仅暴露了现代数字基础设施的脆弱性,更揭示了AI时代技术演进与系统稳定性…

    2025年11月19日
    6800
  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    8500