GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破,旨在对标当前顶尖闭源模型。

基准测试表现亮眼

根据官方信息,GLM-4.7在编程、复杂推理和工具使用方面均有显著提升,同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。

官方公布的测试结果显示,GLM-4.7在多项关键基准测试中表现优异:

  • LMArena代码竞技场(盲测):在开源模型中排名第一,超越GPT-5.2。
  • LiveCodeBench V6:得分84.8,超过Claude 4.5 Sonnet。
  • AIME 2025(数学):表现优于Claude 4.5 Sonnet和GPT-5.1。
  • 人类终极考试(HLE):得分42%,比GLM-4.6提升38%,接近GPT-5.1水平。
  • τ²-Bench:在真实世界交互任务中与Claude 4.5 Sonnet持平。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

在实际开发场景的对比中,GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6,后端任务胜率为46.7%,指令遵循任务胜率为58.3%。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

技术规格与特性

GLM-4.7支持200K上下文长度,最大输出128K tokens,处理速度达到每秒55+ tokens。该模型进一步优化了交织思维模式,并引入了保留思维和回合级思维机制。通过在执行动作之间进行思考并保持跨回合的一致性,使复杂任务的处理更加稳定和可控。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

定价策略

GLM-4.7已成为GLM Coding Plan的默认模型。该计划提供多种订阅选项,起价为每月3美元,兼容Claude Code、Cursor等10多种编程工具。

小结

GLM-4.7在基准测试中数据亮眼。据部分内测用户反馈,其真实编程水平确有显著提升,被认为可能迎来又一个“DeepSeek时刻”。然而,也有部分早期用户的测试反馈相对保守,表示在有限测试中,GLM-4.7的表现并未明显优于Claude 4.5 Sonnet或GPT-5.2,甚至可能不及Minimax M2.1。

智谱AI当前密集的模型发布节奏,让部分用户感叹“接受不了,GLM-4.6还没熟悉,GLM-4.7就来了”。这一策略或与智谱AI寻求提升市场竞争力有关。该公司已宣布将于明年1月在香港进行IPO。有市场观点认为,面对同样计划在港股上市、且海外市场影响力更强的竞争对手,智谱AI需要通过快速迭代和性能提升来增强其国际影响力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14761

(0)
上一篇 2025年12月23日 上午12:01
下一篇 2025年12月23日 上午8:32

相关推荐

  • SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考

    魏熙林是本文的第一作者,复旦大学博士生,师从林达华教授,研究方向主要为多模态大语言模型与高效人工智能。他目前在上海人工智能实验室实习,指导老师为臧宇航与王佳琦。 本文介绍隐式思维链(Implicit Chain-of-Thought)的最新进展——SIM-CoT(Supervised Implicit Chain-of-Thought)。该方法直击了隐式Co…

    2026年2月1日
    29800
  • WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

    在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主…

    2025年10月29日
    18500
  • 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

    谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍 谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。 根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。 新模型还能将日常数据转化为互…

    2026年2月25日
    29300
  • 微软Copilot Cowork深夜炸场:最强Claude接管Office,4.5亿打工人一夜变天!

    全球4.5亿办公人士的工作模式,正面临一场剧变。 微软近日推出了全新的办公智能体——Copilot Cowork,旨在深度整合并赋能整个Office生产力套件。这款产品可被视为微软版的“Claude Cowork”。 用户仅需一个简单指令,Copilot Cowork便能横跨Excel、Word、PowerPoint、Outlook等应用,读取相关文件、邮件…

    2026年3月10日
    24400
  • Canvas-to-Image:统一画布框架如何重塑组合式图像生成范式

    在人工智能驱动的图像生成领域,控制性与创造性之间的平衡一直是核心挑战。传统方法通常采用分散式控制架构,将身份参考、空间布局、姿态线稿等不同类型的控制信息通过独立通道输入模型,导致创作流程割裂且效率低下。Canvas-to-Image框架的出现,标志着组合式图像生成技术迈入了一个全新的阶段——它通过统一画布设计,将异构控制信号整合到同一像素空间,实现了从多入口…

    2025年12月9日
    22700