GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破,旨在对标当前顶尖闭源模型。

基准测试表现亮眼

根据官方信息,GLM-4.7在编程、复杂推理和工具使用方面均有显著提升,同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。

官方公布的测试结果显示,GLM-4.7在多项关键基准测试中表现优异:

  • LMArena代码竞技场(盲测):在开源模型中排名第一,超越GPT-5.2。
  • LiveCodeBench V6:得分84.8,超过Claude 4.5 Sonnet。
  • AIME 2025(数学):表现优于Claude 4.5 Sonnet和GPT-5.1。
  • 人类终极考试(HLE):得分42%,比GLM-4.6提升38%,接近GPT-5.1水平。
  • τ²-Bench:在真实世界交互任务中与Claude 4.5 Sonnet持平。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

在实际开发场景的对比中,GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6,后端任务胜率为46.7%,指令遵循任务胜率为58.3%。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

技术规格与特性

GLM-4.7支持200K上下文长度,最大输出128K tokens,处理速度达到每秒55+ tokens。该模型进一步优化了交织思维模式,并引入了保留思维和回合级思维机制。通过在执行动作之间进行思考并保持跨回合的一致性,使复杂任务的处理更加稳定和可控。

GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

定价策略

GLM-4.7已成为GLM Coding Plan的默认模型。该计划提供多种订阅选项,起价为每月3美元,兼容Claude Code、Cursor等10多种编程工具。

小结

GLM-4.7在基准测试中数据亮眼。据部分内测用户反馈,其真实编程水平确有显著提升,被认为可能迎来又一个“DeepSeek时刻”。然而,也有部分早期用户的测试反馈相对保守,表示在有限测试中,GLM-4.7的表现并未明显优于Claude 4.5 Sonnet或GPT-5.2,甚至可能不及Minimax M2.1。

智谱AI当前密集的模型发布节奏,让部分用户感叹“接受不了,GLM-4.6还没熟悉,GLM-4.7就来了”。这一策略或与智谱AI寻求提升市场竞争力有关。该公司已宣布将于明年1月在香港进行IPO。有市场观点认为,面对同样计划在港股上市、且海外市场影响力更强的竞争对手,智谱AI需要通过快速迭代和性能提升来增强其国际影响力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14761

(0)
上一篇 2025年12月23日 上午12:01
下一篇 2025年12月23日 上午8:32

相关推荐

  • Google 刚发布 Gemini 3 Flash,说实话,AI 的经济模型被彻底改写了

    Google 刚发布了 Gemini 3 Flash,老实说?AI 经济学被改写了。 一款“快”模型如何重画价格-性能曲线 你今天早上打开 Gemini app,总觉得哪儿不一样。更快,更锐利。你可能都没注意到更新提示。 Google 把默认模型整个换了。全球范围。你睡觉的时候它就完成了。 这可不常见。公司一般不会一夜之间给几百万个应用换“发动机”。通常会先…

    2026年1月3日
    14800
  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    28800
  • 2025人工智能年度评选深度解析:五大奖项如何定义行业标杆与未来趋势

    随着人工智能技术从实验室走向规模化应用,行业亟需权威的评估体系来识别真正的创新力量与商业价值。2025人工智能年度评选的设立,正是对这一需求的系统性回应。本次评选从企业、产品、人物三大维度设立五类奖项,不仅是对过去一年成果的总结,更是对未来发展方向的指引。 从企业维度看,评选分为“领航企业”与“潜力创业公司”两类,这反映了行业成熟度与创新活力的双重关注。领航…

    2025年11月17日
    11500
  • 2026全球算力格局重塑:十大趋势深度洞察与AI算力革命前瞻

    序言:算力重构全球竞争秩序,新质生产力的核心引擎 本报告基于全球算力产业最新发展动态,结合AI云原生智能算力架构的权威研判、政策导向及产业一线数据,深度解读2026年全球算力十大趋势,系统分析国内外GPU/CPU算力产业链格局、太空算力发展现状,并为产业从业者与投资者提供兼具科学性、技术性与实操性的深度洞察。 2026年,人工智能浪潮进入纵深演进阶段,算力作…

    AI产业动态 2026年1月25日
    40900
  • SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

    混合专家(MoE)模型架构已成为当前大语言模型规模化扩展的关键技术路径,其通过稀疏激活机制,在保持计算成本相对稳定的前提下,实现了模型参数量的指数级增长。然而,随着技术演进,MoE模型正呈现出两个显著趋势:专家粒度不断细化(即专家中间层维度持续缩小)和模型稀疏性持续提升(在专家总数大幅增加的同时保持激活专家数基本不变)。这一趋势在近期开源的DeepSeek …

    2025年12月19日
    14400