智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。

GLM-4.7版本核心测试数据如下:
* 测试题数:约1.5万
* 总分(准确率):71.5%
* 平均耗时(每次调用):96秒
* 平均Token(每次调用):3922
* 平均花费(每千次调用):52.5元人民币

1、新旧版本对比

首先将GLM-4.7与GLM-4.6进行对比,数据如下:

智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显
智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格为“1元/M token”

  • 整体性能提升:新版本准确率从68.1%提升至71.5%,提升了3.4个百分点,在评测中的排名从第16位跃升至第5位。
  • 专业能力多领域提升:在细分领域中,“推理与数学计算能力”从66.7%提升至72.7%(+6.0%),“教育”领域从46.9%提升至52.0%(+5.1%)。
  • 医疗与金融领域改进:“医疗与心理健康”从77.6%提升至83.6%(+6.0%),“金融”领域从77.7%提升至84.2%(+6.5%)。
  • 语言理解能力变化:“语言与指令遵从”从64.6%提升至69.3%(+4.7%)。
  • Agent能力略有回调:“Agent与工具调用”从69.9%略降至68.1%(-1.8%),是唯一出现性能下降的领域。
  • Token消耗增加:每次调用平均消耗的Token从2851增加至3922,增幅达37.6%,表明新版本可能采用了更复杂的推理机制。
  • 响应时间与成本权衡:平均耗时从59秒增至96秒,慢了约63%。虽然输出单价未变,但由于Token消耗增加,每千次调用的实测费用从37.6元上升至52.5元,成本增加约40%。

2、对比其他新模型

在当前主流大模型竞争格局中,GLM-4.7表现如何?我们选取了具有代表性的模型进行横向对比(本评测侧重中文场景):

智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 50元档位对比:GLM-4.7实测成本为52.5元,与gemini-3-flash-preview(53.5元)形成直接竞争。两者准确率相同(均为71.5%),GLM-4.7排名第5,后者排名第6,但GLM-4.7的响应时间(96秒)慢于后者(72秒)。
* 与同档位产品对比:相比同档位的Kimi-K2-Thinking(89.2元,68.3%),GLM-4.7的成本降低41%,准确率高出3.2个百分点。
* 成本控制空间:与高性价比模型doubao-seed-1-8-251215(7.3元,71.7%)相比,GLM-4.7的成本是其7倍多,但准确率仅低0.2个百分点,成本控制仍有优化空间。

新旧模型对比
* 智谱产品线迭代:GLM-4.7相比GLM-4.6准确率提升3.4个百分点,排名从16位上升至5位。
* 与最新版本对比:对比同为最新版本的gemini-3-pro-preview(72.5%)和hunyuan-2.0-thinking-20251109(71.9%),GLM-4.7的准确率略低,但在响应速度上表现更好。
* Thinking模式定位:相比doubao-seed-1-8-251215模型(71.7%,33秒),GLM-4.7的速度劣势明显(96秒),但准确率持平,表明其在思维链效率方面仍有提升空间。

开源VS闭源对比
* 与闭源模型对比:相比同准确率段的闭源模型doubao-seed-1-8-251215(71.7%,商用),GLM-4.7的开源特性使其在可定制性和部署灵活性上更具优势,适合需要私有化部署或深度定制的企业用户。
* DeepSeek对比:相比同为开源的DeepSeek-V3.2-Think(70.9%,144秒),GLM-4.7在准确率上高0.6个百分点,速度上快33%。
* 开源模型定位:GLM-4.7为社区提供了高性能编程模型的选择。相比GPT系列(GPT-5.1-high为69.7%,180元实测成本),GLM-4.7在成本和准确率上均具备一定竞争力。

3、官方评测

根据智谱AI官方博客披露,GLM-4.7在编程能力方面实现了多项突破:

智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显
智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

核心编程能力跃升
* 多语言编程显著提升:在SWE-bench基准测试中达到73.8%,相比GLM-4.6提升5.8个百分点;在SWE-bench Multilingual测试中取得66.7%的成绩,提升幅度高达12.9个百分点。
* 终端任务能力突破:在Terminal Bench 2.0测试中达到41%,相比前代提升16.5个百分点,表明模型处理复杂命令行任务的能力大幅增强。
* 主流编程框架支持:GLM-4.7可无缝集成到Claude Code、Kilo Code、Cline和Roo Code等主流Agent框架中,支持“先思考后行动”模式。

工具使用能力优化
* 工具调用准确性提升:在τ²-Bench等工具使用基准测试中取得显著进步。
* 网页浏览能力增强:在BrowseComp网页测试中表现出更优的性能。
* 信息整合能力进化:对于复杂查询和研究任务,能够进行结构化组织和跨源信息整合。

推理能力大幅增强
* 数学推理显著突破:在HLE(人类终极考试)基准测试中达到42.8%,相比GLM-4.6提升12.4个百分点。
* 多轮对话稳定性提升:在多轮对话中能更可靠地维护上下文,对复杂问题能持续澄清目标并推进解决路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14989

(0)
上一篇 2025年12月23日 下午1:03
下一篇 2025年12月24日 上午12:04

相关推荐

  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    20300
  • AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距

    关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…

    12小时前
    3100
  • 向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

    将多模态数据纳入到RAG(检索增强生成)乃至Agent框架,是目前大语言模型(LLM)应用领域最受关注的方向之一。针对多模态数据最自然的召回方式,便是向量检索。 然而,我们正在依赖的这一整套“embedding → 向量检索 → 下游任务”的流程,其实存在一个未被正确认知到的陷阱。许多人认为向量检索方法已经标准化,遇到向量检索需求便不假思索地选择HNSW算法…

    2025年12月25日
    20900
  • GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用

    OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…

    2025年12月13日
    24400
  • Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡

    XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…

    2025年11月26日
    28600