智谱GLM-4.7全面评测：编程专用模型性能跃升，开源优势凸显

2025年12月23日下午6:54 • 大模型评测 • 阅读 1054

智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本，新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测，对比了准确率、响应时间、Token消耗及成本等维度。

GLM-4.7版本核心测试数据如下：
* 测试题数：约1.5万
* 总分（准确率）：71.5%
* 平均耗时（每次调用）：96秒
* 平均Token（每次调用）：3922
* 平均花费（每千次调用）：52.5元人民币

1、新旧版本对比

首先将GLM-4.7与GLM-4.6进行对比，数据如下：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格为“1元/M token”

整体性能提升：新版本准确率从68.1%提升至71.5%，提升了3.4个百分点，在评测中的排名从第16位跃升至第5位。
专业能力多领域提升：在细分领域中，“推理与数学计算能力”从66.7%提升至72.7%（+6.0%），“教育”领域从46.9%提升至52.0%（+5.1%）。
医疗与金融领域改进：“医疗与心理健康”从77.6%提升至83.6%（+6.0%），“金融”领域从77.7%提升至84.2%（+6.5%）。
语言理解能力变化：“语言与指令遵从”从64.6%提升至69.3%（+4.7%）。
Agent能力略有回调：“Agent与工具调用”从69.9%略降至68.1%（-1.8%），是唯一出现性能下降的领域。
Token消耗增加：每次调用平均消耗的Token从2851增加至3922，增幅达37.6%，表明新版本可能采用了更复杂的推理机制。
响应时间与成本权衡：平均耗时从59秒增至96秒，慢了约63%。虽然输出单价未变，但由于Token消耗增加，每千次调用的实测费用从37.6元上升至52.5元，成本增加约40%。

2、对比其他新模型

在当前主流大模型竞争格局中，GLM-4.7表现如何？我们选取了具有代表性的模型进行横向对比（本评测侧重中文场景）：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 50元档位对比：GLM-4.7实测成本为52.5元，与gemini-3-flash-preview（53.5元）形成直接竞争。两者准确率相同（均为71.5%），GLM-4.7排名第5，后者排名第6，但GLM-4.7的响应时间（96秒）慢于后者（72秒）。
* 与同档位产品对比：相比同档位的Kimi-K2-Thinking（89.2元，68.3%），GLM-4.7的成本降低41%，准确率高出3.2个百分点。
* 成本控制空间：与高性价比模型doubao-seed-1-8-251215（7.3元，71.7%）相比，GLM-4.7的成本是其7倍多，但准确率仅低0.2个百分点，成本控制仍有优化空间。

新旧模型对比
* 智谱产品线迭代：GLM-4.7相比GLM-4.6准确率提升3.4个百分点，排名从16位上升至5位。
* 与最新版本对比：对比同为最新版本的gemini-3-pro-preview（72.5%）和hunyuan-2.0-thinking-20251109（71.9%），GLM-4.7的准确率略低，但在响应速度上表现更好。
* Thinking模式定位：相比doubao-seed-1-8-251215模型（71.7%，33秒），GLM-4.7的速度劣势明显（96秒），但准确率持平，表明其在思维链效率方面仍有提升空间。

开源VS闭源对比
* 与闭源模型对比：相比同准确率段的闭源模型doubao-seed-1-8-251215（71.7%，商用），GLM-4.7的开源特性使其在可定制性和部署灵活性上更具优势，适合需要私有化部署或深度定制的企业用户。
* DeepSeek对比：相比同为开源的DeepSeek-V3.2-Think（70.9%，144秒），GLM-4.7在准确率上高0.6个百分点，速度上快33%。
* 开源模型定位：GLM-4.7为社区提供了高性能编程模型的选择。相比GPT系列（GPT-5.1-high为69.7%，180元实测成本），GLM-4.7在成本和准确率上均具备一定竞争力。

3、官方评测

根据智谱AI官方博客披露，GLM-4.7在编程能力方面实现了多项突破：

核心编程能力跃升
* 多语言编程显著提升：在SWE-bench基准测试中达到73.8%，相比GLM-4.6提升5.8个百分点；在SWE-bench Multilingual测试中取得66.7%的成绩，提升幅度高达12.9个百分点。
* 终端任务能力突破：在Terminal Bench 2.0测试中达到41%，相比前代提升16.5个百分点，表明模型处理复杂命令行任务的能力大幅增强。
* 主流编程框架支持：GLM-4.7可无缝集成到Claude Code、Kilo Code、Cline和Roo Code等主流Agent框架中，支持“先思考后行动”模式。

工具使用能力优化
* 工具调用准确性提升：在τ²-Bench等工具使用基准测试中取得显著进步。
* 网页浏览能力增强：在BrowseComp网页测试中表现出更优的性能。
* 信息整合能力进化：对于复杂查询和研究任务，能够进行结构化组织和跨源信息整合。

推理能力大幅增强
* 数学推理显著突破：在HLE（人类终极考试）基准测试中达到42.8%，相比GLM-4.6提升12.4个百分点。
* 多轮对话稳定性提升：在多轮对话中能更可靠地维护上下文，对复杂问题能持续澄清目标并推进解决路径。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14989

智谱GLM-4.7全面评测：编程专用模型性能跃升，开源优势凸显

1、新旧版本对比

2、对比其他新模型

3、官方评测

相关推荐

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

T2R-Bench发布：业内首个由表格生成报告工业基准

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

腾讯混元HY 2.0 Think深度评测：思考能力初显，但前端实现仍欠火候

阿里Qwen3.5-27B深度评测：理科思维突出，文档处理与逻辑推理是亮点，艺术创作待提升