智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。
GLM-4.7版本核心测试数据如下:
* 测试题数:约1.5万
* 总分(准确率):71.5%
* 平均耗时(每次调用):96秒
* 平均Token(每次调用):3922
* 平均花费(每千次调用):52.5元人民币
1、新旧版本对比
首先将GLM-4.7与GLM-4.6进行对比,数据如下:


数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格为“1元/M token”
- 整体性能提升:新版本准确率从68.1%提升至71.5%,提升了3.4个百分点,在评测中的排名从第16位跃升至第5位。
- 专业能力多领域提升:在细分领域中,“推理与数学计算能力”从66.7%提升至72.7%(+6.0%),“教育”领域从46.9%提升至52.0%(+5.1%)。
- 医疗与金融领域改进:“医疗与心理健康”从77.6%提升至83.6%(+6.0%),“金融”领域从77.7%提升至84.2%(+6.5%)。
- 语言理解能力变化:“语言与指令遵从”从64.6%提升至69.3%(+4.7%)。
- Agent能力略有回调:“Agent与工具调用”从69.9%略降至68.1%(-1.8%),是唯一出现性能下降的领域。
- Token消耗增加:每次调用平均消耗的Token从2851增加至3922,增幅达37.6%,表明新版本可能采用了更复杂的推理机制。
- 响应时间与成本权衡:平均耗时从59秒增至96秒,慢了约63%。虽然输出单价未变,但由于Token消耗增加,每千次调用的实测费用从37.6元上升至52.5元,成本增加约40%。
2、对比其他新模型
在当前主流大模型竞争格局中,GLM-4.7表现如何?我们选取了具有代表性的模型进行横向对比(本评测侧重中文场景):

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
* 50元档位对比:GLM-4.7实测成本为52.5元,与gemini-3-flash-preview(53.5元)形成直接竞争。两者准确率相同(均为71.5%),GLM-4.7排名第5,后者排名第6,但GLM-4.7的响应时间(96秒)慢于后者(72秒)。
* 与同档位产品对比:相比同档位的Kimi-K2-Thinking(89.2元,68.3%),GLM-4.7的成本降低41%,准确率高出3.2个百分点。
* 成本控制空间:与高性价比模型doubao-seed-1-8-251215(7.3元,71.7%)相比,GLM-4.7的成本是其7倍多,但准确率仅低0.2个百分点,成本控制仍有优化空间。
新旧模型对比
* 智谱产品线迭代:GLM-4.7相比GLM-4.6准确率提升3.4个百分点,排名从16位上升至5位。
* 与最新版本对比:对比同为最新版本的gemini-3-pro-preview(72.5%)和hunyuan-2.0-thinking-20251109(71.9%),GLM-4.7的准确率略低,但在响应速度上表现更好。
* Thinking模式定位:相比doubao-seed-1-8-251215模型(71.7%,33秒),GLM-4.7的速度劣势明显(96秒),但准确率持平,表明其在思维链效率方面仍有提升空间。
开源VS闭源对比
* 与闭源模型对比:相比同准确率段的闭源模型doubao-seed-1-8-251215(71.7%,商用),GLM-4.7的开源特性使其在可定制性和部署灵活性上更具优势,适合需要私有化部署或深度定制的企业用户。
* DeepSeek对比:相比同为开源的DeepSeek-V3.2-Think(70.9%,144秒),GLM-4.7在准确率上高0.6个百分点,速度上快33%。
* 开源模型定位:GLM-4.7为社区提供了高性能编程模型的选择。相比GPT系列(GPT-5.1-high为69.7%,180元实测成本),GLM-4.7在成本和准确率上均具备一定竞争力。
3、官方评测
根据智谱AI官方博客披露,GLM-4.7在编程能力方面实现了多项突破:



核心编程能力跃升
* 多语言编程显著提升:在SWE-bench基准测试中达到73.8%,相比GLM-4.6提升5.8个百分点;在SWE-bench Multilingual测试中取得66.7%的成绩,提升幅度高达12.9个百分点。
* 终端任务能力突破:在Terminal Bench 2.0测试中达到41%,相比前代提升16.5个百分点,表明模型处理复杂命令行任务的能力大幅增强。
* 主流编程框架支持:GLM-4.7可无缝集成到Claude Code、Kilo Code、Cline和Roo Code等主流Agent框架中,支持“先思考后行动”模式。
工具使用能力优化
* 工具调用准确性提升:在τ²-Bench等工具使用基准测试中取得显著进步。
* 网页浏览能力增强:在BrowseComp网页测试中表现出更优的性能。
* 信息整合能力进化:对于复杂查询和研究任务,能够进行结构化组织和跨源信息整合。
推理能力大幅增强
* 数学推理显著突破:在HLE(人类终极考试)基准测试中达到42.8%,相比GLM-4.6提升12.4个百分点。
* 多轮对话稳定性提升:在多轮对话中能更可靠地维护上下文,对复杂问题能持续澄清目标并推进解决路径。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14989
