GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

2025年12月17日下午12:30 • 大模型评测 • 阅读 273

OpenAI近期发布了GPT-5.2版本，作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium（思考模式）与上一版本GPT-5.1-Medium进行了全面对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

GPT-5.2-Medium版本表现：
* 测试题数：约1.5万
* 总分（准确率）：64.3%
* 平均耗时（每次调用）：29s
* 平均Token（每次调用消耗的Token）：922
* 平均花费（每千次调用的人民币花费）：70.8

1、新旧版本对比

首先对比上个版本（GPT-5.1-Medium），数据如下：

GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

整体性能明显下滑：新版本总分准确率从69.3%下降至64.3%，下滑了5.0个百分点，排名从第7位大幅降至第38位，下降了31个位次。
多数专业领域出现回落：推理与数学计算能力下降显著，从84.7%降至78.0%（-6.7%）；语言与指令遵从从67.0%降至60.2%（-6.8%）；Agent与工具调用从59.2%降至50.9%（-8.3%）；法律与行政公务从75.0%降至71.0%（-4.0%）。
响应速度大幅提升：平均耗时从160s大幅缩短至29s，提升了约82%，速度提升接近五倍，用户体验显著改善。
Token效率显著优化：每次调用的平均Token消耗从1448降至922，减少了约36%，推理过程更加精简。
成本有所下降：虽然输出价格从71.0元/M token上调至99.4元/M token，但由于Token消耗减少，每千次调用的费用从87.9元降至70.8元，成本下降约19%。

2、对比其他新模型

在当前主流大模型竞争格局中，GPT-5.2-Medium表现如何？我们选择了具有代表性的模型进行横向对比分析：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：
* 中高成本区间竞争力不足：GPT-5.2-Medium每千次调用成本70.8元，处于中高成本区间，但从总分来看，64.3%的准确率在该成本段明显缺乏竞争力。
* 相近成本下表现落后：从总分情况来看，ERNIE-5.0-Thinking-Preview（72.5元，67.5%）、Qwen3-235B-A22B-Thinking-2507（61.2元，65.5%）均以相近成本实现更高的总分准确率。
* 低成本模型表现突出：Qwen3-Max-2025-09-23（23.4元，66.8%）以三分之一的成本实现更高准确率；DeepSeek-V3.2-Think（7.5元，70.9%）以不到十分之一的成本实现显著更高的准确率，成本效率比差距悬殊。

新旧模型对比：
* OpenAI产品线内部倒退：GPT-5.2-Medium（64.3%）不仅低于GPT-5.1-Medium（69.3%），也低于更早的o4-mini（69.0%）和GPT-5-2025-08-07（68.9%），在OpenAI自家产品线中处于较低位置。
* 落后于主流厂商新品：GPT-5.2-Medium（64.3%）在各厂商近期发布的新模型中处于中下游位置，低于Google的Gemini-3-Pro-Preview（72.5%）、腾讯的Hunyuan-2.0-Thinking-20251109（71.9%）、深度求索的DeepSeek-V3.2-Think（70.9%）等主流新品。
* 速度优势突出：29s的响应时间在所有对比模型中表现优异，仅次于Hunyuan-2.0-Thinking-20251109（28s），比自家GPT-5.1-Medium（160s）快了五倍以上。

开源VS闭源对比：
* 开源模型在本次评测中表现突出：DeepSeek-V3.2-Think（7.5元，70.9%）、DeepSeek-V3.2-Exp-Think（6.1元，70.1%）、GLM-4.6（37.6元，68.1%）等开源模型在总分准确率和成本两个维度均优于GPT-5.2-Medium。
* 准确率差距值得关注：在本次中文综合能力评测中，头部开源模型与GPT-5.2-Medium的准确率差距达到4-6个百分点，但需注意本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同。
* 速度优势明显：GPT-5.2-Medium的29s响应时间是其核心竞争力之一，明显快于DeepSeek-V3.2-Think（144s）、Qwen3-235B-A22B-Thinking-2507（143s）等开源思考模型，在对延迟敏感的应用场景中仍具实用价值。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14492

GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

1、新旧版本对比

2、对比其他新模型

相关推荐

AI Agent评测体系全景：如何衡量智能体的真实能力？

MiniMax M2.1深度实测：全栈开发新利器，从人生K线图到iOS木鱼App的代码生成实战

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

腾讯混元HY 2.0 Think深度评测：思考能力初显，但前端实现仍欠火候