GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

GPT-5.2-Medium版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.3%
* 平均耗时(每次调用):29s
* 平均Token(每次调用消耗的Token):922
* 平均花费(每千次调用的人民币花费):70.8

1、新旧版本对比

首先对比上个版本(GPT-5.1-Medium),数据如下:

GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能明显下滑:新版本总分准确率从69.3%下降至64.3%,下滑了5.0个百分点,排名从第7位大幅降至第38位,下降了31个位次。
  • 多数专业领域出现回落:推理与数学计算能力下降显著,从84.7%降至78.0%(-6.7%);语言与指令遵从从67.0%降至60.2%(-6.8%);Agent与工具调用从59.2%降至50.9%(-8.3%);法律与行政公务从75.0%降至71.0%(-4.0%)。
  • 响应速度大幅提升:平均耗时从160s大幅缩短至29s,提升了约82%,速度提升接近五倍,用户体验显著改善。
  • Token效率显著优化:每次调用的平均Token消耗从1448降至922,减少了约36%,推理过程更加精简。
  • 成本有所下降:虽然输出价格从71.0元/M token上调至99.4元/M token,但由于Token消耗减少,每千次调用的费用从87.9元降至70.8元,成本下降约19%。

2、对比其他新模型

在当前主流大模型竞争格局中,GPT-5.2-Medium表现如何?我们选择了具有代表性的模型进行横向对比分析:

GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 中高成本区间竞争力不足:GPT-5.2-Medium每千次调用成本70.8元,处于中高成本区间,但从总分来看,64.3%的准确率在该成本段明显缺乏竞争力。
* 相近成本下表现落后:从总分情况来看,ERNIE-5.0-Thinking-Preview(72.5元,67.5%)、Qwen3-235B-A22B-Thinking-2507(61.2元,65.5%)均以相近成本实现更高的总分准确率。
* 低成本模型表现突出:Qwen3-Max-2025-09-23(23.4元,66.8%)以三分之一的成本实现更高准确率;DeepSeek-V3.2-Think(7.5元,70.9%)以不到十分之一的成本实现显著更高的准确率,成本效率比差距悬殊。

新旧模型对比:
* OpenAI产品线内部倒退:GPT-5.2-Medium(64.3%)不仅低于GPT-5.1-Medium(69.3%),也低于更早的o4-mini(69.0%)和GPT-5-2025-08-07(68.9%),在OpenAI自家产品线中处于较低位置。
* 落后于主流厂商新品:GPT-5.2-Medium(64.3%)在各厂商近期发布的新模型中处于中下游位置,低于Google的Gemini-3-Pro-Preview(72.5%)、腾讯的Hunyuan-2.0-Thinking-20251109(71.9%)、深度求索的DeepSeek-V3.2-Think(70.9%)等主流新品。
* 速度优势突出:29s的响应时间在所有对比模型中表现优异,仅次于Hunyuan-2.0-Thinking-20251109(28s),比自家GPT-5.1-Medium(160s)快了五倍以上。

开源VS闭源对比:
* 开源模型在本次评测中表现突出:DeepSeek-V3.2-Think(7.5元,70.9%)、DeepSeek-V3.2-Exp-Think(6.1元,70.1%)、GLM-4.6(37.6元,68.1%)等开源模型在总分准确率和成本两个维度均优于GPT-5.2-Medium。
* 准确率差距值得关注:在本次中文综合能力评测中,头部开源模型与GPT-5.2-Medium的准确率差距达到4-6个百分点,但需注意本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。
* 速度优势明显:GPT-5.2-Medium的29s响应时间是其核心竞争力之一,明显快于DeepSeek-V3.2-Think(144s)、Qwen3-235B-A22B-Thinking-2507(143s)等开源思考模型,在对延迟敏感的应用场景中仍具实用价值。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14492

(0)
上一篇 2025年12月17日 上午8:27
下一篇 2025年12月17日 下午1:01

相关推荐

  • FeatureBench:填补大模型端到端复杂功能开发评测空白,中科院自动化所与华为联合推出新基准

    在 Princeton 发布 SWE-Bench 之后,利用真实世界代码仓库与可执行测试来评估大语言模型的软件工程能力,已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,催生了一系列 SWE 系列基准,在刻画模型修复缺陷的能力方面发挥了重要作用。 然而,真实的软件工程实践远不止于修复缺陷。大量关键工作发生在功能级别的端到端开发中:这通…

    2026年3月4日
    10700
  • EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

    现如今,大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而,我们或许会怀疑:在一句句“高情商回复”的背后,模型是否真正理解了共情。 在情感陪伴与心理支持等真实场景中,人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪,更会潜移默化地改变后续对话的轨迹。真正有效的共情,需要模型在长期的多轮互动中,持续观察并理解对方的潜在心理状态,…

    12小时前
    2900
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    24100
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    1.1K00
  • BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

    01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

    2026年1月12日
    18600