GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

GPT-5.2-Medium版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.3%
* 平均耗时(每次调用):29s
* 平均Token(每次调用消耗的Token):922
* 平均花费(每千次调用的人民币花费):70.8

1、新旧版本对比

首先对比上个版本(GPT-5.1-Medium),数据如下:

GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能明显下滑:新版本总分准确率从69.3%下降至64.3%,下滑了5.0个百分点,排名从第7位大幅降至第38位,下降了31个位次。
  • 多数专业领域出现回落:推理与数学计算能力下降显著,从84.7%降至78.0%(-6.7%);语言与指令遵从从67.0%降至60.2%(-6.8%);Agent与工具调用从59.2%降至50.9%(-8.3%);法律与行政公务从75.0%降至71.0%(-4.0%)。
  • 响应速度大幅提升:平均耗时从160s大幅缩短至29s,提升了约82%,速度提升接近五倍,用户体验显著改善。
  • Token效率显著优化:每次调用的平均Token消耗从1448降至922,减少了约36%,推理过程更加精简。
  • 成本有所下降:虽然输出价格从71.0元/M token上调至99.4元/M token,但由于Token消耗减少,每千次调用的费用从87.9元降至70.8元,成本下降约19%。

2、对比其他新模型

在当前主流大模型竞争格局中,GPT-5.2-Medium表现如何?我们选择了具有代表性的模型进行横向对比分析:

GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 中高成本区间竞争力不足:GPT-5.2-Medium每千次调用成本70.8元,处于中高成本区间,但从总分来看,64.3%的准确率在该成本段明显缺乏竞争力。
* 相近成本下表现落后:从总分情况来看,ERNIE-5.0-Thinking-Preview(72.5元,67.5%)、Qwen3-235B-A22B-Thinking-2507(61.2元,65.5%)均以相近成本实现更高的总分准确率。
* 低成本模型表现突出:Qwen3-Max-2025-09-23(23.4元,66.8%)以三分之一的成本实现更高准确率;DeepSeek-V3.2-Think(7.5元,70.9%)以不到十分之一的成本实现显著更高的准确率,成本效率比差距悬殊。

新旧模型对比:
* OpenAI产品线内部倒退:GPT-5.2-Medium(64.3%)不仅低于GPT-5.1-Medium(69.3%),也低于更早的o4-mini(69.0%)和GPT-5-2025-08-07(68.9%),在OpenAI自家产品线中处于较低位置。
* 落后于主流厂商新品:GPT-5.2-Medium(64.3%)在各厂商近期发布的新模型中处于中下游位置,低于Google的Gemini-3-Pro-Preview(72.5%)、腾讯的Hunyuan-2.0-Thinking-20251109(71.9%)、深度求索的DeepSeek-V3.2-Think(70.9%)等主流新品。
* 速度优势突出:29s的响应时间在所有对比模型中表现优异,仅次于Hunyuan-2.0-Thinking-20251109(28s),比自家GPT-5.1-Medium(160s)快了五倍以上。

开源VS闭源对比:
* 开源模型在本次评测中表现突出:DeepSeek-V3.2-Think(7.5元,70.9%)、DeepSeek-V3.2-Exp-Think(6.1元,70.1%)、GLM-4.6(37.6元,68.1%)等开源模型在总分准确率和成本两个维度均优于GPT-5.2-Medium。
* 准确率差距值得关注:在本次中文综合能力评测中,头部开源模型与GPT-5.2-Medium的准确率差距达到4-6个百分点,但需注意本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。
* 速度优势明显:GPT-5.2-Medium的29s响应时间是其核心竞争力之一,明显快于DeepSeek-V3.2-Think(144s)、Qwen3-235B-A22B-Thinking-2507(143s)等开源思考模型,在对延迟敏感的应用场景中仍具实用价值。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14492

(0)
上一篇 2025年12月17日 上午8:27
下一篇 2025年12月17日 下午1:01

相关推荐

  • T2R-Bench发布:业内首个由表格生成报告工业基准

    论文标题: T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables 收录会议: EMNLP 2025 Main Conference 论文链接:https://www.arxiv.org/pdf/2508.19813 Huggi…

    2025年10月16日
    7600
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    4300
  • Gemini 3 Pro深度评测:多模态推理模型如何重塑AI生产力边界

    昨晚,谷歌发布了Gemini 3 Pro,并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环,但对于一线用户而言,核心问题在于:它是否真正能提升生产力? 我们设计了一系列体验场景,这些测试的共同点是:不追求理论分数,而是要求模型生成可直接运行的代码或可交付的成果。 以下是具体的体验情况。 场景1…

    2025年11月19日
    7400
  • GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

    OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

    2025年11月27日
    8400
  • 美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…

    2026年1月18日
    5700