GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注

OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GPT-5.1-medium版本表现:
* 测试题数:约1.5万
* 总分准确率:69.3%
* 平均耗时(每次调用):160s
* 平均消耗token(每次调用):1448
* 花费/千次调用(元):87.9

1、GPT-5.1-medium vs GPT-5对比

首先对比上个版本(GPT-5-2025-08-07),数据如下:

GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注
GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 整体性能小幅提升:新版本准确率从68.9%提升至69.3%,增长0.4个百分点,排名从第5位升至第3位。
  • 推理能力显著增强:思考模式的核心优势体现在“推理与数学计算”领域,从74.7%大幅提升至83.5%,增幅达8.8个百分点,展现了thinking架构在复杂推理任务上的优势。
  • 部分专业领域提升明显:“医疗与心理健康”从75.6%升至77.3%(+1.7%),“金融”从71.3%升至75.4%(+4.1%),“agent与工具调用”从57.8%升至61.7%(+3.9%),多个实用场景能力得到强化。
  • 语言理解能力下滑明显:值得警惕的是,“语言与指令遵从”从75.6%降至64.5%,降幅达11.1个百分点。“教育”领域也从51.0%降至47.7%(-3.3%),“法律与行政公务”从73.7%降至71.3%(-2.4%)。这表明思考模式在提升推理能力的同时,可能影响了对指令的精准遵从。
  • Token消耗大幅增加:每次调用平均消耗token从630增至1448,增幅达130%。这是思考模式的典型特征,模型需要更多的“思考过程”输出来完成推理。
  • 响应时间显著延长:平均耗时从72s增加至160s,增幅122%。复杂任务需要更长的思考时间,符合官方“在复杂任务上思考更久”的设计理念。
  • 成本急剧攀升:尽管单位token价格略有下降(72.5→71.0元/M token),但由于token消耗大增,每千次调用费用从31.9元飙升至87.9元,成本增加175%。

2、对比其他模型

在当前主流大模型竞争格局中,GPT-5.1-medium表现如何?我们从多个维度进行横向对比分析:

GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

在80-100元/千次调用的高成本区间:
* 高端市场定位:GPT-5.1-medium以87.9元/千次的成本成为测试模型中最昂贵的产品之一,仅次于gemini-2.5-pro(189元)。
* 性价比存疑:对比同为thinking模式的Kimi-K2-Thinking(89.2元,67.9%),GPT-5.1-medium在成本相近的情况下准确率高出1.4个百分点,略具优势。但对比qwen-plus-think-2025-07-28(26元,67.5%),后者以不到三分之一的成本达到接近的性能,性价比差距明显。
* 与自家产品对比:o4-mini以40.3元/千次获得69.0%准确率,性价比远超GPT-5.1-medium。GPT-5-2025-08-07(31.9元,68.9%)同样以更低成本实现接近的性能。

开源vs闭源对比

  • 与开源思考模型对比:DeepSeek-V3.2-Exp-Think以70.1%准确率和6.1元/千次成本位居第2,性价比是GPT-5.1-medium的14倍以上。DeepSeek-V3.1-Think(67.7%,24.8元)、qwen3-235b-a22b-thinking-2507(65.5%,61.2元)等开源模型均以更低成本提供有竞争力的性能。
  • Token效率高:1448的平均token消耗在思考模型中处于中等水平,低于Kimi-K2-Thinking(5732)、qwen-plus-think-2025-07-28(3466)、DeepSeek-V3.2-Exp-Think(2106)和DeepSeek-V3.1-Think(2191)。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14617

(0)
上一篇 2025年11月21日 上午11:37
下一篇 2025年11月21日 下午2:00

相关推荐

  • Video-MME-v2震撼发布:揭示大模型视频理解与人类的巨大鸿沟,传统评测指标已“失真”

    现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300+ 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…

    2026年4月13日
    34600
  • Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡

    XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…

    2025年11月26日
    50100
  • AI首次跨过门萨智商门槛:GPT-5.5 Pro文本IQ 130,视觉IQ 145,人类最高智商俱乐部迎来首位非人类成员

    1946年至今,「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro的文本智商达到130,恰好踩上门萨会员线;视觉智商更是飙升至145,直接杀入天才区。就在一年前,「LLM过不了130」还是技术圈的普遍共识,如今这堵墙被彻底砸碎! 这是AI第一次正式跨越门萨的入会门槛。 门萨130这道墙,这一脚踢得最…

    6天前
    39800
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    28900
  • 大模型评测框架全景解析:如何选择适合你的测试工具?

    在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…

    2025年11月14日
    59100