GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

2025年11月21日下午12:31 • 大模型评测 • 阅读 186

OpenAI近期发布了GPT-5.1系列新版本，其中GPT-5.1-medium作为思考模式（thinking）的代表产品，在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快，在复杂任务上思考更久”，并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GPT-5.1-medium版本表现：
* 测试题数：约1.5万
* 总分准确率：69.3%
* 平均耗时（每次调用）：160s
* 平均消耗token（每次调用）：1448
* 花费/千次调用（元）：87.9

1、GPT-5.1-medium vs GPT-5对比

首先对比上个版本（GPT-5-2025-08-07），数据如下：

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

整体性能小幅提升：新版本准确率从68.9%提升至69.3%，增长0.4个百分点，排名从第5位升至第3位。
推理能力显著增强：思考模式的核心优势体现在“推理与数学计算”领域，从74.7%大幅提升至83.5%，增幅达8.8个百分点，展现了thinking架构在复杂推理任务上的优势。
部分专业领域提升明显：“医疗与心理健康”从75.6%升至77.3%（+1.7%），“金融”从71.3%升至75.4%（+4.1%），“agent与工具调用”从57.8%升至61.7%（+3.9%），多个实用场景能力得到强化。
语言理解能力下滑明显：值得警惕的是，“语言与指令遵从”从75.6%降至64.5%，降幅达11.1个百分点。“教育”领域也从51.0%降至47.7%（-3.3%），“法律与行政公务”从73.7%降至71.3%（-2.4%）。这表明思考模式在提升推理能力的同时，可能影响了对指令的精准遵从。
Token消耗大幅增加：每次调用平均消耗token从630增至1448，增幅达130%。这是思考模式的典型特征，模型需要更多的“思考过程”输出来完成推理。
响应时间显著延长：平均耗时从72s增加至160s，增幅122%。复杂任务需要更长的思考时间，符合官方“在复杂任务上思考更久”的设计理念。
成本急剧攀升：尽管单位token价格略有下降（72.5→71.0元/M token），但由于token消耗大增，每千次调用费用从31.9元飙升至87.9元，成本增加175%。

2、对比其他模型

在当前主流大模型竞争格局中，GPT-5.1-medium表现如何？我们从多个维度进行横向对比分析：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

在80-100元/千次调用的高成本区间：
* 高端市场定位：GPT-5.1-medium以87.9元/千次的成本成为测试模型中最昂贵的产品之一，仅次于gemini-2.5-pro（189元）。
* 性价比存疑：对比同为thinking模式的Kimi-K2-Thinking（89.2元，67.9%），GPT-5.1-medium在成本相近的情况下准确率高出1.4个百分点，略具优势。但对比qwen-plus-think-2025-07-28（26元，67.5%），后者以不到三分之一的成本达到接近的性能，性价比差距明显。
* 与自家产品对比：o4-mini以40.3元/千次获得69.0%准确率，性价比远超GPT-5.1-medium。GPT-5-2025-08-07（31.9元，68.9%）同样以更低成本实现接近的性能。

开源vs闭源对比

与开源思考模型对比：DeepSeek-V3.2-Exp-Think以70.1%准确率和6.1元/千次成本位居第2，性价比是GPT-5.1-medium的14倍以上。DeepSeek-V3.1-Think（67.7%，24.8元）、qwen3-235b-a22b-thinking-2507（65.5%，61.2元）等开源模型均以更低成本提供有竞争力的性能。
Token效率高：1448的平均token消耗在思考模型中处于中等水平，低于Kimi-K2-Thinking（5732）、qwen-plus-think-2025-07-28（3466）、DeepSeek-V3.2-Exp-Think（2106）和DeepSeek-V3.1-Think（2191）。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14617

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

1、GPT-5.1-medium vs GPT-5对比

2、对比其他模型

同成本档位对比

开源vs闭源对比

相关推荐

MiniMax-M2.1实测：性能提升4%但响应时间翻倍，成本增加21.6%的深度评测

DeepSeek-V3.2实测：稀疏注意力机制DSA如何实现推理效率与性能的协同突破

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

AI工具使用能力评测新突破：WildToolBench揭示大语言模型在真实场景中的巨大差距

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑