OpenAI近期发布了GPT-5.1新版本,主打更自然的对话体验和情感共鸣能力。值得注意的是,官方此次并未公布传统基准测试结果,而是强调“优秀的人工智能不仅应该是聪明的,而且应该提供令人愉快的交谈”。我们对GPT-5.1(默认非思考模式)与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
GPT-5.1版本表现:
* 测试题数:约1.5万
* 【总分】准确率:57.6%
* 平均耗时(每次调用):169s(因服务器排队,耗时偏长)
* 平均消耗token(每次调用):482
* 花费/千次调用(元):19.3
1、GPT-5.1 vs GPT-5对比
首先对比上个版本(GPT-5-2025-08-07),数据如下:


数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
- 整体性能显著下滑:新版本准确率从68.9%骤降至57.6%,下降了11.3个百分点,排名从第4位跌至第45位,这是一个相当惊人的退步,其原因在于GPT-5.1默认是非思考模式。
- 专业能力全面衰退:从细分领域来看,除“agent与工具调用”外,新版本在所有领域均出现大幅下降。最严重的是“法律与行政公务”,从73.7%暴跌至52.0%,降幅达21.7个百分点。“推理与数学计算”从74.7%降至55.8%(-18.9%),“语言与指令遵从”从75.6%降至59.4%(-16.2%)。
- 唯一亮点——工具调用能力:“agent与工具调用”是唯一提升的领域,从57.8%升至61.1%,增幅3.3个百分点,但难以弥补其他领域的大幅下滑。
- Token消耗大幅减少:每次调用平均消耗token从630降至482,减少约23.5%。这可能与模型输出更简洁、更注重对话体验而非详尽分析有关。
- 战略转型的代价:从数据表现来看,OpenAI此次更新似乎有意牺牲传统基准测试性能,转而优化对话自然度和情感共鸣。官方强调的“更温暖、更有同理心”特性难以在量化测试中体现,但准确率的大幅下滑是不争的事实。
2、对比其他模型
在当前主流大模型竞争格局中,GPT-5.1表现如何?我们从多个维度进行横向对比分析:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
在15-25元/千次调用的成本区间内:
* 性能垫底:GPT-5.1以19.3元/千次的成本获得57.6%的准确率,在同档位中性价比较低。相比之下,MiniMax-M2以23.1元获得59.6%准确率,gemini-2.5-flash以43.2元获得60.6%准确率,均优于GPT-5.1。
* 远逊于自家旧版:GPT-5-2025-08-07虽然成本更高(31.9元),但68.9%的准确率和第4名的排名展现了更强的竞争力。新版本在成本略降的情况下,性能却出现断崖式下跌。
* Token效率高:482的平均token消耗是对比模型中最低的,明显低于gemini-2.5-flash(2586)、MiniMax-M2(2931)等模型。
开源vs闭源对比
- 被开源模型全面超越:作为顶级商用闭源模型,GPT-5.1的57.6%准确率被多个开源模型碾压。qwen3-235b-a22b-instruct-2507达到67.2%,DeepSeek-V3.2-Exp为66.3%,甚至qwen3-next-80b-a3b-instruct(64.6%)也大幅领先。
- 成本优势不复存在:传统上闭源模型以高价换高性能,但GPT-5.1的19.3元/千次成本高于多个性能更强的开源模型。DeepSeek-V3.2-Exp仅需1.9元就能获得66.3%准确率,性价比相差10倍以上。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14621
