DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍

深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下文中的DeepSeek-V3.2均指非思考模式)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

DeepSeek-V3.2版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.4%
* 平均耗时(每次调用):75s
* 平均token(每次调用消耗的token):853
* 平均花费(每千次调用所花费的人民币):2.4

1、新旧版本对比

首先对比上个版本(DeepSeek-V3.2-Exp的非思考模式),数据如下:

DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍
DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能出现回落:新版本准确率从66.3%下降至64.4%,下滑了1.9个百分点,排名从第23位跌至第34位,下降了11个名次。这一表现与思考模式的提升形成鲜明对比。
  • 部分专业能力有所增强:从细分领域来看,新版本在“金融”领域从79.0%提升至81.8%(+2.8%),“法律与行政公务”从80.0%提升至82.7%(+2.7%),“推理与数学计算”从60.3%提升至62.1%(+1.8%),显示出在专业推理任务上的优化。
  • 语言能力显著下降:最值得关注的是,“语言与指令遵从”能力从75.1%大幅下降至66.8%,降幅高达8.3个百分点,成为本次版本更新中最明显的短板。
  • 工具调用能力减弱:“agent与工具调用”从53.9%下降至50.6%(-3.3%),在智能体应用场景中的表现有所退步。
  • 响应速度大幅提升:每次调用的平均耗时从201s大幅缩短至75s,提升了约63%,这是本次更新最显著的改进点。
  • Token消耗增加但成本可控:每次调用平均消耗的token从692增加至853,增幅约23%。每千次调用的费用从1.9元小幅增加至2.4元,成本上升约26%,但绝对值仍处于较低水平。

2、对比其他模型

在当前主流大模型竞争格局中,DeepSeek-V3.2非思考模式表现如何?我们选择了具有代表性的模型进行横向对比分析:

DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍

*数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 低成本区间竞争激烈:在2-3元/千次的成本区间内,DeepSeek-V3.2(64.4%)面临较大压力。doubao-seed-1-6-lite-251015(3元,66.1%)高出1.7个百分点,hunyuan-turbos-20250926(2元,65.9%)高出1.5个百分点且成本更低。
* 与同门产品对比:DeepSeek-V3.1(6.5元,64.2%)准确率相近但成本更高,新版本在成本控制上仍有优势;但与DeepSeek-V3.1-Think(24.8元,67.7%)相比,思考模式的性能优势更加明显。

开源VS闭源对比:
* 开源阵营排名靠后:在开源模型中,DeepSeek-V3.2以64.4%的准确率排名相对靠后。Kimi-K2-Thinking(68.3%)领先3.9个百分点,GLM-4.6(68.1%)领先3.7个百分点。
* 与闭源模型差距明显:相比qwen3-max-preview(66.5%),落后2.1个百分点;相比doubao-seed-1-6-lite-251015(66.1%),落后1.7个百分点。在非思考模式下,从总分来看,开源与闭源的差距较为显著。
* 成本优势依然存在:2.4元/千次的成本在所有模型中处于较低水平,相比动辄几十上百元的闭源模型,仍具备一定的成本吸引力。

新模型竞争格局:
* 速度优势明显:75s的响应时间在非思考模型中表现优异,比hunyuan-turbos-20250926(23s)慢,比doubao-seed-1-6-lite-251015(79s)快一些,用户体验较好。
* 建议搭配思考模式使用:考虑到DeepSeek-V3.2-Think(70.9%,排名第3)的优异表现,对于需要高准确率的场景,建议优先选择思考模式;非思考模式更适合对速度敏感、准确率要求相对宽松的应用场景。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14583

(0)
上一篇 2025年12月5日 上午11:53
下一篇 2025年12月5日 下午2:29

相关推荐

  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    19200
  • GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力

    OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…

    2025年12月14日
    19100
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    24200
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    20900
  • AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距

    关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…

    13小时前
    3200