深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下文中的DeepSeek-V3.2均指非思考模式)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
DeepSeek-V3.2版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.4%
* 平均耗时(每次调用):75s
* 平均token(每次调用消耗的token):853
* 平均花费(每千次调用所花费的人民币):2.4
1、新旧版本对比
首先对比上个版本(DeepSeek-V3.2-Exp的非思考模式),数据如下:


数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”
- 整体性能出现回落:新版本准确率从66.3%下降至64.4%,下滑了1.9个百分点,排名从第23位跌至第34位,下降了11个名次。这一表现与思考模式的提升形成鲜明对比。
- 部分专业能力有所增强:从细分领域来看,新版本在“金融”领域从79.0%提升至81.8%(+2.8%),“法律与行政公务”从80.0%提升至82.7%(+2.7%),“推理与数学计算”从60.3%提升至62.1%(+1.8%),显示出在专业推理任务上的优化。
- 语言能力显著下降:最值得关注的是,“语言与指令遵从”能力从75.1%大幅下降至66.8%,降幅高达8.3个百分点,成为本次版本更新中最明显的短板。
- 工具调用能力减弱:“agent与工具调用”从53.9%下降至50.6%(-3.3%),在智能体应用场景中的表现有所退步。
- 响应速度大幅提升:每次调用的平均耗时从201s大幅缩短至75s,提升了约63%,这是本次更新最显著的改进点。
- Token消耗增加但成本可控:每次调用平均消耗的token从692增加至853,增幅约23%。每千次调用的费用从1.9元小幅增加至2.4元,成本上升约26%,但绝对值仍处于较低水平。
2、对比其他模型
在当前主流大模型竞争格局中,DeepSeek-V3.2非思考模式表现如何?我们选择了具有代表性的模型进行横向对比分析:

*数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比:
* 低成本区间竞争激烈:在2-3元/千次的成本区间内,DeepSeek-V3.2(64.4%)面临较大压力。doubao-seed-1-6-lite-251015(3元,66.1%)高出1.7个百分点,hunyuan-turbos-20250926(2元,65.9%)高出1.5个百分点且成本更低。
* 与同门产品对比:DeepSeek-V3.1(6.5元,64.2%)准确率相近但成本更高,新版本在成本控制上仍有优势;但与DeepSeek-V3.1-Think(24.8元,67.7%)相比,思考模式的性能优势更加明显。
开源VS闭源对比:
* 开源阵营排名靠后:在开源模型中,DeepSeek-V3.2以64.4%的准确率排名相对靠后。Kimi-K2-Thinking(68.3%)领先3.9个百分点,GLM-4.6(68.1%)领先3.7个百分点。
* 与闭源模型差距明显:相比qwen3-max-preview(66.5%),落后2.1个百分点;相比doubao-seed-1-6-lite-251015(66.1%),落后1.7个百分点。在非思考模式下,从总分来看,开源与闭源的差距较为显著。
* 成本优势依然存在:2.4元/千次的成本在所有模型中处于较低水平,相比动辄几十上百元的闭源模型,仍具备一定的成本吸引力。
新模型竞争格局:
* 速度优势明显:75s的响应时间在非思考模型中表现优异,比hunyuan-turbos-20250926(23s)慢,比doubao-seed-1-6-lite-251015(79s)快一些,用户体验较好。
* 建议搭配思考模式使用:考虑到DeepSeek-V3.2-Think(70.9%,排名第3)的优异表现,对于需要高准确率的场景,建议优先选择思考模式;非思考模式更适合对速度敏感、准确率要求相对宽松的应用场景。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14583
