DeepSeek-V3.2非思考模式深度评测：速度提升63%但准确率下滑，开源模型成本优势下的性能取舍

2025年12月5日下午1:02 • 大模型评测 • 阅读 256

深度求索近期发布了DeepSeek-V3.2版本，除了备受关注的思考模式外，其非思考模式（下文中的DeepSeek-V3.2均指非思考模式）同样值得关注。我们对新旧两个版本（DeepSeek-V3.2、DeepSeek-V3.2-Exp）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

DeepSeek-V3.2版本表现：
* 测试题数：约1.5万
* 总分（准确率）：64.4%
* 平均耗时（每次调用）：75s
* 平均token（每次调用消耗的token）：853
* 平均花费（每千次调用所花费的人民币）：2.4

1、新旧版本对比

首先对比上个版本（DeepSeek-V3.2-Exp的非思考模式），数据如下：

DeepSeek-V3.2非思考模式深度评测：速度提升63%但准确率下滑，开源模型成本优势下的性能取舍

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

整体性能出现回落：新版本准确率从66.3%下降至64.4%，下滑了1.9个百分点，排名从第23位跌至第34位，下降了11个名次。这一表现与思考模式的提升形成鲜明对比。
部分专业能力有所增强：从细分领域来看，新版本在“金融”领域从79.0%提升至81.8%（+2.8%），“法律与行政公务”从80.0%提升至82.7%（+2.7%），“推理与数学计算”从60.3%提升至62.1%（+1.8%），显示出在专业推理任务上的优化。
语言能力显著下降：最值得关注的是，“语言与指令遵从”能力从75.1%大幅下降至66.8%，降幅高达8.3个百分点，成为本次版本更新中最明显的短板。
工具调用能力减弱：“agent与工具调用”从53.9%下降至50.6%（-3.3%），在智能体应用场景中的表现有所退步。
响应速度大幅提升：每次调用的平均耗时从201s大幅缩短至75s，提升了约63%，这是本次更新最显著的改进点。
Token消耗增加但成本可控：每次调用平均消耗的token从692增加至853，增幅约23%。每千次调用的费用从1.9元小幅增加至2.4元，成本上升约26%，但绝对值仍处于较低水平。

2、对比其他模型

在当前主流大模型竞争格局中，DeepSeek-V3.2非思考模式表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：
* 低成本区间竞争激烈：在2-3元/千次的成本区间内，DeepSeek-V3.2（64.4%）面临较大压力。doubao-seed-1-6-lite-251015（3元，66.1%）高出1.7个百分点，hunyuan-turbos-20250926（2元，65.9%）高出1.5个百分点且成本更低。
* 与同门产品对比：DeepSeek-V3.1（6.5元，64.2%）准确率相近但成本更高，新版本在成本控制上仍有优势；但与DeepSeek-V3.1-Think（24.8元，67.7%）相比，思考模式的性能优势更加明显。

开源VS闭源对比：
* 开源阵营排名靠后：在开源模型中，DeepSeek-V3.2以64.4%的准确率排名相对靠后。Kimi-K2-Thinking（68.3%）领先3.9个百分点，GLM-4.6（68.1%）领先3.7个百分点。
* 与闭源模型差距明显：相比qwen3-max-preview（66.5%），落后2.1个百分点；相比doubao-seed-1-6-lite-251015（66.1%），落后1.7个百分点。在非思考模式下，从总分来看，开源与闭源的差距较为显著。
* 成本优势依然存在：2.4元/千次的成本在所有模型中处于较低水平，相比动辄几十上百元的闭源模型，仍具备一定的成本吸引力。

新模型竞争格局：
* 速度优势明显：75s的响应时间在非思考模型中表现优异，比hunyuan-turbos-20250926（23s）慢，比doubao-seed-1-6-lite-251015（79s）快一些，用户体验较好。
* 建议搭配思考模式使用：考虑到DeepSeek-V3.2-Think（70.9%，排名第3）的优异表现，对于需要高准确率的场景，建议优先选择思考模式；非思考模式更适合对速度敏感、准确率要求相对宽松的应用场景。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14583

DeepSeek-V3.2非思考模式深度评测：速度提升63%但准确率下滑，开源模型成本优势下的性能取舍

1、新旧版本对比

2、对比其他模型

相关推荐

大模型评测实战：从Benchmark幻象到业务落地的量化艺术

GPT-5.2非思考模式实战评测：20+场景深度解析日常AI战斗力

AI Agent独立复现顶会论文能力大揭秘：OpenAI PaperBench基准测试深度解析

GAPS框架：全球首个专病循证评测标准，AI医生临床能力迎来硬核标尺

AI工具使用能力评测新突破：WildToolBench揭示大语言模型在真实场景中的巨大差距