深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实现了显著优化。我们对新旧两个版本(DeepSeek-V3.2-Think、DeepSeek-V3.2-Exp-Think)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
DeepSeek-V3.2-Think版本表现:
* 测试题数:约1.5万
* 总分(准确率):70.9%
* 平均耗时(每次调用):144s
* 平均token(每次调用消耗的token):2572
* 平均花费(每千次调用的人民币花费):7.5
1、新旧版本对比
首先对比上个版本(DeepSeek-V3.2-Exp-Think),数据如下:


数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”
- 整体性能稳步提升:新版本准确率从70.1%提升至70.9%,提升了0.8个百分点,排名从第4位上升至第3位,跻身榜单前三。
- 专业能力全面增强:从细分领域来看,新版本在大多数领域都实现了明显提升。最突出的是“教育”领域,从50.4%提升至53.9%,增幅达3.5个百分点。“医疗与心理健康”领域也有显著进步,从80.9%提升至84.2%(+3.3%)。
- 推理能力持续优化:“推理与数学计算”从75.1%提升至77.6%(+2.5%),“法律与行政公务”从82.0%提升至84.3%(+2.3%),体现了模型在复杂推理任务上的技术迭代成果。
- 部分能力存在权衡:值得注意的是,“语言与指令遵从”能力从77.2%下降至74.7%(-2.5%),“agent与工具调用”也略有下降(53.2% vs 52.9%),表明在整体性能提升过程中存在一定的能力权衡。
- 响应速度大幅提升:每次调用的平均耗时从248s大幅缩短至144s,提升了约42%,用户体验显著改善。
- Token消耗和成本略有上升:每次调用平均消耗的token从2106增加至2572,增幅约22%。每千次调用的费用从6.1元增加至7.5元,成本上升约23%,但考虑到响应速度的大幅提升,整体性价比仍有竞争力。
2、对比其他新模型
在当前主流大模型竞争格局中,DeepSeek-V3.2-Think表现如何?我们选择了具有代表性的模型进行横向对比分析:

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比:
- 极致成本效率比优势:在7-8元/千次的成本区间内,DeepSeek-V3.2-Think以70.9%的准确率遥遥领先。同价位的grok-4-1-fast-reasoning(8.1元,64.3%)落后6.6个百分点,ERNIE-X1.1-Preview(9.3元,64.5%)落后6.4个百分点。
- 碾压高价竞品:即使与成本更高的模型相比,DeepSeek-V3.2-Think仍具备明显优势。claude-sonnet-4.5-thinking(305.1元,68.8%)成本是其40倍,准确率却低2.1个百分点;gemini-3-pro-preview(247.3元,72.5%)成本是其33倍,准确率仅高1.6个百分点。
- 同厂商产品对比:相比DeepSeek-R1-0528(48元,65.9%),新版本成本仅为其16%,准确率却高出5.0个百分点,实现了全面超越。
开源VS闭源对比:
- 开源阵营领跑者:在开源模型中,DeepSeek-V3.2-Think以70.9%的准确率位居第一,领先Kimi-K2-Thinking(68.3%)2.6个百分点,领先qwen3-235b-a22b-thinking-2507(65.5%)5.4个百分点。
- 挑战闭源头部:从总分情况来看,与闭源商用模型相比,DeepSeek-V3.2-Think仅落后榜首gemini-3-pro-preview(72.5%)1.6个百分点,落后doubao-seed-1-6-thinking-250715(71.7%)0.8个百分点,但成本优势极为显著。
新模型竞争格局:
- 稳居第一梯队:在所有新发布模型中,DeepSeek-V3.2-Think的总分排名第3,仅次于gemini-3-pro-preview和doubao-seed-1-6-thinking-250715,超越了GPT-5.1系列、o4-mini、GLM-4.6等众多新品。
- 响应速度中等:144s的响应时间在思考模型中处于中等水平,比doubao-seed-1-6-thinking(37s)和o4-mini(35s)慢,但比Kimi-K2-Thinking(333s)和gpt-5.1-medium(160s)快。
- 综合竞争力突出:综合准确率、成本、速度三个维度,DeepSeek-V3.2-Think在开源模型中实现了最佳平衡,是当前最具性价比的思考模型之一。
3、技术简介
3.1 稀疏注意力机制(DSA)
DeepSeek-V3.2相比前代版本的唯一架构性修改就是引入了DeepSeek Sparse Attention(DSA)。这一创新机制主要解决了传统vanilla attention在长序列处理上的效率瓶颈问题。
DSA的核心组件:
* 闪电索引器(Lightning Indexer):通过计算query token与前序token之间的索引分数,快速确定哪些token需要被选中参与注意力计算。该索引器采用ReLU激活函数,并可以使用FP8实现,计算效率极高。
* 细粒度token选择机制:基于索引分数,只检索top-k个key-value条目进行注意力计算,大幅减少计算量。
复杂度优势
DSA将核心注意力复杂度从O(L²)降低到O(Lk),其中k远小于序列长度L。虽然闪电索引器仍保持O(L²)复杂度,但其计算量远小于传统MLA,实现了长上下文场景下的显著端到端加速。
继续预训练策略
DSA的引入采用了两阶段继续预训练策略:
* 密集热身阶段:保持密集注意力,仅训练闪电索引器,使用KL散度损失对齐索引器输出与主注意力分布。训练仅1000步,共2.1B tokens。
* 稀疏训练阶段:引入细粒度token选择,优化所有模型参数。每个query token选择2048个key-value tokens,训练15000步,共943.7B tokens。
3.2 可扩展强化学习框架
DeepSeek-V3.2在后训练阶段采用了稳定且可扩展的强化学习协议,后训练计算预算超过预训练成本的10%,解锁了高级能力。
* 专家蒸馏:团队为每个任务开发了专门的专家模型,涵盖六个专业领域:数学、编程、通用逻辑推理、通用智能体任务、智能体编程、智能体搜索。所有领域都支持思考模式和非思考模式。每个专家模型都经过大规模RL训练,然后用于生成最终检查点的领域特定数据。
* 混合RL训练:采用GRPO(Group Relative Policy Optimization)作为RL训练算法,将推理、智能体和人类对齐训练合并到一个RL阶段,有效平衡了不同领域的性能,避免了多阶段训练带来的灾难性遗忘问题。
* 奖励机制设计:
* 推理和智能体任务:基于规则的结果奖励 + 长度惩罚 + 语言一致性奖励
- 通用任务:生成式奖励模型,每个提示词都有其独立的评估规则。
3.3 大规模智能体任务合成流水线
为了将推理能力整合到工具使用场景中,DeepSeek开发了一套创新的合成流水线,用于系统性地大规模生成训练数据。
工具使用中的思考上下文管理
研究发现,若简单复制DeepSeek-R1的策略(即在第二轮消息到达时丢弃推理内容),会导致显著的Token效率低下。为此,团队开发了专门针对工具调用场景的上下文管理策略:
* 仅当新用户消息引入新对话时,才丢弃历史推理内容。
* 如果只是添加工具相关消息(如工具输出),则推理内容在整个交互过程中得以保留。
* 当推理痕迹被移除时,工具调用及其结果的历史记录仍会保留在上下文中。
冷启动机制
通过精心设计的提示词,将推理能力与工具使用能力进行整合。模型能够准确遵循显式指令,从而实现在推理过程中无缝执行工具调用。
4. 官方评测
DeepSeek官方在多个权威基准测试上对V3.2进行了全面评估,涵盖推理能力、代码能力、智能体能力等多个维度。
推理能力评测
首先是与主流闭源模型的对比,从细分能力来看:

* 数学推理能力卓越:V3.2-Speciale在AIME 2025上达到96.0%,在HMMT Feb 2025上更是达到99.2%,均超越GPT-5和Gemini-3.0-Pro。
* 与GPT-5水平相当:V3.2-Thinking在推理任务上与GPT-5-High表现接近,略逊于Gemini-3.0-Pro。
* Token效率待优化:V3.2在Codeforces上需要42k tokens获得2386分,而Gemini仅需22k tokens即可获得2708分。
智能体能力评测
以下是智能体相关能力的评测结果:

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14589
