DeepSeek-Math-V2震撼开源：685B巨无霸模型登顶数学推理巅峰，IMO金牌水平+Putnam近乎满分

2025年11月28日下午2:46 • 开源项目 • 阅读 188

刚刚，DeepSeek 开源了最新的数学推理模型 DeepSeek-Math-V2。

这不仅仅是一次普通的模型迭代，根据在国际数学奥林匹克和普特南数学竞赛上的表现来看，这可能是开源模型在数学推理领域的一个里程碑时刻。

数学推理新王登基了。

如果说上一代 DeepSeek-Math 让我们看到了开源模型在数学领域的潜力，那么这一次 V2 版本交出了一份令人咋舌的成绩单：IMO 2025 金牌水平。

让我们一起来深入了解这个新发布的模型。

上图展示了 DeepSeek-Math-V2 在核心基准测试中的表现。

🏆 IMO 2025（国际数学奥林匹克）：金牌水平

DeepSeek-Math-V2 展现了极强的定理证明能力，达到了金牌选手的得分线。在 IMO-ProofBench 基准测试上，超越了 Google DeepMind 的 DeepThink 模型，领先优势显著。

🎓 Putnam 2024（普特南数学竞赛）：118/120 分

这几乎是一个满分成绩。普特南数学竞赛是全美顶尖大学生参加的超高难度数学竞赛，能取得接近满分的成绩，意味着模型不仅能解题，还能处理极高难度的逻辑陷阱。

为什么 DeepSeek-Math-V2 能取得如此巨大的突破？官方的技术文档揭示了几个关键点，这不仅仅是堆叠参数的结果。

该模型基于 DeepSeek 最新的 V3.2-Exp-Base 架构构建。它继承了 V3 系列强大的通用语言理解能力和 MoE（混合专家）架构的高效性。其参数量达到了惊人的 685B（6850亿）。

这是本次 V2 版本最大的技术亮点。

传统的数学模型往往只预测下一个 Token，追求最终答案正确。但数学推理的核心在于过程的严谨性。DeepSeek-Math-V2 引入了自我验证（Self-Verification）机制：

这种机制解决了 AI 做数学题的一个顽疾：“答案对了，但过程全是胡扯”。V2 版本不仅能给出答案，还能确保每一步推导都是逻辑闭环的。

类似于 OpenAI 的 o1 系列思路，DeepSeek-Math-V2 支持在推理阶段通过增加计算量来换取更高的准确率。它会在输出最终结果前，进行多轮的自我博弈和验证，直到找到最可靠的证明路径。

该模型在 Apache 2.0 协议下完全开源。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15838