1 参赛选手

本次评测共包含15个模型，均为近期更新版本（按发布时间排序）：

本月出榜模型：
* GLM-4.6（后继版本：GLM-4.7）
* MiniMax M2.1（后继版本：M2）
* DeepSeek V3.2-Speciale（官方已下线）
* Doubao-Seed-1.6 1015（后继版本：1.8）
* DeepSeek V3.2-Exp（后继版本：1201 正式版）
* Grok4 Fast（后继版本：Grok 4.1 Fast）
* GPT-5/5.1（后继版本：GPT-5.2）
* Hunyuan T1 0711（后继版本：HY 2.0）
* Gemini 2.5 Flash（后继版本：Flash 3）

所有出榜模型的历史成绩可在以下网站查询：https://llm2014.github.io/llm_benchmark/

2 评测说明

评测性质：本评测为个人性质，基于评测者自身需求和对大模型的理解，使用滚动更新的私有题库进行长期跟踪。
评测侧重点：评测侧重于模型在逻辑推理、数学计算、编程、指令遵循、人类直觉等方面的能力。评测结果不具备全面权威性，但可作为观察各大模型长期进化趋势的一个侧面参考。
题库说明：题库规模较小，长期维持在28道题目（约270个测试用例）以内。题目均为原创中文题，不包含任何互联网公开题目。每月滚动更新，淘汰平均得分率超过70%的题目。题目本身不公开，旨在分享评测思路与个人见解。建议读者根据自身需求考察模型，不盲信任何评测结果。
成绩波动：由于每月题目会增减，各模型月度成绩存在±3分以内的波动属正常现象，总体排序保持相对稳定。

3 题目与打分规则

本月新增2题，淘汰2题，题库总数维持28题。

当前题库（部分题目示例）：
2. 文本摘要：阅读含误导信息的文本，提取正确信息并按格式输出。
4. 魔方旋转：按规则操作魔方后求解颜色状态。
11. 岛屿面积：根据字符地图计算岛屿面积。
16. 插件调用：根据插件描述和文本信息，输出正确的插件调用及参数。
24. 数字规律：根据示例寻找数字变换规律。
28. 符号定义：重新定义数学符号后计算表达式值。
29. 符号还原：根据打乱定义的符号和表达式，推导符号原始含义。
30. 日记整理：阅读长文本，按多个条件要求整理内容，考察指令遵循。
31. 棋盘图案：求经过棋盘上两点的最大面积等腰三角形顶点。
32. 干支纪年：在天干序列中删除部分后，计算历史某年的干支。
37. 投影问题：根据三维投影视图计算立方体体积。
38. 函数求交：求解多个函数的全部交点。
39. 火车售票：模拟多车次、多人次的购票退票操作，计算最终售票情况。
40. 代码推导：根据算法代码和输入，纸面推导输出结果。
41. 交织文本解读：从多段交织混合的文本中寻找问题答案。
42. 长文本总结：从文本中提炼关键数据，输出核心摘要。
43. 目标数：通过数学运算组合给定数字，得到目标数字。
44. 工具组合：使用给定工具组合，得到指定输出。
45. 编程问题：在复杂约束下完成对三维数组的变换（Python）。
46. 字母组合：从字母序列中找出存在的单词。
47. 高阶迷宫：解决存在错误出入口和复杂路径的迷宫问题。
48. 字符处理：按规则对英文文本进行逐字符计数和处理。
49. 激光布局：在10×10空间中，根据条件约束部署满足要求的激光器。
50. 日志解析：分析约300行系统日志以发现问题。
51. 复杂计算：综合考察K12范围内的数学公式和计算能力。
52. 观棋不语：从一场无解说的对局中归纳游戏规则。
53. 【新增】 管道疏通：使用特定手段使阻塞的管道通畅。
54. 【新增】 高级拼图：从多块拼图中选择部分完成指定图形。

本月淘汰题目：
* 27、旅游规划：分数饱和。
* 35、拼图问题：升级为#54题。

测试规则：
1. 参数设置：模型优先使用官方推荐温度值（下文有备注），无推荐则使用默认温度0.1。推理模型限制思考长度80K，输出长度15K；无法分别设置的模型，设置总输出长度为80K。非推理模型设置输出长度15K。若模型支持的MaxToken低于上限，则按模型上限设置。其他参数保持模型默认。
2. 计分方式：每道题包含至少1个得分点，每答对一点得1分。28题总计285个得分点。最终得分 = (总得分 / 285) * 10（即每题满分10分）。
3. 答案要求：要求推导过程正确，仅猜对答案不得分。依靠穷举覆盖正确答案的情况会额外扣分。
4. 格式遵循：回答必须完全符合题目要求。若题目明确要求不写解释，而回答包含解释部分，即使答案正确也不得分。
5. 测试流程：每题测试3次。取三次中最高分加总为“极限分”，代表真实用户多次重试可能达到的最佳情况。取三次中排序第二的分数加总为“中位分”，代表真实用户单次尝试大概率遇到的情况。

4 成绩解析

注：红色代表推理模型。

以下对新增题目的模型表现进行解析。

53和#54原为备战Gemini 3 Pro的储备题，最终未用于该模型。由于GPT-5.2在此类题目上表现近乎突破控分上限，故将这两题纳入本月评测。

两道题的设计思路类似，均属于人类凭借直觉和认真推导即可解决，但对大模型构成较大挑战的问题。

#53 管道疏通：考察精细文本处理及目标约束下的求解能力。模型表现可分为四个梯队：
- 顶级：GPT-5 Mini/5.1/5.2，几乎可满分解决，偶有失误。
- 次优：Grok4、Gemini 3 Pro、Gemini 3 Flash。能理解题意并尝试解题，但在处理字符细节时易出现失误，无法获得满分。
- 不稳定：DeepSeek 3.2 Speciala, MiniMax M2。多数情况下无法理解题目，但偶尔能爆发获得中高分。
- 基础层：其余模型基本无法理解题目，偶有得分多为碰巧。
#54 高级拼图：此为#35题的升级版。#35题为简化版，仅要求给出拼图正确编号，部分模型通过计算和匹配面积即可得分。#54题则要求给出完整正确的拼图方案，使此前“蒙混过关”的模型难以得分。同时，为防止模型针对类似ARC-AGI-2风格的题目进行过拟合，题目加入了额外约束。
- 表现最佳的GPT-5.2可稳定获得约1/3的分数。
- Gemini 3 Flash与DeepSeek V3.2紧随其后，至少能选对拼图，但无法正确拼接。
- 小米的Mimo-V2表现意外，曾有突发表现完成一次正确拼接。

5 后记

本篇为2025年度最后一期月度评测。回顾2023年末，评测者曾撰文详细总结当年模型发展，并得出国产模型落后世界第一梯队6-12个月的论断。2024年末，乐观估计差距已缩短至4个月。

如今审视，国产模型真的只落后4个月吗？若仅论纯逻辑性能，年末的国产模型仍未追上当年8月的GPT-5 Mini，甚至能追上7月Grok 4的也寥寥无几。在编程任务上，当年5月的Claude Sonnet 4仍能在综合任务或非前端编程应用中领先国产模型。在视觉能力上，当年3月的Gemini 2.5足以成为一道门槛。

但这并非意味着对国产模型转为悲观。相反，2025年我们见证了Qwen系列一统开源江湖；月之暗面、智谱AI、稀宇科技从“六小龙”中脱颖而出，成为“三剑客”；字节跳动不计投入，紧跟世界前沿，争夺多模态皇冠；腾讯如梦初醒，打破常规，选贤任能，虽剑未出鞘，已寒气外溢；百度在持续争议中奋发图强，努力保留AI时代的船票；美团、快手、小米、百灵等新面孔选择在战局正酣时以身入局，勇于检验自身实力。当然，还有作为压舱石的DeepSeek，风格独特，与世无争又锋芒毕露，眼里只有自己的目标，每次发布都为业界带来全新思路。

2025年可能是过去三年中最富变化的一年，但也可能是未来三年中最具奠基意义的一年。未来无需在此过度畅想，让我们一同见证。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15142

2024年12月大语言模型逻辑能力深度评测：15款主流模型性能横评与趋势洞察

1 参赛选手

2 评测说明

3 题目与打分规则

4 成绩解析

53和#54原为备战Gemini 3 Pro的储备题，最终未用于该模型。由于GPT-5.2在此类题目上表现近乎突破控分上限，故将这两题纳入本月评测。

5 后记

相关推荐

GPT-5.2非思考模式实战评测：20+场景深度解析日常AI战斗力

大模型评测实战：从Benchmark幻象到业务落地的量化艺术

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

SWE-Bench：从1.96%到72.8%，AI编程能力的革命性突破与未来展望

FysicsWorld：全球首个物理世界全模态评测基准，开启AI感知真实环境新纪元