1 参赛选手
本次评测共包含15个模型,均为近期更新版本(按发布时间排序):

本月出榜模型:
* GLM-4.6(后继版本:GLM-4.7)
* MiniMax M2.1(后继版本:M2)
* DeepSeek V3.2-Speciale(官方已下线)
* Doubao-Seed-1.6 1015(后继版本:1.8)
* DeepSeek V3.2-Exp(后继版本:1201 正式版)
* Grok4 Fast(后继版本:Grok 4.1 Fast)
* GPT-5/5.1(后继版本:GPT-5.2)
* Hunyuan T1 0711(后继版本:HY 2.0)
* Gemini 2.5 Flash(后继版本:Flash 3)
所有出榜模型的历史成绩可在以下网站查询:https://llm2014.github.io/llm_benchmark/
2 评测说明
- 评测性质:本评测为个人性质,基于评测者自身需求和对大模型的理解,使用滚动更新的私有题库进行长期跟踪。
- 评测侧重点:评测侧重于模型在逻辑推理、数学计算、编程、指令遵循、人类直觉等方面的能力。评测结果不具备全面权威性,但可作为观察各大模型长期进化趋势的一个侧面参考。
- 题库说明:题库规模较小,长期维持在28道题目(约270个测试用例)以内。题目均为原创中文题,不包含任何互联网公开题目。每月滚动更新,淘汰平均得分率超过70%的题目。题目本身不公开,旨在分享评测思路与个人见解。建议读者根据自身需求考察模型,不盲信任何评测结果。
- 成绩波动:由于每月题目会增减,各模型月度成绩存在±3分以内的波动属正常现象,总体排序保持相对稳定。
3 题目与打分规则
本月新增2题,淘汰2题,题库总数维持28题。
当前题库(部分题目示例):
2. 文本摘要:阅读含误导信息的文本,提取正确信息并按格式输出。
4. 魔方旋转:按规则操作魔方后求解颜色状态。
11. 岛屿面积:根据字符地图计算岛屿面积。
16. 插件调用:根据插件描述和文本信息,输出正确的插件调用及参数。
24. 数字规律:根据示例寻找数字变换规律。
28. 符号定义:重新定义数学符号后计算表达式值。
29. 符号还原:根据打乱定义的符号和表达式,推导符号原始含义。
30. 日记整理:阅读长文本,按多个条件要求整理内容,考察指令遵循。
31. 棋盘图案:求经过棋盘上两点的最大面积等腰三角形顶点。
32. 干支纪年:在天干序列中删除部分后,计算历史某年的干支。
37. 投影问题:根据三维投影视图计算立方体体积。
38. 函数求交:求解多个函数的全部交点。
39. 火车售票:模拟多车次、多人次的购票退票操作,计算最终售票情况。
40. 代码推导:根据算法代码和输入,纸面推导输出结果。
41. 交织文本解读:从多段交织混合的文本中寻找问题答案。
42. 长文本总结:从文本中提炼关键数据,输出核心摘要。
43. 目标数:通过数学运算组合给定数字,得到目标数字。
44. 工具组合:使用给定工具组合,得到指定输出。
45. 编程问题:在复杂约束下完成对三维数组的变换(Python)。
46. 字母组合:从字母序列中找出存在的单词。
47. 高阶迷宫:解决存在错误出入口和复杂路径的迷宫问题。
48. 字符处理:按规则对英文文本进行逐字符计数和处理。
49. 激光布局:在10×10空间中,根据条件约束部署满足要求的激光器。
50. 日志解析:分析约300行系统日志以发现问题。
51. 复杂计算:综合考察K12范围内的数学公式和计算能力。
52. 观棋不语:从一场无解说的对局中归纳游戏规则。
53. 【新增】 管道疏通:使用特定手段使阻塞的管道通畅。
54. 【新增】 高级拼图:从多块拼图中选择部分完成指定图形。
本月淘汰题目:
* 27、旅游规划:分数饱和。
* 35、拼图问题:升级为#54题。
测试规则:
1. 参数设置:模型优先使用官方推荐温度值(下文有备注),无推荐则使用默认温度0.1。推理模型限制思考长度80K,输出长度15K;无法分别设置的模型,设置总输出长度为80K。非推理模型设置输出长度15K。若模型支持的MaxToken低于上限,则按模型上限设置。其他参数保持模型默认。
2. 计分方式:每道题包含至少1个得分点,每答对一点得1分。28题总计285个得分点。最终得分 = (总得分 / 285) * 10(即每题满分10分)。
3. 答案要求:要求推导过程正确,仅猜对答案不得分。依靠穷举覆盖正确答案的情况会额外扣分。
4. 格式遵循:回答必须完全符合题目要求。若题目明确要求不写解释,而回答包含解释部分,即使答案正确也不得分。
5. 测试流程:每题测试3次。取三次中最高分加总为“极限分”,代表真实用户多次重试可能达到的最佳情况。取三次中排序第二的分数加总为“中位分”,代表真实用户单次尝试大概率遇到的情况。
4 成绩解析

注:红色代表推理模型。
以下对新增题目的模型表现进行解析。
53和#54原为备战Gemini 3 Pro的储备题,最终未用于该模型。由于GPT-5.2在此类题目上表现近乎突破控分上限,故将这两题纳入本月评测。
两道题的设计思路类似,均属于人类凭借直觉和认真推导即可解决,但对大模型构成较大挑战的问题。
-
#53 管道疏通:考察精细文本处理及目标约束下的求解能力。模型表现可分为四个梯队:
- 顶级:GPT-5 Mini/5.1/5.2,几乎可满分解决,偶有失误。
- 次优:Grok4、Gemini 3 Pro、Gemini 3 Flash。能理解题意并尝试解题,但在处理字符细节时易出现失误,无法获得满分。
- 不稳定:DeepSeek 3.2 Speciala, MiniMax M2。多数情况下无法理解题目,但偶尔能爆发获得中高分。
- 基础层:其余模型基本无法理解题目,偶有得分多为碰巧。
-
#54 高级拼图:此为#35题的升级版。#35题为简化版,仅要求给出拼图正确编号,部分模型通过计算和匹配面积即可得分。#54题则要求给出完整正确的拼图方案,使此前“蒙混过关”的模型难以得分。同时,为防止模型针对类似ARC-AGI-2风格的题目进行过拟合,题目加入了额外约束。
- 表现最佳的GPT-5.2可稳定获得约1/3的分数。
- Gemini 3 Flash与DeepSeek V3.2紧随其后,至少能选对拼图,但无法正确拼接。
- 小米的Mimo-V2表现意外,曾有突发表现完成一次正确拼接。
5 后记
本篇为2025年度最后一期月度评测。回顾2023年末,评测者曾撰文详细总结当年模型发展,并得出国产模型落后世界第一梯队6-12个月的论断。2024年末,乐观估计差距已缩短至4个月。
如今审视,国产模型真的只落后4个月吗?若仅论纯逻辑性能,年末的国产模型仍未追上当年8月的GPT-5 Mini,甚至能追上7月Grok 4的也寥寥无几。在编程任务上,当年5月的Claude Sonnet 4仍能在综合任务或非前端编程应用中领先国产模型。在视觉能力上,当年3月的Gemini 2.5足以成为一道门槛。
但这并非意味着对国产模型转为悲观。相反,2025年我们见证了Qwen系列一统开源江湖;月之暗面、智谱AI、稀宇科技从“六小龙”中脱颖而出,成为“三剑客”;字节跳动不计投入,紧跟世界前沿,争夺多模态皇冠;腾讯如梦初醒,打破常规,选贤任能,虽剑未出鞘,已寒气外溢;百度在持续争议中奋发图强,努力保留AI时代的船票;美团、快手、小米、百灵等新面孔选择在战局正酣时以身入局,勇于检验自身实力。当然,还有作为压舱石的DeepSeek,风格独特,与世无争又锋芒毕露,眼里只有自己的目标,每次发布都为业界带来全新思路。
2025年可能是过去三年中最富变化的一年,但也可能是未来三年中最具奠基意义的一年。未来无需在此过度畅想,让我们一同见证。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15142
