#1 参赛选手
本次更新模型(按发布时间顺序),共6个:

本月出榜:
ERNIE 5.0 Preview(后继正式版)
kimi-k2-0905-preview / Kimi-K2-Thinking(后继K2.5)
Qwen3-30B-A3B-2507(不再跟踪)
Doubao-Seed-1.8(后继1228版)
Claude Haiku 4.5(不再跟踪)
Qwen3-Next-80B-A3B(不再跟踪)
所有出榜模型的历史成绩可在以下网站查看:https://llm2014.github.io/llm_benchmark/
#2 评测说明
- 本评测为个人性质,基于评测者自身需求和对大模型的理解,使用滚动更新的私有题库进行长期跟踪评测。
- 评测侧重考察模型在逻辑、数学、编程、指令遵循、人类直觉等问题上的表现。评测不够权威,也不够全面,但可以从一个侧面观察各大模型的长期进化趋势。
- 评测题库规模不大,长期维持在28题/270个用例以内。题目均为原创中文题,不使用任何互联网公开题目。每月滚动更新,淘汰平均得分率超过70%的题目。题目不公开,旨在分享一种评测思路和个人见解。建议读者根据自身需求考察模型,不可盲信任何评测。
- 由于题目每月增减,各模型每月榜单成绩可能存在正负3分以内的正常波动,但大致排序保持稳定。
#3 题目与打分
本月新增1题,淘汰1题,题库共计28题。
2、文本摘要:阅读包含误导信息的文本,提取正确信息并按格式输出
4、魔方旋转:按规则拧魔方后求魔方颜色
11、岛屿面积:给定字符形式地图,求图中岛屿面积
16、插件调用:根据插件描述和文本信息,输出正确的插件调用及参数
24、数字规律:根据给定示例,寻找数字变换规律
28、符号定义:重新定义数学符号含义,求数学计算式值
29、符号还原:将数学符号含义打乱,根据表达式推导符号原始含义
30、日记整理:阅读长文本,按给定条件和多个要求整理文本,考察指令遵循
31、棋盘图案:求经过棋盘上给定两点的最大面积等腰三角形顶点
32、干支纪年:从天干中删除部分,求历史某一年的干支
37、投影问题:根据三维投影视图,求对应立方体体积
38、函数求交:给定多个函数,求所有交点
39、火车售票:模拟多车次、多人次的购票退票操作,求最终售票情况
40、代码推导:给定100行算法代码和输入,要求纸面推导输出结果
41、交织文本解读:从多段交织混合文本中寻找问题答案
42、长文本总结:从文本中提炼关键数据,输出核心摘要
43、目标数:通过数学运算将给定数字组合,计算得到目标数字
44、工具组合:给定若干工具,通过组合使用得到指定输出
45、编程问题:在复杂约束下完成对三维数组的变换(Python)
46、字母组合:从字母序列中找出存在的单词
48、字符处理:在给定规则下,对英文文本进行逐字符计数和处理
49、激光布局:根据条件约束,在10×10空间中部署满足要求的激光器
50、日志解析:分析约300行系统日志以发现问题
51、复杂计算:综合考察K12范围内的数学公式和计算能力
52、观棋不语:从一场无解说的对局中归纳游戏规则
53、管道疏通:使用一定手段使阻塞的管道通畅
54、高级拼图:从多块拼图中选择部分完成图形
55、【新增】地形迷宫:没有唯一解的自由探索迷宫
本月淘汰:
47、高阶迷宫:已升级为第55题
测试规则:
- 模型优先使用官方推荐的温度值(下文有备注),若无推荐则使用默认温度0.1。推理模型限制思考长度80K,输出长度15K;无法分别设置的模型,设置总输出为80K。非推理模型设置输出长度15K。若模型支持的MaxToken达不到上限,则按模型上限设置。其他参数使用模型默认值。
- 每道题设有至少1个得分点,回答正确一点即得1分。28题总计285个得分点。最终得分 = (总得分 / 285) × 10(即每题满分10分)。
- 要求推导过程必须正确,猜对的答案不得分。依靠穷举覆盖正确答案的情况会额外扣分。
- 回答必须完全符合题目要求。若题目明确要求不写解释,而回答包含解释部分,即使正确也不得分。
- 每题测试3次,取最高分加和为“极限分”,代表真实用户多次重试可能达到的最佳情况;取排序第二的分数加和为“中位分”,代表真实用户大概率遇到的情况。
#4 成绩解析

*红色代表推理模型。
本月更新模型的评测要点如下:
Doubao-1.8 1228版是1.8版的回炉修补版本,因此未单独发文。其非推理版与之前无区别,而高推理档位的极限分大幅下降。这是由于1228版采用了更务实的Token使用策略:对中低难度题目适当增加预算以提升稳定性,对高难度题目则适当降低预算,以轻微牺牲成功率换取速度的大幅提升。原先消耗最高的10道题平均Token达60K,而1228版平均仅42K。
本月因新增模型较少,仅更换一题。新题延续了向开放性、无固定答案的出题风格转变的思路。维持小规模题库的优势在于打分不依赖固定规则,可以更灵活。只要能设计出合理的打分点,即可对模型输出进行量化判断。
第55题取代了旧的第47题。原47题为传统迷宫寻路问题,主要考察模型的逐字符处理精度和指令遵循能力。升级后的题目在这两个考察维度上提升了数量级,并设计了开放路径,答案不唯一。55题将作为迷宫类问题的最终升级,饱和后将不再出此类题目。
由于需要处理的字符数量提升了数倍,正确读题成为一道门槛,国内模型基本无能为力。只有Doubao-1.8勉为其难,选择了一条最简单但分数最低的路线,这体现了其强目标导向的训练风格。而头部的GPT和Gemini虽然未能选出满分路线,但基本能照顾到大部分约束,得分较高。Gemini 3 Pro甚至离满分仅一步之遥,其出众的空间能力在此类题目上优势尽显。
#5 后记
一年前的此时,大模型领域已在DeepSeek R1横空出世所带来的震惊、兴奋与迷茫中度过了十天。今年的杭州“小巨人”在千呼万唤中并未迷失自我,始终按自己的节奏前行。而北京的“小巨人”则毫不客气,由月之暗面在春节档掀起了第一幕高潮,同时向一众国产及北美模型发出檄文:把你们藏着掖着的2.0、3.0、3.5、4.0、5.0、5.3们都拿出来吧,看看这丙午马年,又是谁家的天下。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19478
