揭秘大语言模型逻辑能力进化：2026年1月最新评测榜单深度解析

#1 参赛选手

本次更新模型（按发布时间顺序），共6个：

本月出榜：

ERNIE 5.0 Preview（后继正式版）
kimi-k2-0905-preview / Kimi-K2-Thinking（后继K2.5）
Qwen3-30B-A3B-2507（不再跟踪）
Doubao-Seed-1.8（后继1228版）
Claude Haiku 4.5（不再跟踪）
Qwen3-Next-80B-A3B（不再跟踪）

所有出榜模型的历史成绩可在以下网站查看：https://llm2014.github.io/llm_benchmark/

#2 评测说明

本评测为个人性质，基于评测者自身需求和对大模型的理解，使用滚动更新的私有题库进行长期跟踪评测。
评测侧重考察模型在逻辑、数学、编程、指令遵循、人类直觉等问题上的表现。评测不够权威，也不够全面，但可以从一个侧面观察各大模型的长期进化趋势。
评测题库规模不大，长期维持在28题/270个用例以内。题目均为原创中文题，不使用任何互联网公开题目。每月滚动更新，淘汰平均得分率超过70%的题目。题目不公开，旨在分享一种评测思路和个人见解。建议读者根据自身需求考察模型，不可盲信任何评测。
由于题目每月增减，各模型每月榜单成绩可能存在正负3分以内的正常波动，但大致排序保持稳定。

#3 题目与打分

本月新增1题，淘汰1题，题库共计28题。

2、文本摘要：阅读包含误导信息的文本，提取正确信息并按格式输出
4、魔方旋转：按规则拧魔方后求魔方颜色
11、岛屿面积：给定字符形式地图，求图中岛屿面积
16、插件调用：根据插件描述和文本信息，输出正确的插件调用及参数
24、数字规律：根据给定示例，寻找数字变换规律
28、符号定义：重新定义数学符号含义，求数学计算式值
29、符号还原：将数学符号含义打乱，根据表达式推导符号原始含义
30、日记整理：阅读长文本，按给定条件和多个要求整理文本，考察指令遵循
31、棋盘图案：求经过棋盘上给定两点的最大面积等腰三角形顶点
32、干支纪年：从天干中删除部分，求历史某一年的干支
37、投影问题：根据三维投影视图，求对应立方体体积
38、函数求交：给定多个函数，求所有交点
39、火车售票：模拟多车次、多人次的购票退票操作，求最终售票情况
40、代码推导：给定100行算法代码和输入，要求纸面推导输出结果
41、交织文本解读：从多段交织混合文本中寻找问题答案
42、长文本总结：从文本中提炼关键数据，输出核心摘要
43、目标数：通过数学运算将给定数字组合，计算得到目标数字
44、工具组合：给定若干工具，通过组合使用得到指定输出
45、编程问题：在复杂约束下完成对三维数组的变换（Python）
46、字母组合：从字母序列中找出存在的单词
48、字符处理：在给定规则下，对英文文本进行逐字符计数和处理
49、激光布局：根据条件约束，在10×10空间中部署满足要求的激光器
50、日志解析：分析约300行系统日志以发现问题
51、复杂计算：综合考察K12范围内的数学公式和计算能力
52、观棋不语：从一场无解说的对局中归纳游戏规则
53、管道疏通：使用一定手段使阻塞的管道通畅
54、高级拼图：从多块拼图中选择部分完成图形
55、【新增】地形迷宫：没有唯一解的自由探索迷宫

本月淘汰：
47、高阶迷宫：已升级为第55题

测试规则：

模型优先使用官方推荐的温度值（下文有备注），若无推荐则使用默认温度0.1。推理模型限制思考长度80K，输出长度15K；无法分别设置的模型，设置总输出为80K。非推理模型设置输出长度15K。若模型支持的MaxToken达不到上限，则按模型上限设置。其他参数使用模型默认值。
每道题设有至少1个得分点，回答正确一点即得1分。28题总计285个得分点。最终得分 = (总得分 / 285) × 10（即每题满分10分）。
要求推导过程必须正确，猜对的答案不得分。依靠穷举覆盖正确答案的情况会额外扣分。
回答必须完全符合题目要求。若题目明确要求不写解释，而回答包含解释部分，即使正确也不得分。
每题测试3次，取最高分加和为“极限分”，代表真实用户多次重试可能达到的最佳情况；取排序第二的分数加和为“中位分”，代表真实用户大概率遇到的情况。

#4 成绩解析

*红色代表推理模型。

本月更新模型的评测要点如下：

Doubao-1.8 1228版是1.8版的回炉修补版本，因此未单独发文。其非推理版与之前无区别，而高推理档位的极限分大幅下降。这是由于1228版采用了更务实的Token使用策略：对中低难度题目适当增加预算以提升稳定性，对高难度题目则适当降低预算，以轻微牺牲成功率换取速度的大幅提升。原先消耗最高的10道题平均Token达60K，而1228版平均仅42K。

本月因新增模型较少，仅更换一题。新题延续了向开放性、无固定答案的出题风格转变的思路。维持小规模题库的优势在于打分不依赖固定规则，可以更灵活。只要能设计出合理的打分点，即可对模型输出进行量化判断。

第55题取代了旧的第47题。原47题为传统迷宫寻路问题，主要考察模型的逐字符处理精度和指令遵循能力。升级后的题目在这两个考察维度上提升了数量级，并设计了开放路径，答案不唯一。55题将作为迷宫类问题的最终升级，饱和后将不再出此类题目。

由于需要处理的字符数量提升了数倍，正确读题成为一道门槛，国内模型基本无能为力。只有Doubao-1.8勉为其难，选择了一条最简单但分数最低的路线，这体现了其强目标导向的训练风格。而头部的GPT和Gemini虽然未能选出满分路线，但基本能照顾到大部分约束，得分较高。Gemini 3 Pro甚至离满分仅一步之遥，其出众的空间能力在此类题目上优势尽显。

#5 后记

一年前的此时，大模型领域已在DeepSeek R1横空出世所带来的震惊、兴奋与迷茫中度过了十天。今年的杭州“小巨人”在千呼万唤中并未迷失自我，始终按自己的节奏前行。而北京的“小巨人”则毫不客气，由月之暗面在春节档掀起了第一幕高潮，同时向一众国产及北美模型发出檄文：把你们藏着掖着的2.0、3.0、3.5、4.0、5.0、5.3们都拿出来吧，看看这丙午马年，又是谁家的天下。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19478

揭秘大语言模型逻辑能力进化：2026年1月最新评测榜单深度解析

相关推荐

Valve三款硬件齐发：Steam生态闭环成型，VR市场迎来新变量

揭秘宇树人形机器人5500台全球销量背后的真实买家画像与产业拐点

Yann LeCun离职Meta：世界模型与LLM的路线之争，AI未来何去何从？

AI Ping：大模型API的智能导航与评测平台，终结选型混沌时代

深度解析月之暗面Kimi-K2.5-Thinking：旗舰推理模型在Agent、代码、图像任务上的突破与局限