揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

#1 参赛选手

本次更新模型(按发布时间顺序),共6个:

揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

本月出榜:

ERNIE 5.0 Preview(后继正式版)
kimi-k2-0905-preview / Kimi-K2-Thinking(后继K2.5)
Qwen3-30B-A3B-2507(不再跟踪)
Doubao-Seed-1.8(后继1228版)
Claude Haiku 4.5(不再跟踪)
Qwen3-Next-80B-A3B(不再跟踪)

所有出榜模型的历史成绩可在以下网站查看:https://llm2014.github.io/llm_benchmark/

#2 评测说明

  1. 本评测为个人性质,基于评测者自身需求和对大模型的理解,使用滚动更新的私有题库进行长期跟踪评测。
  2. 评测侧重考察模型在逻辑、数学、编程、指令遵循、人类直觉等问题上的表现。评测不够权威,也不够全面,但可以从一个侧面观察各大模型的长期进化趋势。
  3. 评测题库规模不大,长期维持在28题/270个用例以内。题目均为原创中文题,不使用任何互联网公开题目。每月滚动更新,淘汰平均得分率超过70%的题目。题目不公开,旨在分享一种评测思路和个人见解。建议读者根据自身需求考察模型,不可盲信任何评测。
  4. 由于题目每月增减,各模型每月榜单成绩可能存在正负3分以内的正常波动,但大致排序保持稳定。

#3 题目与打分

本月新增1题,淘汰1题,题库共计28题。

2、文本摘要:阅读包含误导信息的文本,提取正确信息并按格式输出
4、魔方旋转:按规则拧魔方后求魔方颜色
11、岛屿面积:给定字符形式地图,求图中岛屿面积
16、插件调用:根据插件描述和文本信息,输出正确的插件调用及参数
24、数字规律:根据给定示例,寻找数字变换规律
28、符号定义:重新定义数学符号含义,求数学计算式值
29、符号还原:将数学符号含义打乱,根据表达式推导符号原始含义
30、日记整理:阅读长文本,按给定条件和多个要求整理文本,考察指令遵循
31、棋盘图案:求经过棋盘上给定两点的最大面积等腰三角形顶点
32、干支纪年:从天干中删除部分,求历史某一年的干支
37、投影问题:根据三维投影视图,求对应立方体体积
38、函数求交:给定多个函数,求所有交点
39、火车售票:模拟多车次、多人次的购票退票操作,求最终售票情况
40、代码推导:给定100行算法代码和输入,要求纸面推导输出结果
41、交织文本解读:从多段交织混合文本中寻找问题答案
42、长文本总结:从文本中提炼关键数据,输出核心摘要
43、目标数:通过数学运算将给定数字组合,计算得到目标数字
44、工具组合:给定若干工具,通过组合使用得到指定输出
45、编程问题:在复杂约束下完成对三维数组的变换(Python)
46、字母组合:从字母序列中找出存在的单词
48、字符处理:在给定规则下,对英文文本进行逐字符计数和处理
49、激光布局:根据条件约束,在10×10空间中部署满足要求的激光器
50、日志解析:分析约300行系统日志以发现问题
51、复杂计算:综合考察K12范围内的数学公式和计算能力
52、观棋不语:从一场无解说的对局中归纳游戏规则
53、管道疏通:使用一定手段使阻塞的管道通畅
54、高级拼图:从多块拼图中选择部分完成图形
55、【新增】地形迷宫:没有唯一解的自由探索迷宫

本月淘汰:
47、高阶迷宫:已升级为第55题

测试规则:

  1. 模型优先使用官方推荐的温度值(下文有备注),若无推荐则使用默认温度0.1。推理模型限制思考长度80K,输出长度15K;无法分别设置的模型,设置总输出为80K。非推理模型设置输出长度15K。若模型支持的MaxToken达不到上限,则按模型上限设置。其他参数使用模型默认值。
  2. 每道题设有至少1个得分点,回答正确一点即得1分。28题总计285个得分点。最终得分 = (总得分 / 285) × 10(即每题满分10分)。
  3. 要求推导过程必须正确,猜对的答案不得分。依靠穷举覆盖正确答案的情况会额外扣分。
  4. 回答必须完全符合题目要求。若题目明确要求不写解释,而回答包含解释部分,即使正确也不得分。
  5. 每题测试3次,取最高分加和为“极限分”,代表真实用户多次重试可能达到的最佳情况;取排序第二的分数加和为“中位分”,代表真实用户大概率遇到的情况。

#4 成绩解析

揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

*红色代表推理模型。

本月更新模型的评测要点如下:

Doubao-1.8 1228版是1.8版的回炉修补版本,因此未单独发文。其非推理版与之前无区别,而高推理档位的极限分大幅下降。这是由于1228版采用了更务实的Token使用策略:对中低难度题目适当增加预算以提升稳定性,对高难度题目则适当降低预算,以轻微牺牲成功率换取速度的大幅提升。原先消耗最高的10道题平均Token达60K,而1228版平均仅42K。

本月因新增模型较少,仅更换一题。新题延续了向开放性、无固定答案的出题风格转变的思路。维持小规模题库的优势在于打分不依赖固定规则,可以更灵活。只要能设计出合理的打分点,即可对模型输出进行量化判断。

第55题取代了旧的第47题。原47题为传统迷宫寻路问题,主要考察模型的逐字符处理精度和指令遵循能力。升级后的题目在这两个考察维度上提升了数量级,并设计了开放路径,答案不唯一。55题将作为迷宫类问题的最终升级,饱和后将不再出此类题目。

由于需要处理的字符数量提升了数倍,正确读题成为一道门槛,国内模型基本无能为力。只有Doubao-1.8勉为其难,选择了一条最简单但分数最低的路线,这体现了其强目标导向的训练风格。而头部的GPT和Gemini虽然未能选出满分路线,但基本能照顾到大部分约束,得分较高。Gemini 3 Pro甚至离满分仅一步之遥,其出众的空间能力在此类题目上优势尽显。

#5 后记

一年前的此时,大模型领域已在DeepSeek R1横空出世所带来的震惊、兴奋与迷茫中度过了十天。今年的杭州“小巨人”在千呼万唤中并未迷失自我,始终按自己的节奏前行。而北京的“小巨人”则毫不客气,由月之暗面在春节档掀起了第一幕高潮,同时向一众国产及北美模型发出檄文:把你们藏着掖着的2.0、3.0、3.5、4.0、5.0、5.3们都拿出来吧,看看这丙午马年,又是谁家的天下。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19478

(0)
上一篇 1天前
下一篇 20小时前

相关推荐

  • 腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

    腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识…

    2025年10月17日
    7300
  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    9400
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    7900
  • 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

    阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…

    2025年12月25日
    9400
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    6900