揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

#1 参赛选手

本次更新模型(按发布时间顺序),共6个:

揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

本月出榜:

ERNIE 5.0 Preview(后继正式版)
kimi-k2-0905-preview / Kimi-K2-Thinking(后继K2.5)
Qwen3-30B-A3B-2507(不再跟踪)
Doubao-Seed-1.8(后继1228版)
Claude Haiku 4.5(不再跟踪)
Qwen3-Next-80B-A3B(不再跟踪)

所有出榜模型的历史成绩可在以下网站查看:https://llm2014.github.io/llm_benchmark/

#2 评测说明

  1. 本评测为个人性质,基于评测者自身需求和对大模型的理解,使用滚动更新的私有题库进行长期跟踪评测。
  2. 评测侧重考察模型在逻辑、数学、编程、指令遵循、人类直觉等问题上的表现。评测不够权威,也不够全面,但可以从一个侧面观察各大模型的长期进化趋势。
  3. 评测题库规模不大,长期维持在28题/270个用例以内。题目均为原创中文题,不使用任何互联网公开题目。每月滚动更新,淘汰平均得分率超过70%的题目。题目不公开,旨在分享一种评测思路和个人见解。建议读者根据自身需求考察模型,不可盲信任何评测。
  4. 由于题目每月增减,各模型每月榜单成绩可能存在正负3分以内的正常波动,但大致排序保持稳定。

#3 题目与打分

本月新增1题,淘汰1题,题库共计28题。

2、文本摘要:阅读包含误导信息的文本,提取正确信息并按格式输出
4、魔方旋转:按规则拧魔方后求魔方颜色
11、岛屿面积:给定字符形式地图,求图中岛屿面积
16、插件调用:根据插件描述和文本信息,输出正确的插件调用及参数
24、数字规律:根据给定示例,寻找数字变换规律
28、符号定义:重新定义数学符号含义,求数学计算式值
29、符号还原:将数学符号含义打乱,根据表达式推导符号原始含义
30、日记整理:阅读长文本,按给定条件和多个要求整理文本,考察指令遵循
31、棋盘图案:求经过棋盘上给定两点的最大面积等腰三角形顶点
32、干支纪年:从天干中删除部分,求历史某一年的干支
37、投影问题:根据三维投影视图,求对应立方体体积
38、函数求交:给定多个函数,求所有交点
39、火车售票:模拟多车次、多人次的购票退票操作,求最终售票情况
40、代码推导:给定100行算法代码和输入,要求纸面推导输出结果
41、交织文本解读:从多段交织混合文本中寻找问题答案
42、长文本总结:从文本中提炼关键数据,输出核心摘要
43、目标数:通过数学运算将给定数字组合,计算得到目标数字
44、工具组合:给定若干工具,通过组合使用得到指定输出
45、编程问题:在复杂约束下完成对三维数组的变换(Python)
46、字母组合:从字母序列中找出存在的单词
48、字符处理:在给定规则下,对英文文本进行逐字符计数和处理
49、激光布局:根据条件约束,在10×10空间中部署满足要求的激光器
50、日志解析:分析约300行系统日志以发现问题
51、复杂计算:综合考察K12范围内的数学公式和计算能力
52、观棋不语:从一场无解说的对局中归纳游戏规则
53、管道疏通:使用一定手段使阻塞的管道通畅
54、高级拼图:从多块拼图中选择部分完成图形
55、【新增】地形迷宫:没有唯一解的自由探索迷宫

本月淘汰:
47、高阶迷宫:已升级为第55题

测试规则:

  1. 模型优先使用官方推荐的温度值(下文有备注),若无推荐则使用默认温度0.1。推理模型限制思考长度80K,输出长度15K;无法分别设置的模型,设置总输出为80K。非推理模型设置输出长度15K。若模型支持的MaxToken达不到上限,则按模型上限设置。其他参数使用模型默认值。
  2. 每道题设有至少1个得分点,回答正确一点即得1分。28题总计285个得分点。最终得分 = (总得分 / 285) × 10(即每题满分10分)。
  3. 要求推导过程必须正确,猜对的答案不得分。依靠穷举覆盖正确答案的情况会额外扣分。
  4. 回答必须完全符合题目要求。若题目明确要求不写解释,而回答包含解释部分,即使正确也不得分。
  5. 每题测试3次,取最高分加和为“极限分”,代表真实用户多次重试可能达到的最佳情况;取排序第二的分数加和为“中位分”,代表真实用户大概率遇到的情况。

#4 成绩解析

揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

*红色代表推理模型。

本月更新模型的评测要点如下:

Doubao-1.8 1228版是1.8版的回炉修补版本,因此未单独发文。其非推理版与之前无区别,而高推理档位的极限分大幅下降。这是由于1228版采用了更务实的Token使用策略:对中低难度题目适当增加预算以提升稳定性,对高难度题目则适当降低预算,以轻微牺牲成功率换取速度的大幅提升。原先消耗最高的10道题平均Token达60K,而1228版平均仅42K。

本月因新增模型较少,仅更换一题。新题延续了向开放性、无固定答案的出题风格转变的思路。维持小规模题库的优势在于打分不依赖固定规则,可以更灵活。只要能设计出合理的打分点,即可对模型输出进行量化判断。

第55题取代了旧的第47题。原47题为传统迷宫寻路问题,主要考察模型的逐字符处理精度和指令遵循能力。升级后的题目在这两个考察维度上提升了数量级,并设计了开放路径,答案不唯一。55题将作为迷宫类问题的最终升级,饱和后将不再出此类题目。

由于需要处理的字符数量提升了数倍,正确读题成为一道门槛,国内模型基本无能为力。只有Doubao-1.8勉为其难,选择了一条最简单但分数最低的路线,这体现了其强目标导向的训练风格。而头部的GPT和Gemini虽然未能选出满分路线,但基本能照顾到大部分约束,得分较高。Gemini 3 Pro甚至离满分仅一步之遥,其出众的空间能力在此类题目上优势尽显。

#5 后记

一年前的此时,大模型领域已在DeepSeek R1横空出世所带来的震惊、兴奋与迷茫中度过了十天。今年的杭州“小巨人”在千呼万唤中并未迷失自我,始终按自己的节奏前行。而北京的“小巨人”则毫不客气,由月之暗面在春节档掀起了第一幕高潮,同时向一众国产及北美模型发出檄文:把你们藏着掖着的2.0、3.0、3.5、4.0、5.0、5.3们都拿出来吧,看看这丙午马年,又是谁家的天下。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19478

(0)
上一篇 2026年1月31日 下午4:56
下一篇 2026年2月1日 上午7:09

相关推荐

  • Valve三款硬件齐发:Steam生态闭环成型,VR市场迎来新变量

    在科技巨头纷纷转向AI眼镜的当下,Valve(俗称V社)于今日宣布推出三款全新硬件设备:VR头显Steam Frame、游戏主机Steam Machine和手柄Steam Controller,预计2026年初正式上市。这一动作不仅标志着Valve时隔六年重返VR硬件市场,更意味着其正在构建一个从软件平台到硬件终端的完整生态闭环。 作为本次发布的核心产品,S…

    2025年11月13日
    17700
  • 揭秘宇树人形机器人5500台全球销量背后的真实买家画像与产业拐点

    近日,2026年春晚再次引入宇树科技作为机器人合作伙伴。在2025年春晚上,其人形机器人曾成为全民话题,在高密度灯光与音乐节奏中自主完成整齐划一的行走、转身与协同动作。而对于产业来说,真正值得被记住的,并不只是舞台上的几分钟。 就在几天前,宇树科技对外披露了一组此前从未公开过的数据:2025年,宇树全年机器人实际出货量超过5500台,且全部为真实销售并完成交…

    2026年1月29日
    20400
  • Yann LeCun离职Meta:世界模型与LLM的路线之争,AI未来何去何从?

    近日,AI界传来重磅消息:图灵奖得主、Meta首席AI科学家Yann LeCun即将离职。这一事件不仅标志着Meta内部AI战略的重大调整,更折射出当前人工智能领域关于技术路线的深刻分歧。LeCun作为深度学习奠基人之一,其离职背后是LLM(大语言模型)与“世界模型”两种AI发展路径的激烈碰撞,值得我们深入分析。 LeCun离职的直接导火索,是Meta内部A…

    2025年11月16日
    18300
  • AI Ping:大模型API的智能导航与评测平台,终结选型混沌时代

    衡宇 发自 凹非寺 比面对大模型黑盒更让人抓瞎的事情,就是要去选既靠谱、性价比又高的API服务。 这几乎是每一个涉足AI应用开发的团队都会经历的至暗时刻。 同一个模型架构在不同的供应商手里,不仅价格上有出入,延迟、稳定性、吞吐量等用户关心的指标,波动幅度巨大。 在API调用动辄几十万、上百万token的时代,API选型居然变成了一件靠经验反复试错的事儿。 这…

    2026年2月2日
    15200
  • 深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限

    Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…

    2026年2月6日
    32500