稀宇MiniMax M2.5深度评测:编程能力突破性提升,逻辑推理稳中有进

短的结论:向下扎根,向上生长

基本情况:

稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨。相比M2,M2.5的综合能力提升约17%。

部分进步源于更长的思维链和更深的解空间探索,M2.5的平均Token消耗在测试模型中位列第6,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程上虽无法完全替代Sonnet,但日常使用已完全可用,最终实现了M2.1预期的目标。

逻辑成绩:

稀宇MiniMax M2.5深度评测:编程能力突破性提升,逻辑推理稳中有进

1 表格为突出对比关系,仅展示部分可对照模型,非完整排序。
2 题目及测试方式,参见:大语言模型-逻辑能力横评 26-01 月榜。新增#56题。
3 完整榜单更新于 https://llm2014.github.io/llm_benchmark/
4 红色为春节期间限定,表示喜庆,无其他含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本,下文仅进行M2与M2.5的跨代对比。

改进:

  • 稳定推理:M2.5能在更长推理过程中保持初始约束和上下文细节,因此在一些需要“专注”的问题上得分显著提升。例如在#4魔方旋转问题上,M2.5是全球第8个拿到满分的模型。不过,此类问题北美主流模型大多能稳定满分,M2.5仅能小概率答对,差距依然存在。
  • 编程能力:如前所述,M2.5无法全方位取代Sonnet,主要受限于编程知识量。在涉及经验、技巧、版本API差异等场景时,若无提示,M2.5很难自行发现问题,通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中,多数国内模型会卡在前两轮,而M2.5成为首个突破到第8轮的国内模型。尽管在OpenGL使用和空间想象力上存在短板,但结合优化后的Agent能力,它能通过不断试错收敛到正确解。此外,M2.5在编程工作时输出更简洁,通常只在最终完成后进行简短总结,中途较少输出思路。其他工程测试结果将后续更新。
  • 计算能力:M2的计算能力本不突出,M2.1更是出现倒退。M2.5在较低起点上做出了有效改进。在大部分简单计算中,M2.5有小概率实现高精度,但多数情况仍存在算错、误差大或理解公式困难的问题,这方面的训练仍有不足。作为一款以Agent驱动为侧重的模型,计算能力并非其刚需,Claude系列的计算能力也长期落后。

不足:

  • 指令遵循:相比M2,指令遵循的提升幅度有限。处理简单问题时获得满分的概率更高,但无法保持稳定。存在随机丢弃或篡改指令的情况,尽管其思维链显示模型注意到了所有指令。整体表现落后于第一梯队的其他模型。在编程中也会出现无视编码要求和项目规范的情况,例如在C工程中,M2.5为修复另一个Bug,擅自将规定的Z轴朝上改为了Y轴朝上。日常使用需额外注意控制。
  • 幻觉控制:M2.5的幻觉水平相比M2没有显著改善,在大部分上下文相关问题上,二者的极限得分一致。甚至在#43目标数计算问题上,M2.5还会犯一些第二梯队模型才会出现的重复使用数字、遗漏数字的低级错误。

赛博史官曰:

国内厂商花费近一年时间探索编程模型的开发路径。早期一批号称可平替Sonnet的模型,大多仅在“单句话”生成效果上看似接近,其内在的代码组织、工程化及更关键的多轮迭代能力远不及对手。这导致国内程序员普遍对国产模型缺乏信任,宁愿承担风险也要使用Claude。

随着MiniMax M2、M2.1初步扭转风评,M2.5这一代将国产模型在编程上的可用性向前推进了一大步。诚然,M2.5与官方宣称的Opus水平仍有全方位差距,但只要有人愿意信任并使用,事情就会向好的方向发展。由此观之,M2.5确实是稀宇迈向目标坚实的一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21315

(0)
上一篇 2026年2月13日 上午11:50
下一篇 2026年2月13日 下午12:20

相关推荐

  • 大脑中的语言处理器:MIT神经科学家揭示人类语言网络的生物LLM本质

    麻省理工学院神经科学家Ev Fedorenko通过一项历时15年、涉及约1400名受试者的大规模脑成像研究,揭示了一个被称为“语言网络”的专门神经系统。这个网络在功能上类似于大型语言模型(LLM),但作为生物系统独立于高级认知过程,专门负责词语与意义的映射以及句子结构的组合。这一发现不仅挑战了语言与思维不可分割的传统观念,更为理解人类语言处理的神经机制提供了…

    2025年12月6日
    39200
  • AI大模型2026新生态:技术迭代与资本分野重塑行业格局

    2026 年初春,AI 大模型行业正经历一场深刻的结构性变革。 随着智谱 AI 与 MiniMax 相继登陆资本市场,曾被市场集体看好的“AI 大模型六小虎”正式结束同质化竞争阶段,踏上差异化发展的分岔路。 一边是头部企业借助资本杠杆加速生态扩张,一边是未上市独角兽凭借充足现金储备深耕技术壁垒;一边是通用人工智能(AGI)赛道的白热化竞逐,一边是垂直领域的精…

    AI产业动态 2026年1月18日
    82100
  • Yann LeCun离职Meta:世界模型与LLM的路线之争,AI未来何去何从?

    近日,AI界传来重磅消息:图灵奖得主、Meta首席AI科学家Yann LeCun即将离职。这一事件不仅标志着Meta内部AI战略的重大调整,更折射出当前人工智能领域关于技术路线的深刻分歧。LeCun作为深度学习奠基人之一,其离职背后是LLM(大语言模型)与“世界模型”两种AI发展路径的激烈碰撞,值得我们深入分析。 LeCun离职的直接导火索,是Meta内部A…

    2025年11月16日
    33400
  • PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

    你负责写方法,AI负责画 Figure。科研打工人,终于等来「画图解放日」。 还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗? 一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。 既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。 看起来只是一张图…

    2026年2月5日
    58500
  • 从文本生成到任务执行:AI能力跃迁的三年革命与人类角色的重新定义

    在人工智能发展的历史长河中,过去三年无疑构成了一个独特而关键的转折期。从2022年底ChatGPT引爆全球关注至今,AI技术不仅完成了从实验室到大众应用的跨越,更在功能形态上实现了从被动响应到主动执行的质变。这一进程不仅重塑了技术本身的能力边界,更在深层次上重构了人类与智能系统之间的协作关系。 回顾三年前的技术图景,GPT-3所展现的文本生成能力曾被视为革命…

    2025年11月30日
    35500