MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

短的结论:向下扎根,向上生长

基本情况:

稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。

不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程任务上虽无法完全替代Sonnet,但日常使用已完全可用,最终实现了M2.1未达成的目标。

逻辑成绩:

MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式参见相关评测。
注3:完整榜单已更新。
注4:红色为春节期间喜庆标识,无特殊含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本,下文仅进行M2与M2.5的跨代对比。

改进:

  • 稳定推理:M2.5能在更长的推理过程中更好地保持初始约束和上下文细节。对于一些难度不高但需要“专注”的问题,其得分显著提升。例如在#4魔方旋转问题上,M2.5是全球第8个拿到满分的模型。但在此类问题上,北美主流模型大多能稳定满分,M2.5仅能小概率完成,差距依然存在。
  • 编程能力:如前所述,M2.5无法全方位取代Sonnet,主要受限于编程知识量。在需要经验、技巧或处理版本API差异等场景下,若无提示,M2.5很难自行发现问题,通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中,多数国模会卡在前两轮,而M2.5成为首个突破到第8轮的国模。尽管它在OpenGL使用和空间想象力上存在短板,但结合优化后的Agent能力,能通过不断试错收敛到正确解。此外,M2.5在编程时输出更简洁,通常只在最终完成后进行简短总结,中途较少输出思路。其他工程测试结果后续更新。
  • 计算能力:M2的计算能力本不突出,M2.1更是出现倒退。M2.5在较低起点上做出了有效改进,在大部分简单计算上实现小概率高精度,但多数情况仍存在算错、误差大或公式理解不清的问题,相关训练仍有不足。作为Agent驱动模型,计算能力并非刚需,Claude系列的计算能力也长期落后。

不足:

  • 指令遵循:相比M2,指令遵循能力提升有限。处理简单指令时拿到满分的概率更高,但无法稳定发挥。存在随机丢弃或篡改指令的情况,尽管思维链显示模型注意到了所有指令。整体表现落后于第一梯队其他模型。编程中也会出现无视编码要求或项目规范的情况,例如在C工程中擅自更改了规定的坐标轴朝向。日常使用需额外注意引导和控制。
  • 幻觉控制:M2.5的幻觉水平相比M2没有显著改善,在大部分上下文相关问题上,二者的极限得分一致。甚至在#43目标数计算等问题上,M2.5还会犯一些第二梯队模型才会出现的重复或遗漏数字的低级错误。

总结:

国内厂商探索编程模型已近一年。早期宣称可平替Sonnet的模型,大多仅在单轮代码生成效果上接近,其内在的代码组织、工程化及多轮迭代能力远不及对手,导致国内程序员对国模普遍缺乏信任。

随着MiniMax M2、M2.1初步扭转风评,M2.5这一代将国模编程的可用性向前推进了一大步。尽管M2.5与官方宣称的Opus水平仍有全方位差距,但只要有人开始信任并使用,生态便会向好的方向发展。由此可见,M2.5确实是稀宇迈向目标坚实的一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21425

(0)
上一篇 17小时前
下一篇 16小时前

相关推荐

  • WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构

    当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」? 2026年2月13日,由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的WorldArena——首个面向具身世界模型的「功能+视觉」统一评测体系,正式面向全球开源发布。 这并非又一套「比谁画得真」的榜单,而是一面照向世界模…

    16小时前
    1800
  • 超越能跑就行:Agent评测的三层四维框架与实战指南

    传统 Agent 评测的三大盲区 当前主流的 Agent 评测方式,主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区: 盲区一:只评结果,不评过程Agent 完成了任务,但中间调用了多次不必要的工具、走了弯路,这种「低效完成」和「高效完成」在传统评测中得分相同。 盲区二:只评能力,不评工程化Agent 在实验环境表现优秀,但无法部署到生产环境、无…

    2026年2月1日
    12600
  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    9900
  • 2024年12月大语言模型逻辑能力深度评测:15款主流模型性能横评与趋势洞察

    1 参赛选手 本次评测共包含15个模型,均为近期更新版本(按发布时间排序): 本月出榜模型:* GLM-4.6(后继版本:GLM-4.7)* MiniMax M2.1(后继版本:M2)* DeepSeek V3.2-Speciale(官方已下线)* Doubao-Seed-1.6 1015(后继版本:1.8)* DeepSeek V3.2-Exp(后继版本:…

    2025年12月26日
    15700
  • MeepleLM:首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统

    MeepleLM团队 投稿 量子位 | 公众号 QbitAI 大模型桌游体验官 来了!不仅能快速给出评价与建议,还能模拟不同类型玩家的体验差异。 近期,来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ,这是首个能模拟真实玩家视角,并基于动态游戏体验给出建设性批评的虚拟试玩模型。 为了减轻AI评价的“悬浮感”…

    1天前
    2400