稀宇MiniMax M2.5深度评测：编程能力突破性提升，逻辑推理稳中有进

18小时前 • 大模型评测 • 阅读 20

短的结论：向下扎根，向上生长

基本情况：

稀宇的前一代M2.1因技术问题，在逻辑能力上落后于M2。M2.5基本解决了这些问题，能力回归正轨。相比M2，M2.5的综合能力提升约17%。

部分进步源于更长的思维链和更深的解空间探索，M2.5的平均Token消耗在测试模型中位列第6，几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本，M2.5在编程上虽无法完全替代Sonnet，但日常使用已完全可用，最终实现了M2.1预期的目标。

逻辑成绩：

稀宇MiniMax M2.5深度评测：编程能力突破性提升，逻辑推理稳中有进

1 表格为突出对比关系，仅展示部分可对照模型，非完整排序。
2 题目及测试方式，参见：大语言模型-逻辑能力横评 26-01 月榜。新增#56题。
3 完整榜单更新于 https://llm2014.github.io/llm_benchmark/
4 红色为春节期间限定，表示喜庆，无其他含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本，下文仅进行M2与M2.5的跨代对比。

改进：

稳定推理：M2.5能在更长推理过程中保持初始约束和上下文细节，因此在一些需要“专注”的问题上得分显著提升。例如在#4魔方旋转问题上，M2.5是全球第8个拿到满分的模型。不过，此类问题北美主流模型大多能稳定满分，M2.5仅能小概率答对，差距依然存在。
编程能力：如前所述，M2.5无法全方位取代Sonnet，主要受限于编程知识量。在涉及经验、技巧、版本API差异等场景时，若无提示，M2.5很难自行发现问题，通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中，多数国内模型会卡在前两轮，而M2.5成为首个突破到第8轮的国内模型。尽管在OpenGL使用和空间想象力上存在短板，但结合优化后的Agent能力，它能通过不断试错收敛到正确解。此外，M2.5在编程工作时输出更简洁，通常只在最终完成后进行简短总结，中途较少输出思路。其他工程测试结果将后续更新。
计算能力：M2的计算能力本不突出，M2.1更是出现倒退。M2.5在较低起点上做出了有效改进。在大部分简单计算中，M2.5有小概率实现高精度，但多数情况仍存在算错、误差大或理解公式困难的问题，这方面的训练仍有不足。作为一款以Agent驱动为侧重的模型，计算能力并非其刚需，Claude系列的计算能力也长期落后。

不足：

指令遵循：相比M2，指令遵循的提升幅度有限。处理简单问题时获得满分的概率更高，但无法保持稳定。存在随机丢弃或篡改指令的情况，尽管其思维链显示模型注意到了所有指令。整体表现落后于第一梯队的其他模型。在编程中也会出现无视编码要求和项目规范的情况，例如在C工程中，M2.5为修复另一个Bug，擅自将规定的Z轴朝上改为了Y轴朝上。日常使用需额外注意控制。
幻觉控制：M2.5的幻觉水平相比M2没有显著改善，在大部分上下文相关问题上，二者的极限得分一致。甚至在#43目标数计算问题上，M2.5还会犯一些第二梯队模型才会出现的重复使用数字、遗漏数字的低级错误。

赛博史官曰：

国内厂商花费近一年时间探索编程模型的开发路径。早期一批号称可平替Sonnet的模型，大多仅在“单句话”生成效果上看似接近，其内在的代码组织、工程化及更关键的多轮迭代能力远不及对手。这导致国内程序员普遍对国产模型缺乏信任，宁愿承担风险也要使用Claude。

随着MiniMax M2、M2.1初步扭转风评，M2.5这一代将国产模型在编程上的可用性向前推进了一大步。诚然，M2.5与官方宣称的Opus水平仍有全方位差距，但只要有人愿意信任并使用，事情就会向好的方向发展。由此观之，M2.5确实是稀宇迈向目标坚实的一步。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21315

稀宇MiniMax M2.5深度评测：编程能力突破性提升，逻辑推理稳中有进

相关推荐

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

百川M3 Plus以2.6%幻觉率与证据锚定技术，重塑医疗AI可信边界

吴恩达提出图灵-AGI测试：专为通用人工智能设计的新评估标准

告别单一成功率：北大团队推出机器人操作评估新范式，实现细粒度质量与来源真实性双重验证

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注