MiniMax M2.5深度评测：国模编程可用性突破，逻辑与工程能力全面进化

17小时前 • 大模型评测 • 阅读 24

短的结论：向下扎根，向上生长

基本情况：

稀宇的前一代M2.1因技术问题，在逻辑能力上落后于M2。M2.5基本解决了这些问题，能力回归正轨，相比M2的综合性能提升约17%。

不过，部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高，几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本，M2.5在编程任务上虽无法完全替代Sonnet，但日常使用已完全可用，最终实现了M2.1未达成的目标。

逻辑成绩：

MiniMax M2.5深度评测：国模编程可用性突破，逻辑与工程能力全面进化

注1：表格为突出对比关系，仅展示部分可对照模型，非完整排序。
注2：题目及测试方式参见相关评测。
注3：完整榜单已更新。
注4：红色为春节期间喜庆标识，无特殊含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本，下文仅进行M2与M2.5的跨代对比。

改进：

稳定推理：M2.5能在更长的推理过程中更好地保持初始约束和上下文细节。对于一些难度不高但需要“专注”的问题，其得分显著提升。例如在#4魔方旋转问题上，M2.5是全球第8个拿到满分的模型。但在此类问题上，北美主流模型大多能稳定满分，M2.5仅能小概率完成，差距依然存在。
编程能力：如前所述，M2.5无法全方位取代Sonnet，主要受限于编程知识量。在需要经验、技巧或处理版本API差异等场景下，若无提示，M2.5很难自行发现问题，通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中，多数国模会卡在前两轮，而M2.5成为首个突破到第8轮的国模。尽管它在OpenGL使用和空间想象力上存在短板，但结合优化后的Agent能力，能通过不断试错收敛到正确解。此外，M2.5在编程时输出更简洁，通常只在最终完成后进行简短总结，中途较少输出思路。其他工程测试结果后续更新。
计算能力：M2的计算能力本不突出，M2.1更是出现倒退。M2.5在较低起点上做出了有效改进，在大部分简单计算上实现小概率高精度，但多数情况仍存在算错、误差大或公式理解不清的问题，相关训练仍有不足。作为Agent驱动模型，计算能力并非刚需，Claude系列的计算能力也长期落后。

不足：

指令遵循：相比M2，指令遵循能力提升有限。处理简单指令时拿到满分的概率更高，但无法稳定发挥。存在随机丢弃或篡改指令的情况，尽管思维链显示模型注意到了所有指令。整体表现落后于第一梯队其他模型。编程中也会出现无视编码要求或项目规范的情况，例如在C工程中擅自更改了规定的坐标轴朝向。日常使用需额外注意引导和控制。
幻觉控制：M2.5的幻觉水平相比M2没有显著改善，在大部分上下文相关问题上，二者的极限得分一致。甚至在#43目标数计算等问题上，M2.5还会犯一些第二梯队模型才会出现的重复或遗漏数字的低级错误。

总结：

国内厂商探索编程模型已近一年。早期宣称可平替Sonnet的模型，大多仅在单轮代码生成效果上接近，其内在的代码组织、工程化及多轮迭代能力远不及对手，导致国内程序员对国模普遍缺乏信任。

随着MiniMax M2、M2.1初步扭转风评，M2.5这一代将国模编程的可用性向前推进了一大步。尽管M2.5与官方宣称的Opus水平仍有全方位差距，但只要有人开始信任并使用，生态便会向好的方向发展。由此可见，M2.5确实是稀宇迈向目标坚实的一步。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21425