MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

短的结论:向下扎根,向上生长

基本情况:

稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。

不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程任务上虽无法完全替代Sonnet,但日常使用已完全可用,最终实现了M2.1未达成的目标。

逻辑成绩:

MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式参见相关评测。
注3:完整榜单已更新。
注4:红色为春节期间喜庆标识,无特殊含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本,下文仅进行M2与M2.5的跨代对比。

改进:

  • 稳定推理:M2.5能在更长的推理过程中更好地保持初始约束和上下文细节。对于一些难度不高但需要“专注”的问题,其得分显著提升。例如在#4魔方旋转问题上,M2.5是全球第8个拿到满分的模型。但在此类问题上,北美主流模型大多能稳定满分,M2.5仅能小概率完成,差距依然存在。
  • 编程能力:如前所述,M2.5无法全方位取代Sonnet,主要受限于编程知识量。在需要经验、技巧或处理版本API差异等场景下,若无提示,M2.5很难自行发现问题,通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中,多数国模会卡在前两轮,而M2.5成为首个突破到第8轮的国模。尽管它在OpenGL使用和空间想象力上存在短板,但结合优化后的Agent能力,能通过不断试错收敛到正确解。此外,M2.5在编程时输出更简洁,通常只在最终完成后进行简短总结,中途较少输出思路。其他工程测试结果后续更新。
  • 计算能力:M2的计算能力本不突出,M2.1更是出现倒退。M2.5在较低起点上做出了有效改进,在大部分简单计算上实现小概率高精度,但多数情况仍存在算错、误差大或公式理解不清的问题,相关训练仍有不足。作为Agent驱动模型,计算能力并非刚需,Claude系列的计算能力也长期落后。

不足:

  • 指令遵循:相比M2,指令遵循能力提升有限。处理简单指令时拿到满分的概率更高,但无法稳定发挥。存在随机丢弃或篡改指令的情况,尽管思维链显示模型注意到了所有指令。整体表现落后于第一梯队其他模型。编程中也会出现无视编码要求或项目规范的情况,例如在C工程中擅自更改了规定的坐标轴朝向。日常使用需额外注意引导和控制。
  • 幻觉控制:M2.5的幻觉水平相比M2没有显著改善,在大部分上下文相关问题上,二者的极限得分一致。甚至在#43目标数计算等问题上,M2.5还会犯一些第二梯队模型才会出现的重复或遗漏数字的低级错误。

总结:

国内厂商探索编程模型已近一年。早期宣称可平替Sonnet的模型,大多仅在单轮代码生成效果上接近,其内在的代码组织、工程化及多轮迭代能力远不及对手,导致国内程序员对国模普遍缺乏信任。

随着MiniMax M2、M2.1初步扭转风评,M2.5这一代将国模编程的可用性向前推进了一大步。尽管M2.5与官方宣称的Opus水平仍有全方位差距,但只要有人开始信任并使用,生态便会向好的方向发展。由此可见,M2.5确实是稀宇迈向目标坚实的一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21425

(0)
上一篇 2026年2月13日 下午12:18
下一篇 2026年2月13日 下午12:45

相关推荐

  • 口袋里的AI超算革命:无影云电脑如何让个人开发者拥有随叫随到的云端算力

    桌面感体验,超算级算力。 很多开发者都有过类似的时刻:模型规模越来越大,本地设备开始力不从心。程序刚跑起来,风扇声就呼啸而起,显存占用迅速拉满,进度条却仿佛被按下了暂停键。问题不在模型,而在于本地电脑已触及能力边界。 对个人开发者乃至中小企业而言,这几乎是绕不开的现实。本地设备性能有限,尝试稍大一些的模型便会捉襟见肘。高性能工作站固然存在,但其价格与维护成本…

    2026年1月10日
    36800
  • SDAR:打破大模型推理瓶颈的协同扩散-自回归新范式

    在人工智能技术飞速发展的今天,大语言模型(LLM)已成为推动产业变革的核心引擎。然而,随着模型规模的不断扩大和应用场景的日益复杂,一个根本性挑战日益凸显:自回归(AR)模型的串行推理模式导致生成速度缓慢、服务成本高昂,严重制约了其在实时交互、大规模部署等场景下的应用潜力。近日,上海人工智能实验室联合多所高校的研究团队提出了一种革命性的解决方案——SDAR(S…

    2025年11月1日
    21700
  • 开源多模态推理新突破:MMFineReason框架以4B参数逆袭30B模型,开启数据驱动的高效推理时代

    长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。 社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或参数规模的扩大,而在于高质量、思维链(CoT)密集的推理数据极度匮乏。 在纯文本领域,DeepSeek-R1 的成功已验证了高质量后训练数据的威力。但在多模态领域,研究者们面对的是横亘…

    2026年2月13日
    16100
  • 从竞争到共创:腾讯广告算法大赛如何催化生成式推荐的技术革命与人才迭代

    在数字广告领域,推荐系统的每一次范式迁移都深刻影响着用户体验与商业效率。近期,一场由腾讯广告主办的算法大赛,不仅以360万元的高额奖金吸引了超过8000名参赛者,更在技术社区引发了罕见的集体学习热潮。这场比赛的核心赛题——全模态生成式推荐,正悄然推动着广告推荐从传统的判别式匹配向生成式理解的深刻转型。 传统推荐系统长期依赖判别式方法,其逻辑本质是基于历史行为…

    2025年12月3日
    24800
  • 华为云双引擎战略:Versatile智能体平台与CloudDevice云终端协同,破解AI落地三大难题

    在2025全球计算大会(CGC 2025)上,华为云正式发布了Versatile智能体平台与CloudDevice云终端协同解决方案,这标志着AI技术从实验室走向产业应用的关键转折。当前,尽管大模型技术飞速发展,但行业落地仍面临三大核心挑战:开发门槛过高导致中小企业难以参与、场景碎片化造成定制化成本激增、端侧算力限制阻碍实时智能应用。华为云此次推出的双引擎架…

    2025年11月7日
    23800