MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

短的结论:向下扎根,向上生长

基本情况:

稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。

不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程任务上虽无法完全替代Sonnet,但日常使用已完全可用,最终实现了M2.1未达成的目标。

逻辑成绩:

MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式参见相关评测。
注3:完整榜单已更新。
注4:红色为春节期间喜庆标识,无特殊含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本,下文仅进行M2与M2.5的跨代对比。

改进:

  • 稳定推理:M2.5能在更长的推理过程中更好地保持初始约束和上下文细节。对于一些难度不高但需要“专注”的问题,其得分显著提升。例如在#4魔方旋转问题上,M2.5是全球第8个拿到满分的模型。但在此类问题上,北美主流模型大多能稳定满分,M2.5仅能小概率完成,差距依然存在。
  • 编程能力:如前所述,M2.5无法全方位取代Sonnet,主要受限于编程知识量。在需要经验、技巧或处理版本API差异等场景下,若无提示,M2.5很难自行发现问题,通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中,多数国模会卡在前两轮,而M2.5成为首个突破到第8轮的国模。尽管它在OpenGL使用和空间想象力上存在短板,但结合优化后的Agent能力,能通过不断试错收敛到正确解。此外,M2.5在编程时输出更简洁,通常只在最终完成后进行简短总结,中途较少输出思路。其他工程测试结果后续更新。
  • 计算能力:M2的计算能力本不突出,M2.1更是出现倒退。M2.5在较低起点上做出了有效改进,在大部分简单计算上实现小概率高精度,但多数情况仍存在算错、误差大或公式理解不清的问题,相关训练仍有不足。作为Agent驱动模型,计算能力并非刚需,Claude系列的计算能力也长期落后。

不足:

  • 指令遵循:相比M2,指令遵循能力提升有限。处理简单指令时拿到满分的概率更高,但无法稳定发挥。存在随机丢弃或篡改指令的情况,尽管思维链显示模型注意到了所有指令。整体表现落后于第一梯队其他模型。编程中也会出现无视编码要求或项目规范的情况,例如在C工程中擅自更改了规定的坐标轴朝向。日常使用需额外注意引导和控制。
  • 幻觉控制:M2.5的幻觉水平相比M2没有显著改善,在大部分上下文相关问题上,二者的极限得分一致。甚至在#43目标数计算等问题上,M2.5还会犯一些第二梯队模型才会出现的重复或遗漏数字的低级错误。

总结:

国内厂商探索编程模型已近一年。早期宣称可平替Sonnet的模型,大多仅在单轮代码生成效果上接近,其内在的代码组织、工程化及多轮迭代能力远不及对手,导致国内程序员对国模普遍缺乏信任。

随着MiniMax M2、M2.1初步扭转风评,M2.5这一代将国模编程的可用性向前推进了一大步。尽管M2.5与官方宣称的Opus水平仍有全方位差距,但只要有人开始信任并使用,生态便会向好的方向发展。由此可见,M2.5确实是稀宇迈向目标坚实的一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21425

(0)
上一篇 2026年2月13日 下午12:18
下一篇 2026年2月13日 下午12:45

相关推荐

  • 字节火山引擎豆包2.0重磅发布:多模态Agent新标杆,企业级AI生产力革命

    最强AI打工人来了!实测多模态、代码、复杂长任务表现亮眼。 春节将至,国内AI大模型赛道好不热闹,多款国产模型更新引爆海内外,不少海外网友都“跪求”体验方式,2026开年AI档,还要看中国玩家。 在这场AI盛宴之中,我们看到各类超级Agent走到舞台C位,AI逐渐深入到具体的工作流中,甚至开始帮企业啃下真正的“硬骨头”任务。AI从“玩具”转向“工具”, 这一…

    2026年2月14日
    88000
  • 突破数据孤岛:Being-H0.5全栈开源具身模型以3.5万小时训练实现跨机器人零样本技能迁移

    BeingBeyond团队 投稿 量子位 | 公众号 QbitAI 近年来爆火的具身智能领域长期面对着数据孤立导致的训练困境,一线厂商凭借高投入建立独属于自研型号机器的“数据护城河”,而小厂的资产规模直接反映在数据体量上,限制了其产品专用模型的训练。 BeingBeyond团队 近日发布的Being-H0.5有望改变这一局面。 Being-H0.5是目前训练…

    2026年1月23日
    60500
  • 智能进化的新范式:从芯片加速到结构协同的范式转移

    在科技发展的历史长河中,摩尔定律曾长期被视为计算能力增长的黄金法则——芯片性能每18-24个月翻倍,智能系统随之线性提升。然而,2020年前后,这一范式遭遇了根本性挑战:芯片频率增长停滞,制程工艺逼近物理极限,传统意义上的“加速”路径似乎走到了尽头。但令人惊讶的是,正是在这个硬件速度停滞的时期,人工智能领域迎来了前所未有的爆发式增长。大模型参数规模从亿级跃升…

    2025年12月5日
    35200
  • 智能的两种演化路径:从生物生存到商业优化的本质差异

    近日,OpenAI联合创始人、前特斯拉AI高级总监Andrej Karpathy在社交媒体上发表了一系列关于智能本质的深刻见解,引发了科技界的广泛讨论。他提出的核心观点挑战了我们对人工智能的传统认知框架:我们一直用理解动物智能的方式来理解AI,但这可能是一个根本性的错误。 Karpathy明确指出:“智能的空间很大,而动物智能(我们唯一了解的智能)只是其中的…

    2025年11月23日
    36800
  • AI职业暴露度报告:高薪白领最易被替代,蓝领工作反而安全?

    Karpathy 利用 AI 对美国 342 个职业的“AI 暴露度”进行了评估。 该项目一度因过于火爆而被作者删除。 他从美国劳工统计局获取了 342 个职业的数据,并使用 Gemini Flash 模型为每个职业打出了一个 0-10 分的“AI 暴露度”分数。 简而言之,暴露度衡量的是:该职业的工作内容有多大比例可以转移到计算机上完成。 工作内容越依赖电…

    2026年3月21日
    94600