MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

短的结论:向下扎根,向上生长

基本情况:

稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。

不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程任务上虽无法完全替代Sonnet,但日常使用已完全可用,最终实现了M2.1未达成的目标。

逻辑成绩:

MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式参见相关评测。
注3:完整榜单已更新。
注4:红色为春节期间喜庆标识,无特殊含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本,下文仅进行M2与M2.5的跨代对比。

改进:

  • 稳定推理:M2.5能在更长的推理过程中更好地保持初始约束和上下文细节。对于一些难度不高但需要“专注”的问题,其得分显著提升。例如在#4魔方旋转问题上,M2.5是全球第8个拿到满分的模型。但在此类问题上,北美主流模型大多能稳定满分,M2.5仅能小概率完成,差距依然存在。
  • 编程能力:如前所述,M2.5无法全方位取代Sonnet,主要受限于编程知识量。在需要经验、技巧或处理版本API差异等场景下,若无提示,M2.5很难自行发现问题,通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中,多数国模会卡在前两轮,而M2.5成为首个突破到第8轮的国模。尽管它在OpenGL使用和空间想象力上存在短板,但结合优化后的Agent能力,能通过不断试错收敛到正确解。此外,M2.5在编程时输出更简洁,通常只在最终完成后进行简短总结,中途较少输出思路。其他工程测试结果后续更新。
  • 计算能力:M2的计算能力本不突出,M2.1更是出现倒退。M2.5在较低起点上做出了有效改进,在大部分简单计算上实现小概率高精度,但多数情况仍存在算错、误差大或公式理解不清的问题,相关训练仍有不足。作为Agent驱动模型,计算能力并非刚需,Claude系列的计算能力也长期落后。

不足:

  • 指令遵循:相比M2,指令遵循能力提升有限。处理简单指令时拿到满分的概率更高,但无法稳定发挥。存在随机丢弃或篡改指令的情况,尽管思维链显示模型注意到了所有指令。整体表现落后于第一梯队其他模型。编程中也会出现无视编码要求或项目规范的情况,例如在C工程中擅自更改了规定的坐标轴朝向。日常使用需额外注意引导和控制。
  • 幻觉控制:M2.5的幻觉水平相比M2没有显著改善,在大部分上下文相关问题上,二者的极限得分一致。甚至在#43目标数计算等问题上,M2.5还会犯一些第二梯队模型才会出现的重复或遗漏数字的低级错误。

总结:

国内厂商探索编程模型已近一年。早期宣称可平替Sonnet的模型,大多仅在单轮代码生成效果上接近,其内在的代码组织、工程化及多轮迭代能力远不及对手,导致国内程序员对国模普遍缺乏信任。

随着MiniMax M2、M2.1初步扭转风评,M2.5这一代将国模编程的可用性向前推进了一大步。尽管M2.5与官方宣称的Opus水平仍有全方位差距,但只要有人开始信任并使用,生态便会向好的方向发展。由此可见,M2.5确实是稀宇迈向目标坚实的一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21425

(0)
上一篇 2026年2月13日 下午12:18
下一篇 2026年2月13日 下午12:45

相关推荐

  • GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

    GPT-5.4 发布:五大核心能力集于一身,知识工作表现超越多数人类 长期以来,用户在使用AI工具时,常常需要根据任务类型在不同模型间切换:编写代码、查询资料、操作计算机往往需要调用不同的专用模型。OpenAI最新发布的GPT-5.4旨在终结这种割裂的体验。该模型将编程、推理、计算机操控、网页搜索以及百万级Token上下文处理能力整合进同一个通用模型,且各项…

    2026年3月6日
    23500
  • AI Ping:大模型API的智能导航与评测平台,终结选型混沌时代

    衡宇 发自 凹非寺 比面对大模型黑盒更让人抓瞎的事情,就是要去选既靠谱、性价比又高的API服务。 这几乎是每一个涉足AI应用开发的团队都会经历的至暗时刻。 同一个模型架构在不同的供应商手里,不仅价格上有出入,延迟、稳定性、吞吐量等用户关心的指标,波动幅度巨大。 在API调用动辄几十万、上百万token的时代,API选型居然变成了一件靠经验反复试错的事儿。 这…

    2026年2月2日
    14100
  • AI赋能卫星星座:北航团队发布AEOS-Bench基准与AEOS-Former模型,开启空天智能调度新纪元

    随着全球卫星星座规模的急剧扩张,从SpaceX的Starlink到我国的“千帆”星座,卫星网络正从科幻概念演变为数字经济时代的关键基础设施。这些运行在距地数百公里轨道上的卫星群,默默支撑着遥感监测、全球通信、精准导航、气象预测等核心领域。然而,星座规模的扩大带来了前所未有的调度挑战:如何在几分钟的观测窗口内,协调数十颗卫星执行上百项任务,同时应对地震救援、海…

    2025年12月13日
    20200
  • 文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?

    核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…

    2026年1月23日
    31000
  • 医疗AI新突破:CA-GPT系统在心脏介入手术决策中完胜ChatGPT-5,RAG+DeepSeek架构重塑垂直领域智能化标准

    在通用大模型(LLM)席卷全球的浪潮中,医疗垂直领域始终被视为AI落地的“硬骨头”。虽然ChatGPT在USMLE(美国执业医师资格考试)等标准化测试中表现优异,但在需要精准判断和实时决策的临床场景中,通用大模型的局限性日益凸显。近日,一项由空军军医大学唐都医院李妍教授团队与深圳清华大学研究院朱锐团队联合完成的COMPARE研究在arXiv预印本平台发表,研…

    2025年12月16日
    19300