MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

短的结论:向下扎根,向上生长

基本情况:

稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。

不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程任务上虽无法完全替代Sonnet,但日常使用已完全可用,最终实现了M2.1未达成的目标。

逻辑成绩:

MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式参见相关评测。
注3:完整榜单已更新。
注4:红色为春节期间喜庆标识,无特殊含义。

由于M2.1是存在Bug、逻辑能力异常偏低的版本,下文仅进行M2与M2.5的跨代对比。

改进:

  • 稳定推理:M2.5能在更长的推理过程中更好地保持初始约束和上下文细节。对于一些难度不高但需要“专注”的问题,其得分显著提升。例如在#4魔方旋转问题上,M2.5是全球第8个拿到满分的模型。但在此类问题上,北美主流模型大多能稳定满分,M2.5仅能小概率完成,差距依然存在。
  • 编程能力:如前所述,M2.5无法全方位取代Sonnet,主要受限于编程知识量。在需要经验、技巧或处理版本API差异等场景下,若无提示,M2.5很难自行发现问题,通常需要多轮交互来逐步定位。但这相比M2已是巨大进步。在C工程测试中,多数国模会卡在前两轮,而M2.5成为首个突破到第8轮的国模。尽管它在OpenGL使用和空间想象力上存在短板,但结合优化后的Agent能力,能通过不断试错收敛到正确解。此外,M2.5在编程时输出更简洁,通常只在最终完成后进行简短总结,中途较少输出思路。其他工程测试结果后续更新。
  • 计算能力:M2的计算能力本不突出,M2.1更是出现倒退。M2.5在较低起点上做出了有效改进,在大部分简单计算上实现小概率高精度,但多数情况仍存在算错、误差大或公式理解不清的问题,相关训练仍有不足。作为Agent驱动模型,计算能力并非刚需,Claude系列的计算能力也长期落后。

不足:

  • 指令遵循:相比M2,指令遵循能力提升有限。处理简单指令时拿到满分的概率更高,但无法稳定发挥。存在随机丢弃或篡改指令的情况,尽管思维链显示模型注意到了所有指令。整体表现落后于第一梯队其他模型。编程中也会出现无视编码要求或项目规范的情况,例如在C工程中擅自更改了规定的坐标轴朝向。日常使用需额外注意引导和控制。
  • 幻觉控制:M2.5的幻觉水平相比M2没有显著改善,在大部分上下文相关问题上,二者的极限得分一致。甚至在#43目标数计算等问题上,M2.5还会犯一些第二梯队模型才会出现的重复或遗漏数字的低级错误。

总结:

国内厂商探索编程模型已近一年。早期宣称可平替Sonnet的模型,大多仅在单轮代码生成效果上接近,其内在的代码组织、工程化及多轮迭代能力远不及对手,导致国内程序员对国模普遍缺乏信任。

随着MiniMax M2、M2.1初步扭转风评,M2.5这一代将国模编程的可用性向前推进了一大步。尽管M2.5与官方宣称的Opus水平仍有全方位差距,但只要有人开始信任并使用,生态便会向好的方向发展。由此可见,M2.5确实是稀宇迈向目标坚实的一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21425

(0)
上一篇 2026年2月13日 下午12:18
下一篇 2026年2月13日 下午12:45

相关推荐

  • Runway发布GWM-1世界模型全家桶:从环境模拟到机器人操作的全栈式AI解决方案

    近日,知名AI视频生成公司Runway正式发布了其首个通用世界模型GWM-1,标志着该公司在AI内容生成领域迈出了从单一视频生成向复杂世界模拟的关键一步。这一发布不仅展示了Runway在生成式AI技术上的深厚积累,更预示着AI技术正在从内容创作工具向物理世界模拟平台演进。 GWM-1基于Runway最新的视频生成模型Gen-4.5构建,但采用了完全不同的技术…

    2025年12月13日
    24400
  • AI驱动数学革命:陶哲轩团队48小时攻克尘封半世纪的Erdős #1026难题

    近日,数学界迎来里程碑式突破——由菲尔兹奖得主陶哲轩领衔的多国数学家团队,在人工智能工具的辅助下,仅用48小时便完全解决了困扰学界长达50年的Erdős #1026组合数学难题。这一突破不仅标志着数学研究范式的深刻变革,更揭示了“人机协同”在攻克复杂科学问题中的巨大潜力。 Erdős #1026问题源于1975年,其核心在于探索实数序列中单调子序列权重的下界…

    2025年12月13日
    21900
  • 美国启动“创世纪计划”:AI与国家级科研体系的深度融合与战略意义

    近日,美国能源部联合OpenAI、谷歌、微软、英伟达等24家顶尖科技企业,正式启动了名为“创世纪计划”的国家级人工智能战略合作项目。这一计划被外界广泛称为“AI曼哈顿计划”,标志着美国政府与科技巨头在人工智能领域的合作进入全新阶段,旨在将最前沿的AI技术系统性地应用于国家实验室的科研体系,加速可控核聚变、量子计算、材料科学、气候模拟等关键领域的科学突破。 从…

    2025年12月19日
    43700
  • 腾讯混元HunyuanOCR:轻量化端到端OCR专家模型的技术突破与产业影响

    近日,腾讯混元大模型团队正式发布并开源了HunyuanOCR模型,这是一款参数仅为1B的商业级开源OCR专用视觉语言模型。该模型采用原生ViT与轻量级LLM结合的创新架构,在文本检测识别、复杂文档解析等感知能力方面优于所有公开方案,并在信息抽取、文字图像翻译等语义任务中表现卓越。在ICDAR 2025 DIMT挑战赛(小模型赛道)中荣获冠军,同时在OCRBe…

    2025年11月29日
    21200
  • AdaMCoT:多语言大模型的自适应思维链革命——让AI学会“用最合适的语言思考”

    在全球化AI应用浪潮中,多语言大模型(MLLM)面临着一个根本性的认知困境:当处理跨语言任务时,模型究竟应该使用原始语言直接推理,还是翻译成高资源语言(如英语)后再进行思考?这个看似简单的选择背后,隐藏着语言认知的深层差异。不同语言在模型内部实际上承载着不同的“认知特长”——英语以其严谨的逻辑结构和丰富的科学语料,在逻辑推理和事实核查方面表现卓越;而中文、印…

    2025年12月13日
    24000