MiniMax-M2实测揭秘：轻量级MoE架构如何实现性能飙升与成本锐减

2025年11月4日下午1:31 • 大模型评测 • 阅读 200

Minimax近期发布了MiniMax-M2新版本，这是一款轻量、快速且极具成本效益的MoE模型（230B总参数，10B激活参数），专为Max级编码与智能体打造。相比上一代MiniMax-M1，新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

MiniMax-M2版本表现：
* 测试题数：约1.5万
* 【总分】准确率：59.5%
* 平均耗时（每次调用）：56s
* 平均消耗token（每次调用）：2931
* 花费/千次调用（元）：23.1

1、新旧版本对比

首先对比上个版本（MiniMax-M1），数据如下：

整体性能稳步提升：新版本准确率从56.2%提升至59.5%，增长了3.3个百分点，排名从第49位上升到第41位，提升了8个名次。
专业能力表现分化：从细分领域来看，新版本在某些领域实现了显著提升，但在其他领域有所回落。最突出的提升是“语言与指令遵从”能力，从54.0%大幅跃升至65.7%，增幅达11.7个百分点。“agent与工具调用”能力也有明显提升，从40.2%增长至50.5%，增幅10.3个百分点。
部分领域能力下降：值得注意的是，新版本在“医疗与心理健康”领域从76.4%下降至67.3%（-9.1%），在“金融”领域从75.6%降至65.6%（-10.0%），在“法律与行政公务”领域从74.5%降至68.7%（-5.8%），在“教育”领域从36.3%降至34.1%（-2.2%）。这种权衡表明新版本更侧重于通用语言理解和工具调用能力的优化。
推理能力保持稳定：“推理与数学计算”能力从62.3%小幅提升至62.9%，增长0.6个百分点，保持了相对稳定的表现。
Token消耗显著降低：每次调用平均消耗的token从4392大幅减少至2931，降幅达33.3%，这是一个重要的效率优化成果。
响应速度大幅提升：新版本的平均耗时从226s大幅缩短至56s，速度提升约75%，这对用户体验有显著改善。
成本效率明显改善：虽然输出价格从8.0元/M token略微上调至8.4元/M token，但由于token消耗的大幅降低和速度的显著提升，每千次调用的费用从32元降至23.1元，成本下降约27.8%，实现了性价比的显著提升。

2、对比其他新模型

在当前主流大模型竞争格局中，MiniMax-M2表现如何？我们选择了具有代表性的模型进行横向对比分析：

同成本档位对比分析：

10-30元成本区间竞争激烈：在MiniMax-M2所处的23.1元/千次成本区间，主要竞争对手包括gemini-2.5-flash（43.2元，准确率60.6%）、step-3（12.8元，准确率62.4%）、Seed-OSS-36B-Instruct（10.8元，准确率62.9%）、GLM-4.5-nothink（15.3元，准确率61.6%）等。在这个价格带中，MiniMax-M2的性价比处于中等偏下水平。
更优成本选择对比：在相近准确率范围内（58.5%-61.6%），存在多个成本更优的替代方案。例如Hunyuan-A13B-Instruct以7.7元的成本实现了59.8%的准确率，qwen-turbo-think-2025-07-15以8.8元实现58.5%，Qwen3-30B-A3B-Instruct-2507以2.9元实现59.2%，ERNIE-4.5-Turbo-32K仅需1.8元就能达到61.1%的准确率。这些模型在成本效率上明显优于MiniMax-M2。
高性能模型成本对比：与准确率更高的模型相比，如ERNIE-4.5-300B-A47B（60.8%，3.4元）、GLM-4.5-nothink（61.6%，15.3元）、step-3（62.4%，12.8元），MiniMax-M2在性能不及的情况下成本反而更高，显示出较明显的性价比劣势。

开源对比分析：

开源模型整体表现：在对比的开源模型中，包括Seed-OSS-36B-Instruct（62.9%）、step-3（62.4%）、GLM-4.5-nothink（61.6%）、ERNIE-4.5-300B-A47B（60.8%）、Hunyuan-A13B-Instruct（59.8%）、MiniMax-M2（59.5%）、Qwen3-30B-A3B-Instruct-2507（59.2%）、gpt-oss-120b（59.0%）等。开源模型在这个性能区间内表现出色，展现了强劲的竞争力。
MiniMax-M2在开源阵营中的位置：在表里的开源模型中，MiniMax-M2以59.5%的准确率排第6位，属于中下游水平。
开源模型成本：对比表里的开源阵营，MiniMax-M2的23.1元成本在开源模型中是最高的，远超Qwen3-30B-A3B-Instruct-2507（2.9元）、gpt-oss-120b（2.9元）、ERNIE-4.5-300B-A47B（3.4元）、Hunyuan-A13B-Instruct（7.7元）、Seed-OSS-36B-Instruct（10.8元）、step-3（12.8元）、GLM-4.5-nothink（15.3元）。这表明开源属性并未给MiniMax-M2带来成本优势，反而在定价上接近闭源商用模型。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14661

MiniMax-M2实测揭秘：轻量级MoE架构如何实现性能飙升与成本锐减

1、新旧版本对比

2、对比其他新模型

同成本档位对比分析：

开源对比分析：

相关推荐

Anthropic推出技能评测框架：无需代码即可测试和改进Claude技能

AI Agent独立复现顶会论文能力大揭秘：OpenAI PaperBench基准测试深度解析

通用大模型工业考试翻车，IndustryGPT三场全胜揭示制造业AI新方向

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

智谱GLM-4.7全面评测：编程专用模型性能跃升，开源优势凸显