MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
MiniMax-M2.1版本表现:
* 测试题数:约1.5万
* 总分(准确率):63.6%
* 平均耗时(每次调用):111s
* 平均token(每次调用消耗的token):3525
* 平均花费(每千次调用的人民币花费):28.1
1、新旧版本对比
首先对比上个版本(MiniMax-M2),数据如下:


数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”
- 整体性能提升:新版本准确率从59.6%提升至63.6%,提升了4.0个百分点,排名从第69位上升到第47位。
- 专业能力多领域改进:从细分来看,新版本在多个领域都有提升。其中“金融”领域从65.6%提升至76.7%,增幅达11.1个百分点。“法律与行政公务”从68.7%提升至74.3%,增幅达5.6个百分点。
- Agent能力改进明显:“agent与工具调用”从50.5%提升至55.9%,增幅达5.4个百分点,这与官方强调的agent能力优化相符。
- 医疗与推理能力提升:“医疗与心理健康”从67.3%提升至70.5%(+3.2%),“推理与数学计算能力”从63.3%提升至70.2%(+6.9%),在专业垂直领域获得了性能改进。
- 教育领域提升明显:“教育”从34.1%提升至40.0%,增幅达5.9个百分点,但绝对分数仍处于较低水平。
- 语言理解能力下降:值得注意的是,“语言与指令遵从”从65.7%下降至62.5%,下降3.2个百分点,是唯一出现性能下降的领域,表明在整体性能提升过程中存在一定的权衡。
- 响应时间显著延长:新版本的平均耗时为111s,比MiniMax-M2的56s慢了约98%,响应时间几乎翻倍,这是为了获得更高准确率而做出的速度牺牲。
- Token消耗与成本增加:每次调用平均消耗的token从2931增加至3525,增幅达20.3%。输出价格维持在8.4元/M token不变,但由于token消耗增加,每千次调用的实测费用从23.1元上升至28.1元,成本增加约21.6%。
2、对比其他模型
在当前主流大模型竞争格局中,MiniMax-M2.1表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
- 接近30元档位:MiniMax-M2.1以28.1元的实测成本处于30元档位附近,与qwen-plus-think-2025-12-01(27.1元)和gpt-5-2025-08-07(31.9元)形成竞争。在这个成本档位段,MiniMax-M2.1的63.6%准确率明显低于前者的64.2%,也低于后者的68.9%。
- 速度劣势明显:与同成本档位段模型相比,MiniMax-M2.1的111s响应时间明显慢于qwen-plus-think-2025-12-01(85s)和gpt-5-2025-08-07(72s),在用户体验上处于不利地位。
- Token效率偏低:3525的平均token消耗在对比模型中处于较高水平,明显高于gpt-5-2025-08-07(630)和gpt-5.2-medium(922),反映出在推理效率上仍有优化空间。
新旧模型对比
- MiniMax产品线迭代情况:MiniMax-M2.1相比MiniMax-M2准确率提升4.0个百分点,排名从69位上升至47位,实现了排名提升,但在绝对分数上仍处于中下游水平。
- 与竞品最新版本对比:对比同时期发布的新模型,如GLM-4.7(71.5%,52.5元)、gemini-3-flash-preview(71.5%,53.5元)等,MiniMax-M2.1在准确率上有明显差距,但成本相对较低。
- 开源模型竞争态势:在开源模型阵营中,DeepSeek-V3.2-Think(70.9%,144s)、DeepSeek-V3.2-Exp-Think(70.1%,248s)等模型的准确率明显高于MiniMax-M2.1,但MiniMax-M2.1在响应速度上相对更快。
开源VS闭源对比
- 开源模型定位:MiniMax-M2.1作为开源模型,排名第47位,在开源阵营中处于中游位置,落后于DeepSeek、GLM等主要开源竞品。
- 与闭源模型差距:相比同准确率段的闭源商用模型,如qwen-plus-think-2025-12-01(64.2%,商用)、qwen3-max-2025-09-23(66.8%,商用),MiniMax-M2.1在准确率上略有不足,但开源特性使其在可定制性和部署灵活性上有所优势。
- 成本对比分析:与高准确率的商用模型相比,如gemini-3-pro-preview(72.5%,247.3元),MiniMax-M2.1的成本优势明显(28.1元),但准确率差距达8.9个百分点。
- 开源生态贡献:MiniMax-M2.1的开源为编程agent场景提供了新的选择,特别是在agent能力提升明显的情况下,可能更适合需要工具调用和多步骤任务处理的场景。
3、官方评测
根据MiniMax官方博客(https://www.minimax.io/news/minimax-m21)披露,MiniMax-M2.1在多项编程相关基准测试中实现了性能提升:


多语言编程能力提升
- Multi-SWE-Bench突破:MiniMax-M2.1在Multi-SWE-Bench测试中达到49.4%,超越了Claude Sonnet 4.5和Gemini 1.5 Pro等主流商用模型,展现出在多语言编程场景下的竞争力。
- SWE-bench Verified表现:在SWE-bench Verified测试中,MiniMax-M2.1取得74.0%的成绩,略高于DeepSeek V3.2(73.1%)和Kimi K2(71.3%),但与Claude Sonnet 4.5的性能接近。
- SWE-bench Multilingual优势:在SWE-bench Multilingual测试中,MiniMax-M2.1达到72.5%,官方特别强调其在多语言代码处理方面的能力,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript等语言。
- Terminal-bench 2.0改进:相比MiniMax-M2,MiniMax-M2.1在Terminal-bench 2.0上取得了提升,展现出在命令行任务处理方面的能力增强。
VIBE全栈开发基准


- 新型评测标准:MiniMax建立了VIBE(Visual & Interactive Benchmark for Execution)基准测试,包含Web、Simulation、Android、iOS和Backend五个子集,采用Agent-as-a-Verifier范式自动评估生成应用的交互逻辑和视觉美学。
-
全栈开发能力:MiniMax-M2.1在VIBE综合基准测试中取得88.6的平均分,展现出较强的全栈开发能力。特别是在VIBE-Web(91.5)和VIBE-Android(89.7)子集中表现突出。
-
UI质量提升:官方强调MiniMax-M2.1在UI生成质量上的进步,能够产生更简洁、现代的网页设计,在布局、配色和组件样式上更符合当代审美。在原生Android和iOS开发能力上也有显著增强,这被认为是行业普遍的薄弱环节。

Agent能力与综合智能
- 工具使用能力稳步改进:MiniMax-M2.1在Toolathlon和BrowseComp等长周期工具使用基准测试中相比MiniMax-M2展现出稳定提升,与我们测试中agent能力提升最为明显的结论一致。
- 综合智能指标:在Artificial Analysis汇总的综合智能指标中,MiniMax-M2.1相比MiniMax-M2在数学、科学、指令遵循、编程和agent工具使用等维度都有提升。
- 复合指令约束执行:官方特别强调MiniMax-M2.1在“复合指令约束”执行能力上的提升,这对办公场景具有实用价值。模型不仅关注代码执行正确性,还能整合执行来自System Prompts、用户查询、Memory、工具模式以及Agents.md、Claude.md、Skill.md等规范的组合指令。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14965
