MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

MiniMax-M2.1版本表现:
* 测试题数:约1.5万
* 总分(准确率):63.6%
* 平均耗时(每次调用):111s
* 平均token(每次调用消耗的token):3525
* 平均花费(每千次调用的人民币花费):28.1

1、新旧版本对比

首先对比上个版本(MiniMax-M2),数据如下:

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测
MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能提升:新版本准确率从59.6%提升至63.6%,提升了4.0个百分点,排名从第69位上升到第47位。
  • 专业能力多领域改进:从细分来看,新版本在多个领域都有提升。其中“金融”领域从65.6%提升至76.7%,增幅达11.1个百分点。“法律与行政公务”从68.7%提升至74.3%,增幅达5.6个百分点。
  • Agent能力改进明显:“agent与工具调用”从50.5%提升至55.9%,增幅达5.4个百分点,这与官方强调的agent能力优化相符。
  • 医疗与推理能力提升:“医疗与心理健康”从67.3%提升至70.5%(+3.2%),“推理与数学计算能力”从63.3%提升至70.2%(+6.9%),在专业垂直领域获得了性能改进。
  • 教育领域提升明显:“教育”从34.1%提升至40.0%,增幅达5.9个百分点,但绝对分数仍处于较低水平。
  • 语言理解能力下降:值得注意的是,“语言与指令遵从”从65.7%下降至62.5%,下降3.2个百分点,是唯一出现性能下降的领域,表明在整体性能提升过程中存在一定的权衡。
  • 响应时间显著延长:新版本的平均耗时为111s,比MiniMax-M2的56s慢了约98%,响应时间几乎翻倍,这是为了获得更高准确率而做出的速度牺牲。
  • Token消耗与成本增加:每次调用平均消耗的token从2931增加至3525,增幅达20.3%。输出价格维持在8.4元/M token不变,但由于token消耗增加,每千次调用的实测费用从23.1元上升至28.1元,成本增加约21.6%。

2、对比其他模型

在当前主流大模型竞争格局中,MiniMax-M2.1表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 接近30元档位:MiniMax-M2.1以28.1元的实测成本处于30元档位附近,与qwen-plus-think-2025-12-01(27.1元)和gpt-5-2025-08-07(31.9元)形成竞争。在这个成本档位段,MiniMax-M2.1的63.6%准确率明显低于前者的64.2%,也低于后者的68.9%。
  • 速度劣势明显:与同成本档位段模型相比,MiniMax-M2.1的111s响应时间明显慢于qwen-plus-think-2025-12-01(85s)和gpt-5-2025-08-07(72s),在用户体验上处于不利地位。
  • Token效率偏低:3525的平均token消耗在对比模型中处于较高水平,明显高于gpt-5-2025-08-07(630)和gpt-5.2-medium(922),反映出在推理效率上仍有优化空间。

新旧模型对比

  • MiniMax产品线迭代情况:MiniMax-M2.1相比MiniMax-M2准确率提升4.0个百分点,排名从69位上升至47位,实现了排名提升,但在绝对分数上仍处于中下游水平。
  • 与竞品最新版本对比:对比同时期发布的新模型,如GLM-4.7(71.5%,52.5元)、gemini-3-flash-preview(71.5%,53.5元)等,MiniMax-M2.1在准确率上有明显差距,但成本相对较低。
  • 开源模型竞争态势:在开源模型阵营中,DeepSeek-V3.2-Think(70.9%,144s)、DeepSeek-V3.2-Exp-Think(70.1%,248s)等模型的准确率明显高于MiniMax-M2.1,但MiniMax-M2.1在响应速度上相对更快。

开源VS闭源对比

  • 开源模型定位:MiniMax-M2.1作为开源模型,排名第47位,在开源阵营中处于中游位置,落后于DeepSeek、GLM等主要开源竞品。
  • 与闭源模型差距:相比同准确率段的闭源商用模型,如qwen-plus-think-2025-12-01(64.2%,商用)、qwen3-max-2025-09-23(66.8%,商用),MiniMax-M2.1在准确率上略有不足,但开源特性使其在可定制性和部署灵活性上有所优势。
  • 成本对比分析:与高准确率的商用模型相比,如gemini-3-pro-preview(72.5%,247.3元),MiniMax-M2.1的成本优势明显(28.1元),但准确率差距达8.9个百分点。
  • 开源生态贡献:MiniMax-M2.1的开源为编程agent场景提供了新的选择,特别是在agent能力提升明显的情况下,可能更适合需要工具调用和多步骤任务处理的场景。

3、官方评测

根据MiniMax官方博客(https://www.minimax.io/news/minimax-m21)披露,MiniMax-M2.1在多项编程相关基准测试中实现了性能提升:

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

多语言编程能力提升

  • Multi-SWE-Bench突破:MiniMax-M2.1在Multi-SWE-Bench测试中达到49.4%,超越了Claude Sonnet 4.5和Gemini 1.5 Pro等主流商用模型,展现出在多语言编程场景下的竞争力。
  • SWE-bench Verified表现:在SWE-bench Verified测试中,MiniMax-M2.1取得74.0%的成绩,略高于DeepSeek V3.2(73.1%)和Kimi K2(71.3%),但与Claude Sonnet 4.5的性能接近。
  • SWE-bench Multilingual优势:在SWE-bench Multilingual测试中,MiniMax-M2.1达到72.5%,官方特别强调其在多语言代码处理方面的能力,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript等语言。
  • Terminal-bench 2.0改进:相比MiniMax-M2,MiniMax-M2.1在Terminal-bench 2.0上取得了提升,展现出在命令行任务处理方面的能力增强。

VIBE全栈开发基准

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

  • 新型评测标准:MiniMax建立了VIBE(Visual & Interactive Benchmark for Execution)基准测试,包含Web、Simulation、Android、iOS和Backend五个子集,采用Agent-as-a-Verifier范式自动评估生成应用的交互逻辑和视觉美学。
  • 全栈开发能力:MiniMax-M2.1在VIBE综合基准测试中取得88.6的平均分,展现出较强的全栈开发能力。特别是在VIBE-Web(91.5)和VIBE-Android(89.7)子集中表现突出。

  • UI质量提升:官方强调MiniMax-M2.1在UI生成质量上的进步,能够产生更简洁、现代的网页设计,在布局、配色和组件样式上更符合当代审美。在原生Android和iOS开发能力上也有显著增强,这被认为是行业普遍的薄弱环节。

MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

Agent能力与综合智能

  • 工具使用能力稳步改进:MiniMax-M2.1在Toolathlon和BrowseComp等长周期工具使用基准测试中相比MiniMax-M2展现出稳定提升,与我们测试中agent能力提升最为明显的结论一致。
  • 综合智能指标:在Artificial Analysis汇总的综合智能指标中,MiniMax-M2.1相比MiniMax-M2在数学、科学、指令遵循、编程和agent工具使用等维度都有提升。
  • 复合指令约束执行:官方特别强调MiniMax-M2.1在“复合指令约束”执行能力上的提升,这对办公场景具有实用价值。模型不仅关注代码执行正确性,还能整合执行来自System Prompts、用户查询、Memory、工具模式以及Agents.md、Claude.md、Skill.md等规范的组合指令。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14965

(0)
上一篇 2025年12月24日 上午12:04
下一篇 2025年12月24日 上午8:38

相关推荐

  • DeepSeek V3.2 多维度能力评测:从基础交互到复杂游戏逻辑的10个实战用例分析

    最近,DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估,我们设计了一系列按难度递进的实战测试用例。每个用例均包含:用例名称、技术标签、考察重点及完整的 Prompt。 第一关:热身赛(基础能力验证) 1.1 复古打字机应用 技术标签:前端交互 | 动画效果 | 拖拽功能 考察重点:能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…

    2025年12月9日
    9700
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    6800
  • 2024年12月大语言模型逻辑能力深度评测:15款主流模型性能横评与趋势洞察

    1 参赛选手 本次评测共包含15个模型,均为近期更新版本(按发布时间排序): 本月出榜模型:* GLM-4.6(后继版本:GLM-4.7)* MiniMax M2.1(后继版本:M2)* DeepSeek V3.2-Speciale(官方已下线)* Doubao-Seed-1.6 1015(后继版本:1.8)* DeepSeek V3.2-Exp(后继版本:…

    2025年12月26日
    12600
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    7800
  • Kimi-K2-Thinking实测:新一代Thinking Agent如何实现推理能力突破性增强?

    月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

    2025年11月18日
    11400