小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

小米近期开源了MiMo-V2-Flash模型,这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式(think)和非思考模式进行了全面评测,测试其在准确率、响应时间、token消耗等关键指标上的表现。

MiMo-V2-Flash-think版本表现:
* 测试题数:约1.5万
* 总分(准确率):62.0%
* 平均耗时(每次调用):81s
* 平均token(每次调用消耗的token):3994
* 平均花费(每千次调用的人民币花费):0(开源免费)

1、思考与非思考模式对比

我们对MiMo-V2-Flash的两种模式进行了对比测试,数据如下:

小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡
小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 思考模式准确率更高:MiMo-V2-Flash-think总分准确率为62.0%,排名第55位;非思考模式准确率为57.9%,排名第70位。思考模式带来了4.1个百分点的提升,排名提高了15位。
  • 专业领域提升明显:从细分领域来看,思考模式在多个专业领域表现更优。“法律与行政公务”提升最为显著,从63.0%提升至74.7%,增幅达11.7个百分点;“推理与数学计算”从64.2%提升至74.2%,增幅达10.0个百分点;“金融”从67.9%提升至77.7%,增幅达9.8个百分点。
  • 教育领域出现下降:值得注意的是,思考模式在“教育”领域反而出现4.4个百分点的下降(47.4%→43.0%),这一现象较为少见,可能与模型在该领域的训练策略有关。
  • Agent能力基本持平:两种模式在“agent与工具调用”领域表现接近,思考模式为48.0%,非思考模式为48.5%,差异仅0.5个百分点。
  • 速度与效率的权衡:思考模式平均耗时81s,非思考模式为59s,时间增加约37%。token消耗方面,思考模式为3994,非思考模式为1299,增加约207%。
  • 零成本优势:作为开源模型,两种模式均可免费使用,这是MiMo-V2-Flash相比商用模型的核心优势。

2、对比其他模型

在当前主流大模型竞争格局中,MiMo-V2-Flash表现如何?我们从新旧模型对比、开源VS闭源两个维度进行分析:

小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

新旧模型对比

  • 与头部新模型差距明显:MiMo-V2-Flash-think(62.0%,第55位)与近期发布的头部新模型相比存在较大差距。gemini-3-pro-preview(72.5%,第1位)领先10.5个百分点;doubao-seed-1-8-251215(71.7%,第3位)领先9.7个百分点;gemini-3-flash-preview(71.5%,第5位)领先9.5个百分点。
  • 与上一代模型对比:与部分厂家上一代模型相比,gemini-2.5-pro(68.9%,第12位)仍领先6.9个百分点;gpt-5-2025-08-07(68.9%,第11位)领先6.9个百分点。作为小米新的开源大模型,与成熟厂商的差距较大。
  • 与同档位新模型对比:在60%-65%准确率区间内,MiMo-V2-Flash-think(62.0%)与GLM-4.5-Flash(63.0%,第52位)相差1.0个百分点;与qwen-plus-think-2025-12-01(64.2%,第43位)相差2.2个百分点。
  • 响应速度处于中等:MiMo-V2-Flash-think的81s响应时间在新模型中处于中等水平,快于Kimi-K2-Thinking(333s)、ERNIE-5.0-Thinking-Preview(301s)、DeepSeek-V3.2-Exp-Think(248s),但慢于doubao-seed-1-8-251215(33s)、hunyuan-2.0-thinking-20251109(28s)等国产模型。

开源VS闭源对比

  • 与头部开源模型差距较大:MiMo-V2-Flash-think(62.0%)与当前头部开源模型相比存在明显差距。DeepSeek-V3.2-Think(70.9%,第6位)领先8.9个百分点;DeepSeek-V3.2-Exp-Think(70.1%,第7位)领先8.1个百分点;Kimi-K2-Thinking(68.3%,第14位)领先6.3个百分点;GLM-4.6(68.1%,第15位)领先6.1个百分点。
  • 与中游开源模型接近:与GLM-4.5-Flash(63.0%,第52位)相差1.0个百分点;与MiniMax-M2(59.6%,第67位)相比高出2.4个百分点。在开源模型阵营中处于中游位置。
  • 零成本是核心差异化:与其他开源模型不同,MiMo-V2-Flash完全免费(0元/千次),而DeepSeek-V3.2-Think(7.5元)、GLM-4.6(37.6元)、Kimi-K2-Thinking(89.2元)均有一定调用成本。对于预算有限的开发者和研究者,零成本是MiMo-V2-Flash的核心竞争力。
  • 与闭源商用模型对比:与同档位闭源模型相比,MiMo-V2-Flash-think(62.0%,0元)的成本优势明显。qwen-plus-think-2025-12-01(64.2%,27.1元)准确率高2.2个百分点但需付费。在准确率要求不苛刻的场景下,MiMo-V2-Flash的零成本优势值得考虑。
  • 本地部署价值:作为开源模型,MiMo-V2-Flash支持本地部署,对于有数据隐私要求、需要自主可控的场景,这是相比闭源商用模型的差异化价值。不过需要指出的是,本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。

3、技术简介

小米在技术报告中详细介绍了MiMo-V2-Flash的模型架构和核心技术创新,详情可以访问 https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf:

小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

模型概述

  • MiMo-V2-Flash是一个混合专家(MoE)模型,总参数量为309B,每个token激活参数量为15B,专为快速、强推理和Agent能力而设计。
  • 模型基于标准Transformer架构,增强了MoE和混合注意力机制。主体由48个Transformer层组成,包含39个滑动窗口注意力(SWA)层和9个全局注意力(GA)层。
  • 每个MoE层包含256个专家,每个token激活8个专家,不包含共享专家。

混合滑动窗口注意力架构(Hybrid SWA)

  • MiMo-V2-Flash采用滑动窗口注意力(SWA)与全局注意力(GA)交替的混合架构,比例为5:1,使用128-token的滑动窗口。
  • 这一设计使KV-cache存储和注意力计算在长上下文场景下减少近6倍。
  • 通过引入可学习的注意力sink偏置,混合架构在激进的滑动窗口大小和混合比例下仍能保持强大的建模能力。
  • 技术报告中的实验表明,带有注意力sink偏置的128-token滑动窗口不仅优于512-token滑动窗口,甚至可以超越全局注意力基线,在复杂推理任务上表现更好。

轻量级多Token预测(MTP)

  • MiMo-V2-Flash集成了多Token预测模块,用于提升训练性能和加速推理解码。
  • MTP模块设计轻量,使用小型密集FFN而非MoE,采用SWA而非GA,每个MTP块参数量仅为0.33B。

  • 通过将MTP作为推测解码的原生草稿模型,MiMo-V2-Flash在3层MTP下可实现最高3.6的接受长度和2.6倍的解码加速。

  • MTP加速对RL训练尤其有价值,可以提高小批量、在线策略RL训练的实用性,并缓解长尾样本导致的GPU空闲问题。

预训练

  • MiMo-V2-Flash在27万亿token上进行预训练,采用FP8混合精度训练。
  • 预训练分为三个阶段:
    • Stage 1(0-22T):使用32K上下文长度建立基础语言能力。
    • Stage 2(22-26T):上采样代码数据并引入约5%的合成推理数据。
    • Stage 3(26-27T):将上下文窗口扩展至256K。
  • 数据来源包括公开网页内容、书籍、学术论文、代码、数学和STEM材料,特别强调具有长程依赖的数据。

小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

多教师在线策略蒸馏(MOPD)

  • MiMo-V2-Flash引入了一种新的后训练范式——多教师在线策略蒸馏(Multi-Teacher On-Policy Distillation, MOPD)。
  • MOPD通过三阶段流程解决能力失衡和学习效率低下的问题:
    • (1)通用监督微调(SFT)。
    • (2)领域专业化训练,通过独立RL优化训练多个领域专家教师模型。
    • (3)MOPD阶段,学生模型从自身分布采样,同时接收来自领域教师的token级监督和可验证的结果奖励。
  • 这一框架使MiMo-V2-Flash能够同时掌握各领域教师的峰值能力,同时保持稳定高效的学习动态。

Agent能力训练

  • 代码Agent:在超过12万个真实GitHub issue环境上进行大规模RL训练,模型在代理循环中读取和编辑文件、执行命令,并根据可验证的单元测试获得奖励。
  • 搜索Agent:采用提供三个核心工具(search、open、find)的脚手架进行自主网页探索训练。
  • 通用Agent:包括终端Agent(基于Stack Overflow和Stack Exchange任务)和Web开发Agent(配合多模态视觉判别器)的训练。
  • 技术报告显示,大规模代码Agent RL训练不仅提升代码能力,还能有效泛化到其他任务类型,包括数学、代码和通用推理基准。

4、官方评测

小米在技术报告中公布了MiMo-V2-Flash在多个基准测试上的详细评测结果:

小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡
小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡
小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

推理能力

  • AIME 2025(数学竞赛):94.1%,与Kimi-K2-Thinking(94.5%)、GPT-5 High(94.6%)接近,超过Claude Sonnet 4.5(87.0%)。
  • GPQA-Diamond(科学知识):83.7%,与Kimi-K2-Thinking(84.5%)和DeepSeek-V3.2-Think(82.4%)相当。
  • HLE无工具(学术推理):22.1%,低于Gemini-3.0-Pro(37.5%)和GPT-5 High(26.3%)。
  • LiveCodeBench-v6:80.6%,与Kimi-K2-Thinking(83.1%)和DeepSeek-V3.2-Think(83.3%)接近。

代码Agent能力

  • SWE-Bench Verified:73.4%,超越所有开源竞争者,接近GPT-5 High(74.9%)的表现,官方称其为“最具能力的开源软件工程LLM”。
  • SWE-Bench Multilingual:71.7%,超过DeepSeek-V3.2-Think(70.2%)和Kimi-K2-Thinking(61.1%)。
  • Terminal-Bench Hard:30.5%,与Kimi-K2-Thinking(30.6%)和GPT-5 High(30.5%)相当。

通用Agent能力

  • BrowseComp(搜索Agent):45.4%,配合上下文管理方法可提升至58.3%。
  • τ²-Bench(通用工具使用):80.3%,与DeepSeek-V3.2-Think持平,接近Gemini-3.0-Pro(85.4%)和Claude Sonnet 4.5(84.7%)。
  • Tau2-Bench(Agent工具使用):官方在Figure 1中展示得分为80.3%,与GPT-5 High持平。

长上下文能力

  • NIAH-Multi检索:从32K到256K上下文长度均接近100%成功率(32K: 99.3%, 64K: 99.9%, 128K: 98.6%, 256K: 96.7%)。
  • GSM-Infinite(极端长上下文推理):从16K到128K表现稳定,性能衰减较小(16K: 37.7%, 32K: 33.7%, 64K: 31.5%, 128K: 29.0%),优于Kimi-K2-Base在64K和128K的表现。
  • LongBench V2:60.6%,超过Kimi-K2-Thinking(45.1%)和DeepSeek-V3.2-Think(58.4%)。

通用写作能力

  • Arena-Hard(Hard Prompt):54.1%,低于Kimi-K2-Thinking(71.9%)和Gemini-3.0-Pro(72.6%)。
  • Arena-Hard(Creative Writing):86.2%,与DeepSeek-V3.2-Think(88.8%)接近。

官方表示,MiMo-V2-Flash在大多数推理基准上达到了与Kimi-K2-Thinking和DeepSeek-V3.2-Think相当的性能。在长上下文评测中超越了规模更大的Kimi-K2-Thinking,展现了混合SWA架构的优势。在Agent任务上,SWE-Bench Verified达到73.4%,超越所有开源竞争者;SWE-Bench Multilingual解决了71.7%的问题,官方称其为“最具能力的软件工程开源LLM”。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14359

(1)
上一篇 2025年12月21日 下午1:58
下一篇 2025年12月21日 下午10:11

相关推荐

  • GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

    智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…

    2025年10月17日
    39300
  • 超越结果正确:Coding Agent过程合规评测新范式揭秘

    在 AI 辅助编程工具的实际应用中,一个值得深思的现象正在浮现:用户对 Agent 的不满,往往不是因为它“做不到”,而是因为它“做得不对”。通过观察用户反馈,最高频的抱怨指向同一个问题:Agent 不遵循明确给出的指令。这些场景或许并不陌生——用户在系统提示中明确要求“不要使用 emoji”,Agent 却在代码注释里加上表情符号;用户要求“先备份再修改”…

    2026年1月15日
    7800
  • ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

    百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…

    2026年1月24日
    4800
  • 美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…

    2026年1月18日
    5500
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    6700