MiniMax M3震撼发布：首个集齐Coding、百万上下文、多模态三件套的开源模型

从“缝合怪”到“原生体”：MiniMax M3 如何重塑大模型的“三体合一”法则

2026年的夏天，大模型领域迎来了一记重锤。当行业还在争论“长上下文”与“多模态”究竟哪个更难攻克时，MiniMax 用 M3 给出了一个近乎蛮横的答案：我全都要，并且还要开源。

这绝非简单的功能叠加。如果我们将此前的主流模型比作“乐高积木”——文本理解是底盘，视觉能力是外挂的轮子，长上下文是额外加长的链条——那么 M3 更像是从一块完整的金属胚中直接锻造出的“原生体”。它打破了“先练文本，再补多模态，最后硬撑长上下文”的行业惯性，从训练的第一步起，就让文本、图像、视频以一种天然交织的姿态生长在一起。

MiniMax M3震撼发布：首个集齐Coding、百万上下文、多模态三件套的开源模型

这种“原生性”带来的第一个直观冲击，便是其自研的 MiniMax Sparse Attention 架构（MSA）。面对百万 token 的上下文，传统全注意力机制的计算量会膨胀近千倍，如同让一个图书管理员每次找书都要把整个图书馆的书架全部扫视一遍。MSA 的逻辑则聪明得多：它引入“区块级选择”，注意力直接作用于未压缩的原始 Key-Value，但只聚焦于最相关的信息块。这就像一位经验丰富的侦探，面对堆积如山的卷宗，能瞬间跳过无关的街景描述，直接锁定案发现场的指纹报告。

结果令人咋舌：在 100 万上下文规模下，M3 单 token 计算量仅为上代模型的约 1/20，Prefilling 阶段加速超过 9 倍，Decoding 阶段加速超过 15 倍。这意味着，当你把一整本《三体》三部曲连同所有读者的万字长评一次性丢给它时，它不仅能记住罗辑与庄颜的对话，还能在分析到叶文洁的动机时，精准调出 50 万 token 前关于“主”的细节——且速度比上一代模型快了近一个数量级。

但真正让 M3 从“参数游戏”中脱颖而出的，是其 Agent 能力中展现出的“类人韧性”。在 MiniMax 内部的一个极端测试中，他们让 M3 从一份残缺的 Triton 骨架出发，在 NVIDIA Hopper 架构 GPU 上独立优化 FP8 矩阵乘法 kernel。这不是简单的代码补全，而是需要模型自主理解硬件架构、设计优化策略、编写并调试 CUDA 算子的全流程工程挑战。

结果令人震撼：M3 连续自主运行约 24 小时，完成了 147 次 benchmark 提交和 1959 次工具调用，将硬件峰值利用率从 7.6% 提升至 71.3%，实现 9.4 倍加速。更耐人寻味的是，最优解出现在第 145 次提交——在此之前，模型经历了多个性能“平台期”，但它没有像其他模型那样在 30 次提交后便主动停止，而是像一位固执的工程师，反复尝试新的优化路径，直到找到那个最优的“黄金参数”。这种“不放弃”的探索行为，或许比单次代码生成的准确率更能定义未来 Agent 的智能边界。

MiniMax M3震撼发布：首个集齐Coding、百万上下文、多模态三件套的开源模型

这种能力的背后，是 M3 在训练中引入的“交互式用户模拟器框架”。它让模型在训练阶段就接触到接近真实生产环境的协作场景：不是单轮指令执行，而是需要在同一个 Session 里持续澄清需求、根据反馈调整方案、跨任务切换。这使得 M3 写出的代码目标不是“能跑但需要人改”，而是“直接可交付”。

而在多模态领域，M3 同样展现了“原生体”的独特优势。在 OmniDocBench 测试集上，M3 得分超过 Gemini 3.1 Pro，这得益于其从 Step 0 开始进行的多模态混合训练。MiniMax 重构了整套数据管线，将预训练数据规模扩充至 100 万亿 token 量级，其中大规模引入的 Interleaved Data（交错数据）是关键。这类数据让图文在语义和位置上天然对齐，模型学习到的不是简单的“看图说话”，而是“在上下文中理解视觉信息”。

MiniMax M3震撼发布：首个集齐Coding、百万上下文、多模态三件套的开源模型

一个生动的例证是，我们让 M3 将一段 40 分钟的 Andrej Karpathy 演讲视频，直接转化为一篇 5000 字左右的媒体报道文章。没有大纲，没有格式要求，仅一句提示词。16 分钟后，M3 交付了一篇章节结构清晰、截图选取与段落节奏对仗工整、毫无“AI 腔”的成品。对于媒体编辑而言，最高的评价不是“写得很好”，而是“不用改”——这篇基本达到了这个标准。

随着 M3 的发布，MiniMax 同步推出了 Token Plan 订阅方案。Plus 版每月 49 元提供 6 亿 token，Max 版每月 119 元提供 18 亿 token，Ultra 版每月 469 元提供 55 亿 token。按相同价格折算，约是 Claude 订阅的 15 倍用量。这样的定价，配合即将在 HuggingFace 和 GitHub 上开源的模型权重，无疑将促使更多开发者重新审视自己的模型选型逻辑。

MiniMax M3震撼发布：首个集齐Coding、百万上下文、多模态三件套的开源模型