MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

从“缝合怪”到“原生体”:MiniMax M3 如何重塑大模型的“三体合一”法则

2026年的夏天,大模型领域迎来了一记重锤。当行业还在争论“长上下文”与“多模态”究竟哪个更难攻克时,MiniMax 用 M3 给出了一个近乎蛮横的答案:我全都要,并且还要开源。

这绝非简单的功能叠加。如果我们将此前的主流模型比作“乐高积木”——文本理解是底盘,视觉能力是外挂的轮子,长上下文是额外加长的链条——那么 M3 更像是从一块完整的金属胚中直接锻造出的“原生体”。它打破了“先练文本,再补多模态,最后硬撑长上下文”的行业惯性,从训练的第一步起,就让文本、图像、视频以一种天然交织的姿态生长在一起。

MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

这种“原生性”带来的第一个直观冲击,便是其自研的 MiniMax Sparse Attention 架构(MSA)。面对百万 token 的上下文,传统全注意力机制的计算量会膨胀近千倍,如同让一个图书管理员每次找书都要把整个图书馆的书架全部扫视一遍。MSA 的逻辑则聪明得多:它引入“区块级选择”,注意力直接作用于未压缩的原始 Key-Value,但只聚焦于最相关的信息块。这就像一位经验丰富的侦探,面对堆积如山的卷宗,能瞬间跳过无关的街景描述,直接锁定案发现场的指纹报告。

结果令人咋舌:在 100 万上下文规模下,M3 单 token 计算量仅为上代模型的约 1/20,Prefilling 阶段加速超过 9 倍,Decoding 阶段加速超过 15 倍。这意味着,当你把一整本《三体》三部曲连同所有读者的万字长评一次性丢给它时,它不仅能记住罗辑与庄颜的对话,还能在分析到叶文洁的动机时,精准调出 50 万 token 前关于“主”的细节——且速度比上一代模型快了近一个数量级。

但真正让 M3 从“参数游戏”中脱颖而出的,是其 Agent 能力中展现出的“类人韧性”。在 MiniMax 内部的一个极端测试中,他们让 M3 从一份残缺的 Triton 骨架出发,在 NVIDIA Hopper 架构 GPU 上独立优化 FP8 矩阵乘法 kernel。这不是简单的代码补全,而是需要模型自主理解硬件架构、设计优化策略、编写并调试 CUDA 算子的全流程工程挑战。

结果令人震撼:M3 连续自主运行约 24 小时,完成了 147 次 benchmark 提交和 1959 次工具调用,将硬件峰值利用率从 7.6% 提升至 71.3%,实现 9.4 倍加速。更耐人寻味的是,最优解出现在第 145 次提交——在此之前,模型经历了多个性能“平台期”,但它没有像其他模型那样在 30 次提交后便主动停止,而是像一位固执的工程师,反复尝试新的优化路径,直到找到那个最优的“黄金参数”。这种“不放弃”的探索行为,或许比单次代码生成的准确率更能定义未来 Agent 的智能边界。

MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

这种能力的背后,是 M3 在训练中引入的“交互式用户模拟器框架”。它让模型在训练阶段就接触到接近真实生产环境的协作场景:不是单轮指令执行,而是需要在同一个 Session 里持续澄清需求、根据反馈调整方案、跨任务切换。这使得 M3 写出的代码目标不是“能跑但需要人改”,而是“直接可交付”。

而在多模态领域,M3 同样展现了“原生体”的独特优势。在 OmniDocBench 测试集上,M3 得分超过 Gemini 3.1 Pro,这得益于其从 Step 0 开始进行的多模态混合训练。MiniMax 重构了整套数据管线,将预训练数据规模扩充至 100 万亿 token 量级,其中大规模引入的 Interleaved Data(交错数据)是关键。这类数据让图文在语义和位置上天然对齐,模型学习到的不是简单的“看图说话”,而是“在上下文中理解视觉信息”。

MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

一个生动的例证是,我们让 M3 将一段 40 分钟的 Andrej Karpathy 演讲视频,直接转化为一篇 5000 字左右的媒体报道文章。没有大纲,没有格式要求,仅一句提示词。16 分钟后,M3 交付了一篇章节结构清晰、截图选取与段落节奏对仗工整、毫无“AI 腔”的成品。对于媒体编辑而言,最高的评价不是“写得很好”,而是“不用改”——这篇基本达到了这个标准。

随着 M3 的发布,MiniMax 同步推出了 Token Plan 订阅方案。Plus 版每月 49 元提供 6 亿 token,Max 版每月 119 元提供 18 亿 token,Ultra 版每月 469 元提供 55 亿 token。按相同价格折算,约是 Claude 订阅的 15 倍用量。这样的定价,配合即将在 HuggingFace 和 GitHub 上开源的模型权重,无疑将促使更多开发者重新审视自己的模型选型逻辑。

MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

一个开源模型,同时集齐了“前沿 Coding 能力、1M 超长上下文、原生多模态”这三块拼图,这在过去被认为是只有头部闭源模型才能触及的领域。M3 的出现,让“闭源护城河”的叙事开始松动。当能力不再是稀缺品,真正的竞争将回归到生态、场景和落地效率。

MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

那么,下一个问题来了:当模型能够自主完成从代码编写到论文复现,再到视频内容生成的全链路任务时,人类开发者、内容创作者的角色将如何重新定义?是作为“监督者”掌控方向,还是作为“协作伙伴”共同进化?M3 给出了一个技术上的答案,而真正的社会性答案,才刚刚开始书写。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/37106

(0)
上一篇 11小时前
下一篇 10小时前

相关推荐

  • Anthropic秘密递交S-1招股书,估值逼近万亿美元,AI御三家冲刺IPO

    万亿估值与“安全祭司”的战争:Anthropic 的 IPO,是信仰变现还是霸权加冕? 2026年6月1日,Anthropic 向SEC秘密递交了招股书。这个从OpenAI“叛逃”出来的团队,即将以接近万亿美元的估值登陆纳斯达克。消息一出,市场哗然——五年前,它还只是一个关于“AI安全”的理想主义实验室;五年后,它却成了全球资本市场最炙手可热的标的。 但如果…

    AI产业动态 10小时前
    2800
  • Anthropic开源杀手级插件:Claude Cowork插件库已17K星,办公岗位全覆盖

    Anthropic 在年初扔下了一枚重磅炸弹:Claude Cowork。它的定位很简单,就是把原来只有开发者能玩的 AI Agent 能力,直接推向所有办公人群。这个动作的冲击力,从国内这几个月冒出的无数个模仿它的 Agent 产品就能看出来。 但真正让我觉得值得深挖的,是最近在 GitHub 上发现的一个叫 Knowledge Work Plugins …

    11小时前
    3600
  • 国产模型Speed 3.7 Flash开源:400 TPS速度碾压编程办公,Agent效率革命来了

    从“快”到“高效”:2026年,AI模型进入效率革命的新纪元 回顾过去几年国产大模型的能力演进,你会发现一条清晰又耐人寻味的轨迹。 2024年,大家都在拼“极限”。MMLU 刷到了多少分?MATH 能解多难的题?编程能力能不能排进全球前三?那是属于“单点能力军备竞赛”的一年,模型在某个特定领域里越走越深。 2025年,风向骤变。Agent 成为绝对主角。大家…

    11小时前
    4500
  • AI自我进化加速:60%概率2028实现递归自改进,OpenAI重金招聘

    在2026年的这个春天,当我们谈论AI时,语境已经发生了根本性的位移。三年前,我们还在惊叹于GPT-3.5能写出流畅的对话,Midjourney能画出“像照片一样”的图。但今天,评判AI的标准不再是“它像不像人类”,而是“它能为我完成什么具体的事”。从阿里千问的“能说更能干”到深度原理MIRA的“自我科研”,AI正在经历一场从“语言玩具”到“行动引擎”的蜕变…

    10小时前
    3100
  • Qwen3.7-Plus发布:多模态智能体终结对话AI,从看懂到干完

    2026年6月2日,阿里云悄悄上架了一个新模型。它没有召开盛大的发布会,也没有铺天盖地的营销,但如果你是一个AI开发者或深度用户,很可能已经注意到了那个名字——Qwen3.7-Plus。 这不仅仅是一次常规的版本迭代。在“Plus”这个后缀背后,隐藏着一个关键的战略转向:AI正在从被动的“问答机器”,蜕变为主动的“数字员工”。它能看、能想、能写、能做,甚至能…

    7小时前
    4300