MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

MiniMax推出了新一代开源模型M2.5,官方称其为“为现实世界生产力设计的开源前沿模型”。

性能数据:逼近Claude Opus

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

关键性能指标显示M2.5已跻身顶级模型行列:
* SWE-Bench Verified 80.2%:与Claude Opus 4.6持平
* BrowseComp 76.3%:行业领先的搜索和工具使用能力
* Multi-SWE-Bench 51.3%:多语言编程最高分
* BFCL工具调用 76.8%:高精度代理工作流
* 速度提升37%:端到端任务完成时间大幅缩短

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90% MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

技术架构:稀疏计算的突破

M2.5的效率来源于其混合专家(MoE)架构。模型拥有2300亿参数,但每次推理只激活100亿个参数。这让它既保持了大模型的推理深度,又具备了小模型的敏捷性。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

训练过程中,MiniMax开发了专有的强化学习框架Forge。工程师Olive Song在ThursdAI播客中透露,这套系统让AI在数千个模拟工作环境中练习编程和工具使用,训练周期为两个月。

为保持训练稳定性,团队采用了CISPO(裁剪重要性采样策略优化)数学方法。这确保模型在强化学习过程中不会过度修正,最终形成了所谓的“架构师思维”——在编写代码前主动规划项目结构、功能和接口。

价格革命:从奢侈品到日用品

MiniMax提供两个版本:
* M2.5-Lightning:100 tokens/秒,输入$0.30/百万tokens,输出$2.40/百万tokens
* 标准M2.5:50 tokens/秒,输入$0.15/百万tokens,输出$1.20/百万tokens

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

按官方计算,单个任务成本约$0.15,而Claude Opus 4.6需要$3.00。企业可以用约1万美元让四个AI“员工”连续工作一整年。

实战应用:从聊天机器人到AI员工

M2.5已在MiniMax内部大规模部署。目前公司30%的任务由M2.5完成,80%的新提交代码由M2.5生成。模型专门针对企业办公场景优化,能够创建Word、Excel和PowerPoint文件,在金融建模方面得分74.4%。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

团队与金融、法律和社会科学领域的资深专业人士合作,确保模型能达到行业标准。这种“AI作为员工”的定位,标志着从简单问答工具向自主工作代理的转变。

在真实场景测试中,M2.5成功完成了通过GitHub API审核PR、根据git blame分配代码审查任务、修复前端显示问题等复杂操作。不过测试也发现了一些小问题,比如偶尔会推送到错误的分支,或在特定指令下忘记添加解决方案标签。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

小结

继智谱发布GLM-5后,同为最近热门的MiniMax也再次展示出强劲实力。在GPU资源相对受限的情况下,中国公司与美国顶级实验室的差距已大大缩小,并且在成本上有较大优势。从最近一些Agent项目和编程工具内置模型情况来看,中国模型已经是必选项之一。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

另一个趋势是,问答应用已经明确向面向结果的自主运行的长任务智能体转变,这本质上得益于模型性能提升和成本下降。随着这两个指标的不断优化,将会有越来越多的应用朝这个方向前进。数字员工、无人公司正在成为现实。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21446

(0)
上一篇 2026年2月13日 上午6:59
下一篇 2026年2月13日 上午11:45

相关推荐

  • 李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

    “AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

    2025年10月17日
    48200
  • GitHub精选:4款颠覆性文档工具,从协作平台到本地AI助手

    文档协作平台 Docs 是一个功能强大的开源文档协作平台,其背景相当硬核,由法国和德国政府联合发起。该项目已在 GitHub 上获得了超过 15.5K 的 Star。 这是一个支持实时协作的文档平台,非常适合用于做笔记、撰写文档或搭建团队知识库。 编辑器采用了流行的块状编辑模式,允许用户随意拖拽段落、图片和表格。在多人同时在线编辑时,你可以实时看到队友的光标…

    2026年1月24日
    19700
  • OpenAI算力支出大调整:从1.4万亿到6000亿,AI行业理性转型的深度技术解析

    2026年2月21日,AI行业迎来重磅消息——ChatGPT开发商OpenAI向投资者披露,其调整后至2030年的总算力支出目标确定为6000亿美元。 这一数字较此前CEO山姆·奥尔特曼宣称的1.4万亿美元大幅缩水近60%,不仅震惊硅谷与华尔街,更被业内视为全球AI行业从“激进扩张”向“理性深耕”转型的标志性信号。 本文将从事件核心解读、技术逻辑支撑、财务底…

    AI产业动态 2026年2月22日
    13800
  • AI智能体团队革命:基于Clawdbot的虚拟团队如何接管企业核心业务

    无人公司正在成为现实。 最近,AI智能客服公司SiteGPT的创始人在社交媒体上分享了他利用Clawdbot构建AI智能体团队的经验。这套名为“Mission Control”的系统包含10个不同角色的AI智能体,能够像真实团队一样协同工作。 单一AI助手的局限性 这位开发者经营着一家AI客服公司,日常大量使用AI工具。但他发现现有AI工具存在一个共同问题:…

    2026年2月2日
    19600
  • DragonMemory:序列维度压缩技术革新RAG系统,16倍压缩比突破本地部署瓶颈

    在人工智能快速发展的浪潮中,检索增强生成(RAG)系统已成为连接大语言模型与外部知识库的关键桥梁。然而,随着应用场景的复杂化,上下文长度和内存成本问题日益凸显,成为制约RAG系统在资源受限环境中部署的主要障碍。传统解决方案多采用量化、剪枝等技术,但这些方法往往以牺牲语义精度为代价。近期,GitHub上出现的开源项目DragonMemory,以其创新的序列维度…

    2025年11月25日
    16300