MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

MiniMax推出了新一代开源模型M2.5,官方称其为“为现实世界生产力设计的开源前沿模型”。

性能数据:逼近Claude Opus

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

关键性能指标显示M2.5已跻身顶级模型行列:
* SWE-Bench Verified 80.2%:与Claude Opus 4.6持平
* BrowseComp 76.3%:行业领先的搜索和工具使用能力
* Multi-SWE-Bench 51.3%:多语言编程最高分
* BFCL工具调用 76.8%:高精度代理工作流
* 速度提升37%:端到端任务完成时间大幅缩短

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90% MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

技术架构:稀疏计算的突破

M2.5的效率来源于其混合专家(MoE)架构。模型拥有2300亿参数,但每次推理只激活100亿个参数。这让它既保持了大模型的推理深度,又具备了小模型的敏捷性。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

训练过程中,MiniMax开发了专有的强化学习框架Forge。工程师Olive Song在ThursdAI播客中透露,这套系统让AI在数千个模拟工作环境中练习编程和工具使用,训练周期为两个月。

为保持训练稳定性,团队采用了CISPO(裁剪重要性采样策略优化)数学方法。这确保模型在强化学习过程中不会过度修正,最终形成了所谓的“架构师思维”——在编写代码前主动规划项目结构、功能和接口。

价格革命:从奢侈品到日用品

MiniMax提供两个版本:
* M2.5-Lightning:100 tokens/秒,输入$0.30/百万tokens,输出$2.40/百万tokens
* 标准M2.5:50 tokens/秒,输入$0.15/百万tokens,输出$1.20/百万tokens

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

按官方计算,单个任务成本约$0.15,而Claude Opus 4.6需要$3.00。企业可以用约1万美元让四个AI“员工”连续工作一整年。

实战应用:从聊天机器人到AI员工

M2.5已在MiniMax内部大规模部署。目前公司30%的任务由M2.5完成,80%的新提交代码由M2.5生成。模型专门针对企业办公场景优化,能够创建Word、Excel和PowerPoint文件,在金融建模方面得分74.4%。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

团队与金融、法律和社会科学领域的资深专业人士合作,确保模型能达到行业标准。这种“AI作为员工”的定位,标志着从简单问答工具向自主工作代理的转变。

在真实场景测试中,M2.5成功完成了通过GitHub API审核PR、根据git blame分配代码审查任务、修复前端显示问题等复杂操作。不过测试也发现了一些小问题,比如偶尔会推送到错误的分支,或在特定指令下忘记添加解决方案标签。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

小结

继智谱发布GLM-5后,同为最近热门的MiniMax也再次展示出强劲实力。在GPU资源相对受限的情况下,中国公司与美国顶级实验室的差距已大大缩小,并且在成本上有较大优势。从最近一些Agent项目和编程工具内置模型情况来看,中国模型已经是必选项之一。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

另一个趋势是,问答应用已经明确向面向结果的自主运行的长任务智能体转变,这本质上得益于模型性能提升和成本下降。随着这两个指标的不断优化,将会有越来越多的应用朝这个方向前进。数字员工、无人公司正在成为现实。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21446

(0)
上一篇 2026年2月13日 上午6:59
下一篇 2026年2月13日 上午11:45

相关推荐

  • Kimi Claw重磅发布:云端一键部署AI助手,支持5000+技能与40GB免费空间

    打开 Kimi 官网,你会发现刚刚上线的 Kimi Claw 功能。这可以看作是 Kimi 版的 OpenClaw。 现在,你无需再受限于硬件或复杂的部署流程。通过 Kimi Claw,即可实现云端一键部署。无需购买服务器或编写代码,只需一键,就能在云端拥有一个搭载 Kimi K2.5 Thinking 模型 的全天候 AI 助手。在官网点击创建,你就能获得…

    2026年2月16日
    1.0K00
  • 从萨默斯辞职审视OpenAI治理危机:精英光环褪色与AI伦理的深层悖论

    近日,OpenAI董事会成员、前美国财政部长劳伦斯·萨默斯因与性犯罪者杰弗里·爱泼斯坦的不当通信被曝光而被迫辞职,这一事件不仅终结了萨默斯在硅谷与学术界的权力生涯,更在OpenAI完成商业化转型的关键节点,揭示了其精英治理结构的脆弱性。随着美国众议院监督委员会公开近20000页文件,萨默斯向爱泼斯坦寻求“浪漫建议”的邮件细节浮出水面,其中涉及对女性的物化言论…

    2025年11月20日
    23000
  • 春晚舞台上演机器人功夫秀:宇树科技全自主集群控制技术全球首秀

    这已经是宇树机器人第三次亮相春晚,却带来了前所未有的震撼。 在今年的央视春节联欢晚会上,全球领先的宇树科技将舞台变成了新技术的展示场。一群活力十足的人形机器人上演了一出武术表演《武 BOT》,全程镜头连贯,几乎没有切换。 表演中的人形机器人型号包括现象级的 G1 以及刚刚发布的 H2。它们在快速奔跑中完成了穿插变阵和复杂的武术动作。这种高动态、高协同的全自主…

    2026年2月19日
    20700
  • AI自我进化时代已来!Anthropic承认观察到递归自我改进早期迹象,完全自动化AI研究或一年内实现

    Anthropic如今已成为AI领域的焦点。其技术不仅引领了全球性的智能体开发浪潮,更在《时代》周刊的封面文章中透露了关键信息:AI递归自我提升的时代可能提前到来。 文章中的一个核心判断是:完全自动化的AI研究,可能在一年内实现。 几乎在同一时间,Anthropic宣布成立一个由30人内部智库组成的新研究所,旨在直接研究AI对社会的影响。该公司预测,未来两年…

    2026年3月18日
    26600
  • OpenAI算力支出大调整:从1.4万亿到6000亿,AI行业理性转型的深度技术解析

    2026年2月21日,AI行业迎来重磅消息——ChatGPT开发商OpenAI向投资者披露,其调整后至2030年的总算力支出目标确定为6000亿美元。 这一数字较此前CEO山姆·奥尔特曼宣称的1.4万亿美元大幅缩水近60%,不仅震惊硅谷与华尔街,更被业内视为全球AI行业从“激进扩张”向“理性深耕”转型的标志性信号。 本文将从事件核心解读、技术逻辑支撑、财务底…

    AI产业动态 2026年2月22日
    35700