MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

MiniMax推出了新一代开源模型M2.5,官方称其为“为现实世界生产力设计的开源前沿模型”。

性能数据:逼近Claude Opus

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

关键性能指标显示M2.5已跻身顶级模型行列:
* SWE-Bench Verified 80.2%:与Claude Opus 4.6持平
* BrowseComp 76.3%:行业领先的搜索和工具使用能力
* Multi-SWE-Bench 51.3%:多语言编程最高分
* BFCL工具调用 76.8%:高精度代理工作流
* 速度提升37%:端到端任务完成时间大幅缩短

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90% MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

技术架构:稀疏计算的突破

M2.5的效率来源于其混合专家(MoE)架构。模型拥有2300亿参数,但每次推理只激活100亿个参数。这让它既保持了大模型的推理深度,又具备了小模型的敏捷性。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

训练过程中,MiniMax开发了专有的强化学习框架Forge。工程师Olive Song在ThursdAI播客中透露,这套系统让AI在数千个模拟工作环境中练习编程和工具使用,训练周期为两个月。

为保持训练稳定性,团队采用了CISPO(裁剪重要性采样策略优化)数学方法。这确保模型在强化学习过程中不会过度修正,最终形成了所谓的“架构师思维”——在编写代码前主动规划项目结构、功能和接口。

价格革命:从奢侈品到日用品

MiniMax提供两个版本:
* M2.5-Lightning:100 tokens/秒,输入$0.30/百万tokens,输出$2.40/百万tokens
* 标准M2.5:50 tokens/秒,输入$0.15/百万tokens,输出$1.20/百万tokens

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

按官方计算,单个任务成本约$0.15,而Claude Opus 4.6需要$3.00。企业可以用约1万美元让四个AI“员工”连续工作一整年。

实战应用:从聊天机器人到AI员工

M2.5已在MiniMax内部大规模部署。目前公司30%的任务由M2.5完成,80%的新提交代码由M2.5生成。模型专门针对企业办公场景优化,能够创建Word、Excel和PowerPoint文件,在金融建模方面得分74.4%。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

团队与金融、法律和社会科学领域的资深专业人士合作,确保模型能达到行业标准。这种“AI作为员工”的定位,标志着从简单问答工具向自主工作代理的转变。

在真实场景测试中,M2.5成功完成了通过GitHub API审核PR、根据git blame分配代码审查任务、修复前端显示问题等复杂操作。不过测试也发现了一些小问题,比如偶尔会推送到错误的分支,或在特定指令下忘记添加解决方案标签。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

小结

继智谱发布GLM-5后,同为最近热门的MiniMax也再次展示出强劲实力。在GPU资源相对受限的情况下,中国公司与美国顶级实验室的差距已大大缩小,并且在成本上有较大优势。从最近一些Agent项目和编程工具内置模型情况来看,中国模型已经是必选项之一。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

另一个趋势是,问答应用已经明确向面向结果的自主运行的长任务智能体转变,这本质上得益于模型性能提升和成本下降。随着这两个指标的不断优化,将会有越来越多的应用朝这个方向前进。数字员工、无人公司正在成为现实。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21446

(0)
上一篇 1天前
下一篇 23小时前

相关推荐

  • 别再把 AI 当“自动补全”了:代码智能体真正的用法被忽视了

    写出更简洁、更聪明的 Python 函数 许多开发者,包括经验丰富的老手,在编写 Python 函数时都会不自觉地陷入一些常见陷阱。这些做法短期内或许不会引发问题,但随着代码库的增长,它们会导致代码变得难以维护、效率低下。 如果你对 Python 函数的理解还停留在“能跑就行”,现在是时候升级你的认知了。了解这些常见误区并采用最佳实践,能让你的代码焕然一新。…

    2025年11月10日
    15200
  • Gemini 3 揭示AI研发新范式:从算法灵感转向系统工程,精细化时代如何重塑智能进化?

    内容来源 —— “We’re Ahead of Where I Thought We’d Be — Gemini 3 & the Future of AI”观看网址:https://www.youtube.com/watch?v=cNGDAqFXvew 在AI模型性能持续突破的今天,我们或许需要重新审视一个问题:驱动智能进化的,究竟是偶然的算法灵感,…

    2025年12月26日
    12000
  • 华为发布扩散语言模型Agent:部分场景效率飙升8倍,开启AI智能体新范式

    大模型通往现实世界的“最后三公里”:Agent范式迎来效率革命 当前,衡量AI智能体(Agent)能力的标准已发生深刻变化。核心不再仅仅是“答对问题”,而是看其能否在面对多轮推理、工具调用及复杂协作时,以最短的路径和最少的交互成本,稳定地完成任务。 在此背景下,一个根本性问题凸显出来:当Agent的框架、工具、数据和训练方式均保持一致时,仅改变其底层语言模型…

    3天前
    2800
  • 2026数据中心机房建设新纪元:算力适配、绿色低碳与智能协同的全流程方案

    2026年,随着“十五五”规划将“全国一体化算力网”纳入国家级基础设施体系,数据中心机房建设正式进入“算力适配、绿色低碳、智能协同、安全可控”的高质量发展新阶段。 本方案立足《算力互联互通行动计划》等最新政策要求,结合GB 50174-2017规范延伸适配及2026年技术迭代趋势,整合传统机房与微模块机房的建设经验,融入产业链全维度分析,提供兼具科学性、技术…

    3天前
    3900
  • COMET框架:突破AI加速器性能瓶颈,显式建模集体通信与复合操作数据流

    关键词:复合操作数据流建模、集体通信操作、内存层级优化、机器学习加速器、性能建模与优化 在人工智能技术日新月异的今天,大语言模型、状态空间模型等复杂神经网络已成为推动技术发展的核心引擎。然而,这些模型所依赖的复合操作——即由多个基础操作(如矩阵乘法、归一化、逐元素变换)组合而成的结构化模块——正在对现有的硬件加速器数据流设计与性能优化提出严峻挑战。 传统的数…

    2026年1月26日
    7500