MiniMax推出了新一代开源模型M2.5,官方称其为“为现实世界生产力设计的开源前沿模型”。
性能数据:逼近Claude Opus

关键性能指标显示M2.5已跻身顶级模型行列:
* SWE-Bench Verified 80.2%:与Claude Opus 4.6持平
* BrowseComp 76.3%:行业领先的搜索和工具使用能力
* Multi-SWE-Bench 51.3%:多语言编程最高分
* BFCL工具调用 76.8%:高精度代理工作流
* 速度提升37%:端到端任务完成时间大幅缩短

技术架构:稀疏计算的突破
M2.5的效率来源于其混合专家(MoE)架构。模型拥有2300亿参数,但每次推理只激活100亿个参数。这让它既保持了大模型的推理深度,又具备了小模型的敏捷性。

训练过程中,MiniMax开发了专有的强化学习框架Forge。工程师Olive Song在ThursdAI播客中透露,这套系统让AI在数千个模拟工作环境中练习编程和工具使用,训练周期为两个月。
为保持训练稳定性,团队采用了CISPO(裁剪重要性采样策略优化)数学方法。这确保模型在强化学习过程中不会过度修正,最终形成了所谓的“架构师思维”——在编写代码前主动规划项目结构、功能和接口。
价格革命:从奢侈品到日用品
MiniMax提供两个版本:
* M2.5-Lightning:100 tokens/秒,输入$0.30/百万tokens,输出$2.40/百万tokens
* 标准M2.5:50 tokens/秒,输入$0.15/百万tokens,输出$1.20/百万tokens

按官方计算,单个任务成本约$0.15,而Claude Opus 4.6需要$3.00。企业可以用约1万美元让四个AI“员工”连续工作一整年。
实战应用:从聊天机器人到AI员工
M2.5已在MiniMax内部大规模部署。目前公司30%的任务由M2.5完成,80%的新提交代码由M2.5生成。模型专门针对企业办公场景优化,能够创建Word、Excel和PowerPoint文件,在金融建模方面得分74.4%。

团队与金融、法律和社会科学领域的资深专业人士合作,确保模型能达到行业标准。这种“AI作为员工”的定位,标志着从简单问答工具向自主工作代理的转变。
在真实场景测试中,M2.5成功完成了通过GitHub API审核PR、根据git blame分配代码审查任务、修复前端显示问题等复杂操作。不过测试也发现了一些小问题,比如偶尔会推送到错误的分支,或在特定指令下忘记添加解决方案标签。

小结
继智谱发布GLM-5后,同为最近热门的MiniMax也再次展示出强劲实力。在GPU资源相对受限的情况下,中国公司与美国顶级实验室的差距已大大缩小,并且在成本上有较大优势。从最近一些Agent项目和编程工具内置模型情况来看,中国模型已经是必选项之一。

另一个趋势是,问答应用已经明确向面向结果的自主运行的长任务智能体转变,这本质上得益于模型性能提升和成本下降。随着这两个指标的不断优化,将会有越来越多的应用朝这个方向前进。数字员工、无人公司正在成为现实。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21446
