MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

MiniMax推出了新一代开源模型M2.5,官方称其为“为现实世界生产力设计的开源前沿模型”。

性能数据:逼近Claude Opus

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

关键性能指标显示M2.5已跻身顶级模型行列:
* SWE-Bench Verified 80.2%:与Claude Opus 4.6持平
* BrowseComp 76.3%:行业领先的搜索和工具使用能力
* Multi-SWE-Bench 51.3%:多语言编程最高分
* BFCL工具调用 76.8%:高精度代理工作流
* 速度提升37%:端到端任务完成时间大幅缩短

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90% MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

技术架构:稀疏计算的突破

M2.5的效率来源于其混合专家(MoE)架构。模型拥有2300亿参数,但每次推理只激活100亿个参数。这让它既保持了大模型的推理深度,又具备了小模型的敏捷性。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

训练过程中,MiniMax开发了专有的强化学习框架Forge。工程师Olive Song在ThursdAI播客中透露,这套系统让AI在数千个模拟工作环境中练习编程和工具使用,训练周期为两个月。

为保持训练稳定性,团队采用了CISPO(裁剪重要性采样策略优化)数学方法。这确保模型在强化学习过程中不会过度修正,最终形成了所谓的“架构师思维”——在编写代码前主动规划项目结构、功能和接口。

价格革命:从奢侈品到日用品

MiniMax提供两个版本:
* M2.5-Lightning:100 tokens/秒,输入$0.30/百万tokens,输出$2.40/百万tokens
* 标准M2.5:50 tokens/秒,输入$0.15/百万tokens,输出$1.20/百万tokens

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

按官方计算,单个任务成本约$0.15,而Claude Opus 4.6需要$3.00。企业可以用约1万美元让四个AI“员工”连续工作一整年。

实战应用:从聊天机器人到AI员工

M2.5已在MiniMax内部大规模部署。目前公司30%的任务由M2.5完成,80%的新提交代码由M2.5生成。模型专门针对企业办公场景优化,能够创建Word、Excel和PowerPoint文件,在金融建模方面得分74.4%。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

团队与金融、法律和社会科学领域的资深专业人士合作,确保模型能达到行业标准。这种“AI作为员工”的定位,标志着从简单问答工具向自主工作代理的转变。

在真实场景测试中,M2.5成功完成了通过GitHub API审核PR、根据git blame分配代码审查任务、修复前端显示问题等复杂操作。不过测试也发现了一些小问题,比如偶尔会推送到错误的分支,或在特定指令下忘记添加解决方案标签。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

小结

继智谱发布GLM-5后,同为最近热门的MiniMax也再次展示出强劲实力。在GPU资源相对受限的情况下,中国公司与美国顶级实验室的差距已大大缩小,并且在成本上有较大优势。从最近一些Agent项目和编程工具内置模型情况来看,中国模型已经是必选项之一。

MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

另一个趋势是,问答应用已经明确向面向结果的自主运行的长任务智能体转变,这本质上得益于模型性能提升和成本下降。随着这两个指标的不断优化,将会有越来越多的应用朝这个方向前进。数字员工、无人公司正在成为现实。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21446

(0)
上一篇 2026年2月13日 上午6:59
下一篇 2026年2月13日 上午11:45

相关推荐

  • 字节跳动Seed团队突破机器人灵巧操作难题:零样本仿真到现实部署,让机器人拥有“触觉”与“力感”

    实现具备人类水平的灵巧操作能力,是机器人学领域的核心挑战之一。尽管多指灵巧手在硬件上已具备潜力,但由于接触物理的复杂性和非理想的驱动机制,训练能够直接部署在真实硬件上的控制策略仍然非常困难。 针对这一关键问题,一项研究论文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexter…

    2026年3月25日
    80300
  • Agent Skills 终极指南:从零到精通

    开篇思考 Claude Skills 的价值仍然被严重低估。 一个设计精良的 Skill,其所能赋予的智能能力足以媲美甚至超越一个完整的 AI 产品。最关键的是:任何人都可以开发自己的 Skill,无需任何技术背景。 以我开发的 Article-Copilot 为例,仅凭一个 Skill,我便构建了一个能够处理从素材整理到实际写作全流程的 Agent 应用。…

    2026年2月4日
    1.2K00
  • QQ浏览器AI化转型深度解析:从工具到智能体的全场景重构

    在人工智能浪潮席卷全球的当下,传统互联网产品正面临前所未有的转型压力。作为拥有上亿用户的国民级应用,QQ浏览器近期宣布全面升级为AI浏览器,这一战略转向不仅体现了腾讯在AI领域的深厚布局,更预示着浏览器行业将从信息工具向智能服务平台演进的根本性变革。本文将从技术架构、产品设计、用户体验及行业影响四个维度,深入剖析QQ浏览器的AI化转型路径。 从技术底层来看,…

    2025年12月19日
    43900
  • AI营销新趋势:快手商业AI如何打通全链路,破解行业协同难题

    AI营销新趋势:快手商业AI如何打通全链路,破解行业协同难题 AI进入营销行业,已经是定局。 市场研究数据显示,去年中国AI营销市场规模已达数百亿元,并保持高速增长。这个增速背后,是整个行业链条——从内容生产到投放决策——的集中押注。 但市场大,不等于落地深。 当前绝大多数AI营销工具仍以单点形态存在,各自解决一个局部问题,而不同环节之间,还是要靠广告主自己…

    2026年3月31日
    31900
  • 大模型议会:多模型协同决策如何重塑AI信息处理范式

    在信息爆炸的时代,人类获取知识的模式正经历着深刻变革。从传统的线性阅读到如今的碎片化吸收,再到AI辅助的即时总结,效率已成为内容消费的核心驱动力。这种转变不仅体现在普通用户的行为中,连AI领域的顶尖专家也深度参与其中。前OpenAI联合创始人、特斯拉AI总监Andrej Karpathy近期公开表示已“养成用LLM阅读一切的习惯”,这标志着AI工具正从辅助角…

    2025年11月23日
    33900