MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

年后,AI领域的更新浪潮持续高涨。在众多模型密集发布之际,MiniMax也迎来了其重要的版本迭代——全新的旗舰模型M2.7正式发布。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

本次更新不仅涵盖了模型基础能力的增强,更引入了一项核心创新:Agent Harness。该机制旨在实现Agent的自主优化,其核心模块包括短时记忆、自反馈与自优化。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

官方文档中“开启模型的自我进化”的描述,揭示了此次更新更深层的目标。那么,M2.7究竟带来了哪些具体提升?

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

本文将对其进行详细解读。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

基础能力升级

M2.7的改进主要围绕六个方向展开:

  1. Agentic指令遵循:模型针对复杂任务处理进行了专项优化。即便面对包含50多个技能、60-150项功能的清单,它也能稳健地进行任务分解与逐步执行,确保多步骤、长流程的任务可靠完成。

  2. 代码能力增强:在上一代M2.5的基础上,代码相关能力进行了再度迭代。官方表示,此次优化覆盖了日志分析、Bug定位、代码重构、代码安全、机器学习及安卓开发等多个方向。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

或许有人认为这只是常规的参数迭代,但值得注意的是,M2.7是在一个较高的起点上实现的进步。其前代模型M2.5已在SWE-Bench Verified工程测试中达到行业第一梯队水平。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

诚然,与部分顶级模型相比,M2系列仍有差距。但需明确,MiniMax M2系列为激活参数10B的模型,其训练数据量与资源投入同一些业界巨头并非同一量级。在评判时,更应关注其在其资源层级下的表现。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

对于许多实际应用场景而言,评判维度或许更应聚焦于:成本可控、体验良好、能力够用。在这些方面,M2.7展现出了其价值。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

Agent Harness:实现自主进化

本次更新的重点之一是Agent Harness能力。为便于理解,可以做一个类比:如果将大模型比作计算机的CPU(提供核心计算能力),上下文窗口比作内存(有容量限制),那么各种Agent就如同桌面应用程序(执行具体任务)。而Agent Harness则类似于操作系统,负责底层的资源调度、工具管理与任务协调,决定了模型能感知什么、使用何种工具以及如何应对失败。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

目前,行业内对于Agent Harness尚未形成统一标准,各厂商路径各异。例如:
– Claude Code (Anthropic) 采用模型控制循环的机制。
– Cursor 将诸多元素映射为文件,并为不同底层模型专门优化Harness。
– Manus 则专注于提升KV缓存效率,以实现工具的常驻调用。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

MiniMax此次的思路颇具特色:让模型自主构建Harness,并利用该Harness对自身进行迭代优化。简而言之,人类设定方向,模型创造工具,工具再反哺模型进化。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

据官方介绍,在一个实验中,仅由1人引导,在4天零人工编码的情况下,M2.7以解决方案架构师的身份,自主搭建了一套完整的开发Agent系统,涵盖了持续集成(CI)、代码审查与测试全流程。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

这种自我进化能力在竞赛中也得到了验证。在MLE-bench Lite的测试中,MiniMax的表现与几家海外厂商持平。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

在MLE Lite涵盖的22道高难度竞赛题目中,MiniMax一举获得了9枚金牌

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

这表明MiniMax在Agent的自我进化训练方面确实取得了实质性进展。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

复杂Office任务处理

官方重点强调的另一项能力是复杂Office文档的处理,特别是Excel,宣称能够支持复杂数据操作、竞赛题型及金融分析任务。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

为了进行测试,我们使用了一份包含山东省2022年至2024年高考分数线记录、共34514行数据的大型Excel表格。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

将表格提交给M2.7,要求其分析分数线趋势、生成图表并指出上涨的分数线。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

处理如此大规模的数据对本地电脑而言都有一定压力,但M2.7不仅完成了数据整理与分析,还生成了一份结构化的分析网页。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

模型成功整理并分析了超过20000条数据,展现了其在处理复杂表格任务上的能力。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

网页制作与专项优化

此前,M2.5版本曾出现一个广为流传的识别问题:无法识别“马嘉祺”三个字。M2.7版本对此进行了专项优化。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

为了测试优化效果并带有一定趣味性,我们尝试让M2.7创建一个向马嘉祺粉丝致歉的网站。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

生成的网站在页面设计和视觉呈现上基本合格。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

但在检查“影像画廊”部分时,发现因联网抓取图源有误,出现了错误图片。这属于具体执行中的小问题。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

经过修正指令,模型重新生成了画廊页面,布局清晰,支持图片点击放大,交互动画也较为完善。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

网站最终还加入了一个动态的道歉爱心元素。

每当用户访问该网站,这个爱心都会持续展示,可谓一种“赛博忏悔”。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

角色扮演与成本优势

在角色扮演方面,MiniMax一直保持着其特色。该场景的核心考验并非纯粹的“智能”,而是“沉浸感”——包括角色设定的记忆、对话的契合度以及在长对话中保持人格的一致性。在这些方面,MiniMax的表现可圈可点。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?
MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

此外,一个突出的优势在于其极具竞争力的成本每月最低仅29元的访问成本,使得个人开发者或中小规模应用能够以极低的门槛体验和使用先进的模型能力。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

最后,官方此次还发布了一个彩蛋:OpenRoom。这是一个可本地部署的沉浸式UI互动空间,接入M2.7 API后即可进行交互,为开发者提供了新的体验与集成方式。

其内置的音乐播放器、国际象棋、五子棋、个人日记、新闻聚合等原生功能,均可通过对话直接驱动与调用,并在交互后提供明确反馈。角色不仅能响应用户指令,还能依据设定主动与环境进行互动。

得益于 M2.7 模型原生的 Agent 能力、长期记忆与角色人格保持特性,以及灵活的代码扩展支持,上述所有功能均可在此框架内协同运行,构建出高度个性化、可持续进化的智能体。

MiniMax M2.7重磅更新:10B参数模型如何实现Agent自主进化,在MLE竞赛中斩获9枚金牌?

·················END·················


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26895

(0)
上一篇 2026年3月21日 下午4:01
下一篇 2026年3月21日 下午9:00

相关推荐

  • LangGraph实战:单智能体与多智能体系统的性能对比与架构解析

    在 LangGraph 中基于结构化数据源构建 在 LangGraph 中构建不同的 agent 系统 | Image by author 对于希望构建不同智能体系统的开发者而言,一个有效的切入点是深入比较单智能体工作流与多智能体工作流,这本质上是评估系统设计的灵活性与可控性之间的权衡。 本文旨在阐明 Agentic AI 的核心概念,并演示如何利用 Lan…

    2025年11月2日
    38700
  • 英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

    这流畅的游戏动作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成,令人惊叹。 最令人震撼的是,上述操作完全由AI完成。 与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。 这就是来自英伟达的最新开源基础模型——NitroGen。 该模型的训练目标是玩1000款以上的游戏,无论是RPG、平台跳…

    2025年12月21日
    29400
  • GraphMind:构建具备深度推理能力的全栈Agentic RAG架构

    GraphMind:构建具备深度推理能力的全栈Agentic RAG架构 本文介绍一套可用于生产环境的完整架构,该架构利用GraphRAG流水线将复杂的非结构化数据转化为高准确度、可检索的知识。我们将阐述Chonkie如何通过语义切分保留上下文,Neo4j如何同时存储向量和图表示以实现双重检索,以及LiteLLM如何编排推理流程。同时,文章将解释系统如何通过…

    2026年1月1日
    38900
  • VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

    本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…

    2025年12月23日
    32500
  • AI记忆革命:从“白纸”到“大脑”,记忆架构成AI落地新护城河

    一家企业花了七周时间部署AI:第一周,它能精准回答行业分析问题,团队为之欢呼;到了第三周,它开始反复输出已被纠正过的错误结论,因为它“忘记”了之前的修正;第五周,在关键的董事会汇报中,它引用了早已被否定的数据,导致决策出现偏差;第七周,项目被迫暂停,“AI不可信”成为团队共识。问题的根源并非AI不够智能,而在于它每一次交互都像从一张白纸开始。 AI领域正在经…

    2026年3月25日
    39800