年后,AI领域的更新浪潮持续高涨。在众多模型密集发布之际,MiniMax也迎来了其重要的版本迭代——全新的旗舰模型M2.7正式发布。

本次更新不仅涵盖了模型基础能力的增强,更引入了一项核心创新:Agent Harness。该机制旨在实现Agent的自主优化,其核心模块包括短时记忆、自反馈与自优化。

官方文档中“开启模型的自我进化”的描述,揭示了此次更新更深层的目标。那么,M2.7究竟带来了哪些具体提升?

本文将对其进行详细解读。

基础能力升级
M2.7的改进主要围绕六个方向展开:
-
Agentic指令遵循:模型针对复杂任务处理进行了专项优化。即便面对包含50多个技能、60-150项功能的清单,它也能稳健地进行任务分解与逐步执行,确保多步骤、长流程的任务可靠完成。
-
代码能力增强:在上一代M2.5的基础上,代码相关能力进行了再度迭代。官方表示,此次优化覆盖了日志分析、Bug定位、代码重构、代码安全、机器学习及安卓开发等多个方向。

或许有人认为这只是常规的参数迭代,但值得注意的是,M2.7是在一个较高的起点上实现的进步。其前代模型M2.5已在SWE-Bench Verified工程测试中达到行业第一梯队水平。

诚然,与部分顶级模型相比,M2系列仍有差距。但需明确,MiniMax M2系列为激活参数10B的模型,其训练数据量与资源投入同一些业界巨头并非同一量级。在评判时,更应关注其在其资源层级下的表现。

对于许多实际应用场景而言,评判维度或许更应聚焦于:成本可控、体验良好、能力够用。在这些方面,M2.7展现出了其价值。

Agent Harness:实现自主进化
本次更新的重点之一是Agent Harness能力。为便于理解,可以做一个类比:如果将大模型比作计算机的CPU(提供核心计算能力),上下文窗口比作内存(有容量限制),那么各种Agent就如同桌面应用程序(执行具体任务)。而Agent Harness则类似于操作系统,负责底层的资源调度、工具管理与任务协调,决定了模型能感知什么、使用何种工具以及如何应对失败。

目前,行业内对于Agent Harness尚未形成统一标准,各厂商路径各异。例如:
– Claude Code (Anthropic) 采用模型控制循环的机制。
– Cursor 将诸多元素映射为文件,并为不同底层模型专门优化Harness。
– Manus 则专注于提升KV缓存效率,以实现工具的常驻调用。

MiniMax此次的思路颇具特色:让模型自主构建Harness,并利用该Harness对自身进行迭代优化。简而言之,人类设定方向,模型创造工具,工具再反哺模型进化。

据官方介绍,在一个实验中,仅由1人引导,在4天零人工编码的情况下,M2.7以解决方案架构师的身份,自主搭建了一套完整的开发Agent系统,涵盖了持续集成(CI)、代码审查与测试全流程。

这种自我进化能力在竞赛中也得到了验证。在MLE-bench Lite的测试中,MiniMax的表现与几家海外厂商持平。

在MLE Lite涵盖的22道高难度竞赛题目中,MiniMax一举获得了9枚金牌。

这表明MiniMax在Agent的自我进化训练方面确实取得了实质性进展。

复杂Office任务处理
官方重点强调的另一项能力是复杂Office文档的处理,特别是Excel,宣称能够支持复杂数据操作、竞赛题型及金融分析任务。

为了进行测试,我们使用了一份包含山东省2022年至2024年高考分数线记录、共34514行数据的大型Excel表格。

将表格提交给M2.7,要求其分析分数线趋势、生成图表并指出上涨的分数线。

处理如此大规模的数据对本地电脑而言都有一定压力,但M2.7不仅完成了数据整理与分析,还生成了一份结构化的分析网页。


模型成功整理并分析了超过20000条数据,展现了其在处理复杂表格任务上的能力。



网页制作与专项优化
此前,M2.5版本曾出现一个广为流传的识别问题:无法识别“马嘉祺”三个字。M2.7版本对此进行了专项优化。


为了测试优化效果并带有一定趣味性,我们尝试让M2.7创建一个向马嘉祺粉丝致歉的网站。

生成的网站在页面设计和视觉呈现上基本合格。


但在检查“影像画廊”部分时,发现因联网抓取图源有误,出现了错误图片。这属于具体执行中的小问题。

经过修正指令,模型重新生成了画廊页面,布局清晰,支持图片点击放大,交互动画也较为完善。


网站最终还加入了一个动态的道歉爱心元素。
每当用户访问该网站,这个爱心都会持续展示,可谓一种“赛博忏悔”。

角色扮演与成本优势
在角色扮演方面,MiniMax一直保持着其特色。该场景的核心考验并非纯粹的“智能”,而是“沉浸感”——包括角色设定的记忆、对话的契合度以及在长对话中保持人格的一致性。在这些方面,MiniMax的表现可圈可点。


此外,一个突出的优势在于其极具竞争力的成本。每月最低仅29元的访问成本,使得个人开发者或中小规模应用能够以极低的门槛体验和使用先进的模型能力。

最后,官方此次还发布了一个彩蛋:OpenRoom。这是一个可本地部署的沉浸式UI互动空间,接入M2.7 API后即可进行交互,为开发者提供了新的体验与集成方式。
其内置的音乐播放器、国际象棋、五子棋、个人日记、新闻聚合等原生功能,均可通过对话直接驱动与调用,并在交互后提供明确反馈。角色不仅能响应用户指令,还能依据设定主动与环境进行互动。
得益于 M2.7 模型原生的 Agent 能力、长期记忆与角色人格保持特性,以及灵活的代码扩展支持,上述所有功能均可在此框架内协同运行,构建出高度个性化、可持续进化的智能体。

·················END·················
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26895


