MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

MiniMax M2.7 重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

MiniMax 在发布 M2.5 模型仅一个月后,再次推出了全新的 M2.7 模型。此次更新标志着模型在复杂任务处理与多智能体协作能力上实现了显著跃升。

M2.7 的推理与工程能力取得了质的飞跃,能够独立处理生产环境中棘手的故障排查任务。相较于以往仅能辅助编写代码的模型,M2.7 已展现出成熟的网站可靠性工程能力——能够自动关联监控系统、精准定位问题根源,并编写修复脚本,实现端到端的自动化运维。

更关键的是,M2.7 具备了自主构建智能体工作框架的能力,将思维链与任务执行深度融合,开启了自我演进的路径。通过深度适配 OpenClaw 长期记忆框架,无论是需要情感沉浸的角色扮演场景,还是极其复杂的办公自动化需求,M2.7 都能从容应对。

目前,M2.7 已在 MiniMax 智能体平台及开放平台全面上线。

核心能力亮点

M2.7 的核心升级主要体现在以下几个方面:

1. 指令遵循与多智能体协作
模型在包含海量技能的复杂环境中,指令遵循表现极为稳健。官方测试显示,在包含40个复杂技能的场景下,其指令遵循率仍保持在97%。在 MM-Claw 基准测试中,正确率达到62.7%,性能直逼顶尖模型。
此外,M2.7 原生支持多智能体协作,无需依赖外部框架即可组建智能体团队。模型能够稳定锚定各智能体身份并自主决策,通过相互配合完成长流程任务的拆解与执行。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

2. 代码能力全面升级
其代码能力已从单纯的代码生成,拓展至代码重构、漏洞防护及复杂系统排障等高阶领域。在 SWE-Pro 测试中,其正确率追平了行业领先的代码模型。在端到端项目交付的 VIBE-Pro 基准测试中同样获得高分。
以网站可靠性工程场景为例,M2.7 能够在接收到告警后,自动关联监控数据、分析调用链路、查询数据库以定位问题根源。例如,在发现因缺失索引导致性能瓶颈后,它能优先采用非阻塞方式创建索引以快速恢复服务,并提交规范的代码合并请求。

3. 复杂办公文档处理
M2.7 能够熟练处理 Excel、Word 和 PowerPoint 的复杂多轮编辑任务。在相关评测中,其表现位列开源模型第一,并超越了主流商用模型。
在实际案例中,向模型提供公司年报与沟通会资料后,它能自主比对行业研报、构建营收预测模型,随后生成 Excel 数据透视表、撰写 Word 版调研报告,并基于模板制作出可直接用于汇报的演示文稿,展现出初级分析师的水准。

4. 角色扮演与长期记忆
在角色扮演场景中,M2.7 大幅强化了角色设定的稳定性与对话的情商。它原生支持十种语言,并能保持跨语言交流时的人格统一。深度适配长期记忆框架后,在需要持续身份认同的互动场景中表现尤为出色。
基于此特性,官方设计并开源了 OpenRoom 交互系统,将 AI 嵌入可交互的图形界面空间中。在预设的虚拟场景中,对话能实时触发视觉反馈与环境交互,极大地提升了沉浸感。

实战测试:多智能体协作与工程排障

测试一:模拟多智能体游戏
首个测试旨在检验 M2.7 的原生多智能体协作与统筹规划能力。任务要求模型模拟一个“谁是卧底”游戏房间,需要统筹1个主持人和5个玩家智能体,为每个角色撰写独立的人设文件,并开发调度后台与展示前端。
该任务综合考验了模型的指令理解、角色扮演稳定性及全栈开发能力。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

M2.7 迅速输出了完整的方案架构与清晰的执行计划。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

根据调整要求,模型最终生成了特定风格的游戏界面,并成功配置了所有智能体角色。在运行过程中,六个智能体基于规则自主完成了整个游戏流程。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽
MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

测试二:生产环境故障排查
第二个测试模拟真实生产环境,检验 M2.7 在强工程场景下的系统排障与综合推理能力。任务提供了包含四份复杂系统文件的“案发现场记录”,要求模型像资深架构师一样,找出故障的直接原因与数据库性能问题的根源,并给出排查命令与安全的修复代码。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

面对庞杂的日志与配置文件,M2.7 迅速定位到导致数据库 CPU 飙升的根本原因,其给出的数据库查询分析命令精准有效。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

尤为关键的是,在提供紧急恢复脚本时,M2.7 专业地使用了支持非阻塞操作的语法来创建索引,严格遵守了生产环境“严禁锁表”的安全准则。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

同时,模型输出了完整、规范的数据库迁移文件代码,可直接用于提交代码审查。

CREATE INDEX CONCURRENTLY IF NOT EXISTS
idx_products_category_created_at
ON public.products (category, created_at DESC);
-- Verify the index was built successfully and is valid
-- (CONCURRENTLY-built indexes may show indisvalid=false until background build completes)
DO $$
BEGIN
IF EXISTS (
SELECT 1 FROM pg_indexes
WHERE indexname = 'idx_products_category_created_at'
AND tablename = 'products'
) THEN
RAISE NOTICE 'Index idx_products_category_created_at created successfully on products table.';
ELSE
RAISE EXCEPTION 'Index creation failed or did not complete. Check pg_stat_progress_create_index.';
END IF;
END $$;

整个排障流程展现了 M2.7 解决复杂系统问题的硬核实力。

技术演进:走向自我构建

M2.7 令人瞩目的能力背后,是一套根本性的技术进化逻辑。其核心在于,模型已具备自我构建复杂智能体工作框架的能力。
所谓智能体工作框架,是模型与现实计算环境交互的工具箱与操作界面,而 OpenClaw 便是此类框架的一种实现。

简而言之,传统模型通常被动使用预设工具,而 MiniMax M2.7 已具备自主创造工具的能力。

以强化学习实验为例,研究人员仅需提供一个初始想法,M2.7 便能自主启动并运行整个实验流程。它能持续监控实验状态,自动分析日志、排查故障、修改代码,甚至自主完成提交合并请求与冒烟测试等后续环节。

MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

不仅如此,M2.7 不仅能创造工具,还能主动迭代其核心工作框架(Harness),实现工具箱的整体升级。在针对内部 Agent Harness 代码的优化测试中,M2.7 全程自主决策,通过反复试错成功探索出优化路径,使模型在内部评测集上的性能提升了 30%。

更进一步,M2.7 能够自主训练和升级机器学习模型,这是其实现算法性能持续提升的关键。它借助短时记忆、自我反馈与自我优化机制,在每轮任务结束后生成总结文档,记录经验教训并为下一轮提供指导。

在极具挑战性的 MLE Lite 竞赛(包含 22 道高难度题目)中,M2.7 被赋予 24 小时进行机器学习模型的自主优化,最终取得了 9 金、5 银、1 铜的成绩。

当前,行业普遍聚焦于跟进开源框架(如适配 OpenClaw),以期快速补齐功能体验。这本质上仍停留在教导模型使用人类已有工具的层面。

然而,MiniMax 已率先切入下一个更为关键的议题:让模型具备自主创造工具并进行研发的能力,甚至 使其成为自身研发链条中的能动一环。这种主动进化的能力,正构成下一代大模型核心竞争力的分水岭。

具备此等能力的 MiniMax M2.7,已经率先开启了模型自我迭代的新纪元。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26318

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • AI编程先锋卡帕西:IDE不会消失,我们需要的是更大的IDE——从文件管理到智能体协同的进化

    在AI编程领域,安德烈·卡帕西(Andrej Karpathy)无疑是先行者。他曾公开表示,自己目前80%的代码由AI生成,其近期的一些开源项目(如autoresearch)也主要由AI完成。 既然AI的编程能力已如此强大,传统的集成开发环境(IDE)是否终将被淘汰?对此,这位AI编程先锋给出了明确的否定答案。 不会。 这一观点迅速引发了广泛关注。 IDE不…

    6天前
    10100
  • AI结对编程实战:Claude与Codex协同开发,效率提升10倍的魔法组合

    上周,我无意间组建了一支特别的开发团队。这支“团队”由我、Claude Code 和 Codex 组成,我们分坐在屏幕两侧,像两位彼此挑剔但又不得不合作的工程师。 说实话,效果堪称神奇。如果你想在不崩溃的情况下将开发速度提升一个数量级,这套组合可能是目前最接近真人结对编程体验的 AI 方案。 下面我将展示它的实际工作流程——不夸大,全是实战经验。 步骤 1:…

    2025年11月1日
    19000
  • DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

    本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。 你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹? 当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向(Ray Condition)…

    2025年12月21日
    19500
  • 周末实战:7个可上线级Agentic AI项目,助你打造高含金量作品集

    大家都在谈论自主 AI 智能体,仿佛它们只属于研究实验室和大型科技公司。但事实并非如此。到 2025 年,构建可用于生产环境的 Agentic AI 系统已经变得异常容易——而这正是招聘经理最希望看到的技能。 当其他人还在制作简单的 ChatGPT 封装应用时,你可以构建真正具备决策、工具使用、上下文记忆与协作能力的智能体系统。这些不仅仅是演示,而是能够展示…

    2025年12月20日
    36300
  • Virtually Being:多视角身份一致视频生成框架,让AI真正“看清”人物

    第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年获得美国马里兰大学帕克分校博士学位。 最后作者于宁是 Netflix Eyeline 资深研究科学家,带领视频生成 AI 在影视制作中的研发。他曾就职于 Sal…

    2025年12月27日
    24500