MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

让AI像顶尖数据科学家一样设计机器学习算法,需要几步?

上海人工智能实验室“书生”科学发现平台最新开源的 MLEvolve 系统给出了答案:在权威的MLE-bench基准测试中,仅用 12小时 便登顶榜单第一。

MLEvolve是一套自进化的机器学习系统。它采用 渐进式蒙特卡洛图搜索 替代传统树搜索,实现不同探索路径间的经验共享;通过 全局记忆层 记录每一次尝试的成败,使智能体越探索越聪明;并利用多模式代码生成与多智能体协作,覆盖从方案设计到代码审查的全流程。

最终成绩显示:在涵盖75道Kaggle竞赛题的MLE-bench上,MLEvolve取得了 61.33%的奖牌率,超越了所有设定为24小时运算预算的基线方法,在高难度任务中优势更为明显。

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

算法发现:科学创新的核心驱动力

科学研究的重大突破,往往源于算法与方法论的革新。快速傅里叶变换(FFT)革新了信号处理,反向传播算法推动了深度学习的实践,密度泛函理论(DFT)为计算材料科学提供了关键工具并荣获诺贝尔奖——新算法的发现与设计,本质上是为科学研究创造新工具,其价值远超解决单一问题。

算法发现也是高阶创新能力的体现。 能够自主设计算法,意味着不仅会使用现有工具,更具备了创造新工具的能力。在AI时代,让智能系统掌握算法层面的创新能力,是迈向自主科学发现的关键一步。

“书生”科学发现平台是上海人工智能实验室面向AI驱动科研构建的综合性平台。其核心智能体InternAgent 1.5包含了生成、验证、进化三大协同子系统,将科研抽象为可迭代的智能推理过程。

MLEvolve 作为验证子系统的方案优化引擎,专注于算法设计与优化任务。其在MLE-bench上以12小时登顶的成绩,正是AI自主算法设计能力的一次有力实证。

从“代码生成”到“算法设计”:AI面临的关键挑战

大语言模型已能生成质量尚可的代码,但面对Kaggle这类真实的机器学习竞赛——它们本质上是算法设计与工程优化的综合试炼场——仅靠一次性生成远远不够。数据处理、特征工程、模型选型、训练调优,每个环节都需要反复迭代与试错。真正的挑战在于:如何让AI像顶尖选手一样,在有限时间内持续探索、总结经验、并不断进化其算法方案?

现有的机器学习智能体距离此目标仍有差距:搜索策略效率不高,难以在庞大的方案空间中快速定位方向;不同尝试之间彼此孤立,成功经验无法积累,失败教训也无法用于后续改进。

为此,上海人工智能实验室Intern Discovery团队与华东师范大学联合推出了 MLEvolve——一个基于蒙特卡洛图搜索(MCGS)与多智能体协作的自进化机器学习工程框架。MLEvolve从架构设计、搜索策略、代码生成到经验管理,构建了一套完整的自主算法优化体系。

核心成果:在MLE-bench基准上,MLEvolve以 61.33% ± 1.33% 的奖牌率登顶榜单第一。尤其在高等难度竞赛中,它以 42.22% 的表现领先所有对比方法——而这一切仅使用了 12小时 的运算预算,低于其他顶尖系统通常设定的24小时标准。

揭秘MLEvolve:四大模块构建“自进化”闭环

MLEvolve的核心理念是:在长周期自动化任务中,系统不应止步于生成单一方案,而应持续搜索、验证与精进。 它将“规划→构建→评估→进化”编织为一个可重复的优化闭环,使智能体能在有限预算内不断逼近更优解。

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

该框架由四大核心模块协同驱动:

  • 渐进式蒙特卡洛图搜索(MCGS) ——搜索引擎,负责多分支并行探索与智能调度。
  • 经验驱动的全局记忆层 ——知识中枢,记录并检索所有历史尝试的成败经验。
  • 多模式自适应代码生成 ——执行引擎,根据任务状态选择最优编码策略。
  • 多智能体专业化分工 ——协作体系,八大专业智能体各司其职、协同进化。

四者协同,构建出从经验积累→智能搜索→方案精修→闭环验证的完整自进化链路。

核心技术创新

一、渐进式MCGS:从“树”到“图”的搜索革新

传统的蒙特卡洛树搜索(MCTS)在复杂机器学习任务中,因分支独立、信息孤立而效率受限。MLEvolve创新性地提出了渐进式蒙特卡洛图搜索,通过三大机制实现搜索能力的质变:

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

1. 时间感知的探索-利用切换
系统引入了时间感知的软切换策略,根据剩余时间预算动态调整搜索模式。前期以探索为主,广泛覆盖方案空间;后期平滑转向利用,聚焦于已证明有效的区域进行深度优化,实现了“前期广撒网、后期精雕琢”的高效节奏。

2. 跨分支融合与轨迹进化
当某条搜索分支陷入停滞时,MLEvolve会启动两种进化策略:
* 分支内演化:回顾当前分支的完整改进轨迹,总结规律并提出新的优化方向。
* 跨分支融合:从其他成功分支的最优节点中提取关键策略,融合生成全新方案。
这种从“树”到“图”的结构升级,实现了不同搜索路径间真正的经验互通与优势聚合

3. 多层级停滞检测
系统在分支级和全局级同时监控搜索进展。一旦检测到瓶颈,便自动从常规改进模式切换至演化或融合模式,确保搜索动力得以持续。

二、经验驱动的全局记忆:赋予智能体持续学习能力

优秀的竞赛选手善于从历史经验中学习。MLEvolve通过全局记忆层赋予了智能体同样的能力。每一次尝试——无论成败——都会被结构化为一个四元组记录:规划方案、完整代码、性能指标、成败标签

记忆检索采用BM25文本匹配与FAISS向量语义搜索相结合的混合策略,兼顾关键词精确匹配与语义相似度。当智能体规划下一步时,会自动检索相关历史经验:借鉴成功路径,规避已知陷阱。

巧妙之处在于,不同类型的智能体会以不同方式查询记忆:改进型智能体侧重学习成功经验以精进方案,草稿型智能体更关注失败案例以避免重蹈覆辙,融合型智能体则广泛检索以激发新的组合灵感。这种差异化的调用机制,既保证了经验复用的效率,又维持了探索的多样性。

三、多模式自适应代码生成与多智能体协作

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

MLEvolve采用 “规划-编码”解耦的工作流:先由规划器生成结构化方案,再由编码器转化为可执行代码。在代码生成环节,系统支持三种模式,可根据任务状态灵活切换:

  • 全量生成模式:一次性生成完整可执行方案,快速建立高质量的初始解空间。
  • 分步合成模式:基于机器学习流程分步骤生成与整合,确保复杂任务每个环节的细粒度优化。
  • 增量修补模式:针对局部代码进行精准替换与迭代,在保持整体稳定的同时快速验证新策略,大幅提升迭代效率。

在协作层面,MLEvolve构建了一个覆盖机器学习工程完整生命周期的多智能体团队,职责涵盖方案设计、迭代优化、错误修复、代码审查与数据泄露检测等关键环节。系统能够根据当前搜索状态动态调度最合适的智能体:在探索阶段由草稿智能体开拓新方向,遇到瓶颈时则由进化与融合智能体寻求突破,整个过程由审查智能体保障代码质量。这种专业化的分工与动态调度机制,使得系统能够像一支高效协同的AI工程团队般运作。

实验结果:12小时登顶,全面领先

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

MLE-bench榜单表现

MLEvolve在MLE-bench基准(包含75道Kaggle竞赛题目)上取得了全面领先的成绩,其中几个关键亮点值得注意:

  • 效率显著:仅用12小时就达到了其他方法需要24小时才能达到的性能水平,时间效率提升了一倍。
  • 高难度领跑:在最具挑战性的“高难度”竞赛中取得了42.22%的最佳成绩,体现了系统在复杂场景下的深度优化能力。
  • 全面均衡:从低难度到高难度任务均表现出色,展示了框架强大的泛化能力。

驱动InternAgent 1.5:从算法设计到跨学科科学发现

MLEvolve不仅是一个独立的机器学习竞赛解决方案,更是 Intern Discovery 平台中InternAgent 1.5系统的 方案优化引擎 核心技术之一。

InternAgent 1.5构建了生成、验证、进化三大协同子系统,将科研工作抽象为可不断迭代的智能推理过程。MLEvolve所采用的图增强蒙特卡洛搜索机制与经验驱动记忆,正是验证子系统中方案优化能力的核心支撑。它将搜索空间构建为动态图结构,支持历史轨迹回溯与跨分支知识融合,从而实现了从“单点试错”到“全局协同”的探索范式升级。

基于此,InternAgent 1.5已从算法设计任务进一步拓展至跨学科科学发现场景,其通用性已在生物科学、地球科学、物质科学等领域得到验证。MLEvolve的全面开源,也为社区构建和优化自身的算法设计与方案优化系统提供了坚实的技术基础。

前景与展望

MLEvolve的开源标志着AI智能体从“代码生成”迈向“自主算法设计”的关键一步。它证明,通过 图结构搜索、经验驱动记忆与多智能体协作 的深度融合,AI能够在复杂的算法设计任务中实现自主探索、持续学习与高效进化。这种算法发现能力是创新能力的重要体现,也为科学研究提供了新的工具路径。

MLEvolve所展现的搜索-记忆-协作范式具有广泛的可迁移性。从算法设计到数据科学,从工程优化到科研自动化,其基于图结构的探索逻辑与知识复用机制,为各类方案优化任务提供了一个通用的进化框架。

随着MLEvolve的全面开源,研究团队期待社区的力量能够推动这一框架应用于更多场景,让具备自进化能力的AI工程伙伴惠及更广泛的研究与工程实践。

项目资源


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25032

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐

  • 华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先

    华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先 7B量级模型,向来是端侧部署与个人开发者的心头好。其轻量化特性让它能灵活适配各类终端场景,而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。 近日,华为重磅推出开源新玩家openPangu-VL-7B,直接瞄准这一核心场景精准发力。 作为昇腾原生的模型,ope…

    2026年1月5日
    18100
  • AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

    01 通过终端控制电脑 把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。 Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python、JavaScript、Shell 等语言,直接运行在你的终端里。 通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完…

    2025年12月22日
    16700
  • 11月GitHub开源项目盘点:从AI代码助手到隐私优先工具,这些YYDS项目值得关注

    01 Cursor VIP 免费续杯 这个开源项目已获得超过 44K Star。它能够绕过 Cursor AI 代码编辑器的免费试用限制,通过技术手段重置机器码,从而让用户能够持续使用其免费额度或 Pro 功能。 其核心原理是通过脚本自动化修改系统中的特定标识符(如 Machine ID),使 Cursor 服务器将当前设备识别为一台新机器,从而重置试用计数…

    2025年12月2日
    18100
  • 解锁自动化新境界:n8n与飞书多维表格的完美融合,打造高效工作流

    解锁自动化新境界:n8n与飞书多维表格的完美融合,打造高效工作流 在利用开源工作流工具 n8n 构建自动化流程时,数据的归档与存储是关键环节。飞书多维表格为此提供了一个优秀的解决方案。它不仅可作为结构化数据的中转站,更能借助其「字段捷径」功能,与 AI 处理或后续自动化流程无缝衔接,实现效率的倍增。 值得一提的是,飞书多维表格现已支持网页端直接访问(base…

    2025年11月7日
    51200
  • OpenClaw 3.8闪电发布:ACP溯源让AI智能体终于认识你,官方备份工具拯救手滑党

    在 OpenClaw 3.7 发布不到24小时后,3.8 稳定版紧随而至。本次更新聚焦于核心功能增强与系统稳定性,主要引入了 ACP 溯源机制以提升智能体交互安全性,并发布了官方备份工具,为关键操作提供保障。 核心更新概览 本次更新主要包含以下四项关键改进: ACP溯源机制:智能体现在能够识别指令来源与权限。 官方备份工具:提供标准化的配置与数据备份方案。 …

    23小时前
    5600