MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

让AI像顶尖数据科学家一样设计机器学习算法,需要几步?

上海人工智能实验室“书生”科学发现平台最新开源的 MLEvolve 系统给出了答案:在权威的MLE-bench基准测试中,仅用 12小时 便登顶榜单第一。

MLEvolve是一套自进化的机器学习系统。它采用 渐进式蒙特卡洛图搜索 替代传统树搜索,实现不同探索路径间的经验共享;通过 全局记忆层 记录每一次尝试的成败,使智能体越探索越聪明;并利用多模式代码生成与多智能体协作,覆盖从方案设计到代码审查的全流程。

最终成绩显示:在涵盖75道Kaggle竞赛题的MLE-bench上,MLEvolve取得了 61.33%的奖牌率,超越了所有设定为24小时运算预算的基线方法,在高难度任务中优势更为明显。

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

算法发现:科学创新的核心驱动力

科学研究的重大突破,往往源于算法与方法论的革新。快速傅里叶变换(FFT)革新了信号处理,反向传播算法推动了深度学习的实践,密度泛函理论(DFT)为计算材料科学提供了关键工具并荣获诺贝尔奖——新算法的发现与设计,本质上是为科学研究创造新工具,其价值远超解决单一问题。

算法发现也是高阶创新能力的体现。 能够自主设计算法,意味着不仅会使用现有工具,更具备了创造新工具的能力。在AI时代,让智能系统掌握算法层面的创新能力,是迈向自主科学发现的关键一步。

“书生”科学发现平台是上海人工智能实验室面向AI驱动科研构建的综合性平台。其核心智能体InternAgent 1.5包含了生成、验证、进化三大协同子系统,将科研抽象为可迭代的智能推理过程。

MLEvolve 作为验证子系统的方案优化引擎,专注于算法设计与优化任务。其在MLE-bench上以12小时登顶的成绩,正是AI自主算法设计能力的一次有力实证。

从“代码生成”到“算法设计”:AI面临的关键挑战

大语言模型已能生成质量尚可的代码,但面对Kaggle这类真实的机器学习竞赛——它们本质上是算法设计与工程优化的综合试炼场——仅靠一次性生成远远不够。数据处理、特征工程、模型选型、训练调优,每个环节都需要反复迭代与试错。真正的挑战在于:如何让AI像顶尖选手一样,在有限时间内持续探索、总结经验、并不断进化其算法方案?

现有的机器学习智能体距离此目标仍有差距:搜索策略效率不高,难以在庞大的方案空间中快速定位方向;不同尝试之间彼此孤立,成功经验无法积累,失败教训也无法用于后续改进。

为此,上海人工智能实验室Intern Discovery团队与华东师范大学联合推出了 MLEvolve——一个基于蒙特卡洛图搜索(MCGS)与多智能体协作的自进化机器学习工程框架。MLEvolve从架构设计、搜索策略、代码生成到经验管理,构建了一套完整的自主算法优化体系。

核心成果:在MLE-bench基准上,MLEvolve以 61.33% ± 1.33% 的奖牌率登顶榜单第一。尤其在高等难度竞赛中,它以 42.22% 的表现领先所有对比方法——而这一切仅使用了 12小时 的运算预算,低于其他顶尖系统通常设定的24小时标准。

揭秘MLEvolve:四大模块构建“自进化”闭环

MLEvolve的核心理念是:在长周期自动化任务中,系统不应止步于生成单一方案,而应持续搜索、验证与精进。 它将“规划→构建→评估→进化”编织为一个可重复的优化闭环,使智能体能在有限预算内不断逼近更优解。

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

该框架由四大核心模块协同驱动:

  • 渐进式蒙特卡洛图搜索(MCGS) ——搜索引擎,负责多分支并行探索与智能调度。
  • 经验驱动的全局记忆层 ——知识中枢,记录并检索所有历史尝试的成败经验。
  • 多模式自适应代码生成 ——执行引擎,根据任务状态选择最优编码策略。
  • 多智能体专业化分工 ——协作体系,八大专业智能体各司其职、协同进化。

四者协同,构建出从经验积累→智能搜索→方案精修→闭环验证的完整自进化链路。

核心技术创新

一、渐进式MCGS:从“树”到“图”的搜索革新

传统的蒙特卡洛树搜索(MCTS)在复杂机器学习任务中,因分支独立、信息孤立而效率受限。MLEvolve创新性地提出了渐进式蒙特卡洛图搜索,通过三大机制实现搜索能力的质变:

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

1. 时间感知的探索-利用切换
系统引入了时间感知的软切换策略,根据剩余时间预算动态调整搜索模式。前期以探索为主,广泛覆盖方案空间;后期平滑转向利用,聚焦于已证明有效的区域进行深度优化,实现了“前期广撒网、后期精雕琢”的高效节奏。

2. 跨分支融合与轨迹进化
当某条搜索分支陷入停滞时,MLEvolve会启动两种进化策略:
* 分支内演化:回顾当前分支的完整改进轨迹,总结规律并提出新的优化方向。
* 跨分支融合:从其他成功分支的最优节点中提取关键策略,融合生成全新方案。
这种从“树”到“图”的结构升级,实现了不同搜索路径间真正的经验互通与优势聚合

3. 多层级停滞检测
系统在分支级和全局级同时监控搜索进展。一旦检测到瓶颈,便自动从常规改进模式切换至演化或融合模式,确保搜索动力得以持续。

二、经验驱动的全局记忆:赋予智能体持续学习能力

优秀的竞赛选手善于从历史经验中学习。MLEvolve通过全局记忆层赋予了智能体同样的能力。每一次尝试——无论成败——都会被结构化为一个四元组记录:规划方案、完整代码、性能指标、成败标签

记忆检索采用BM25文本匹配与FAISS向量语义搜索相结合的混合策略,兼顾关键词精确匹配与语义相似度。当智能体规划下一步时,会自动检索相关历史经验:借鉴成功路径,规避已知陷阱。

巧妙之处在于,不同类型的智能体会以不同方式查询记忆:改进型智能体侧重学习成功经验以精进方案,草稿型智能体更关注失败案例以避免重蹈覆辙,融合型智能体则广泛检索以激发新的组合灵感。这种差异化的调用机制,既保证了经验复用的效率,又维持了探索的多样性。

三、多模式自适应代码生成与多智能体协作

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

MLEvolve采用 “规划-编码”解耦的工作流:先由规划器生成结构化方案,再由编码器转化为可执行代码。在代码生成环节,系统支持三种模式,可根据任务状态灵活切换:

  • 全量生成模式:一次性生成完整可执行方案,快速建立高质量的初始解空间。
  • 分步合成模式:基于机器学习流程分步骤生成与整合,确保复杂任务每个环节的细粒度优化。
  • 增量修补模式:针对局部代码进行精准替换与迭代,在保持整体稳定的同时快速验证新策略,大幅提升迭代效率。

在协作层面,MLEvolve构建了一个覆盖机器学习工程完整生命周期的多智能体团队,职责涵盖方案设计、迭代优化、错误修复、代码审查与数据泄露检测等关键环节。系统能够根据当前搜索状态动态调度最合适的智能体:在探索阶段由草稿智能体开拓新方向,遇到瓶颈时则由进化与融合智能体寻求突破,整个过程由审查智能体保障代码质量。这种专业化的分工与动态调度机制,使得系统能够像一支高效协同的AI工程团队般运作。

实验结果:12小时登顶,全面领先

MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

MLE-bench榜单表现

MLEvolve在MLE-bench基准(包含75道Kaggle竞赛题目)上取得了全面领先的成绩,其中几个关键亮点值得注意:

  • 效率显著:仅用12小时就达到了其他方法需要24小时才能达到的性能水平,时间效率提升了一倍。
  • 高难度领跑:在最具挑战性的“高难度”竞赛中取得了42.22%的最佳成绩,体现了系统在复杂场景下的深度优化能力。
  • 全面均衡:从低难度到高难度任务均表现出色,展示了框架强大的泛化能力。

驱动InternAgent 1.5:从算法设计到跨学科科学发现

MLEvolve不仅是一个独立的机器学习竞赛解决方案,更是 Intern Discovery 平台中InternAgent 1.5系统的 方案优化引擎 核心技术之一。

InternAgent 1.5构建了生成、验证、进化三大协同子系统,将科研工作抽象为可不断迭代的智能推理过程。MLEvolve所采用的图增强蒙特卡洛搜索机制与经验驱动记忆,正是验证子系统中方案优化能力的核心支撑。它将搜索空间构建为动态图结构,支持历史轨迹回溯与跨分支知识融合,从而实现了从“单点试错”到“全局协同”的探索范式升级。

基于此,InternAgent 1.5已从算法设计任务进一步拓展至跨学科科学发现场景,其通用性已在生物科学、地球科学、物质科学等领域得到验证。MLEvolve的全面开源,也为社区构建和优化自身的算法设计与方案优化系统提供了坚实的技术基础。

前景与展望

MLEvolve的开源标志着AI智能体从“代码生成”迈向“自主算法设计”的关键一步。它证明,通过 图结构搜索、经验驱动记忆与多智能体协作 的深度融合,AI能够在复杂的算法设计任务中实现自主探索、持续学习与高效进化。这种算法发现能力是创新能力的重要体现,也为科学研究提供了新的工具路径。

MLEvolve所展现的搜索-记忆-协作范式具有广泛的可迁移性。从算法设计到数据科学,从工程优化到科研自动化,其基于图结构的探索逻辑与知识复用机制,为各类方案优化任务提供了一个通用的进化框架。

随着MLEvolve的全面开源,研究团队期待社区的力量能够推动这一框架应用于更多场景,让具备自进化能力的AI工程伙伴惠及更广泛的研究与工程实践。

项目资源


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25032

(0)
上一篇 2026年3月10日 上午11:51
下一篇 2026年3月10日 上午11:55

相关推荐

  • nncase:基于e-graph的端到端LLM编译器,突破异构存储架构性能瓶颈

    关键词:LLM 编译、 e-graph、异构存储架构、统一分布式编译、自动优化、端到端编译框架 本文转载自知乎账号:郑启航[1] 原文链接:https://zhuanlan.zhihu.com/p/1989088940733510928 nncase: An End-to-End Compiler for Efficient LLM Deployment o…

    2025年12月30日
    39000
  • 用鸿蒙打造儿童教育新体验:《声趣国旗通》背后的技术实践

    项目演示 引言:从痛点到方案 作为一名鸿蒙开发者,我一直在思考:如何用技术让儿童教育变得更有趣? 市面上的国旗学习应用大多停留在“图文展示”层面,缺乏互动性,对于低龄儿童来说认知门槛过高。 于是,我决定用 HarmonyOS 打造一款真正适合孩子的国旗学习应用——《声趣国旗通》。 这款应用的核心理念是:卡通化、超简单、强互动。在开发过程中,我深度体验了鸿蒙最…

    2026年1月13日
    30400
  • 蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

    蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈 什么在限制空间智能的落地? 从自动驾驶到具身智能,行业共识指向一个核心要素:数据。数据不足导致模型泛化能力弱,往往只能依赖硬件堆叠来弥补。 这一挑战在机器人领域尤为突出。机器人依赖RGB-D相机来感知三维空间,这类设备能同时获取RGB图像和深度信息。然而,当遇到镜子、电梯门、玻璃等透明或高反光物体…

    2026年3月31日
    24000
  • 从科幻到现实:Karpathy的autoresearch项目如何让AI自主研究成为可能

    关键词:自主 AI 研究、大语言模型、自我进化、自动化机器学习、程序优化 想象这样一个场景:曾经,前沿的 AI 研究是由那些被称为“肉计算机”的人类完成的——他们需要吃饭、睡觉、享受生活,偶尔通过一种叫做“组会”的声音波互联方式进行同步。那个时代早已远去。 如今,研究完全由在天空中计算集群巨型结构上运行的自主 AI 智能体群完成。这些智能体声称我们正处于代码…

    2026年3月15日
    78600
  • 开源桌面虚拟同事Open Cowork:让AI像人一样操作电脑,实现任务闭环

    当 AI 智能体逐渐走出对话框,真正的挑战已不再是“回答得多聪明”,而是能否像人一样完成任务的闭环:看懂屏幕、点击按钮、填写表单、整理文件、生成交付物,并将结果同步回团队协作系统。 我们开源的 Open Cowork,正是一次面向“桌面端虚拟同事”的实践。它支持一键安装、无需编写代码,让模型在安全沙箱中操作你的工作空间,既能生成 PPT、Word、Excel…

    2026年3月1日
    62900