ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

一、背景:AI 研发的“人类瓶颈”,已成为行业发展的核心约束

“人工智能能否加速其自身的发展?”

这个横亘在人工智能领域最核心的终极问题,在今天迎来了里程碑式的进展。当我们仍在惊叹于大模型在代码、数学与推理领域的突破时,一个能够自主完成 AI 全流程研发的闭环框架——ASI-Evolve,已经开启了 AI 自我进化的新纪元。

当前 AI 领域的进步,始终围绕数据、模型架构、训练算法三大核心支柱展开。每一次突破,都依赖于人类科学家主导的“假设生成 → 代码实现 → 实验执行 → 结果分析”的反复循环。

然而,这个循环正面临难以突破的人类瓶颈
* 假设空间受限:人类能并行探索的假设空间极度有限。
* 流程依赖人工:实验流程需要海量的人工干预与调试。
* 经验难以复用:科研经验与深层洞察难以被系统化地沉淀与高效复用。

这些约束,已成为制约 AI 发展速度的核心天花板。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

ASI-Evolve 的出现,彻底打破了这一僵局。它以人类科学家的科研范式为蓝本,构建了 “学习-设计-实验-分析” 的端到端闭环科研框架。通过两大核心创新——注入人类先验知识的结构化认知库,以及能从实验结果中提炼可复用洞察的专用分析器——该框架实现了 AI 研发全流程的自主迭代与进化。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
图 1:ASI-Evolve 工作流水线。在每一轮进化中,系统从数据库中采样上下文,通过嵌入搜索检索相关认知项,生成新的候选程序,在约束下运行评估脚本,并将结果总结为分析报告存储回数据库。该设计引入了认知检索与报告存储机制,使进化过程基于历史经验与人类知识,避免了盲目搜索。其模块化架构可适配不同的 AI 研究任务。

作为全球首个在 AI 研发三大核心支柱上实现统一 AI 驱动发现的框架,ASI-Evolve 的实验成果展现了其颠覆性潜力:

  • 神经网络架构设计:经过 1773 轮迭代,自主发现了 105 个超越人类 SOTA 的线性注意力架构,其中最优模型较 DeltaNet 提升 0.97 个点,收益约为近期人类手动改进的 3 倍。
  • 预训练数据治理:进化出的数据处理流程,实现了平均基准性能提升 3.96 个点,在知识密集型基准 MMLU 上提升超过 18 个点。
  • 强化学习算法设计:自研算法在多个基准上显著超越主流方法,如在 AMC32 上较 GRPO 最高提升 12.5 个点。
  • 跨领域科学发现:在生物医学药物-靶点预测的冷启动任务中,实现了 AUROC 最高 6.94 个点的提升,证明了 AI-for-AI 范式可迁移至更广泛的科学领域

本文将深入解析 ASI-Evolve 的核心设计、创新逻辑与实验成果,探讨其对 AI 研发范式带来的根本性变革。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
图 2:AI 驱动创新的全景示意图。核心层展示了 AI 在数据、架构、算法三大支柱上的自主突破;外层则体现了这些突破向数学、生物医学、工程等多学科领域的赋能与扩散。

本文目录

  • 一、背景:AI 研发的“人类瓶颈”,已成为行业发展的核心约束
  • 二、相关工作:AI for Science 的演进与未被突破的边界
    • 2.1 第一代:专用科学发现系统
    • 2.2 第二代:基于 LLM 的科研辅助智能体
  • 三、核心框架详解:ASI-Evolve 的闭环科研范式
    • 3.1 整体框架与形式化定义
    • 3.2 两大核心创新组件:突破传统进化框架的核心瓶颈
    • 3.3 四大核心模块:闭环迭代的完整实现
  • 四、核心实验验证:在 AI 研发三大核心支柱上的全面突破
    • 4.1 场景一:线性注意力神经网络架构设计
    • 4.2 场景二:预训练数据治理策略进化
    • 4.3 场景三:强化学习训练算法设计
    • 4.4 框架有效性验证:对比实验与消融研究
  • 五、跨领域泛化:AI-for-AI 范式的通用科学价值
    • 5.1 任务背景
    • 5.2 核心实验结果
    • 5.3 创新点解读:AI 实现了跨领域的知识融合创新
  • 六、深度解读:ASI-Evolve 带来的 AI 研发范式革命
    • 6.1 核心范式变革:从“人类主导,AI 辅助”到“AI 闭环自研,人类定义问题”
    • 6.2 对 AI 研发全流程的降本增效与能力跃升
    • 6.3 对 AI Infra 行业的深远影响
    • 6.4 客观看待局限性与潜在挑战
  • 七、未来展望:AI 自我进化的全栈时代

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
图 1:科学自动化任务的难度分布。该图从执行成本、搜索空间复杂度、反馈复杂度三个维度划分了任务难度,界定了 ASI-EVOLVE 的目标领域——现有框架未覆盖的高难度、大规模科学探索区间。

然而,在传统的人工智能研发闭环中,人类已成为关键瓶颈。随着系统日益复杂、研发成本攀升,人类主导的科研模式面临三重核心约束:

| 瓶颈类型 | 核心问题 | 具体表现 |
| :— | :— | :— |
| 假设空间的探索瓶颈 | 人类并行探索能力存在物理极限 | AI 设计空间近乎无限(例如,线性注意力架构的组合方案可达亿级),顶尖团队数月仅能验证数十个方案,绝大多数可能性未被探索。 |
| 实验执行的人力瓶颈 | 高成本、长周期实验严重依赖人工干预 | 单次架构验证需修改代码、适配环境、调试、监控与分析,耗时数小时至数天;单名工程师并发实验数量通常不超过10个,大量时间耗费在环境与报错处理上。 |
| 经验沉淀的系统化瓶颈 | 科研洞察难以规模化复用与传承 | 失败实验中的关键洞察(如失败原因、避坑要点)多存于个人经验,缺乏结构化沉淀;跨团队重复踩坑、跨领域知识迁移困难,抑制了颠覆性创新。 |

这三重瓶颈已成为制约 AI 行业发展的核心因素。我们正试图用线性增长的人类智力与体力,去驱动一个指数级发展的技术领域,其效率天花板已清晰可见。因此,“AI 能否加速 AI 自身的发展”成为行业亟待回答的核心问题。

二、相关工作:AI for Science 的演进与边界

在 ASI-Evolve 之前,研究者在“AI 赋能科学发现”领域已进行多年探索,其发展可划分为两个阶段,但始终未能突破“AI 自主完成研发闭环”的核心边界。

2.1 第一代:专用科学发现系统

这一阶段的代表包括 DeepMind 的 AlphaFold、GraphCast 以及 Google DeepMind 的 GNoME 等系统。它们在特定、边界清晰的任务上实现了超越人类的表现,例如:
* AlphaFold 解决了困扰生物学界 50 年的蛋白质结构预测问题。
* GraphCast 实现了远超传统数值模型的天气预测精度。
* GNoME 发现了数百万种潜在的新型材料。

然而,这类系统的核心局限在于其专用性。 它们只能解决预先定义好、具有明确输入输出的特定问题,无法泛化到其他科研场景,更无法处理 AI 自身研发中开放、多维度、长周期的复杂任务。它们是 AI for Science 的“专用工具”,而非通用的科研智能体。

2.2 第二代:基于 LLM 的科研辅助智能体

随着大语言模型能力的突破,基于 LLM 的科研辅助系统快速发展,向自主科研迈出了重要一步,但仍存在局限:
* SciMaster 等系统专注于有已知答案的科学问答,解决的是“知识检索”问题,而非前沿探索
* MLMaster、MLEvolve 等系统只能解决固定评估标准下的有界优化问题,无法处理开放的、无明确边界的前沿科研任务。
* AI Scientist 系统实现了论文发表流程的自动化,但并未真正解决开放场景下的前沿科学问题探索,本质上是“论文写作自动化工具”。
* AlphaEvolve 系统通过编码智能体迭代优化候选方案,向自主科研迈出关键一步,但依然难以处理 AI 研发中高成本、长周期、弱监督、多维度反馈的复杂循环

这些系统的共同局限在于无法实现端到端的 AI 研发闭环。它们或只能解决边界明确的子问题,或只能辅助科研流程的单一环节。从未有一个统一框架,能在 AI 研发的三大核心支柱(数据、架构、算法)上,实现完整的、端到端的 AI 驱动自主发现,更无法像人类科学家一样从失败中学习、持续沉淀洞察、进行多轮连贯迭代。ASI-Evolve 的出现,旨在填补这一核心空白。

三、核心框架详解:ASI-Evolve 的闭环科研范式

ASI-Evolve 是一个端到端的智能体进化框架,其核心设计理念是复刻人类顶尖科学家的科研工作流,构建“学习-设计-实验-分析”的四阶段闭环迭代体系。通过两大核心创新组件,它解决了传统进化框架的痛点,实现了 AI 自主科研的持续进化。

3.1 整体框架与形式化定义

ASI-Evolve 的每一轮迭代都形成一个完整闭环:系统从认知库和历史数据库中学习知识与经验,基于此设计下一代候选解决方案,自动化执行实验以获取性能评估,分析结果并提炼可复用洞察,最后将洞察写回数据库,用于下一轮迭代。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
图 2:ASI-EVOLVE 流水线。在每一轮进化中,系统从数据库中采样上下文节点,通过嵌入搜索检索相关认知项,生成新的候选程序,在超时限制下运行评估脚本,并将结果总结为分析报告存储回数据库。与传统进化框架相比,该流水线引入了认知项检索与分析报告存储,避免了盲目搜索,使每一轮进化都基于人类知识与历史经验。模块化设计使各组件可独立优化,适配不同 AI 研究任务。

我们可以通过形式化定义更精准地理解其迭代逻辑:
每一轮进化迭代 t 可定义为在程序空间 P(实现解决方案的可运行代码工件)中的搜索过程。系统在整个进化过程中持续维护两个核心存储单元:
1. 历史数据库 D:存储所有过往迭代的完整节点信息,包括设计动机、代码实现、实验结果、分析洞察、性能评分与完整元数据,是系统的“经验库”。
2. 认知库 C:存储与任务相关的人类科研先验知识条目,通过向量嵌入构建索引,支持基于上下文的高效检索,是系统的“知识库”。

在每一轮迭代中,系统首先从历史数据库 D 中采样高价值的上下文节点,再基于此从认知库 C 中检索匹配的领域知识条目,最终结合历史经验与领域知识,生成新的候选程序。生成的候选程序通过任务特定的外部实验流程进行自动化评估,输出结构化性能指标与核心标量评分。最终,本轮迭代的完整节点信息将被追加到历史数据库 D 中,用于后续迭代,形成完整闭环。

关键点在于,候选程序的生成同时依赖于历史实验经验与人类领域先验知识,这彻底避免了传统进化框架“从零开始随机搜索”的低效问题,大幅提升了探索效率与方向合理性。

3.2 两大核心创新组件:突破传统进化框架的瓶颈

ASI-Evolve 实现性能突破的核心,在于引入了两个关键组件——结构化认知库与专用分析器,它们分别解决了传统进化框架“无知识基础的盲目搜索”和“只看结果不学习过程”两大核心痛点。

3.2.1 结构化认知库:让 AI 站在人类科研的肩膀上探索

传统进化智能体多采用“优胜劣汰”的随机搜索模式,仅依赖历史实验的高分结果进行迭代,未注入人类积累的领域先验知识。这如同未受专业训练的学生直接进入实验室,效率低下且易偏离方向。

ASI-Evolve 的结构化认知库从根本上解决了这一问题。

在迭代开始前,系统会将该领域人类积累的顶尖科研成果——包括顶会论文、经典理论与已验证的技术方案——进行结构化处理并注入认知库,通过向量嵌入构建索引。在每一轮迭代中,系统都会基于当前的设计方向,从认知库中精准检索相关的领域知识,并将其注入到候选方案的生成过程中。

认知库的初始化具有明确的领域针对性:

  • 在线性注意力架构设计任务中,认知库初始化了来自100篇相关论文(涵盖线性注意力、状态空间模型、高效Transformer等主题)的150条核心知识条目。
  • 在药物-靶点预测任务中,认知库则初始化了80篇相关论文(涉及图神经网络、注意力机制、DTI建模等内容)。

这意味着,ASI-Evolve的每一轮探索都不是从零开始的随机试错,而是建立在人类数十年科研积累之上。这不仅大幅提升了探索效率,避免了无意义的重复工作,更能实现跨论文、跨领域的知识融合——这正是人类科研中产生颠覆性创新的核心来源之一。

3.2.2 专用分析器:从失败中学习,实现持续成长

传统进化框架的一个核心缺陷是“唯结果论”:只保留高分候选方案,直接淘汰低分方案,完全忽略了失败实验中蕴含的宝贵信息。 然而,人类科学家的进步很大程度上源于对失败的分析——定位根本原因,总结避坑经验,提炼优化方向。

ASI-Evolve的专用分析器复刻了这一核心能力。其核心作用是将复杂的、多维度的实验结果(无论成功与否)转化为结构化的、可复用的、人类可读的洞察经验,并写回到历史数据库 D,成为后续迭代的学习素材。

具体而言,专用分析器执行以下四大核心工作:

| 类别 | 描述 | 示例/说明 |
| :— | :— | :— |
| 性能根因分析 | 对比本轮方案与基线、历史最优方案的性能差异,定位性能变化的核心设计原因。 | 例如:引入LayerScale后F1值提升2.1%,主要原因是缓解了深层Transformer的梯度弥散问题。 |
| 失败模式识别 | 精准识别方案中的核心问题(如表征坍缩、过拟合、数值不稳定等),并将其归因至具体机制。 | 例如:训练后期损失函数骤升,经梯度方差分析确认为Softmax温度未归一化导致的注意力饱和。 |
| 可执行洞察提炼 | 从成功/失败实验中提炼可复用的设计原则、优化方向与避坑指南。 | 例如:“Sinkhorn注意力可有效防止注意力坍缩”、“增量式修改比全量重写更稳定”。 |
| 经验结构化沉淀 | 将洞察转化为结构化、可检索的文本(含标签、场景、模块、置信度),写入历史数据库。 | 例如:以JSON Schema存入向量数据库,字段包括 {task: "seq2seq", module: "attention", insight: "...", confidence: 0.92, tags: ["stability", "attention"]}。 |

正是专用分析器,使ASI-Evolve的进化从简单的“优胜劣汰”转变为真正的“学习-成长”过程。 每一轮迭代后,系统都更加“聪明”,明确可行方向与潜在陷阱,从而避免陷入局部最优,实现持续、稳定的性能提升。

3.3 四大核心模块:实现闭环迭代

基于整体框架与两大核心组件,ASI-Evolve通过四个模块完整实现了“学习-设计-实验-分析”的四阶段闭环迭代,每个模块均针对AI自主研发中的核心痛点进行了工程设计。

3.3.1 Learn模块:双路径学习

Learn模块是每一轮迭代的起点,其核心是让系统在设计新方案前,完成“知识学习”与“经验学习”的双路径学习。

  • 领域先验学习:基于当前探索方向,从认知库中检索相关的人类科研成果,确保方案设计符合领域基本原理,并能借鉴成熟经验。
  • 历史经验学习:从历史数据库中采样过往的实验节点(包括成功与失败方案),学习之前的设计思路、实验结果与洞察总结,尤其是从失败中总结的避坑经验。

在工程实现上,历史数据库会定期刷新候选池,保留得分最高的50个节点。每一轮迭代都会从Top10节点中采样基础架构,并从Top50节点中获取参考上下文,从而在保证探索连贯性的同时,保留足够的创新空间。

3.3.2 Design模块:高可靠的候选方案生成

Design模块的核心是基于学习到的知识与经验,生成新的、完整的、可运行的代码。其核心挑战在于生成的代码必须满足大量硬约束(如复杂度边界、因果掩码正确性、可运行性),同时还需具备创新性。

为解决这些问题,ASI-Evolve设计了三大关键保障机制:

  • 静态检查智能体:在训练执行前进行前置拦截,验证复杂度边界、分块计算结构、因果掩码正确性等硬约束,从源头过滤不符合要求的方案。
  • 调试智能体:自动处理代码运行时的实现错误,通过解析错误栈信息定位问题根源并尝试修复,大幅提升代码可运行率。
  • 新颖性检查:通过设计动机的语义相似度过滤重复提案,避免系统陷入局部最优,鼓励创新探索。

同时,Design模块采用增量式优化策略:不会全量重写代码,而是基于高分基础方案进行针对性的差分修改(如调整优化器设置、修改约束公式等),从而提升迭代的稳定性和效率。

3.3.3 Experiment模块:多阶段自动化实验

Experiment模块的核心是自动化执行完整的实验流程,以获取客观、准确的性能评估结果。针对AI研发实验成本高、周期长的特点,ASI-Evolve设计了多阶段评估策略,在保证结果可靠性的同时,最大化探索效率。

以线性注意力架构设计任务为例,系统采用两阶段评估策略:

  • 探索阶段:使用小模型(约20M参数)在1B token上训练2000步,并在10个核心基准上进行快速评估,以快速过滤明显无效的方案。
  • 验证阶段:只有在探索阶段同时在量化指标和定性指标上超过基线的架构,才会进入全量验证训练,确保算力集中于最有潜力的方案。

在评分机制上,系统采用复合适应度评分,结合两大维度:
1. Sigmoid归一化后的损失和基准得分等量化指标。
2. LLM-as-a-Judge对代码复杂度、计算效率、创新性等的定性评分。
只有两个维度均超过基线的方案,才会进入下一轮迭代,确保进化方向符合预期。

3.3.4 Analyze模块:洞察提炼与沉淀

Analyze模块是整个闭环的核心枢纽,由专用分析器负责执行,也是ASI-Evolve区别于所有传统进化框架的核心。其核心价值在于将单次实验结果转化为可复用、持续积累的知识,使系统实现真正的“学习成长”。

在每一轮实验结束后,Analyze模块都会执行完整的洞察提炼流程,将所有分析结果、经验洞察和优化方向结构化地写回历史数据库,成为下一轮迭代中Learn模块的学习素材。

正是这个模块,使整个系统形成了“学习越多,探索越高效;迭代越多,洞察越丰富”的正向循环,从而实现持续的性能提升。

四、核心实验验证:在AI研发三大核心支柱上的全面突破

4.1 场景一:线性注意力神经网络架构设计

任务背景

模型架构是AI系统的核心基础,直接决定了模型的建模能力、计算效率和泛化性能。标准Transformer的自注意力机制具备O(N²)的时间复杂度,极大地限制了大模型的上下文窗口扩展和推理效率。因此,线性注意力、状态空间模型等亚二次复杂度的方案,成为近年来大模型架构优化的核心赛道,DeltaNet、Mamba、RWKV等均为该方向上人类设计的代表性成果。

本次任务以人类设计的SOTA线性注意力架构DeltaNet为基线,要求AI系统自主设计具备亚二次复杂度的新型注意力层,采用分块计算模式实现高效并行训练,并生成完整、可运行的代码以集成到现有的大规模代码库中。

核心实验结果

ASI-Evolve在1773轮自动化探索迭代中,自主生成了1350个候选架构。其中,105个架构的性能全面超越了基线DeltaNet。最优模型的性能较DeltaNet提升了0.97个百分点,其提升幅度约为近期人类手动设计改进收益的3倍。

下表展示了线性注意力架构设计的核心性能对比。需要指出的是,线性注意力架构的性能提升通常以语言模型下游任务的平均准确率为核心指标,0.1个百分点的提升通常对应着顶会级别的研究成果。

| 方案类型 | 代表方案 | 相对 DeltaNet 的性能提升 | 研发规模 |
| :— | :— | :— | :— |
| 人类设计 | 近期 SOTA 改进 | ~0.33 个百分点 | 顶尖团队数月研发 |
| AI 自研 | ASI-Evolve 最优架构 | +0.97 个百分点 | 1773 轮自动化迭代 |
| AI 自研 | ASI-Evolve 达标架构 | 105 个架构全面超越 DeltaNet | 1350 个候选方案 |

结果解读

该结果的颠覆性在于,线性注意力是大模型架构优化的核心赛道,全球顶尖的AI实验室已在此方向上深耕多年,每一次微小的性能提升通常都需要顶尖团队数月的研发投入。而ASI-Evolve通过自动化的闭环迭代,一次性发现了105个超越人类SOTA的架构,其最优方案的提升幅度达到人类近期改进的3倍。

这表明,AI已具备在大模型核心架构设计上全面超越人类专家的能力,且研发效率提升了数个数量级。更重要的是,这105个SOTA架构为高效Transformer的设计开辟了海量的新方向,将极大地推动大模型上下文扩展与推理效率的优化。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

4.2 场景二:预训练数据治理策略进化

任务背景

预训练数据是大模型的“粮食”,业内公认“数据质量的上限决定了大模型能力的上限”。当前主流的预训练数据治理依赖人类专家设计的大量规则和人工标注,流程繁琐、成本高昂,且难以实现全局最优,成为大模型厂商的核心技术壁垒之一。

本次任务要求ASI-Evolve自主进化出预训练数据治理的完整流程,通过优化数据清洗、过滤、质量评分的全链路,生成更高质量的预训练数据集,最终提升大模型的下游任务性能。

核心实验结果

ASI-Evolve进化出的数据治理流程,其生成的清洗后数据集在平均基准性能上,较原始数据集提升了3.96个百分点。在知识密集型基准MMLU上,性能提升更是超过了18个百分点。

下表展示了预训练数据治理的核心性能对比。其中,MMLU是衡量大模型知识理解、推理与迁移能力的核心基准,18个百分点的性能提升,相当于从普通开源大模型跨越到顶尖闭源大模型的性能水平。

| 评估维度 | 相对原始数据集的性能提升 |
| :— | :— |
| 多任务平均基准性能 | +3.96 个百分点 |
| MMLU 知识密集型基准 | >18 个百分点 |

结果解读

此结果的核心意义在于打破了大模型研发的数据壁垒。预训练数据治理一直是大模型研发中最核心、最耗人力、最保密的环节,长期是人类专家的专属领域。而ASI-Evolve自主进化出的数据治理流程,实现了远超人类设计规则的效果,尤其是在知识密集型任务上的巨大提升,证明AI已具备优化大模型核心“粮食”的能力。

这将彻底改变大模型预训练的研发范式,大幅降低数据治理的人力成本,同时突破人类设计规则的上限,实现数据质量的阶跃式提升。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

4.3 场景三:强化学习训练算法设计

任务背景

训练算法是大模型能力对齐的核心。从预训练后的基础大模型,到具备强大推理、代码、数学能力的对话大模型,核心依赖于强化学习算法的优化。从PPO到DPO、IPO,再到当前被广泛采用的GRPO,每一次算法的改进都需要人类专家深厚的数学功底和大量的实验验证,是大模型对齐的核心技术壁垒。

本次任务以当前主流的SOTA强化学习算法GRPO为基线,要求ASI-Evolve自主设计新型的强化学习优化机制。该机制需具备严谨的数学创新,旨在解决RL训练中长期存在的稳定性和方差问题,最终提升模型的数学推理与复杂问题解决能力。

核心实验结果

ASI-Evolve自主设计的强化学习算法,在多个核心数学推理基准上全面超越了GRPO基线:
* 在AMC32数学推理基准上,最高提升12.5个百分点;
* 在AIME24数学竞赛基准上,提升11.67个百分点;
* 在OlympiadBench奥林匹克数学基准上,提升5.04个百分点。

下表展示了强化学习算法设计的核心性能对比:

| 评估基准 | 相对 GRPO 基线的性能提升 |
| :— | :— |
| AMC32 数学推理基准 | 最高 +12.5 个百分点 |
| AIME24 数学竞赛基准 | +11.67 个百分点 |
| OlympiadBench 奥林匹克数学基准 | +5.04 个百分点 |

本次任务中,ASI-Evolve不仅实现了性能提升,还通过严谨的数学推导发现了新的优化机制,解决了RL训练中的稳定性和方差核心问题,实现了与人类专家同级别的算法创新。

结果解读

该结果最令人震撼之处,并非仅是性能的大幅提升,而在于ASI-Evolve实现了具备严谨数学原理的底层算法创新,而非简单的超参数调优。它不仅自动生成了算法代码,还完成了完整的数学推导,解决了RL训练中困扰人类专家多年的稳定性和方差问题,这与人类顶尖算法科学家的创新已无本质区别。

这意味着,AI已具备自主设计、优化大模型核心训练算法的能力,而这正是大模型研发中技术门槛最高的环节之一。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

4.4 框架有效性验证:对比实验与消融研究

为验证ASI-Evolve框架设计的有效性,研究团队在圆填充任务(多个进化框架通用的标准基准测试)上,进行了与现有主流框架的对比实验,以及针对性的消融研究。

对比实验结果

在对齐的实验条件下(所有框架采用相同的骨干模型,仅对比框架设计本身的性能),ASI-Evolve在圆填充任务上,仅用17轮迭代就达到了SOTA级别的结果,大幅超越了之前的主流进化框架OpenEvolve和GEPA。

5. 实验验证:核心组件与跨领域泛化能力

5.1 框架对比实验

为验证 ASI-Evolve 框架设计的优越性,研究团队在圆填充任务上,将其与当前主流进化框架 GEPA 和 OpenEvolve 进行了对比。所有框架均采用相同的基础模型,以排除模型能力差异对结果的影响,确保对比聚焦于框架设计本身。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
图 3 对比实验曲线。(a) ASI-EVOLVE、GEPA 和 OpenEvolve 的进化曲线对比;(b) 使用不同基础模型(GPT-5-mini 与通义千问3-320亿参数模型)的 ASI-EVOLVE 进化曲线。阴影区域表示重复实验的结果变异性。

实验结果表明:
* 性能与效率优势:如图3(a)所示,ASI-EVOLVE 在收敛速度和最终性能上均显著优于 GEPA 和 OpenEvolve。
* 结果稳定性:ASI-EVOLVE 的进化曲线阴影区域更小,表明其在不同实验轮次间的结果变异性更低,进化过程更稳定。
* 跨模型兼容性:如图3(b)所示,采用不同基础模型的 ASI-EVOLVE 最终均能收敛至相近的性能分数,证明该框架的性能不依赖于特定基础模型,具备良好的跨模型兼容性。

表 1:不同进化框架在圆填充任务上达到 SOTA 级别结果所需的迭代轮数对比
| 进化框架 | 达到 SOTA 级别结果所需的迭代轮数 |
| :— | :— |
| ASI-Evolve | 17 轮 |
| OpenEvolve | 远高于 17 轮 |
| GEPA | 远高于 17 轮 |

实验结果从框架和基础模型两个维度,验证了 ASI-EVOLVE 的优越性。其性能提升主要源于认知库和分析器两大核心组件的协同作用,而非依赖基础模型的算力优势。

5.2 消融研究

为精准验证两大核心组件的价值,研究团队进行了针对性的消融实验。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
图 5 圆填充任务的消融实验曲线。展示了完整 ASI-EVOLVE 方法与移除核心组件后的变体进化曲线,阴影区域表示重复实验的结果变异性。

消融实验的结论如下:
* 结构化认知库的作用:移除认知库后,框架的冷启动效率大幅下降,需要更多迭代才能达到相近性能。这表明认知库为框架提供了关键的领域先验知识,有效减少了无效探索。
* 专用分析器的作用:移除分析器后,模型在初期虽能获得较高分数,但很快陷入局部最优而停滞,无法实现持续进化。这证明分析器是框架从失败中学习、实现持续性能提升的核心。
* 组件协同效应:完整方法的收敛速度、最终性能均为最优,且结果变异性最小。这明确表明,结构化认知库与专用分析器是 ASI-Evolve 的两大核心,二者协同工作才能实现高效、稳定的自主进化。

5.3 跨领域泛化验证:AI-for-AI 范式的通用性

为验证 ASI-Evolve 框架的通用科学价值,研究团队将其应用于生物医学领域的药物-靶点相互作用(DTI)预测任务。该任务旨在通过 AI 预测药物分子与靶点蛋白的结合能力,是新药研发中的核心环节。其中,冷启动场景(预测完全未见过的药物、蛋白或二者组合)对模型的分布外泛化能力提出了极高要求。

5.3.1 核心实验结果

ASI-Evolve 被要求自主设计用于 DTI 预测的图神经网络架构。其进化出的架构在绝大多数评估场景下,均超越了人类设计的 SOTA 基线模型 DrugBAN 及其他先进模型。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
表 2 药物-靶点相互作用预测在多个基准数据集上的性能对比。报告了关键评估设置下的受试者工作特征曲线下面积(AUROC,%)和 F1 值(%),粗体表示最优性能。

主要性能提升包括:
* 在 BindingDB 开发集上,AUROC 提升 +1.91 个百分点,F1 值提升 +2.95 个百分点。
* 在极具挑战性的冷启动场景下,性能提升更为显著:
* 未见过药物的场景,AUROC 提升 +6.94 个百分点。
* 未见过蛋白的场景,AUROC 提升 +3.56 个百分点。
* 药物和蛋白均未见过(双冷启动)的场景,AUROC 提升 +4.36 个百分点。

ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代
表 3 药物-靶点相互作用预测冷启动场景性能对比。报告了在冷启动场景下的 AUROC(%)和 F1 值(%)。

5.3.2 创新点分析:跨领域知识融合

对 ASI-Evolve 进化出的最优架构进行分析,发现其引入了符合领域知识的核心创新,体现了跨领域知识融合的能力:
1. Sinkhorn 注意力:采用基于最优传输理论的 Sinkhorn 迭代替代标准双线性注意力,强制注意力分配的平衡,有效防止了特征建模中的注意力坍缩问题。
2. 领域特定边缘化:针对药物分子子结构和蛋白结构域设计了专门的边缘化操作,在不同语义空间中聚合相互作用模式,实现了更具组合性的结合机制建模。
3. Top-k 稀疏门控:通过可学习的 Top-k 选择机制,动态聚焦于最相关的相互作用模式,减少了噪声干扰。

这些创新将数学中的最优传输理论与计算生物学中的概念相结合。进化过程分析显示,早期迭代主要依赖认知库中的领域知识,随着实验积累,系统逐渐实现了跨论文、跨领域的知识融合,而性能的阶跃式提升往往就出现在这些融合时刻。这证明 ASI-Evolve 已具备与人类科学家类似的跨领域创新能力。

6. 范式革命:从人类主导到 AI 自主进化

ASI-Evolve 的出现标志着 AI 研发范式的根本性变革。它实现了从传统的 “人类主导,AI 辅助” 模式,向 “AI 闭环自研,人类定义问题” 新范式的转变。

在该框架下,AI 能够端到端地完成完整的科研循环:学习领域知识、提出研究假设、设计技术方案、编写可执行代码、自动化运行实验、分析结果、提炼洞察并迭代优化。整个过程无需人工干预,开启了 AI 自我驱动、自我进化的新时代。

这意味着,人类科学家的角色将从科研流程的执行者转变为问题的定义者。 人类只需向 AI 阐明核心问题、评估指标与约束条件,后续海量的假设探索、实验执行与迭代优化均可交由 AI 完成。人类得以将专业能力聚焦于最本质、最核心的科学问题上,而非耗费在繁琐、重复、耗时的代码调试、实验跟进与数据处理中。 这不仅将大幅提升 AI 研发效率,更能彻底释放人类科学家的创新能力。

6.2 对 AI 研发全流程的降本增效与能力跃升

ASI-Evolve 在 AI 研发的三大核心支柱上均实现了超越人类的表现,这将为整个 AI 研发全流程带来颠覆性的降本增效与能力跃升:

  • 架构设计层面:以往顶尖团队需耗时数月的架构创新,AI 可在数日内完成,并能一次性发现上百个 SOTA 架构,为高效大模型设计开辟海量新方向,彻底打破大模型架构创新的人力瓶颈。
  • 数据治理层面:以往依赖大量人工规则与标注的数据清洗工作,AI 可自主进化出更优的数据处理流水线,实现数据质量的大幅提升,彻底打破大模型研发的数据壁垒,使更多团队能够构建高质量的预训练数据集。
  • 算法优化层面:以往需顶尖数学家与算法科学家才能完成的训练算法创新,AI 可自主实现,并能解决困扰人类多年的稳定性与方差问题,大幅降低大模型对齐的技术门槛,推动大模型能力的进一步跃升。

更重要的是,ASI-Evolve 的进化是持续且不间断的。只要有足够的算力,它便可持续迭代优化,不断发现更优方案。这种迭代速度是人类团队完全无法比拟的。这意味着,AI 研发的速度将从“线性增长”正式进入“指数级增长”阶段。

6.3 对 AI Infra 行业的深远影响

对 AI 基础设施领域的从业者而言,ASI-Evolve 的出现将彻底改变基础设施的设计范式,带来全行业的深远变革:

  • 算力调度逻辑的重构:未来的算力集群将不再为人类科学家的手动实验设计,而是为 ASI-Evolve 这类闭环 AI 科研框架设计。它需要支持海量并行实验、自动化任务调度、失败任务自动重试与算力动态分配,以最大化算力利用效率。这将彻底改变 GPU 集群的调度架构与设计理念。
  • 实验管理平台的升级:现有的 MLflow、Weights & Biases 等实验管理工具核心是为人类科学家服务。未来的实验管理平台需与 ASI-Evolve 这类框架深度融合,支持实验结果的自动化分析、洞察的自动化沉淀与知识的自动化管理,成为 AI 科研闭环的核心组件。
  • 全栈 AI 自研边界的扩展当前的 ASI-Evolve 已覆盖架构、数据、算法三大核心支柱。未来,其能力必将扩展至 AI 基础设施全栈,涵盖 AI 编译器、算子优化、算力虚拟化、通信优化乃至芯片架构设计。 AI 将自主优化其运行基础设施,实现从算法到硬件的全栈自我优化,彻底改变 AI 基础设施行业的格局。

6.4 客观看待局限性与潜在挑战

在认识其颠覆性影响的同时,也需客观看待 ASI-Evolve 的局限性与潜在挑战:

  • 任务定义的依赖:目前的 ASI-Evolve 仍需人类明确定义任务目标、评估指标与约束条件,尚无法自主提出有价值的科学问题。而提出优质问题正是人类科学家最核心的能力之一。
  • 算力成本的约束AI 自主研发循环需要大量 GPU 算力来执行实验。 尽管 ASI-Evolve 通过多阶段评估等机制大幅提升了算力利用效率,但大规模迭代仍需极高的算力成本,这是当前推广的核心约束之一。
  • 可解释性的挑战:AI 进化出的架构、算法与数据流水线虽性能优异,但其生效原理往往需要人类投入大量精力进行分析与理解,可解释性仍是需要持续解决的问题。
  • 安全与对齐的风险:随着 AI 自我进化能力的增强,如何确保其进化方向与人类价值观及安全需求对齐,将成为一个日益重要的问题,需要整个行业的持续关注与研究。

七、未来展望:AI 自我进化的全栈时代

ASI-Evolve 的出现并非终点,而是一个全新的起点。未来,“AI for AI”范式必将朝着更全面、更深入、更自主的方向持续发展:

从单组件优化到全栈自研。 当前的 ASI-Evolve 已覆盖架构、数据、算法三大核心支柱。未来,其能力必将扩展至 AI 研发全栈,涵盖预训练流程、推理优化、AI 编译器、算子优化乃至芯片架构设计,实现 AI 全栈的自主研发与自我优化。

从单任务闭环到多任务自主探索。 未来的 AI 科研智能体将不再局限于人类定义的单一任务,而是能够自主发现有价值的科研问题,自主规划研究方向,自主执行多任务的科研探索,成为真正的“AI 科学家”。

从单模态知识到全领域知识融合。 未来的认知库将不再局限于单一任务的相关论文,而是覆盖全人类的科研成果,实现跨学科、跨领域的知识融合,催生更多颠覆性创新,正如人类历史上那些跨领域的科学大师所做的那样。

从人机分工的辅助模式到人机协同的科研新范式。 未来的科研将是人类与 AI 深度协同的范式:人类负责提出问题、定义方向、把控价值;AI 负责海量的探索、实验与迭代。两者各自发挥核心优势,共同推动整个科学技术实现指数级发展。

最后,回到论文开篇的核心问题:“AI 能否加速 AI 自身的发展?”

ASI-Evolve 以扎实、可复现的实验结果给出了明确的答案:能,而且已经到来。

AI 自主研发 AI 的闭环时代已正式开启。我们正站在这个时代的起点,见证着 AI 领域乃至整个科学技术领域最颠覆性的变革之一。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28935

(0)
上一篇 2小时前
下一篇 1小时前

相关推荐