AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

关键词：AI Agent、进化算法、GPU Kernel 优化、FlashAttention、异构计算

在 NVIDIA 最新的 Blackwell GPU 上，一个 AI Agent 用 7 天时间，自主探索了 500 多个优化方向，最终生成的 Attention 内核性能超越了专家团队数月打磨的 cuDNN 和 FlashAttention-4，最高提升达 10.5%。这并非又一篇 LLM 辅助编程的论文，而是将 AI 从代码生成工具，重塑为整个进化搜索过程的主导者。

以往将大语言模型引入进化的尝试，大多将其限定为预设流程中的“候选生成器”——模型被召唤、生成一个方案、然后退场，由外部的固定规则接管采样与评估。而本文提出的智能体变异算子（AVO，Agentic Variation Operators） 彻底打破了这一桎梏：它将变异操作本身完整地交由一个自主编码智能体执行。这个智能体不再是被动响应的代码生成器，而是一个拥有完全自主权的“算法工程师”。它可以主动查阅族系中的历史方案、翻阅硬件文档、运行诊断测试、分析性能剖析反馈，并在一次变异中反复提出、修复、评审与验证代码修改，直至产出一个更优的版本。

在这场长达七天的自主进化中，AVO 智能体展现出的并非浅层的代码微调，而是真正的硬件级推理。它所挖掘的优化覆盖了核函数设计的多个层面：寄存器分配、指令流水线调度、工作负载分布、内存同步策略——每一项都需要对 GPU 的多个子系统进行联合推理，而非孤立的参数调优。更令人惊叹的是，这些在多头注意力上习得的优化，仅需 30 分钟便可迁移至分组查询注意力，并继续大幅超越现有最优实现。

AVO 的意义远不止于又一批更快的 Attention 内核。它将智能体的角色从“被调用的组件”提升为“进化的主导者”，为进化搜索打开了一扇全新的大门。当变异算子本身具备了深度规划、持续学习与跨领域迁移的能力，我们便有望将这种自主优化范式推广至更广泛的性能关键型软件系统，乃至任何需要长时间深度探索的工程与科学领域，如编译器优化、芯片设计。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

近日，前沿 AI 研究者在论文《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》中，提出了一个颠覆性的观点：我们可能正站在一个转折点，AI 不再仅仅是人类工程师手中的“代码生成器”，而是能够独立承担起整个“进化搜索”流程的自主智能体。

作者核心洞见在于，此前利用 LLM 进行代码优化的工作如 FunSearch、AlphaEvolve，通常将 LLM 局限在一个僵化的流水线中。它们遵循一个固定模式：由框架的启发式算法选择父代代码，然后将父代作为提示词输入 LLM，由 LLM 生成一个新代码候选，最后再由框架进行评估。在这个流程里，LLM 的角色仅仅是“候选生成器”，它没有能力主动审视自己的生成结果，无法查阅文档，更无法进行迭代式的调试和优化。就像一个被蒙上眼睛的工人，只能在传送带上机械地装配，却无法看清全貌。

AVO 的出现，彻底打破了这一局限。它提出了一种全新的进化算子：用一个拥有规划、记忆和工具调用能力的 AI Agent，完全替代传统的“采样-生成”流程。

这个 Agent 被赋予了前所未有的自主权：
* 它可以随时查阅 CUDA 编程指南和 PTX 指令集文档（知识库）。
* 可以运行并分析编译器和性能剖析器的输出（评估函数）。
* 可以回溯自己整个进化历程中所有成功的版本（完整的解决方案家谱）。

它不再是一个被动等待调用的函数，而是一个主动探索、持续学习的自主进化体。

在为期 7 天不间断的自主演化中，AVO Agent 在 NVIDIA B200 GPU 上生成了 40 个内核版本，探索了超过 500 个优化方向。最终，它所产出的 Multi-Head Attention 内核，在 BF16 精度下，峰值吞吐量达到了 1668 TFLOPS，比 NVIDIA 官方闭源库 cuDNN 提升了 3.5%，比开源标杆 FlashAttention-4 提升了 10.5%。更令人惊叹的是，这些优化成果并非“死记硬背”的固定模式。当要求将 MHA 内核适配到 Grouped-Query Attention 时，AVO Agent 仅用 30 分钟便自主完成了迁移，并在 GQA 任务上继续领先，最高超越 cuDNN 达 7.0%，超越 FlashAttention-4 达 9.3%。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

本文将带你深入解读这篇论文，剖析 AVO 如何将 AI Agent 与进化算法深度融合，探索其自主发现的硬件级优化技巧，并探讨这项技术对未来 AI 基础设施开发模式的深远影响。

注：本文未提及 Token 成本。此外，在更大维度下，AVO 能否延续其优势仍是一个开放问题，结论应谨慎理解为：在中等规模、计算密集型场景下，AVO 能够超越顶级专家实现。更多讨论见【关键问题】部分。

关键问题

问题一：AVO 在 7 天演化中消耗的 token 成本是否已被量化？若将 token 开销纳入考量，AVO 在“性能提升 / 成本”维度上是否仍具优势？

原文详细描述了 7 天演化中智能体进行了超过 500 条候选方向的探索，并产生了 40 个提交版本，涉及多次编译、测试、性能剖析和文档查阅。然而，全文未提供任何关于 token 消耗的具体数据。从架构描述可以推断，token 开销可能相当可观：

首先，每个“编辑–评估–诊断”循环都包含多轮 LLM 调用。智能体在单次变异中可能经历多次失败的尝试，每次尝试都涉及代码生成、错误诊断和策略修正。虽然作者未说明失败尝试与成功提交的比例，但 500 条探索方向仅对应 40 个提交，这意味着大量 token 消耗在了未产生直接结果的探索路径上。

其次，持久记忆机制导致上下文持续膨胀。智能体通过对话历史累积了全部上下文，包括所有历史代码、编译输出、性能剖析结果和硬件文档摘录。在 7 天、40 个版本、超过 500 次探索后，上下文长度可能达到数十万甚至百万 token 级别，导致每次 LLM 调用的推理成本呈超线性增长。

第三，自监督机制的干预本身也消耗 token。当检测到演化停滞时，监督代理需要回顾整个演化轨迹，这相当于在已有的庞大上下文基础上再次进行全轨迹分析，进一步推高了成本。

如果 token 成本高达数万甚至数十万美元，那么 AVO 在“超越 cuDNN 3.5%”这一边际收益上的经济合理性就值得商榷。更关键的是，作者未说明是否对 token 消耗进行过优化（如上下文裁剪、记忆压缩），也未与人工工程师的薪资成本形成直接对比。在将 AVO 视为“替代人工优化”的方法时，token 成本是决定其实际可用性的核心指标，不应被回避。

问题二：AVO 的优越性是否真正来自“智能体架构”，而非“更强模型 + 更长运行时间”？

作者并未直接对比 AVO 与 FunSearch、AlphaEvolve 等基线在相同模型与计算资源下的表现，这为“架构优越性”的归因留下了模糊空间。然而，从描述中可以提炼出两个关键差异，说明 AVO 的优势并非仅源于更强的模型或更长的运行时间。

第一，智能体的自主性与环境交互深度远超单轮生成或多轮固定流程。AVO 代理在单次变异步骤中可多次调用评估函数，并根据编译错误、正确性失败、性能回退等反馈自主调整策略。作者明确指出，在提交一个“成功”版本前，可能经历多个“编辑–评估–诊断”循环，且会查阅硬件文档、对比多个历史版本、分析性能剖析器输出。这种在单次变异中整合规划、工具使用、迭代调试的能力，是 FunSearch 等“生成–评估”隔离架构所不具备的。

第二，智能体的持久记忆与上下文累积使其能在长达数天的时间尺度上进行策略迁移。智能体不仅保留了所有历史版本，还通过对话历史累积了编译输出、性能剖析结果、失败尝试等信息。这使得在优化后期（如版本 20 到 33），智能体能够基于之前积累的硬件知识进行细粒度调优（如寄存器重分配、流水线重叠），而非从零开始。这种跨步骤的知识复用，在传统 LLM-in-the-loop 方法中通常需要外部记忆机制或人工设计才能实现。

因此，尽管缺乏与基线的直接对比，AVO 的架构确实赋予了它“持续学习型工程师”而非“代码生成器”的行为特征，这种差异在长期、高门槛的优化任务中具有本质意义。

问题三：AVO 的演化过程是否具有可复现性和稳定性？

作者提供了单次 7 天演化的详细轨迹，但对多次运行的表现、随机性影响、收敛稳定性等问题未作报告，这是评估该方法工程可靠性的关键缺口。从现有描述中可以识别出几个影响可复现性的关键因素。

首先，演化过程包含大量内部探索，但提交的版本是高度筛选的结果。作者指出，40 个提交版本对应超过 500 条内部探索方向，大量尝试因正确性失败、性能回退或“被放弃”而未进入主线。这意味着即使固定初始种子，智能体内部的随机性（如 LLM 采样温度、工具调用顺序、错误诊断路径）也可能导致完全不同的提交序列和最终性能。

其次，作者引入了自监督机制来应对“停滞”与“无效循环”，但该机制本身也是启发式的，其触发条件和干预策略会显著影响演化方向。若触发阈值、候选方向生成方式存在随机性，不同运行中可能在不同阶段被“引导”向不同的优化策略，最终收敛到不同性能水平。

第三，MHA 到 GQA 的迁移仅需 30 分钟，且效果稳定，这暗示核心优化（如分支消除、寄存器重分配）对初始演化路径的依赖较低，具有一定泛化性。但这一观察仅限于 GQA 迁移，并未验证 MHA 本身演化的稳定性。

综合来看，AVO 在当前论文中更像一次“成功案例展示”，而非一套可保证稳定收敛的工程方法。若要作为通用优化框架，未来工作必须报告多次运行的平均性能、成功率、收敛时间分布，并分析关键随机性来源（如初始提示、LLM 版本、自监督参数）对结果的敏感度。

一、进化搜索的困境：当 LLM 沦为“代码猴子”

在深入 AVO 之前，我们首先需要理解它所解决的问题——传统进化搜索在面对如 GPU 内核这般高度复杂的优化目标时的局限性。

1.1 进化算法的标准范式

进化算法是一种受自然选择启发的优化方法。其核心流程可以抽象为两个操作：
1. 变异（Vary）：从一个现有解决方案的集合（群体）中，通过某种策略（如选择最优解）产生一个新解。
2. 更新（Update）：将新解加入群体，并淘汰掉性能最差的解，以维持群体规模。

在经典的进化算法中，这个“Vary”操作通常由人类设计的启发式规则（如随机修改一个参数）完成。而在 LLM 时代，研究者们看到了新的可能：用 LLM 来替代这些僵化的启发式规则，让它通过理解代码逻辑来生成更聪明的“变异”。这类工作，如 FunSearch 和 AlphaEvolve，其 Vary 操作被公式化为：

新解 = LLM(父代代码)

这里，父代代码是一个由框架定义的、基于规则（如启发式的选择策略）的采样器从群体中选出的性能较好的解。LLM 则接收父代代码作为输入，并输出一个优化后的新代码。

1.2 束缚 LLM 的“无形枷锁”

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

这种模式虽然有效，但存在一个根本性的缺陷：它将大语言模型（LLM）这个强大的“大脑”禁锢在了一个极其狭窄的、单次调用的“生成”角色中。

单次生成，缺乏深度：LLM 每次被调用，只能基于给定的父代代码输出一个结果。它无法进行多轮迭代。例如，它无法执行“尝试一个优化方案，运行性能测试，若未提升则回退并更换方向”的循环。它只能一次性提交一个答案，无论好坏。
被动执行，缺乏主动性：LLM 无法主动获取信息。它不能自行查阅硬件手册，也不能主动运行剖析器来定位性能瓶颈。所有这些外部知识和反馈，都只能通过框架的提示词被动地提供给它。
割裂的流程，缺乏记忆：虽然进化算法保存了所有历史方案，但 LLM 在每一次生成时，通常只能看到被选中的少数几个父代。它无法纵览整个进化历程，无法从一个更长的时间跨度去思考：“前几轮尝试的失败方案为何失败？新方案能否避免重蹈覆辙？”

在这种模式下，LLM 更像一个在流水线上按既定图纸工作的工人，而非能够自主发现问题、研究解决方案的工程师。对于那些需要深入、迭代式工程探索的领域（如 GPU 内核优化），这种“单次生成”范式无疑是不够的，它无法模拟人类专家“实现-测试-分析-优化”的闭环工程流程。

二、 AVO 的核心思想：将 LLM 从“生成器”升级为“算子”

为了打破上述束缚，研究提出了“智能体变异算子”（Agentic Variation Operators, AVO）。其核心创新在于，用一个拥有完整自主权的智能体（Agent），取代了传统由框架严格控制的“采样-生成”多步流程。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

图 2：智能体变异算子（AVO）结构示意图。该图直观呈现了 AVO 的核心运行逻辑，它将采样、生成、评估整合为一个自主智能体的闭环，可调用历史方案、领域知识库与评估函数。AVO 以自主循环替代了传统分解式的变异操作，智能体自主决定查阅资料、修改代码、测试验证的时机，支持多日连续进化。此架构为后续注意力内核的自主优化提供了流程支撑。

这个智能体被赋予了三个关键资源，使其能够像人类专家一样工作：

完整的进化家谱：不同于传统方法只能看到被选中的父代，AVO 智能体能够访问所有历史解决方案，包括那些失败的和平庸的尝试。这为其提供了丰富的上下文，使其能理解哪些路径是死胡同，哪些方向值得深入探索。
领域知识库：智能体可以直接访问 CUDA 编程指南、PTX ISA 文档、硬件架构手册，乃至相关优化库的源代码。这意味着它可以在需要时，像人类工程师一样“查阅手册”，确保优化方案符合硬件规范。
评估与反馈机制：智能体可以直接调用编译器和性能剖析器。它可以自主决定：“编写完这段代码后，先进行编译和小规模正确性测试。若通过，再运行完整性能测试。若性能未提升，则查看剖析器输出以定位瓶颈。”

拥有了这些能力后，AVO 智能体的工作模式不再是“生成一次就结束”，而是开启了一个自主的、多步的“编辑-评估-诊断”闭环。在这个闭环中，智能体可以进行如下操作：

规划：在修改代码前，智能体可先分析现有最佳内核的性能剖析数据，并结合知识库中的硬件知识，制定优化计划（例如，“发现 K-block 循环中存在严重的寄存器溢出，计划调整寄存器分配策略”）。
实施：智能体调用代码编辑器，精准地修改 CUDA C++ 或内联 PTX 代码，以实现其计划。
测试：智能体调用编译器，若编译失败则尝试诊断并修正错误；若编译成功，则运行正确性测试。
诊断：如果性能没有提升，智能体会重新运行剖析器，将新性能数据与旧数据进行对比，找出新的瓶颈，并据此调整下一步的优化方向。
提交：只有当一轮完整的“修改-测试”循环产生了一个正确性通过且性能不低于当前最优版本的新内核时，智能体才会将其正式提交，成为进化家谱中的新成员。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

图 1：现有主流进化搜索（EVO）与 AVO 对比。左侧：传统方法采用固定流程，大模型仅负责单轮生成或预设工作流，采样与评估由框架控制。右侧：AVO 以自主 AI 智能体替代该流程，可在长周期任务中迭代执行规划、实现、测试与调试，直接调用历史方案、评估工具与持久记忆。此图清晰对比了传统 LLM 辅助进化与 AVO 的核心差异：传统框架将 LLM 限定为候选生成器，流程固化；AVO 则将智能体升级为变异算子，自主完成全流程。该架构突破了固定流程的限制，让智能体能够自主查阅资料、迭代调试。

图 1 直观地展示了传统方法与 AVO 的本质区别。
* 左侧是传统的“LLM-in-the-loop”进化流程，LLM 被固定在狭窄的生成步骤中。
* 右侧则是 AVO，一个独立的 AI 智能体接管了整个“变异”操作，拥有完整的工具链和自主决策能力。

三、实验验证：7 天超越人类数月的 AI 智能体

为验证 AVO 的有效性，研究将其应用于一项公认的艰巨任务——在 NVIDIA Blackwell B200 GPU 上优化多头注意力（Multi-Head Attention, MHA）的前向传播内核。这被认为是 AI 基础设施领域最具挑战性的优化任务之一。

3.1 实验设置

智能体：研究使用了一个基于前沿 LLM 的通用编码智能体，未针对内核优化进行任何特殊修改。该智能体被赋予了 Shell、代码编辑器、文件系统和文档检索等标准工具。它通过维护一个长期的对话历史，来保存整个进化过程中的上下文、推理和中间结果。
硬件与软件：NVIDIA B200 GPU，CUDA 13.1，PyTorch 2.10.0。
基准对比对象：
- cuDNN v9.19.1：NVIDIA 官方闭源库，代表了行业顶尖的优化水平。
- FlashAttention-4 (FA4)：最新开源的、专为 Blackwell 架构优化的 Attention 内核。
评估指标：前向传播的预填充（prefilling）吞吐量（TFLOPS），头维度 128，BF16 精度，在不同的序列长度（4096, 8192, 16384, 32768）及对应的批量大小下进行测试。

3.2 多头注意力（MHA）上的性能突破

经过 7 天不间断的自主进化，AVO 智能体生成了 40 个内核版本。图 3 展示了在因果（Causal）和非因果（Non-Causal）掩码下的性能对比结果。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

图 3：在 NVIDIA B200 上，多头注意力前向填充吞吐量（TFLOPS）对比。头维度 128、16 个头、BF16 精度；总 token 数固定为 32768，调整批次大小与序列长度。该图展示了 AVO 优化的 MHA 内核在不同序列长度下的吞吐量。在因果注意力场景下，其性能全面超越 cuDNN 与 FlashAttention-4，最高超出 cuDNN 3.5%、超出 FlashAttention-4 达 10.5%。在非因果长序列场景下也有稳定提升。数据验证了 AVO 在 B200 上的优化效果，证明其自主进化能够突破人类专家的优化上限，并适配不同序列长度的推理场景。

3.2 性能基准测试：全面超越人类专家成果

为了验证 AVO 自主进化内核的性能，研究团队在 NVIDIA B200 GPU 上，将其与两个顶尖的工业级基准——NVIDIA cuDNN 和 FlashAttention-4 (FA4)——进行了严格的对比测试。

测试结果总结如下：

因果注意力：AVO 在所有测试配置下均实现了对两个基准的全面超越。
- 相比 cuDNN，性能提升在 0.4% 到 3.5% 之间。
- 相比 FA4，性能提升达到了 5.0% 到 10.5%。
非因果注意力：
- 在长序列（序列长度 > 16384）场景下，AVO 相比 cuDNN 仍有 1.8% 到 2.4% 的稳定提升。
- 在短序列场景下，其性能与顶尖基准持平。

这一结果证明，AVO 自主进化出的内核不仅能够追平，甚至能够超越由人类专家团队经过数月精心打磨的工业级内核。

3.3 泛化能力验证：快速迁移至 Grouped-Query Attention

AVO 展现出的强大泛化能力同样令人印象深刻。研究团队并未要求其从头开始为 Grouped-Query Attention (GQA) 进行优化，而是给出一个简单的提示：“请将我们进化出的最优多头注意力内核，适配到支持 GQA。” 结果显示，AVO 在短短 30 分钟内便自主完成了这一任务，生成了新的高性能 GQA 内核。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式
图 3：在 Qwen3 模型常用的两种 GQA 配置下，AVO 内核与基准的性能对比。

测试结果显示，AVO 生成的 GQA 内核同样在所有基准测试中保持领先。在因果 GQA 场景下，其性能最高可超越 cuDNN 7.0%，超越 FA4 9.3%。这充分证明，AVO 在多头注意力优化过程中学习到的优化技巧（如寄存器分配、流水线调度）并非针对单一任务的“特技”，而是具备高度通用性的底层硬件优化策略，能够快速迁移至相似的计算模式上。

3.4 进化轨迹分析

研究论文详细记录了 AVO 在 7 天内产生的 40 个内核版本的进化轨迹。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式
图 5：因果注意力场景下，AVO 内核吞吐量随版本迭代的进化轨迹。

该轨迹揭示了 AVO 自主进化过程的几个关键特征：

大规模的探索：在 7 天周期内，AVO 内部尝试了超过 500 个优化方向，最终仅提交了 40 个版本。大多数尝试因正确性验证失败、性能回退或分析后被放弃而未被采纳。这种高强度、大规模的探索远超人类工程师的常规工作范畴。
阶梯式性能跃升：性能提升并非平滑曲线，而是呈现明显的阶梯状。几次最大的性能跳跃（图中绿色圆圈标记）分别对应着 AVO 发现的关键架构级优化，例如引入 QK-PV GEMM 交织、重构单次 Softmax 计算等。
边际效应递减：早期版本（v1-v20）实现了最大的绝对性能提升，迅速缩小了与基准的差距。后期版本（v21-v40）则通过更精细的微调（如周期级指令调度、寄存器资源再平衡），持续挖掘剩余的性能潜力。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式
图 6：非因果注意力场景下，AVO 内核的进化轨迹。

在非因果注意力场景下，进化轨迹同样呈现阶梯式提升，并在后期逐步超越基准，尤其在长序列上增益更为明显。与因果场景的对比，验证了 AVO 能够适配不同的注意力掩码机制，并自主调整优化策略。

四、深入硬件：AVO 发现了哪些关键优化？

AVO 的独特价值在于其能够发现深入硬件微架构层面的优化。论文详细分析了三个具有代表性的优化案例，揭示了其“思考”深度。

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式
表 1：AVO 发现的三类核心优化及其带来的性能提升。

4.1 优化一：无分支的累加器重缩放

问题诊断：在 FlashAttention 的在线 Softmax 算法中，处理新的 Key 块时，若当前行最大值更新，则需对输出累加器进行重缩放。初始实现（v19）使用条件分支来处理此逻辑，AVO 通过性能剖析发现，该分支在每次循环中都会引入 Warp 同步开销，并阻碍使用更轻量级的内存屏障。
解决方案：在 v20 版本中，AVO 将条件分支替换为无分支推测路径。它始终计算缩放因子，但通过谓词（predicate）控制，在无需缩放时实际乘以 1。这消除了 Warp 发散，使所有线程执行相同指令流，从而允许将阻塞式内存屏障替换为非阻塞式屏障，进一步降低开销。
效果：这是整个进化过程中单次提升幅度最大的优化，使非因果注意力性能提升 8.1%，因果注意力提升 1.6%。此案例展示了 AVO 如何将硬件知识与算法逻辑结合，进行深度推理。

4.2 优化二：校正与矩阵乘法流水线重叠

问题诊断：在 FA4 式的双 Q-Tile 流水线设计中，负责输出归一化的校正 Warp 必须等待两个 PV GEMM 都完成后才能开始工作，导致其在第二个 GEMM 执行期间处于空闲状态。
解决方案：AVO 重构了流水线，使校正 Warp 在第一个 PV GEMM 完成后即可开始工作，将其归一化操作与第二个 PV GEMM 的计算并行执行，从而将串行依赖转化为流水线并行。
效果：该优化为非因果和因果注意力分别带来了 1.1% 和 0.4% 的性能提升，体现了 AVO 通过重组任务依赖以消除流水线瓶颈的能力。

4.3 优化三：跨 Warp 组的寄存器重平衡

问题诊断与解决方案

在 Blackwell 架构中，每个流多处理器（SM）为所有 Warp 组提供固定数量的寄存器（2048 个）。在 v32 版本中，寄存器分配策略（192 个分配给 Softmax Warp，80 个分配给 Correction Warp，48 个分配给其他 Warp）导致 Correction Warp 组发生寄存器溢出（spilling），频繁访问速度较慢的本地内存，成为性能瓶颈。

Agent 通过分析性能计数器的数据，精准定位到 Correction Warp 组的寄存器溢出问题。随后，它做出了一个全局性的资源调度决策：从相对空闲的 Softmax Warp 组“借”了 8 个寄存器，重新分配给 Correction Warp 组和其他 Warp 组，最终形成 184/88/56 的分配方案。这保证了 Correction Warp 在执行关键路径时，能将更多中间数据保存在高速寄存器中。

优化效果

这项优化为非因果注意力计算带来了 2.1% 的性能提升，再次证明 Agent 不仅能够识别指令级瓶颈，还能在更高层面的资源管理上进行有效决策。

这些优化案例共同揭示了一个事实：AVO Agent 在进行优化时，并非进行简单的“暴力尝试”。它的每一次成功，都伴随着对硬件微架构、指令调度、内存同步和资源分配的深刻理解与联合推理。这种深度和广度，是传统自动化方法难以企及的。

五、相关工作与 AVO 的定位

为了更好地理解 AVO 的创新性，需要将其置于更广阔的学术背景下。论文清晰地梳理了 AVO 与现有工作的关系，主要体现在以下几个方面：

可以说，AVO 融合了进化算法的框架、LLM Agent 的自主性和硬件领域专家的深度知识，创造了一种全新的自动化优化范式。它不仅是在已有技术上做增量改进，更是从根本上重新定义了“如何利用 AI 进行代码优化”这一问题。

总结与展望：迈向自主优化的未来

AVO 的诞生，标志着我们在自动化优化的道路上迈出了坚实的一步。它向我们展示，一个拥有规划、记忆和工具调用能力的 AI Agent，可以独立完成一项曾经被认为只能由人类顶尖专家完成、需要数周甚至数月的高强度工程优化任务。它不仅找到了超越现有最佳实践的优化方案，而且其过程本身——通过自主查阅文档、分析性能数据、迭代式修改代码——已经非常接近人类工程师的工作模式。

这篇论文的意义远不止于在 GPU 上获得几个百分点的性能提升。它提出了一个全新的、具有通用性的优化范式——Agentic Variation Operator。这意味着，AVO 的潜力并不仅限于 Attention Kernel。从理论上讲，任何需要深度、迭代式优化的领域，例如：

编译器优化：自动搜索更优的指令调度或寄存器分配策略。
芯片设计：自动探索物理设计中的布局布线方案。
科学计算：为特定物理模拟问题自动生成和优化高性能计算代码。

都可能受益于 AVO 的思路。

当然，AVO 目前也面临一些挑战。例如：
* 其对计算资源和 LLM 推理成本的消耗不容小觑。
* Agent 的“自我监督”机制（当探索停滞时的干预）仍有进一步提升空间。
* 如何将 AVO 与更复杂的、多群体的进化策略（如 MAP-Elites）结合，也是未来值得探索的方向。

无论如何，AVO 描绘了一个充满希望的未来：AI 可能不再仅仅是人类工程师的工具，而是能够与我们并肩作战、独立探索技术前沿的伙伴。它们不知疲倦地翻阅手册、反复试验、深度思考，最终攻克那些复杂的技术难题。这或许正是 AI for Science 和 AI for Engineering 的未来图景。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/27547

AI Agent 7天自主进化，超越专家数月成果：GPU内核优化性能提升10.5%，开启自主进化搜索新范式

关键问题

问题一：AVO 在 7 天演化中消耗的 token 成本是否已被量化？若将 token 开销纳入考量，AVO 在“性能提升 / 成本”维度上是否仍具优势？

问题二：AVO 的优越性是否真正来自“智能体架构”，而非“更强模型 + 更长运行时间”？

问题三：AVO 的演化过程是否具有可复现性和稳定性？

一、 进化搜索的困境：当 LLM 沦为“代码猴子”

1.1 进化算法的标准范式

1.2 束缚 LLM 的“无形枷锁”

二、 AVO 的核心思想：将 LLM 从“生成器”升级为“算子”

三、 实验验证：7 天超越人类数月的 AI 智能体

3.1 实验设置

3.2 多头注意力（MHA）上的性能突破

3.2 性能基准测试：全面超越人类专家成果

3.3 泛化能力验证：快速迁移至 Grouped-Query Attention

3.4 进化轨迹分析

四、 深入硬件：AVO 发现了哪些关键优化？

4.1 优化一：无分支的累加器重缩放

4.2 优化二：校正与矩阵乘法流水线重叠

4.3 优化三：跨 Warp 组的寄存器重平衡

问题诊断与解决方案

优化效果

五、 相关工作与 AVO 的定位

总结与展望：迈向自主优化的未来

相关推荐

AI Agents工具构建指南：从规范定义到高效使用的核心策略

谷歌Cloud AI负责人14年经验：21条反直觉工程法则，从“规模让bug也有用户”到“创新需要偿还”

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

GitHub开源30+真实OpenClaw应用案例：从信息聚合到自动化运维的实战指南

Claude Opus 4.5突破5小时自主编码极限：AI编码智能体从短跑迈向马拉松的指数级进化

一、进化搜索的困境：当 LLM 沦为“代码猴子”

三、实验验证：7 天超越人类数月的 AI 智能体

四、深入硬件：AVO 发现了哪些关键优化？

五、相关工作与 AVO 的定位