LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

关键词:LLM、内核生成自动化优化智能体、基准测试

现代人工智能系统的性能从根本上受制于底层内核的质量,这类内核可将高层算法语义转化为底层硬件操作。要实现接近最优性能的内核,需要研发人员具备专家级的硬件架构知识与编程模型认知,这使得内核工程成为一项至关重要但耗时冗长且不具备可扩展性的工作。

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

  • Towards Automated Kernel Generation in the Era of LLMs
  • https://arxiv.org/pdf/2601.15727
  • awesome 仓库:https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation
  • 1 万字,阅读 30 分钟,播客 22 分钟

近年来,大语言模型(LLMs)以及基于大语言模型的智能体取得了长足发展,为内核生成与优化的自动化开辟了全新可能。

  • 大语言模型能够 有效凝练那些难以形式化表达的专家级内核知识
  • 智能体系统则通过 将内核开发构建为迭代式、反馈驱动的循环流程 ,进一步实现了可扩展的优化。

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

图1:大语言模型驱动的内核生成领域的增长趋势说明。我们根据这些研究成果的发表日期及其所属领域,按时间顺序和类别对它们进行了整理。

该领域已取得快速进展,但目前仍处于碎片化状态,缺乏针对大语言模型驱动的内核生成技术的系统性视角。

本综述通过结构化梳理现有方法 填补了这一空白,内容涵盖基于大语言模型的技术方案与智能体优化工作流, 并系统整理了支撑该领域算法学习与性能评估的数据集和基准测试集。

此外,本文还进一步梳理了该领域亟待解决的关键挑战与未来研究方向 ,旨在为下一代自动化内核优化技术构建全面的参考依据。为追踪该领域的发展动态,我们维护了一个开源 GitHub 代码仓库,地址为:https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation。

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式 表2 | 用于内核生成和优化的基准数据集。指标:C:正确性、S:加速比、E:效率、f:fastp、P:性能、S:相似度。硬件平台:N:英伟达GPU、H:华为NPU、G:谷歌TPU、A:AMD GPU。

本文目录

  • 零、关键问题
    • 问题1:数据稀缺与优化轨迹缺失,是否导致LLM驱动内核生成难以突破“近最优”与“泛化性”的核心矛盾?
    • 问题2:LLM智能体的工作流限制与基准测试硬件偏向,是否意味着当前“自动化内核生成”本质是“特定硬件适配的半自动化工具”?
  • 一、引言
  • 二、研究背景
    • 2.1 大语言模型与基于大语言模型的自主智能体
    • 2.2 内核编程与代码生成
  • 三、用于内核生成的大语言模型技术
  • 四、用于内核生成的大语言模型智能体技术
    • 4.1 学习机制
    • 4.2 外部记忆管理
    • 4.3 硬件分析集成
    • 4.4 多智能体协同调度
  • 五、用于大语言模型驱动的内核生成的数据集
  • 六、基准测试
    • 6.1 评估指标
    • 6.2 基准数据集
  • 七、挑战与机遇
    • 7.1 数据稀缺性与合成数据规模化
    • 7.2 智能体推理与工程标准
    • 7.3 面向合成与训练的可扩展基础设施
    • 7.4 评估鲁棒性与泛化性
    • 7.5 面向内核生成的人机协作
  • 八、结论
  • 参考文献

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

零、关键问题

问题1:数据稀缺与优化轨迹缺失,是否导致LLM驱动内核生成难以突破“近最优”与“泛化性”的核心矛盾?

现有 LLM 驱动的内核生成严重依赖高质量标注数据,但高性能内核的长尾分布特性、优化轨迹数据的缺失,以及现有数据集普遍缺乏深度硬件感知知识的问题,是否会导致这些方法始终无法突破 “近最优” 与 “泛化性” 的核心矛盾 —— 即在已知硬件上难以逼近手工优化水平,在未知硬件架构上彻底失效?

先说结论,是,现有LLM驱动的内核生成方法确实受限于数据瓶颈,难以同时实现“逼近手工优化的近最优性能”与“跨硬件/跨任务的泛化性”, 核心矛盾根源在于数据稀缺与数据质量缺陷 ,具体体现在三方面:

  1. 高性能内核数据的长尾分布与稀缺性 :作者明确指出“高性能内核呈现显著的长尾分布,在现有代码语料库中表征稀疏”,多数数据集缺乏“深度硬件感知领域知识”—— LLM需要学习的硬件架构细节、内存层级优化、指令集适配等关键信息,在现有训练数据中覆盖不足,导致模型难以生成适配特定硬件的极致优化内核,自然无法逼近人类专家手工优化水平。
  2. 优化轨迹数据的缺失 :现有语料库“主要捕获最终优化后的内核,却遗漏了优化轨迹”—— 内核优化是迭代试错、反馈调整的过程(如tiling策略调整、缓存命中率优化等),而LLM仅学习静态最终代码,无法掌握动态优化逻辑 ,导致其生成的内核缺乏“持续优化能力”,在已知硬件上难以突破性能天花板。
  3. 泛化性依赖数据覆盖,而跨硬件数据严重不足 :作者提到早期基准测试(如KernelBench、ParEval)均聚焦NVIDIA GPU,虽然后续MultiKernelBench扩展到华为NPU、Google TPU,TritonBench-revised适配AMD GPU,但整体上“跨硬件、跨算子、跨输入形状的训练数据覆盖仍有限”。 LLM的泛化能力依赖数据多样性,当面对未见过的硬件架构(如新型NPU)或小众算子时,因缺乏对应训练数据,生成的内核往往功能失效或性能极差,彻底丧失泛化性。

作者同时指出,这一矛盾的潜在解决方向是“系统化内核数据集构建、大规模合成数据生成、收集执行驱动的优化过程”,侧面印证了当前数据问题是制约“近最优”与“泛化性”的核心瓶颈。

问题2:LLM智能体的工作流限制与基准测试硬件偏向,是否意味着当前“自动化内核生成”本质是“特定硬件适配的半自动化工具”?

当前 LLM 智能体的内核优化仍受限于预定义工作流和上下文耗尽问题,且现有基准测试(如早期 KernelBench、ParEval)高度集中于 NVIDIA GPU,对 AMD、NPU 等异构硬件的覆盖不足,这是否意味着当前的 “自动化内核生成” 本质上仍是 “特定硬件适配的半自动化工具”,而非真正能适配全场景异构计算的工业级解决方案?

是的。当前 LLM 驱动的“自动化内核生成”尚未达到全场景异构计算的工业级自动化水平,其本质仍是“适配特定硬件(尤其是 NVIDIA GPU)的半自动化工具”。其核心原因在于 LLM 智能体的工作流缺陷基准测试的硬件偏向性,具体表现为:

  1. LLM 智能体的工作流局限导致“半自动化”:当前基于智能体的优化依赖“预定义、工作流驱动的范式”,缺乏自主规划与动态内存管理能力,常因“冗余探索和上下文耗尽”在长周期优化任务中失败。例如,现有智能体需依赖人工预设的优化步骤(如 Plan-Code-Debug 三阶段),无法像人类专家那样根据硬件反馈自主调整策略。这种对人工设计工作流的依赖,决定了其并非“全自动化”,而是需要人工介入配置的“半自动化工具”。
  2. 基准测试的硬件偏向固化了“特定硬件适配”:现有基准测试常局限于 NVIDIA 生态系统中的固定输入形状和前向传播原语,训练数据与评估场景均以 NVIDIA GPU 为核心(如 CUDA 代码生成、cuBLAS 性能对标)。LLM 在这种偏向性数据中训练,自然形成对 NVIDIA 硬件的“适配偏好”,而对 AMD ROCm、华为 Ascend 等异构硬件的支持不足。针对非 NVIDIA 硬件的方法(如 AscendKernelGen、GEAK)仍处于研究阶段,尚未形成规模化应用,进一步说明当前工具的核心适配场景仍是特定硬件。
  3. 跨平台兼容性与全场景覆盖不足:现有方法的跨平台能力薄弱。一方面,内核实现与硬件架构紧密耦合(如 CUDA 代码无法直接迁移至 AMD GPU);另一方面,智能体的硬件感知能力依赖“外部内存中的硬件文档”或“性能剖析反馈”,而小众硬件的文档与剖析数据稀缺,导致智能体无法适配全场景异构计算。例如,针对功耗敏感的 NPU 内核优化,仅 NPUEval 等少数基准测试涉及,相关生成方法仍不成熟。

综上所述,当前技术受限于“预定义工作流”(需人工设计)与“硬件偏向性数据/基准”(聚焦 NVIDIA),无法自主适配所有硬件架构和任务场景,其本质是“特定硬件适配的半自动化工具”,而非真正的全场景自动化解决方案。作者提出的未来方向——从手工设计工作流转向自主规划、整合结构化硬件知识库、建立跨平台评估协议——正是为了突破这一“半自动化”局限。

一、引言

大语言模型的快速规模化发展,已将硬件的高效利用 推向现代 人工智能系统的核心位置[Kaplan et al., 2020]。为满足相关需求,图形处理器(GPU)、神经网络处理器(NPU)等专用加速器已成为大规模训练与推理任务的核心支撑[Choquette et al., 2021; Liao et al., 2021]。这些计算平台的核心是各类内核,它们负责实现矩阵乘法、注意力机制等基础操作,而这些操作在大语言模型的计算负载中占据了绝大部分执行时间。因此,大语言模型系统的端到端性能、运行效率与部署成本,很大程度上由内核的效率决定,而非硬件的峰值性能。

尽管内核具有基础性地位,但高效内核的开发仍是一项极具挑战性的工程任务

  • 要实现接近硬件峰值的利用率,研发人员需要同时 具备深厚的算法设计能力与硬件相关的专业知识。
  • 此外,内核优化本质上不具备可扩展性: 内核的实现方案往往与特定的硬件架构和负载特征紧密耦合 ,这使其难以在不同代际的图形处理器或不同硬件厂商的产品之间复用与推广[Wu, 2023]。

为应对这些挑战,大语言模型及基于大语言模型的智能体为内核生成技术带来了变革性范式。通过在海量代码库与技术文档上进行训练,大语言模型能够有效凝练关于硬件规格的专家级“通用知识”,从而架起高层算法与底层实现细节之间的语义桥梁。除了静态代码生成能力之外,基于大语言模型的智能体还擅长通过迭代优化策略,在复杂多变的优化空间中寻找最优解。这种闭环优化方法不仅大幅降低了工程研发成本,还能跨不同计算负载与硬件配置进行推广,推动内核发现技术向可扩展、自动化的未来迈进。因此,大语言模型与基于大语言模型的智能体,正逐渐成为下一代内核生成与优化框架的核心基础。

尽管将大语言模型与基于大语言模型的智能体整合到内核生成技术中,已成为人工智能系统研究领域快速发展的前沿方向,但由于缺乏系统性的综述文献,该领域的研究格局呈现出碎片化特征。本综述通过呈现该领域的统一概览、厘清基础概念、梳理新兴方法与技术趋势,填补了这一空白

本文的一项核心贡献是构建了整合性的资源体系,其中包含结构化整理的可直接用于训练的内核数据集,以及专为检索增强生成(RAG)技术定制的文献集,旨在为该专业领域的内核生成技术提供数据驱动的研究支撑。

除了综合现有方法之外,本文还聚焦于该领域的关键开放性挑战,并提出了具有前景的研究方向,力求为下一代大语言模型驱动的内核生成技术创新奠定基础参考。

二、研究背景

2.1 大语言模型与基于大语言模型的自主智能体

现代大语言模型的基础是 Transformer 架构[Vaswani et al., 2017],该架构作为概率预测模型,通过“下一个 token 预测”的目标函数完成训练。给定一个 token 序列,模型的训练目标是最大化如下联合概率:

这一目标函数使模型能够在预训练阶段,隐式地内化通用知识与推理模式。

大语言模型作为推理与决策的认知核心,而自主智能体则通过整合规划、记忆、工具调用等额外系统组件,拓展了大语言模型的能力边界[Wang et al., 2024]。这些组件使智能体能够分解复杂任务、存储与检索长期上下文信息,并与外部环境进行交互。

  • 在该框架中,大语言模型扮演“大脑”的角色,通过推理策略协调各类操作。
  • 智能体则可调用编译器、解释器等工具,完成模型内部知识范围之外的任务。

2.2 内核编程与代码生成

内核是图形处理器执行流程中的基本单元,其功能是将高层算法语义转化为硬件级的并行操作。自统一计算设备架构(CUDA)实现内核的显式可编程性以来,图形处理器已发展成为通用计算平台,并得到 CUTLASS 等高度优化的函数库的支持[Thakkar et al., 2017]。

尽管如此,编写高性能的自定义内核依然具有很高的难度,这需要研发人员掌握硬件相关的专业优化策略。虽然 Triton、基于分块的编译器框架等高层抽象技术显著提升了可编程性,但要实现具有竞争力的性能,仍需大量领域专业知识,且相关方案往往无法在异构加速器平台之间迁移,这凸显了可编程性与性能可移植性之间长期存在的鸿沟。

与此同时,大语言模型在代码生成领域取得了显著进展,其能力已从简单的代码补全,发展到能够处理复杂的软件工程工作流。然而,内核生成与通用代码生成存在本质区别。 传统代码生成以功能正确性为核心目标,而内核生成则需要满足严格的效率约束,并适配硬件的执行特性 。因此,内核生成更接近于面向性能的程序综合与编译器优化技术,而非标准的软件开发流程,这就需要采用超越通用大语言模型代码生成技术的专用生成方法。

三、用于内核生成的大语言模型技术

依托大语言模型驱动的代码生成技术的发展,近期研究已越来越多地将大语言模型应用于高性能内核的生成任务。为梳理该领域涌现的方法学范式,本节将综述两种主流的后训练技术,这两种技术可使大语言模型适配内核生成任务, 分别是监督微调与强化学习。

3.1 监督微调

监督微调(SFT)已成为使大语言模型能够合成高质量内核的核心方法,该技术依赖于配对数据集,这类数据集同时包含高层计算意图与底层内核实现模式。

一项具有影响力的研究表明,模型推理过程的结构与清晰度,会对内核的正确性与性能产生显著影响。

  • ConCuR 方法[Kong et al., 2025]验证了这一结论,该方法 构建了一个精心筛选的数据集,训练样本的选取依据包括推理过程的简洁性、实现的性能加速比以及计算任务的多样性 。在该数据集上进行微调后得到的 KernelCoder 模型,能够生成具有当前最优可靠性与效率的 CUDA 内核。

另一研究方向通过编译器对齐技术构建配对训练语料库,使内核实现能够自动映射高层算子。

  • KernelLLM 方法[Fisches et al., 2025]采用了这一策略,该方法 利用 Triton 编译器生成对齐的 PyTorch-Triton 示例,并通过指令微调技术,结合能够显式编码计算与内核结构映射关系的结构化提示词完成训练

上述研究共同表明,精心设计的监督数据集能够有效使大语言模型适配鲁棒、高性能的图形处理器内核合成任务。

3.2 强化学习

强化学习技术通过迭代反馈机制提升内核生成性能。

  • Kevin 方法[Baronio et al., 2025]将内核生成建模为多轮优化过程,并采用跨轮次奖励归因技术解决长期信用分配问题。
  • QiMeng-Kernel 方法[Zhu et al., 2025]进一步优化了优化流程的结构,该方法将强化学习技术分层应用于宏观推理策略,而非底层实现细节。近期研究则聚焦于构建鲁棒的奖励机制与可验证的评估方法。
  • AutoTriton 方法[Li et al., 2025d]通过结合生成内核的结构评估与基于执行过程的运行时奖励,解决了奖励稀疏性问题。
  • TritonRL 方法[Woo et al., 2025]则通过分层奖励分解技术,以及对代码输出与中间推理轨迹的显式验证,拓展了该研究方向。
  • CUDA-L1 方法引入了基于大语言模型裁判的对比强化学习技术,以获取密集反馈信号,后续的 CUDA-L2 方法[Su et al., 2025]对其进行了改进,实现了超越 cuBLAS 库的性能。
  • 最后,AscendKernelGen 方法[Cao et al., 2026]将偏好学习范式拓展到昇腾神经网络处理器(NPU),该方法结合了基于思维链(CoT)的监督微调技术与偏好学习技术。

四、用于内核生成的大语言模型智能体技术

单纯依赖基础大语言模型,往往会将内核开发简化为静态的单次推理过程。相比之下,基于大语言模型的智能体通过在优化循环中引入自主规划、工具调用与中间结果评估机制,实现了内核优化的自主性与反馈驱动特性这种闭环、自优化的范式,使基于智能体的方法能够跨多样化的计算负载与硬件平台进行内核优化的规模化部署,同时支持长周期、无疲劳的搜索过程

具体而言,我们将近期智能体驱动的技术进展分为四个结构维度:学习机制、外部记忆管理、硬件分析集成以及多智能体协同调度。

4.1 学习机制

第一个技术进展维度与搜索策略相关。早期方法将内核生成视为迭代优化过程。

| 方法名称 | 相关文献/研发方 | 核心技术与特点 |
| :— | :— | :— |
| Caesar | Ouyang et al., 2025 | 利用简单的反馈循环优化内核 |
| 推理时扩展技术 | Chen et al., 2025b | 提升推理阶段计算资源投入与反思能力,显著提高内核质量 |
| PEAK | Tariq et al., 2025 | 采用分步的模块化迭代优化策略,应对任务复杂性 |
| 最小可执行程序技术 | Chu et al., 2025 | 无需构建复杂全量应用,实现高效、独立的迭代过程 |
| DiffAgent | Zhu et al., 2026 | 采用迭代优化技术,加速扩散模型的内核生成 |
| TritonX | Hammond et al., 2025 | 在状态机框架内采用迭代优化技术,实现完整PyTorch ATen后端内核覆盖 |
| KernelGen | BAAI, 2025 | 利用推理时扩展与反思技术,实现面向多芯片后端的内核生成 |
| MaxCode | Ou et al., 2026 | 将迭代搜索方法整合到最大奖励强化学习框架,结合自然语言评论模型,把执行反馈转化为诊断性优化建议 |
| Lange等人方法 | Lange et al., 2025b | 基于种群的进化算法,通过变异与交叉操作优化平移相关的CUDA内核,跳出局部最优解 |
| FM智能体 | Li et al., 2025a | 引入进化阶段,遵循多样性保持、自适应进化与多种群动态演化原则 |
| EvoEngineer | Guo et al., 2025 | 引入先进的种群动态管理技术,将搜索遍历技术与种群管理机制解耦 |
| GPU内核专家 | Andrews and Witteveen, 2025 | 采用多阶段进化工作流,解决AMD加速器的HIP内核优化难题 |
| cuPilot | Chen et al., 2025a | 通过高层语义策略指导进化过程 |

4.2 外部记忆管理

复杂的内核优化任务往往需要领域专用知识,例如统一计算设备架构应用程序编程接口(CUDA APIs)与硬件指令集,而这些知识可能会被大语言模型遗忘或生成幻觉内容。该类智能体通过外部记忆机制增强内核生成能力。

  • 人工智能统一计算设备架构工程师方法[Lange et al., 2025a]利用高质量内核示例的向量数据库,为大语言模型的生成过程提供事实依据,确保生成代码的语法正确性与底层编程最佳实践的合规性。
  • KernelEvolve 方法[Liao et al., 2025]进一步发展了外部知识管理范式,该方法集成了专门针对异构人工智能加速器的硬件专用知识库。除了检索非结构化文本上下文之外,近期研究还探索利用结构化表示作为外部记忆,以指导模型推理过程。
  • ReGraphT 方法[Gong et al., 2025]等研究提出了一种新颖框架,该框架将推理图作为统一计算设备架构代码优化的领域专用外部记忆。在该方法中,大语言模型优化状态之间的逻辑转换关系被外部化为静态、可导航的图结构,供小语言模型检索使用。

4.3 硬件分析集成

第三个技术维度旨在解决标准大语言模型的硬件无关特性, 具体方法是为智能体配置包含硬件规格的属性文件,并基于性能分析反馈进行迭代推理。

| 方法名称 | 相关文献 | 核心技术与特点 |
| :— | :— | :— |
| QiMent-TensorOp | Zhang et al., 2025a | 触发大语言模型分析提炼底层硬件文档内容,并将其整合到生成提示词中 |
| QiMeng-GEMM | Zhou et al., 2025b | 利用元提示词生成通用矩阵乘法(GEMM)内核,元提示词提供适配各类通用优化技术与平台专用优化细节的统一模板 |
| QiMeng-Attention | Zhou et al., 2025a | 结合目标图形处理器架构与指令集信息,将高层推理逻辑转化为底层统一计算设备架构代码,在不同图形处理器上实现高性能快速注意力机制(FlashAttention) |
| SwizzlePerf | Lei et al., 2025 | 专门解决内存重排问题,将精确的架构规格信息显式注入提示词上下文,把搜索空间限定于可最大化二级缓存命中率的内存重排模式 |

作为补充,智能体还可利用动态反馈优化内核。

4.4 多智能体协同调度

考虑到内核开发需要涵盖从算法规划、底层编码到调试优化的多领域技能,近期研究越来越多地采用多智能体设计方案,将任务职责明确分解给协同工作的不同角色。

| 方法名称 | 相关文献/研发方 | 核心技术与特点 |
| :— | :— | :— |
| STARK | Dong et al., 2025 | 将内核生成过程划分为规划、编码、调试三个阶段,模拟人类工作流程 |
| AKG | Du et al., 2025 | 采用模块化架构,实现跨平台的内核合成 |
| Astra | Wei et al., 2025 | 针对生产级SGLang内核进行专门优化,重点关注面向调优的智能体设计 |
| CudaForge | Zhang et al., 2025b | 构建由硬件级性能反馈驱动的编码-裁判循环 |
| KForge | Sereda et al., 2025 | 仅通过单次示例监督,将编码-裁判循环的双智能体模型适配到新平台 |
| KernelFalcon | Team and Contributors, 2024 | 采用多智能体系统应对规模化任务,解决全机器学习架构的GPU内核生成问题;通过协调管理智能体与执行智能体处理分层任务的分解与分配 |
| GEAK | Wang et al., 2025 | 针对AMD图形处理器,在基于Triton的工作流中集成内核生成与反思机制 |

五、用于大语言模型驱动的内核生成的数据集

大语言模型在高性能内核生成任务中的效能,关键取决于领域专用数据集的可用性。与通用软件工程不同,内核生成要求模型内化硬件特性、并行执行语义与存储层次约束。本节将对数据资源格局进行综述,并将其分为两类:
1. 训练语料库:涵盖结构化数据集与原始内核代码仓库。
2. 知识库:作为支撑检索增强生成(RAG)系统的关键要素。

训练数据包含针对性的结构感知数据集与非结构化代码仓库。
* 结构化数据集是指令微调的高价值数据来源,因为它们显式地将计算意图与优化方案进行配对。
* 开源代码仓库则包含了绝大部分领域知识,其中的优化内核代码可从开源算子库、内核库、集成框架或系统,以及领域专用语言教程与参考实现中提取并清洗得到。

除可执行代码外,领域知识库在大语言模型驱动的内核生成过程中也发挥着关键作用。
* 这类知识既可以提炼为预训练语料库,以增强模型的理解能力;
* 也可以集成到基于智能体的系统中,作为外部知识库使用。

相关语料通常来源于权威技术文档与指南,以及社区索引或教程。

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式
表1 | 训练语料库和核心知识库的结构化概述。请注意,表中的日期对应的是初始发布时间;这些库本身仍在持续积极开发中。

六、基准测试

本章聚焦于内核生成技术的系统性基准测试,结构化梳理了具有代表性的评估基准,包括评估指标与基准数据集,旨在为后续方法对比与性能分析奠定坚实基础。

6.1 评估指标

评估算子实现方案的性能时,需要考虑正确性、效率等多个因素。为构建全面的评估体系,现有基准测试通常采用基于执行过程的单元测试,将生成的内核与统一计算设备架构(CUDA)/PyTorch的标准实现方案进行对比。

鉴于算子生成过程的不稳定性,每项测试任务通常会在 n 次生成过程中,随机选取 k 个样本进行多次评估。

正确性评估根据难度分为两个层面:(1)编译成功;(2)在多组输入输出测试中与参考实现结果一致。

在代码生成领域的各类评估指标中,pass@k 指标的应用最为广泛,该指标用于计算在 k 次尝试中,至少生成一个正确实现方案的概率。其标准估算公式定义如下:

[
text{pass}@k = mathbb{E}_{text{任务}} left[ 1 – frac{binom{n-c}{k}}{binom{n}{k}} right]
]

其中,期望计算覆盖内核任务与提示词,(c) 代表正确内核实现方案的数量。

效率定义为算子实测吞吐量与理论峰值性能的比值。speedup@k 指标用于衡量生成实现方案相对基准方案的性能提升倍数,其计算公式如下:

[
text{speedup}@k = frac{1}{k} sum_{i=1}^{k} frac{T_{text{baseline}}}{T_i}
]

其中,(T_i) 代表第 (i) 个生成实现方案的运行时间,(T_{text{baseline}}) 代表基准方案的耗时。需要注意的是,实现方案按性能排序,即 (T_1) 对应性能最慢的方案,(T_k) 对应性能最快的方案。

此外,Efficiency@k 指标用于衡量生成算子在执行过程中对计算资源的利用效率。在跨不同硬件平台或编程语言评估算子生成技术时,还需要考虑兼容性指标。研究人员还会采用组合指标,对性能的多个维度进行综合评估。例如,Perf@K 指标用于衡量在 K 个生成内核中,最优方案与人类专家方案的性能差距。fastp 指标则联合评估生成内核的功能正确性与运行时性能。相似度指标通过四项指标(n 元语法、加权 n 元语法、语法结构与数据流),衡量生成代码与参考代码之间的相似程度。

6.2 基准数据集

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式
表2 | 用于内核生成和优化的基准数据集。指标:C:正确性、S:加速比、E:效率、f:fastp、P:性能、S:相似度。硬件平台:N:英伟达GPU、H:华为NPU、G:谷歌TPU、A:AMD GPU。

如表2所示,内核基准测试正从简单的单平台评估,向覆盖多硬件、多指标的综合性真实场景评估演进。具体表现为以下三个层面的发展趋势。

指标层面

除正确性与原始性能加速比等基础指标外,近期基准测试开始采用复合目标指标以进行更全面的评估。例如,TritonBench基准引入了效率指标,而Robust-kbench基准则增加了鲁棒性评估维度。

硬件层面

评估范围正突破英伟达(NVIDIA)GPU的局限。相较于早期仅面向英伟达GPU的基准测试,MultiKernelBench基准已整合华为NPU与谷歌TPU,而修订版TritonBench基准则针对AMD GPU进行了优化。此外,NPUEval基准专门针对神经网络处理器的功耗敏感型内核进行评估。

内容层面

评估负载正从通用算法转向生产级应用轨迹。KernelBench与TritonBench基准重点关注真实场景下的PyTorch到CUDA或Triton内核生成任务,其测试用例源自热门开源代码库。FlashInfer-Bench基准标准化了1600个真实大语言模型推理服务负载,BackendBench基准则针对复杂的边缘计算场景进行测试。

七、挑战与机遇

尽管大语言模型与智能体技术为内核生成的自动化展现了巨大潜力,但该领域仍处于发展初期。要将有前景的原型系统转化为生产级解决方案,仍需解决一系列相互关联的挑战。本节将分析这些核心挑战,并梳理涵盖数据、智能体、基础设施、评估与人机协作等方面的新兴研究方向,这些方向有望塑造下一代AI驱动的内核生成与优化系统。

7.1 数据稀缺性与合成数据规模化

高性能内核的分布呈现显著的长尾特征,在现有代码语料库中占比极低,这构成了生产级性能实现的根本制约。现有数据集大多缺乏深度的硬件感知领域知识,且主要包含最终优化完成的内核,缺失了完整的优化轨迹数据。

解决这些局限性的潜在方向包括:构建系统化的内核数据集、开展大规模合成数据生成工作,以及收集基于执行过程的优化流程数据。这些高质量数据对于支持预训练、监督微调、强化学习等多种学习范式,并推动内核生成系统实现有意义的规模化发展至关重要。

7.2 智能体推理与工程标准

当前基于智能体的内核优化技术,依赖于预定义的工作流驱动范式,该范式常因冗余搜索与上下文耗尽问题,难以完成长周期任务。要突破这些局限,需要从以下三个方面进行改进:

  1. 提升智能体自主性:从人工设计工作流转向自主规划与动态记忆机制。
  2. 规范化推理:将分散在技术文档与专家经验中的启发式知识,整合到结构化知识库中。
  3. 确保系统可靠性:通过形式化验证与严格的规格定义,保障生成内核的正确性。

综合解决这些挑战,对于推动基于智能体的内核优化技术从探索性工具发展为稳健的工程级解决方案至关重要。

7.3 面向合成与训练的可扩展基础设施

模型推理的低延迟特性与内核编译的高成本特性之间存在严重的延迟不匹配问题,这已成为技术发展的瓶颈,阻碍了强化学习与合成数据生成所需的高吞吐量反馈循环的构建。

解决这一挑战,需要构建能够通过标准化的分布式“类gym”环境,实现模型推理与环境执行解耦的基础设施,同时支持大规模分布式异步执行。可扩展基础设施的技术进步,对于推动内核合成与数据采样从低吞吐量实验工具发展为系统化的数据驱动学习流程至关重要。

7.4 评估鲁棒性与泛化性

AI驱动的内核生成技术面临的一项关键开放性挑战,是缺乏稳健、全面的评估体系。现有基准测试通常局限于英伟达生态系统内的固定输入形状与前向传播算子,无法反映真实负载的多样性。

要填补这些空白,需要构建能够跨输入形状、算子类型与硬件生态系统,联合评估鲁棒性与泛化性的评估协议,为衡量技术进展提供更可靠的依据。

7.5 面向内核生成的人机协作

除全自动化方案之外,人机协作是内核生成领域的重要补充范式。一个开放性研究问题是:如何系统性地整合智能体搜索能力与人类专家知识,以拓展设计空间并提升性能关键场景下的可控性。

实现这一目标需要满足两项关键要求:
1. 可解释性:智能体需为优化决策(如分块策略)提供可理解的推理依据,以便专家进行验证。
2. 混合主动交互:在该范式中,人类专家负责指定高层约束,智能体则执行具体的实现与调优工作。

建立这种合理的分工模式,对于平衡系统可控性与自动化可扩展性至关重要。

八、结论

本综述聚焦于大语言模型与智能体工作流在自动化高性能内核生成领域的变革潜力,综合梳理了监督微调、强化学习、多智能体协同调度等技术的最新进展,以及内核专用数据集与基准测试的发展现状。

展望未来,相关研究应突破僵化的工作流限制,向具备强大硬件泛化能力的自主进化智能体推理方向发展。这种技术转型不仅有助于减轻人工内核工程的负担,还能在人工智能基础设施快速扩张的背景下,显著提升研发生产力。

参考文献

LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式
LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式
LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

  • 鹏城联合华为昇腾、中山大学提出AscendKernelGen:NPU 算子闭环生成与评估,复杂L2 Kernel编译成功率95.5%,正确率64.3%。
  • MultiKernelBench:首个覆盖英伟达GPU、华为NPU、谷歌TPU的Kernel生成基准,涵盖14类算子285项测试。
  • 模块化 Triton GPU 内核代码生成 Agent 架构 GEAK:生成正确率达 63%,速度提升 2.59 倍!代码开源!
  • Meta 提出 TritorX:面向 ML ASIC 的 Agentic 算子生成系统,84.7% OpInfo 覆盖与 2 万+测试验证,简化加速器软件生态构建。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19213

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • 揭秘OpenAI Codex智能体循环:AI如何通过工具调用实现高效软件开发

    刚刚,OpenAI CEO 山姆・奥特曼在社交平台发布推文称:「从下周开始的接下来一个月,我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这一主题。 如同奥特曼的许多推文一样,这条预告也引发了网友的广泛讨论: 似乎是响应奥特曼的预告,OpenAI 官方随后发布了一篇技术博客,标题为「揭秘 Codex 智能体循环」,深入剖析了 Co…

    2026年1月24日
    1900
  • 开发者都在用:全新的 Python 工作流(uv + Ruff + Pydantic v2)

    现代 Python 技术栈更快、更干净,效率提升 10× —— 这是开发者在 2026 年的升级方式 如果你写 Python 已经有一段时间了,你大概觉得自己的工作流“够用了”。你用 pip,建个 venv,偶尔跑一次 black,然后提交代码。 但我得说一句可能不太舒服的话: 你的工作流已经过时了。 并不是坏了——只是和 2026 年最优秀的 Python…

    2025年12月22日
    8700
  • 从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路

    从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路 从OpenAI的Sora到Google DeepMind的Genie,2025年无疑是世界模型 (World Model) 的爆发之年。 然而,繁荣的背后是概念的混战:世界模型究竟是什么?是强化学习里用来训练Agent的环境模拟器?是看过所有YouTube视频的预测模型?还是一个能生成无限3D…

    2026年1月1日
    7000
  • 8个Python库:让机器学习从入门到精通只需一杯咖啡时间

    你能在一杯咖啡还没喝完时搭建出你的第一个模型。 先说一句可能听起来有点“逆风”的话: 机器学习并不难。难的是在不必要的复杂性里摸爬滚打。 多数人被机器学习劝退,不是因为不够聪明,而是因为在他们还没开始训练模型前,整个生态就已经把微积分、矩阵符号和数千页的文档砸过来了。 在用 Python 写代码 4 年多、并教过不少开发者(包括非常资深的)之后,我得出一个结…

    2026年1月23日
    2700
  • Python开发者必备:12个能解决大问题的小型库

    小工具,大作用。 Python 工具带:12 个能解决大问题的小型库 发现一打容易被忽视的 Python 库,它们安静地让开发更顺滑、更高效、更聪明——一次优雅的 import 就够。 如果你是有经验的 Python 开发者,你的工具箱里可能已经装满了 requests、pandas、flask 和 numpy 这样的“大腕”。但在这些明星库之下,还隐藏着一…

    2025年12月4日
    7800