Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

关键词：Meta-Harness、工具集优化、代码空间搜索、执行轨迹访问、智能体式优化

改变一个固定大语言模型外围的工具集，可以在同一基准测试上产生高达6倍的性能差距。工具集（harness，即封装LLM的代码框架，通过设计输入输出规则、调用外部工具、处理多轮对话逻辑等方式，在不修改模型参数的情况下提升其场景适配性）决定了为模型存储、检索和呈现哪些信息，其重要性往往与模型权重本身不相上下。

然而，当前的工具集设计仍主要依赖人工。现有的文本优化方法之所以难以胜任此任务，是因为其对反馈信息的压缩过于激进：要么无记忆、仅依赖数值分数，要么将反馈限制为简短的模板或摘要。这种设计在需要长时序因果推理的工具集工程面前显得力不从心。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

为此，来自斯坦福大学和麻省理工学院的研究团队提出了 Meta‑Harness——一个通过端到端搜索，为大语言模型应用自动寻找最优工具集代码的外层循环系统。

其核心是一个智能提议器，它能够通过文件系统访问所有历史候选工具集的完整源代码、评分结果以及详细的执行轨迹。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图2：Meta-Harness的搜索循环。(1) 智能体读取包含所有历史候选对象源代码、执行轨迹和评分的文件系统，并提出新的工具集方案。(2) 在评估任务中对提议的工具集进行验证。(3) 所有日志（提议的代码、推理轨迹、评估分数）被存储到文件系统的新目录中，循环重复执行。

消融实验表明，对完整执行轨迹的访问权限是整个系统中最为关键的部分——仅凭分数或摘要远远不够。在三个任务上的实验结果验证了这一设计的优势：

在线文本分类：Meta‑Harness 仅用0.1倍的评估次数就追平了此前最优文本优化器的最终精度，最终相较当前领先的上下文管理系统，准确率提升7.7个百分点，同时使用的上下文令牌数减少至1/4。
检索增强型数学推理：单个由 Meta‑Harness 发现的工具集，在200道国际数学奥林匹克（IMO）难度的题目上，对5个未参与训练的模型的平均准确率提升4.7个百分点。
智能编码任务：发现的工具集在 TerminalBench‑2 基准上超越了最优的人工设计基线，在特定模型上甚至登顶排行榜。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图1左：在文本分类任务中，Meta-Harness性能优于此前表现最佳的人工设计工具集（ACE）和现有文本优化器（TTT-Discover、OpenEvolve），仅经过4次评估就达到了次优方法的最终准确率。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图1右：在TerminalBench2基准测试中，Meta-Harness性能优于所有已公开的Claude Haiku 4.5工具集。

这些成果表明，Meta‑Harness 的核心优势不仅在于对代码空间的搜索，更在于能够有选择地访问并利用先前的完整诊断经验——这使得系统能够进行因果层面的推理与改进，而非盲目迭代。

二、核心方法：Meta-Harness 的设计

现有文本优化方法在模型工具集工程上面临根本性挑战：每个优化步骤可获取的上下文信息规模极其有限。如表1所示，代表性方法单次迭代可用的诊断信息（即分析问题所需的完整数据）仅为100至30,000个令牌，这远低于优化复杂工具集所需的数据量。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
表 1：文本优化方法与 Meta-Harness 的上下文规模对比。Mtok/iter（百万令牌/迭代）是对各方法在最大实验设置下，单次评估所能产生的全量诊断信息的最佳估算。Meta-Harness 将每次评估可用的上下文信息提升了数个数量级。

更广泛的研究（如检索增强生成、记忆增强型语言模型）表明，有效的上下文利用依赖于自适应访问——即根据当前需求动态、选择性地获取外部信息，而非将所有信息整体封装到单个提示词中[28, 37, 48, 56]。

2.1 Meta-Harness 概览

为解决上述局限性，我们提出了 Meta-Harness：一个通过端到端搜索来优化模型工具集的元工具集。其核心是一个由编码智能体驱动的搜索循环，如图2所示。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图 2：Meta-Harness 的搜索循环。(1) 编码智能体读取存储了所有历史候选工具集源代码、执行轨迹和评估分数的文件系统，并提出新的工具集方案。(2) 在目标任务上评估新提议的工具集。(3) 将本次迭代的所有日志（代码、推理轨迹、分数）存储到文件系统的新目录中。循环重复执行。

2.2 关键设计：基于文件系统的全量历史访问

我们选择编码智能体（一个基于大语言模型、可调用开发工具来读写和修改代码的系统）作为提议器，而非原生大语言模型。原因在于，随着搜索进行，系统积累的经验会迅速超出任何模型的上下文窗口。因此，提议器必须具备自主决定检查哪些历史信息、并通过与代码库交互来验证想法的能力。

Meta-Harness 的核心设计是：通过标准文件系统开放全量历史信息，使提议器能够选择性地分析原始的代码和执行轨迹，而非依赖经过压缩或聚合的摘要。
* 对于每个历史候选工具集，文件系统完整存储其源代码、评估分数和详细的执行轨迹（如模型调用、中间结果）。
* 提议器通过 grep、cat、find 等标准Shell命令检索和分析这些信息，而非将它们整体输入提示词。
* 在实际运行中，在最复杂的实验设置下，提议器每次迭代平均读取82个文件，参考超过20个历史候选对象的信息。
* 这一设计使得单次工具集评估可产生多达1000万令牌的诊断信息，较之前文本优化方法的最大反馈规模提升了约三个数量级（表1）。

2.3 实验评估

我们在三类任务上评估了 Meta-Harness 的性能：

在线文本分类：Meta-Harness 发现的工具集，相比当前最优的智能上下文工程方法（ACE），准确率提升7.7个百分点，同时上下文令牌使用量减少至1/4。仅通过4次提议，其性能就达到了次优文本优化器经过60次提议后的最终水平。
数学推理：在检索增强的IMO难度数学问题上，Meta-Harness 发现的单个工具集，能使5个未参与训练的模型的平均准确率提升4.7个百分点。
智能编码：在 TerminalBench-2 基准测试中，Meta-Harness 发现的工具集性能超越所有已知的 Claude Haiku 4.5 智能体框架，排名第一。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图 1：（左）在文本分类任务中，Meta-Harness 的性能超越人工设计框架（ACE）及自动文本优化器。（右）在 TerminalBench-2 上，Meta-Harness 位列已公开的 Claude Haiku 4.5 框架榜首。

三、相关工作

Meta-Harness 在宏观上融合了元学习与信用分配的思想[2, 3, 17, 40, 44, 46]，并借助近期编码智能体的技术进展实现了新应用。它不在模型参数层面，而是在工具集层面进行信用分配：通过分析历史运行经验，定位导致系统失效的具体组件或决策步骤，然后直接重写控制模型行为的外部代码。具体而言，本工作与以下三个研究方向直接相关：

3.1 外部记忆与自适应访问

大量研究表明，让语言模型自适应地访问大规模外部知识源或长上下文（如通过检索增强生成[28]、推理交织[48]、记忆智能体[37]、递归模型[56]），比一次性处理全部内容更有效。Meta-Harness 采用了类似的访问范式，但将其应用于更具挑战性的工具集工程场景：提议器自适应地检查大规模的历史代码与执行轨迹，以优化上下文管理流程本身。

3.2 可执行代码搜索

近期工作探索了对函数、工作流或智能体设计的可执行代码进行搜索，例如：
* 在进化程序搜索中使用大模型指导变异与交叉[27]。
* 在固定框架内进化特定函数[39]，或利用元智能体从历史发现中编写新智能体代码[20]。
* 为智能系统搜索工作流图[58]或持续学习的记忆设计方案[50, 57]。

Meta-Harness 的差异在于：它专门搜索领域特定的模型工具集（包括提示构建、检索、状态重置等策略），并且其外层循环设计极为简洁。它不依赖固定框架、归档或持久化记忆，而是让提议器通过文件系统不受限制地访问原始历史经验。这使得智能体能自主决定检查内容，并支持对工具集完整实现方案的搜索，而非在预设的流程空间内搜索。

3.3 文本优化方法

Meta-Harness 与 ProTeGi、TextGrad、OPRO、OpenEvolve 等利用反馈迭代优化提示词或文本工件的方法密切相关[1, 26, 31, 35, 38, 43, 51, 53]。然而，这些方法难以直接适用于工具集工程，因为优化对象是完整的可执行流程，且相关反馈分散在代码、分数和详细轨迹中，无法提前有效汇总。

Meta-Harness 的关键区别在于：其提议器并非仅对聚合分数或摘要做出反应，而是能够深入分析失败案例的具体执行轨迹，从而提出针对性的代码修改方案。表1与图1、图4的对比实验表明，在工具集优化的问题规模和性能上，Meta-Harness 均显著优于这些文本优化方法。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
表 1（再次展示）：本文设置与文本优化方法在可用上下文规模上的数量级差异。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图 4：在线文本分类任务中，各文本优化器在多次评估下的搜索集准确率。每个点代表一个候选测试框架，曲线追踪当前最优结果。图中同时展示了各数据集的独立曲线与整体汇总曲线。Meta-Harness 在前 4 次评估内就达到了对比方法的最终准确率水平，并持续优化，最终准确率超出所有基准方法 10 个百分点以上。

三、Meta-Harness：优化模型工具集的工具集

本节详细介绍 Meta-Harness，即本文提出的、针对特定任务工具集进行搜索的外层循环流程。其核心设计理念是：模型工具集的优化需要让提议器通过文件系统选择性地检查历史代码和执行轨迹，而非基于失真的摘要或额外的人工设计搜索结构。从宏观层面看，该系统会不断提议、评估并记录新的工具集方案。

从广义上讲，Meta-Harness 本身也是一种模型工具集（这也是其命名的由来），因为它决定了提议器模型在搜索过程中能够获取哪些信息。除非另有说明，本文中提及的“工具集”均指待优化的特定任务程序。

3.1 优化目标

模型工具集是一种封装语言模型的有状态程序，决定了模型在每个步骤中能看到的上下文信息。其优化目标十分明确：找到能让底层模型在目标任务分布上表现最佳的工具集。

形式化地，令 $M$ 表示固定的大语言模型，$D$ 表示任务分布。对于工具集 $H$ 和任务实例 $x sim D$，执行一次运行轨迹 $tau = H(M, x)$。工具集为模型 $M$ 构建提示词，模型生成响应，工具集在每次交互后更新自身状态。任务专属奖励函数 $R(tau)$ 对运行轨迹进行评分。模型工具集优化的目标是找到使最终期望奖励最大化的工具集 $H^*$：

$$H^* = argmax_H mathbb{E}_{x sim D}[R(H(M, x))]$$

当存在多个优化目标时（如准确率和上下文成本），本文基于帕累托支配（多目标优化中，若一个解在所有目标上的表现均不劣于另一个解，且至少在一个目标上更优，则称该解支配另一个解）对候选对象进行评估，并报告最终的帕累托前沿（由所有非支配解构成的集合）。

在实际应用中，这一搜索过程历来由人工工程师和研究人员完成：他们通过人工方式迭代优化提示词、上下文管理规则和工具使用逻辑。

3.2 Meta-Harness 的搜索循环

Meta-Harness 搭载单个编码智能体提议器，该提议器可访问不断扩展的文件系统（作为其反馈通道）。需要说明的是，基于前期探索，我们认为该工作流程直到近期才具备实用性，这得益于编码智能体能力的大幅提升。此处的编码智能体是基于大语言模型、可调用开发工具并修改代码的系统。

与此前将改进逻辑外置在人工设计的搜索循环中的系统不同，Meta-Harness 将问题诊断和方案提议的工作完全交由编码智能体完成：由智能体自主决定检查哪些历史工件、解决哪些失效模式，以及进行局部修改还是大幅重写代码。换言之，提议器并非在由外层循环组装的固定提示词上运行的原生下一词预测模型，而是将信息检索、历史工件导航和代码编辑作为搜索过程一部分的智能体。

每个经过评估的工具集都会在文件系统中对应一个目录，存储其源代码、评分和执行轨迹（如提示词、工具调用、模型输出和状态更新）。文件系统的规模通常远大于提议器的上下文窗口，因此提议器通过终端工具（如 grep、cat）查询文件系统，而非将其作为单个提示词整体输入。在每次迭代中，提议器首先检查历史代码、评分和执行轨迹，随后分析可能的失效模式，最后生成新的工具集方案。

Meta-Harness 会维护一个候选工具集种群 $P$ 和经过评估的工具集的帕累托前沿，但不设置任何父代选择规则：提议器在提出新方案时，可自由检查任意历史工具集及其执行轨迹。本文在固定的迭代次数内执行进化过程，并在帕累托前沿的候选对象上进行最终的测试集评估。这一极简设计是刻意为之的：将问题诊断和代码编辑的决策交由提议器完成，而非硬编码搜索启发式规则，使得 Meta-Harness 能够随着编码智能体能力的提升而自动实现性能改进。提议器始终无法获取测试集结果，其唯一的反馈来自搜索集，以及这些搜索运行过程中记录的执行轨迹。

3.3 代码空间搜索的优势

模型工具集的优化在代码空间（以代码为搜索对象的空间）中进行，对检索、记忆或提示词构建逻辑的微小修改，可能会在后续多个步骤中影响模型行为，这使得局部搜索启发式规则难以适配该问题。

通过检查执行轨迹，提议器往往能够推断出工具集失效的原因，以及哪些早期设计决策可能导致了该问题，而非仅知晓工具集失效这一结果。研究发现，提议器会广泛读取历史代码和日志，随后利用这些轨迹识别混杂修改（多个修改因素相互交织的代码改动）、分离可能产生因果影响的修改，并在多次性能退化后转向更安全的修改方式。

因此，提议器能够在算法结构层面修改工具集，包括调整检索、记忆或提示词构建逻辑，甚至对程序进行完全重写，而非仅填充模板或应用预定义的变异操作。

在实际应用中，提议器通常会以一个性能较强的初始工具集为基础进行优化，但这是一种涌现出的策略，而非硬编码规则。尽管搜索空间规模庞大，但将工具集表示为程序能够提供一种自然的正则化偏置（让模型倾向于生成特定类型结果的约束）：编码模型往往会提出逻辑连贯的算法，而非脆弱的、硬编码的解决方案，这使得搜索过程更倾向于找到可复用的上下文管理流程。这一操作空间与前沿编码助手的训练所基于的“读取-写入-执行”工作流高度契合。

算法 1：Meta-Harness 针对工具集的外层循环

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
算法 1：Meta-Harness 的外层循环。输入：初始工具集 $H_0$，提议器 $A$，任务分布 $D$，奖励函数 $R$，迭代次数 $T$。输出：帕累托前沿 $F$。

实际实现

在本文的实验中，每个工具集均为单个 Python 文件，用于修改特定任务的提示词设计、信息检索、记忆管理和编排逻辑。实验中的提议器 $A$ 为 Claude Code（搭载 Opus-4.6 模型）。

提议器由一个极简的领域专属技能（定义模型操作边界和目标的自然语言描述）引导，该技能规定了新工具集的编写位置、历史工具集及其执行轨迹的检查方式，以及提议器可修改和不可修改的文件。

底层模型 $M$ 随任务领域变化，且始终保持冻结状态（不更新权重）。在实验中，一次典型的运行会在 20 次迭代中评估约 60 个工具集。

四、实验

本文在三个任务领域对 Meta-Harness 进行评估：在线文本分类、数学推理和智能编码。在每个领域中，本文将 Meta-Harness 搜索得到的工具集与适用于该领域的基线模型进行对比，并采用标准的评估指标。各子节将详细介绍具体的实验设置。

本文主要与两类方法进行对比：

人工设计策略：为每个领域量身打造的人工设计工具集，代表了当前上下文构建的最优水平，各子节将对这些基线模型进行详细描述；
程序搜索方法：这类方法利用反馈和奖励信号搜索候选工具集，但为适配更小规模的场景设计，难以直接应用于模型工具集工程。

4.1 在线文本分类

本文沿用 Zhang et al.、Ye et al. 的在线文本分类实验设置：大语言模型逐个接收带标签的示例、更新自身记忆，并在独立的测试集上进行评估。

实验采用 GPT-OSS-120B 作为大语言模型文本分类器，研究目标是为该任务设计最优的模型工具集。实验选取了三个难度较高、领域多样的数据集：

LawBench（法律领域）[16]：根据案件描述预测刑事指控（215个类别）；
Symptom2Disease（医疗领域）[19]：根据症状描述预测疾病（22个类别）；
USPTO-50k（化学领域）[41]：根据产物分子预测前驱反应物（180个类别）。

实验以该场景下的主流基线工具集初始化搜索种群，包括零样本、少样本、ACE和MCE。执行20次进化迭代，每次迭代生成2个候选工具集，共得到40个候选对象。

与文本优化器的对比

为评估Meta-Harness的有效性，我们将其与具有代表性的文本优化方法进行对比。为保证公平，所有方法均采用相同的提议器配置（搭载最大推理能力的Opus-4.6），仅基于搜索集性能选择候选对象，并将测试集保留至最终评估。由于模型评估是主要计算瓶颈，我们为每种方法分配相同的候选工具集评估预算。对比方法包括：

最优N选1（Best-of-N）：从初始种子中随机生成独立样本，无任何搜索结构；作为验证搜索过程是否有效的计算匹配对照。
OpenEvolve[43]：基于大语言模型变异的程序进化搜索。
TTT-Discover[55]：仅使用该方法的文本优化组件，即通过PUCT复用规则选择提议方案。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图1：（左）在文本分类任务中，Meta-Harness 优于此前最优的人工设计框架（ACE）及现有文本优化器（TTT-Discover、OpenEvolve），仅通过4次评估即可达到次优方法的最终准确率。（右）在 TerminalBench2 数据集上，Meta-Harness 优于所有已公开的 Claude Haiku 4.5 框架。

在此实验设置下，Meta-Harness 仅用 1/10 的评估次数就达到了此前最优文本优化器（OpenEvolve、TTT-Discover）的性能，且其最终准确率超出这些方法 10 余个百分点（图 1 和表 4）。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
表 4：不同文本优化器所提出的约束框架在文本分类任务中的准确率（搜索集）。元约束框架在约束框架优化方面效果显著更优。

我们认为，这一加速效果得益于 Meta-Harness 的核心设计：对外层循环施加最少的必要结构。具体而言：
* Meta-Harness 通过文件系统保留全量的历史经验，使提议器能够检查任何所需信息。
* 而 OpenEvolve 和 TTT-Discover 的提议器输入则具有更强的结构性，且远不如全量文件系统访问那般全面。

需要注意的是，在线文本分类是本研究中上下文规模最小的场景（表 1）。因此，若这类强结构化的文本优化器已在此场景中表现不佳，其局限性在更复杂的任务中可能会进一步放大。

提议器接口信息完整性的影响

为探究提议器接口中各组件的重要性，我们在在线文本分类任务中设置了三组消融实验：仅含分数的设置、含分数与摘要的设置（提议器获取大语言模型生成的摘要，但无原始轨迹），以及含全量信息的 Meta-Harness 接口（可访问执行轨迹）（表 3）。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
表3：在线文本分类中对提议者可用信息的消融实验。表头 ZS 表示准确率超过零样本基准的运行次数。完整的Meta-Harness界面性能显著优于仅分数版及分数加摘要版的消融方案。获取原始执行轨迹是实现工具链搜索的关键要素。

结果显示，全量接口的性能显著优于其他两组：
* 仅含分数的设置达到 34.6%的中位数准确率和 41.3%的最优准确率，含分数与摘要的设置达到 34.9%的中位数准确率和 38.7%的最优准确率。
* 而 Meta-Harness 则达到 50.0%的中位数准确率和 56.7%的最优准确率，其候选对象的中位数性能甚至超过了另外两组的最优性能。

这一结果表明，对执行轨迹的全量访问是接口中最核心的组件：摘要无法恢复丢失的关键信号，甚至可能因压缩掉具有诊断价值的细节而导致性能下降。

与最优人工设计工具集的对比

我们主要对比了该场景下的人工设计工具集：智能上下文工程（ACE）（Zhang et al. [59]，通过反思性记忆整理随时间构建上下文）和元上下文工程（MCE）（Ye et al. [52]，维护并进化一套用于上下文构建的自然语言技能库）。作为额外基线，我们还评估了零样本提示词，以及样本数全量的少样本提示词。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
表 2：三个数据集上所有测试框架的测试集指标。Ctx表示上下文新增输入令牌数量（千）。†：源自Ye等人[52]的实现方案。↓：数值越低效果越好。MetaHarness在使用更少输入上下文的同时，提升了在线文本分类的准确率。

表 2 的结果显示，Meta-Harness 相较此前的人工设计工具集实现了显著的性能提升。
* 选定的 Meta-Harness 工具集准确率达到 48.6%，相较 ACE 提升 7.7 个百分点，相较 MCE 提升 8.6 个百分点。

这些性能提升并非通过增加上下文令牌数实现：Meta-Harness 仅使用 11.4k 个上下文令牌，而 ACE 和 MCE 分别使用 50.8k 和 28.5k 个。

准确率-上下文的权衡

由于 Meta-Harness 对工具集代码进行自由形式的优化，因此能够同时兼顾准确率和上下文成本两个目标，而非提前设定单一的标量优化目标。仅基于当前的评估指标和期望的权衡关系，提议器就能发现分布在帕累托前沿不同位置的工具集，最终形成平滑的准确率-上下文帕累托曲线（图 3）。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
图 3：在线文本分类任务中准确率与上下文令牌数的帕累托前沿。Meta-Harness 实现的准确率-上下文帕累托前沿，优于所有对比方法。

这使得研究人员能够以可控的方式，通过增加上下文令牌数换取更高的测试集准确率，而非局限于人工设计的单一工作点。

分布外（OOD）任务评估

我们进一步评估了发现的工具集在搜索过程中未见过的全新数据集上的泛化能力，选取了 9 个领域多样的数据集。选定的 Meta-Harness 系统达到了 73.1%的平均准确率，优于 ACE（70.2%）和所有少样本基线模型（表 5）。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍
表 5：分布外文本分类数据集评估。我们报告了各数据集的测试准确率，以及全部九个数据集的平均额外上下文标记数量。在这9个此前未见过的任务上，Meta-Harness 相比次优方法高出2.9个百分点。

实验发现，在 9 个任务中有 7 个任务中，盲目将少样本示例数增加至 32 以上会导致性能下降。Meta-Harness 在 9 个数据集中的 6 个上表现最佳，这表明发现的工具集捕捉到了适用于文本分类的通用有效策略，而非对搜索过程中使用的特定数据集过拟合。

4.2 检索增强型推理的模型工具集

我们研究了一种非标准的奥林匹克数学解题设置：为模型增加从大规模语料库中检索示例的能力。

从理论上讲，检索功能有望提升数学推理性能，因为解题方法往往包含可复用的证明模式，历史推理轨迹中包含模型在推理时可利用的信息。然而，检索功能并未成为该场景的标准配置，且已有研究表明，在推理密集型的数学基准测试中，检索的效果远不如在事实型领域中显著[42;49;6]。这一现象的原因在于，简单的检索策略难以以合适的形式找到匹配的推理轨迹。这表明，检索策略的成功与否，关键不在于是否加入检索功能，而在于找到最优的检索策略。我们并未人工设计该策略，而是让 Meta-Harness 在一组高难度的奥林匹克数学题上进行搜索，让检索行为从搜索过程中自然涌现。

4.2 数学推理任务评估

为评估 Meta-Harness 在复杂数学推理任务上的优化能力，我们设计了一项检索增强型数学问题求解实验。实验的检索语料库包含来自 8 个开源数据集的超过 50 万个已解数学题。我们对语料库进行了严格的去重和去污染处理，剔除了与评估基准测试和搜索集重叠的内容；通过基于字符串的过滤确认，独立测试的题目无完全匹配的前缀；并人工检查了独立测试示例的 BM25 顶级检索结果。

我们使用 Meta-Harness 在一个包含 250 道奥林匹克难度数学题的搜索集（OlympiadBench + Omni-MATH 难题集）上，经过 40 次迭代优化检索工具集，共生成 109 个候选检索工具集。搜索过程以该场景下的主流基线工具集（零样本、少样本和 ACE）初始化种群。基于搜索集上的性能，我们选定了一个搭载 GPT-OSS-20B 的单一工具集。随后，我们在 200 道从未见过的 IMO 难度题目上对该工具集进行评估，题目选自 IMO-AnswerBench、IMO-ProofBench 和 ArXivMath[30;6]。除 GPT-OSS-20B 外，我们还在 4 个未参与搜索的模型上评估了同一个检索工具集：GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite 和 Gemini-3-Flash。实验沿用已有研究的标准评估协议[30]，报告每道题经过 3 次采样后的平均准确率。

4.2.1 实验结果

表 6 将发现的工具集与无检索、基于独立嵌入模型 text-embedding-3-small 的密集检索、随机少样本提示词和 BM25 检索进行了对比。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

发现的检索工具集在所有 5 个独立测试模型上的性能均优于无检索基线，平均准确率提升 4.7 个百分点。 其平均性能也持平或优于所有最优的固定基线模型，相较 BM25 检索的整体准确率提升 1.3 个百分点，同时避免了密集检索和随机少样本提示词在多个模型上出现的性能退化问题。

4.2.2 性能迁移分析

在检索增强型数学推理任务中，单个发现的检索工具集在 5 个独立测试模型上均实现了性能迁移。这表明 Meta-Harness 优化的工具集不仅针对特定模型有效，还具备向未见过的底层模型泛化的能力，在所有对比方法中实现了最优的整体平均性能。

4.3 TerminalBench-2 智能体任务评估

TerminalBench-2[33] 用于评估大语言模型智能体在 89 项高难度任务上的性能，这些任务要求智能体具备长时序的全自主执行能力、处理复杂的依赖关系，并掌握大量领域知识。已有研究表明，模型工具集的选择对该基准测试的性能具有显著影响。

我们以两个性能较强的开源基线模型（Terminus 2[33] 和 Terminus-KIRA[25]）初始化搜索过程。在该实验中，搜索和最终评估均在同一个 89 项任务的基准测试上进行。我们将该基准测试作为发现问题（discovery problem）[54] 进行研究，目标是找到能够提升该高难度公开竞赛基准测试性能的工具集配置。这是该领域的标准做法：已有公开报告记录了研究人员针对 TerminalBench 进行的多次基准测试专属工具集迭代[18;34;25]；且该基准测试的规模较小、评估成本较高，若设置独立的训练/测试分割，会显著削弱搜索信号。

我们还通过人工检查和基于正则表达式的审计，验证进化后的工具集中是否存在任务专属字符串泄露，以此判断模型是否过拟合。需要说明的是，尽管得到的工具集是针对 TerminalBench-2 场景定制的，但从单个指令出发自主完成高难度长时序任务是大语言模型的核心能力，且该基准测试中的多项任务，即便是前沿模型和经过深度工程优化的工具集也难以完成。

4.3.1 实验结果

表 7 报告了在完整基准测试上的实验结果，评估基于两个底层模型：Claude Opus 4.6 和 Claude Haiku 4.5。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

在 Opus 4.6 模型上，Meta-Harness 发现的工具集通过率达到 76.4%，优于人工设计的 Terminus-KIRA（74.7%），在 TerminalBench-2 排行榜的所有 Opus 4.6 智能体中排名第二。唯一性能更优的 Opus 4.6 智能体是 ForgeCode（81.8%）；但我们无法仅通过公开代码复现其报告的结果，这表明其排行榜分数可能依赖于公开仓库之外的组件。
在性能较弱的 Haiku 4.5 模型上，Meta-Harness 的性能提升更为显著：通过率达到 37.6%，相较次优的已公开智能体（Goose，35.5%）提升 2.1 个百分点。

因此，自动化搜索方法能够在这一前沿且竞争激烈的基准测试中实现性能提升，这为长时序文本优化循环的研究带来了积极的启示。

4.3.2 提议器行为定性分析

工具集的搜索轨迹有助于解释 Meta-Harness 实现性能提升的原因。
* 在迭代初期，提议器将合理的结构性修复与提示词模板修改结合在一起，结果发现两个候选对象的性能均出现退化。
* 随后，提议器明确提出假设：性能退化是由共享的提示词干预造成的混杂效应导致。
* 接着，提议器将结构性修改与提示词重写分离，最终转向更安全的增量式修改，这一修改方案成为本次运行中的最优候选对象。

这一结果为文件系统访问的价值提供了定性证据：它让提议器能够充分检查历史经验，从而形成因果假设并对工具集进行相应的修改。

4.3.3 性能总结

在 TerminalBench-2 基准测试中，Meta-Harness 自动发现的工具集在 Opus 4.6 模型上的性能超越 Terminus-KIRA，在所有 Haiku 4.5 智能体中排名第一。

五、讨论

除了性能优于现有工具集外，Meta-Harness 还具备多项实际优势。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

发现的工具集能够在分布外的文本分类数据集上实现泛化（表 5），并在数学任务的未见过的底层模型上实现性能迁移（表 6）。

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

一次搜索运行仅需数小时，即可生成可读性强、可迁移的策略，这些策略可在多个模型上复用，包括未来性能更强的模型。在代码空间中，过拟合问题也更容易被检查：例如，脆弱的条件分支或硬编码的类别映射可以通过人工审查发现，而权重空间的过拟合则难以通过这种方式识别。

从更广泛的角度看，本研究结果表明，Meta-Harness 的核心优势不仅在于代码空间的搜索，更在于它能够选择性地访问历史诊断经验。 提议器不受限于标量奖励或固定摘要，可以检查原始代码、执行轨迹和历史失效案例，进而利用这些信息形成并验证修改假设。

这一发现呼应了机器学习领域的一个常见规律[45]：一旦某个搜索空间变得可访问，性能更强的通用智能体就能超越人工设计的解决方案。

未来的一个自然研究方向是让工具集与模型权重协同进化，使策略能够塑造模型的学习内容，反之亦然。 尽管本文在三个不同领域的任务上评估了 Meta-Harness，但实验仅验证了该方法在一款高性能编码智能体（Claude Code）作为提议器上的效果。未来的研究需要更广泛地探究提议器智能体的类型对方法效果的影响。

参考文献

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/28548

Meta-Harness：让LLM工具集优化进入“自动驾驶”时代，性能提升高达6倍

二、核心方法：Meta-Harness 的设计

2.1 Meta-Harness 概览

2.2 关键设计：基于文件系统的全量历史访问

2.3 实验评估

三、相关工作

3.1 外部记忆与自适应访问

3.2 可执行代码搜索

3.3 文本优化方法

三、Meta-Harness：优化模型工具集的工具集

3.1 优化目标

3.2 Meta-Harness 的搜索循环

3.3 代码空间搜索的优势

算法 1：Meta-Harness 针对工具集的外层循环

实际实现

四、实验

4.1 在线文本分类

与文本优化器的对比

提议器接口信息完整性的影响

与最优人工设计工具集的对比

准确率-上下文的权衡

分布外（OOD）任务评估

4.2 检索增强型推理的模型工具集

4.2 数学推理任务评估

4.2.1 实验结果

4.2.2 性能迁移分析

4.3 TerminalBench-2 智能体任务评估

4.3.1 实验结果

4.3.2 提议器行为定性分析

4.3.3 性能总结

五、讨论

参考文献

相关推荐

深度研究智能体：从信息搜索到自主科研的演进之路

AGI的物理边界：计算本质与硬件极限下的AI未来

告别手动造数据：5款高效生成逼真测试数据的开发者利器

DeepSeek OCR：颠覆传统，用视觉压缩破解AI扩展的“十亿美元级”文档处理难题

17岁高中生实现Ilya预言！Kimi团队“旋转”注意力机制，训练效率提升25%，马斯克都来围观