复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

 

自 2026 年起,OpenAI、Anthropic、LangChain 等机构相继发布了关于 Harness Engineering 的技术博客,而 OpenClaw、Hermes Agent 等项目的走红,进一步将 Harness Engineering 推至行业焦点。业界逐渐形成共识:模型的效能释放,高度依赖一套精密的外部框架。

Harness 的设计与优化本质上是一个工程问题,需要结合模型能力与任务环境进行协同设计。然而,模型本身以月为周期迭代升级,任务场景则日趋长尾分布,而 Harness 的演进却仍高度依赖人工经验。这引出一个核心议题:在 Harness Engineering 的迭代闭环中,哪些环节可以实现自动化?如何让 Harness 能够自动从经验中学习并持续改进?

来自复旦大学、北京大学及上海奇绩智峰的研究团队提出了 Agentic Harness EngineeringAHE),这是一套以可观测性(Observability)为驱动的 Harness 自动优化方法,完整覆盖 Harness Engineering 的全流程,旨在最大化释放模型的能动性。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

  • 论文标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
  • 论文链接:arxiv.org/abs/2604.25850
  • 代码仓库:github.com/china-qijizhifeng/agentic-Harness-engineering
  • 项目博客:https://dawning-road.github.io/blog/agentic-Harness-engineering

在实验中,基于 GPT-5.4,AHE 在 Terminal-Bench 2 上的得分从 69.7 迭代提升至 77.0。GPT-5.5 发布后,AHE 迅速迭代出与之适配的 Harness,在 Leaderboard 上位列全球第三。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

此外,自动迭代生成的 Harness 展现出良好的跨模型泛化能力与跨任务泛化能力,确保了并非过度拟合评测集。

目前,该论文在社交平台 X 上引发广泛关注,已获得超过 10 万次的浏览与讨论。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

为何要构建可观测体系?

Harness Engineering 的三个视角

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

从形态上看,模型与 Harness 共同构成一个主体,与环境进行交互。模型的所有行为均发生在概率空间中,是信息压缩、智能涌现以及不确定性的来源;而 Harness 则是包裹在外的确定性组件,包括 system prompt、工具定义与实现、middleware/hook、skill 文档、sub-agent 编排、长期记忆、日志与观测。在 agent 迈向长程、生产力任务的过程中,Harness 是确保模型行为稳定、一致且可控的关键保障。

从目的上看,Harness 的核心职能之一是在模型与环境之间管理一条双向的上下文流:一方面,在适当的时间将任务、用户意图、环境状态及外部信息传入模型;另一方面,将模型的动作忠实地记录、校验后交回环境执行。

过去,开发者需要手动设计 prompt、复制 terminal 输出、复制外部文档内容给模型,上下文分布在互不相通的空间中,人类仅凭直觉和观察来决定 context 的构成。因此,Harness 的设计目标之一,就是让 context 的流动更加精准、更加自主。

基于上述形态与目标,Harness Engineering 的方法论是什么?

最直观的方式是独立优化各个组件代码,或称之为 Agent Infra。开发者社区贡献了大量实用的 Harness 组件,用于记忆、上下文管理、沙盒环境、轨迹管理等,这依赖于扎实的工程开发与优化,使各个部分独立地更加高效、安全、稳定。

更进一步,对于任意一个特定环境,若要找到最优的 Harness,这就演变为一个模型 x Harness x 环境的组合优化问题。不再像开发单独组件那样有明确的规则,也无法利用人类开发者的先验知识一步到位找出最优组合,而是需要开发、观测、迭代,根据模型的运行轨迹和评测分数反复调整。

人类的注意力是稀缺的,因此必须让 agent 本身也参与到 Harness 优化的过程中来。只要将优化目标、动作空间、状态空间以 agent 可读的方式呈现,就可以引入 agent 进行自主优化。这正是 AHE 设计可观测体系的出发点。

可观测体系:组件、经验、决策

Harness 的开发也分为几个阶段:编写组件、运行 agent、收集反馈。这个过程反复迭代,持续运行。若要让 agent 接手人类的工作,就需要使在此过程中产生的 context 可观测,并做好 context 的结构化与层次化。

在此过程中,不限制 agent 的自主决策空间,仅依赖评测结果及更多分层信息来辅助它精准修改、准确归因。

AHE 方法由三个角色构成:Coding Agent 负责运行测试,Agent Debugger 负责整理轨迹,Evolve Agent 负责修改 Coding Agent 的 Harness 实现进化。

整个可观测体系分为三部分:

  1. NexAU 提供各部分解耦的 Harness,实现 Harness 组件的可观测性;
  2. Agent Debugger 将 10M token 量级的 raw trace 提炼成分层的、可溯源的多维反馈意见,实现经验的可观测性;
  3. Evolve Agent 基于 git 溯源的组件历史与反馈结果,构建证据驱动的完整修改链路,对相应组件进行修改,实现优化行为的可观测性。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

(1)组件可观测性:解耦的“声明式 Harness”

Coding Agent 基于 NexAU 框架运行。AHE 将 Harness 拆解为七种正交的文件级组件:System Prompt、Tool Description、Tool Implementation、Middleware、Skill、Sub-agent Config、Long-term Memory。每个组件都是一个独立的文件,拥有明确的挂载点,彼此之间结构解耦。

这种设计的精妙之处在于:它让“失败模式 – 单一组件”的映射关系变得极其清晰。所有修改通过 Git 进行版本管理,每次变更都是一次可追溯、可审计、可回滚的 commit。

目标 Coding Agent 则故意从一个“零先验”的极简形态起步:只有一个 run_shell_command 工具,没有任何 Middleware、Skill 或 Sub-agent。这样做是为了确保后续每一次新增组件、每一次 Prompt 改写,都能被干净地归因。

(2)经验可观测性:Agent Debugger 把轨迹变成可消费资产

一次完整评测所产生的原始轨迹动辄数千万 Token,如果直接将其丢给 Evolve Agent,其上下文窗口将瞬间被淹没,无法进行任何代码修改。

AHE 开发了一套名为 Agent Debugger 的分层提炼流水线:底层完整记录所有原始轨迹;中层由 Cleaner 去除重复的工具输出;上层则通过一个 QA Sub-agent,针对每道题的多次 rollout 结果,自动切换提问策略。最后,所有单题分析汇聚成一份约 10K Token 的概览报告,交给 Evolve Agent 消费。

本质上,这体现了一种渐进式披露的设计理念。Evolve Agent 默认只需浏览概览,但随时能查看单个题目的细节,在需要验证结论时回溯原始轨迹。这样一来,10M 级别的数据就转化为了可并行处理、可消费、可审计的经验资产。

(3) 决策可观测性:Evolve Agent 的“证据驱动修改”

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

Evolve Agent 的设计原则极为克制,核心目标是实现稳定进化:

  • 仅允许修改 workspace 内的 Harness 组件文件,而评测框架、LLM 配置、原始 System Prompt 均设为只读,杜绝任何绕过评测的 hacking 行为。
  • 每次修改必须附带一份“变更清单”,包含:失败的证据(具体哪些任务失败)、推断的根因、针对性的修改方案,以及自我声明的预测(预计修复哪些任务、可能破坏哪些任务)。每一轮修改后,由下一轮评测充当验证者:预测正确的修改会被保留,预测错误的修改则由系统自主决定回滚。

这样一来,每一次 Harness 变动都不再是工程师的直觉或抽象经验,而是一条可被下一轮实验证伪的假说。Harness 的进化由此从艺术走向工程,从经验走向科学。

实验结果:超越人类专家,跨模型泛化

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

在主实验中,AHE 将 GPT-5.4 驱动的 Coding Agent 在 Terminal-Bench 2 上的 pass@1 分数从最初的 69.7% 提升至 77.0%,绝对提升 7.3 个百分点,相对提升 10.5%。这一成绩不仅超越了同样使用 GPT-5.4 的 OpenAI 官方 Codex-CLI(71.9%),也显著优于 ACE 和 Training Free-GRPO 等主流基线。

更令人惊喜的是其泛化能力。

(1) 跨任务泛化: 将在 Terminal-Bench 2 上演化得到的 Harness 冻结后,直接迁移到 SWE-Bench Verified 上,AHE 以更少的 Token 消耗实现了比 ACE 和 TF-GRPO 更高的成功率。这表明演化学到的并非“如何刷 Terminal-Bench 2”的特化知识,而是可迁移的通用工程经验。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

(2) 跨模型泛化: 同样一份由 GPT-5.4 演化得到的 Harness,分别部署到 Qwen-3.6-Plus、Gemini-3.1-Flash 和 DeepSeek-V4 上,不做任何再演化直接评测。结果显示,三种模型均获得 +5.1 到 +10.1 个百分点的显著提升,且模型越弱,提升幅度越大。这套 Harness 并非为某个特定模型量身定制,而是学到了一些真正普适的结构性原则。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

价值到底沉淀在哪里?事实比策略更可迁移

在博客中,作者还提及了一些早期的失败探索。为了快速迭代,团队最初只在 Terminal-Bench 2 的 30 道 hard 难度题目上进行了 10 轮演化。结果题目通过数在 16-20 之间反复震荡,基本是修一个坏一个。分析最终版本的 Harness 发现,Evolve Agent 对特定任务写了针对性的 hack:Golden Gate 的 splice-offset 检测、Caffe 的完整工作流模板等。这表明,过小的题集导致单一题目的信号过强,无法抑制 agent 的 hack 倾向。

团队随后将题集扩展到 89 题的全集,并在 Evolve Agent 的 System Prompt 中加入显式的方法论指导,比如“Safety/Creativity/Generality”原则和“Middleware > Tool Desc > Skill > Prompt”的约束层级排序。结果 overfit 确实有所缓解,但训练曲线在 75.3% 时就早早触顶不再上升,78% 的修改都集中在 Middleware 层。人工引入的行为先验,反而成了进化的僵化之源。

最终版本做了两个关键改动:一是在评测时每题跑两次,通过 partial-pass 的 diff 定位最精准的诊断信号;二是删掉所有行为指导,只保留证据驱动过程要求和回滚规则。

结果上,不仅分数稳步提升至 77.0%,修改分布也变得更加健康:middleware 37% + tool 48% + prompt 10%,没有任何层级单独占比超过一半,不同阶段可灵活调整。

复旦北大团队提出AHE:让AI模型自动优化自身能力释放框架,性能飙升指日可待

一个来自社区的惯性思维是“先调整 Prompt”。然而,将 AHE 演化得到的四类组件(Memory、Tools、Middleware、System Prompt)逐一单独放回最初的 Harness 上进行消融实验时,结果却截然相反:Memory 单独就能恢复全局增幅的 95% 以上,Tool 在中等难度题目上提升显著,而 System Prompt 单独迁移反而导致性能下降。

一个可能的原因是:Prompt 的语义是策略性的(你应该这样做),而 Memory 和 Tool 的语义是事实性的(这里有一段可复用代码)。事实比策略迁移性更好,它们保留了信息,同时维持了泛化性。这或许也解释了为什么人类试图通过注入方法论来指导 Evolve Agent 时会遭遇失败:开发者习惯于教策略,而模型更擅长学事实。

结语:可观测的进化循环会让 AGI 加速到来

AHE 带来的最大启示或许在于:当模型足够强时,搭建一个结构化的、可观测的演化环境,比直接开发 Harness 更重要。搭建好观测体系(让 Evolve Agent 能访问组件、轨迹、反馈),然后在全量数据上运行测试,就足以演化出有竞争力的 Harness。无需替 Agent 思考任何方法论,只需给它一个清晰的 workspace、明确的修改接口和高质量的反馈信号,Evolve Agent 的行为便会自动向真实工程师收敛。

是时候迈出第一步,让 Harness 也开始进化了。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35751

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • 阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

    阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus 阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破,被视作国产大模型在该领域的新标杆。 Qwen3.6-Plus支持高达1M的上下文长度,能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Codin…

    2026年4月3日
    1.2K00
  • 面向AI Agents的7个免费Web Search API:实时、RAG就绪与快速集成指南

    探索面向智能体(AI Agent)的主流 Web Search API,它们提供实时、高准确度的搜索结果,具备 RAG 就绪、低延迟与可扩展性。本文包含 Python 快速上手示例与免费套餐信息,便于无缝集成。 AI 智能体的有效性,取决于其获取新鲜、可靠信息的能力。许多智能体在幕后会调用 Web 搜索工具来获取最新上下文,以确保输出始终相关。然而,并非所有…

    2026年2月27日
    3.1K00
  • Gemini 3深度评测:硬核编程的SOTA王者,为何在Web开发上“翻车”?

    📌 简短结论:强得离谱,但并非全能 综合各类基准测试与我的实际体验,可以得出结论:Gemini 3 是目前我测试过最接近“真实智能”的模型。特别是在硬核编程任务上,其表现超越了包括 GPT-5 Pro 和 Gemini 2.5 Deep Think 在内的所有竞品。 ✅ 当前处于 SOTA(最优)水平的领域: 调试复杂的编译器 Bug 无逻辑错误地重构大型代…

    2025年11月22日
    37100
  • Prompt与Context工程实战:解锁LLM高效沟通的核心技艺

    如果你一直在关注《Master LLMs》系列,那么你已经走过了从建立直觉到理解机制,再到学习关键原则的旅程。现在,我们将转向动手实践,聚焦于构建AI应用时,如何与大型语言模型(LLM)进行高效沟通的核心技艺。 许多人在使用LLM时并未意识到一个关键点: 模型非常聪明,但也非常“按字面理解”。 与LLM的沟通,并非像与人交谈那样简单。它既比想象中更直接,也比…

    2025年11月29日
    46300
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    34500