华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」
  • 开源完整自动化数据构建算法
  • 构建 1655 个高可靠 CLI 任务环境镜像
  • 通过 291 条轨迹数据带来 20% 解决率提升

Agentic Coding 领域,基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中,业界涌现了大量相关工作,例如 SWE-Gym、SWE-Smith 和 R2E-Gym 等,极大推动了以代码生成为核心的 Agentic Coding 发展,也使得当前最先进的开源模型与闭源模型之间的表现差距显著缩小。然而,对于更广泛的环境交互类问题(如 Terminal-Bench 所涵盖的任务),目前尚没有公开的高效和可规模化的数据生产方案,导致相关数据构建困难重重,高度依赖人工参与,这已然成为制约该方向发展的瓶颈,也使得在相关任务上开源模型的表现大幅落后于闭源模型。

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

因此 CLI-Gym 应运而生。我们首先尝试用 Dockerfile 对环境进行结构化与可复现定义;进一步,将数据生产管线本身重新建模为一种 Agentic Coding 任务:在健康环境中驱动 Code Agent 执行环境反演(即“劣化”操作),自动生成问题环境及其准确的单元测试,从而实现问题实例与验证工具的自动化构造。我们在 29 个基础镜像上制造出 1655 个针对 Terminal-Bench 的实例,并产出 291 条高质量成功轨迹。基于此数据微调的模型 LiberCoder 32B 和 235B 在 Terminal Bench 上分别实现了 +28.6%(至 38.9%)和 +21.1%(至 46.1%)的解决率提升。

我们的管线创新性地以 Codebase、Dockerfile 与 Base Image 为核心抽象,完备地定义任意 CLI Coding 实体,使环境构建、问题生成与验证机制形成统一表达框架,具备良好的可组合性与通用性。我们希望这一范式能够进一步拓展至更多 Agentic Coding 场景,推动更通用的数据生产算法与基准构建方法的发展。

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

论文、代码和镜像数据均已在如下链接发布:

  • 论文链接:https://arxiv.org/pdf/2602.10999
  • 开源代码:https://github.com/LiberCoders/CLI-Gym
  • 镜像数据:https://huggingface.co/datasets/LiberCoders/CLI-Gym

背景介绍

近年来,Agentic Coding 正在快速改变软件工程任务的解决方式,模型能力的边界正在从“写代码”逐渐扩展为“解决真实软件系统中的复杂问题”。当前的研究重点还停留在以 SWE-bench 为核心的代码层面研究,而在现实的软件工程和系统运维场景中,大量问题并非源于代码本身,而是来自运行环境,例如依赖版本冲突、环境变量错误、权限配置问题、系统库损坏、网络配置错误等。这类问题通常无法或很难通过修改代码修复,而必须依赖 agent 通过命令行理解系统状态,定位问题来源,并执行一系列系统级操作恢复环境运行状态。因此,对 agent 的环境理解与干预能力的要求越来越高。

Terminal-Bench 的任务恰好契合这一需求。其基准中包含大量以环境修复为核心目标的任务,对 agent 在 CLI 环境下的交互、诊断与修复能力提出了更高要求。然而,从当前官方 leaderboard 可以观察到,高性能方案往往依赖围绕强闭源模型构建的复杂 agent 框架,通过大量提示工程与多轮反思机制来弥补模型在环境理解与问题定位方面的能力不足。相比之下,围绕开源模型如何通过系统性训练提升其环境修复能力的研究仍然相当有限。

其根本瓶颈在于:环境密集型任务难以规模化生成。代码类问题可以通过挖掘仓库历史与 pull request 自动构建训练数据,但环境状态通常缺乏可追溯的演化记录,难以进行自动化重建与标注。这使得环境任务的数据长期依赖人工构造,规模难以扩展,也限制了模型在该方向上的持续训练与能力提升。

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

CLI-Gym 正是在这一背景下提出,旨在通过自动化机制突破环境依赖型任务数据难以规模化的问题,为 agent 能力训练提供可持续的数据来源。我们创新性地将数据生产管线本身重新建模为一种 Agentic Coding 任务:在健康环境中驱动 Code Agent 执行环境反演(即“劣化”操作),自动生成问题环境及其精确的单元测试,从而实现问题实例与验证机制的自动化构建。

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

如上表所示,该建模思路具有良好的通用性,不仅适用于环境依赖型任务的构造,也在统一框架下涵盖了此前 SWE 系列方法的核心范式,实现了方法论层面的整合与扩展。

Pipeline:通过环境反演自动生成故障任务

CLI-Gym 的核心思想非常巧妙,通过模拟环境历史自动生成故障场景。与传统方法相反,我们不是从零构建受损环境,而是驱动一个“破坏者” agent 主动篡改健康环境,制造多样化故障,再将其转化为可修复的任务实例。

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

CLI-Gym 的核心思想在于重新思考任务生成方式:既然真实环境问题通常源于环境状态的错误,那么我们不再从零人工构造损坏环境,而是从健康环境出发,自动模拟环境如何被破坏,从而反向构造出可修复任务。这一思想被称为“环境反演”,即通过 agent 将一个原本正常运行的环境主动破坏,使其回退到包含运行错误的状态,再将这一退化过程转换为 agent 需要修复的问题实例。

在具体流程中,系统首先从真实开源仓库中构建包含健康环境的 Docker 镜像,该环境能够成功运行并通过全部单元测试,作为后续任务生成的起点。随后系统自动从 Unit Tests 中抽取目标 UT,通过语言模型生成诱导 agent 执行环境破坏的指令,例如删除关键依赖、篡改配置文件、破坏系统库、修改路径或权限等。agent 在执行过程中不断改变环境状态,使得部分测试失败,从而模拟真实系统退化或配置错误产生的历史过程。

当环境中出现失败测试后,系统根据失败日志、执行轨迹以及环境变更自动生成问题描述与修复目标,从而形成完整 CLI 任务实例。agent 的目标是通过命令行操作恢复环境,使失败测试重新通过。整个流程无需人工参与,从健康环境生成故障环境,再从故障环境构造修复任务,实现了环境问题的自动规模化生成。这一过程不仅能够模拟真实系统问题的产生方式,同时由于每次破坏路径不同,也带来了丰富多样的任务类型,使得生成任务覆盖软件工程、系统管理、安全调试等多个场景,显著提升训练数据的多样性与真实性。

产出:规模化与高质量的数据

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

基于这一自动化 pipeline,CLI-Gym 在 29 个真实开源仓库中生成了 1,655 个环境密集型 CLI 任务实例,规模远超 Terminal-Bench 的人工构造数据,同时任务类型覆盖多个应用领域,展现出极强的可扩展性。与现有 benchmark 相比,这些任务具有更高复杂度,每个任务平均包含超过 20 个失败测试,为 agent 提供更丰富的诊断信号和修复反馈,使模型必须真正理解系统状态并执行多步操作才能完成修复,而不是通过简单代码修改或投机策略通过测试。此外,该流程完全自动化运行,仅消耗计算资源而无需人工标注,相比依赖大量工程师构造任务的传统方式大幅降低成本,使环境任务数据能够持续扩展。

在轨迹数据收集阶段,系统通过强模型运行自动生成的任务,收集成功修复的轨迹,并采用严格的过滤机制,排除过于简单或存在作弊路径的轨迹,最终保留数百条真正体现复杂环境修复过程的高质量智能体行为轨迹。这些轨迹涵盖了依赖恢复、系统配置调试、权限问题处理与环境组件修复等丰富的修复策略,为模型学习真实环境问题的解决模式提供了宝贵的监督信号。

实战效果:显著提升环境问题解决能力

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

基于 CLI-Gym 生成的数据对 Qwen3 系列模型进行微调后,得到了 LiberCoder 系列模型。该系列模型在 Terminal-Bench 基准测试上取得了显著性能提升。其中,LiberCoder-32B 在 Terminal-Bench 1.0 上的 Pass@1 达到 38.9%,相比基础模型实现大幅提升;规模更大的 LiberCoder-235B-A22B 则达到 46.1%,性能超过大多数开源模型,并接近部分闭源模型。

进一步分析表明,微调后的模型在环境问题处理能力上发生了明显变化。模型不再频繁失败于编辑错误或问题定位,其瓶颈更多转向上下文长度与执行时间等外部因素,这标志着其核心环境修复能力已得到显著增强。同时,在软件工程、系统管理、安全修复与调试等多个任务类别中均观察到一致的性能提升,说明 CLI-Gym 生成的数据并非针对单一场景优化,而是全面增强了模型在环境交互任务中的泛化能力。

华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%
华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

结语

CLI-Gym 是首个用于扩展命令行界面(CLI)智能体编码任务训练环境的公开方法。该方法使用 Dockerfile 来精确表示和控制每个环境的配置与版本,并利用智能体来模拟环境历史。研究共整理了 1655 个任务实例,并收集了 291 条成功的修复轨迹。实验结果表明,基于这些数据进行微调,可以极大增强以环境为中心的智能体编码能力,从而在 Terminal-Bench 基准测试上使开源模型达到了顶尖性能水平。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22291

(0)
上一篇 2026年2月25日 下午6:43
下一篇 2026年2月25日 下午7:49

相关推荐

  • Vibe Coding革新AI Infra:文本驱动设计文档破解复杂系统开发难题

    Andrej Karpathy 力荐的 Vibe Coding 正成为开发者的新宠。这种“只需聊一聊,AI 就能把功能写出来”的体验,极大地提升了简单任务的开发效率。 然而,当我们将目光转向实际的复杂系统,特别是 AI 基础设施(AI Infra)领域时,Vibe Coding 往往会陷入“水土不服”的困境。 总结下来,主要有三方面问题: 上下文丢失:对话历…

    2026年1月7日
    29600
  • 企业推进大模型落地的关键工程与核心指标

    企业推进大模型落地,需统筹五大关键工程:算力工程是基础设施,关注规模、效率与服务;应用工程是价值门户,衡量业务覆盖与成效;模型工程是技术核心,驱动算法效能与迭代;知识工程是企业智库,负责知识的沉淀与复用;数据工程是循环血脉,确保数据的贯通与消费。五者协同,方能实现真正的业务智能化。

    2025年10月2日
    65600
  • AI记忆革命:从“白纸”到“大脑”,记忆架构成AI落地新护城河

    一家企业花了七周时间部署AI:第一周,它能精准回答行业分析问题,团队为之欢呼;到了第三周,它开始反复输出已被纠正过的错误结论,因为它“忘记”了之前的修正;第五周,在关键的董事会汇报中,它引用了早已被否定的数据,导致决策出现偏差;第七周,项目被迫暂停,“AI不可信”成为团队共识。问题的根源并非AI不够智能,而在于它每一次交互都像从一张白纸开始。 AI领域正在经…

    2026年3月25日
    26800
  • MoGraphGPT:零代码构建复杂交互场景,自然语言+涂鸦让创意可视化

    想要快速制作网页小游戏、交互式动画或教学演示,却受限于复杂的代码逻辑与多元素交互调试?尽管当前的大语言模型或AI Agent能够辅助生成代码和搭建交互场景,但在处理多元素交互时仍易出错,且纯文本的交互方式难以支持直观的视觉调整。 近日,来自香港浸会大学、香港科技大学、香港城市大学及深圳大学的研究团队提出了一种名为MoGraphGPT的创新系统。该系统结合了上…

    2026年3月21日
    18500
  • 2025 年最火的 5 大 MCP 服务器,打造极致「Vibe Coding」体验

    如果你还在手动复制项目上下文给AI,或者反复粘贴数据库Schema来让Cursor理解你的项目,那么你正在做太多不必要的重复劳动。 最近,我深入体验了一系列新的MCP工具,它们彻底重塑了我利用AI进行项目开发的方式。我们来深入探讨一下原因——为什么这些工具能让AI从一个“看起来不错”的玩具,转变为真正实用的生产力伙伴。 什么是MCP? “MCP”代表模型上下…

    2025年11月3日
    30200