Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

“超级智能”是 Meta 长期坚持的宏大愿景。为了加速实现这一目标，Meta 的研究部门正经历着深刻的变革。尽管前 FAIR 负责人 Yann LeCun 曾对某些实现路径表示质疑，但构建一个能够超越人类专家水平的自主 AI 智能体，无疑是人工智能领域最具雄心的前沿目标之一。

在众多落地领域中，编程是 AI 智能体执行任务的代表性场景。当前，基于大语言模型（LLM）的编程智能体已展现出强大的自动化潜力，但其发展仍受制于一个根本性瓶颈：对高质量人类数据的严重依赖。这通常包括：
* 学习自 GitHub 等平台的真实代码数据；
* 需要人工撰写的 Bug 报告和问题描述；
* 依赖预先存在的测试用例进行反馈。

这种依赖关系限制了系统能力的边界，使其主要局限于复现和优化既有知识，难以实现自主发现问题、探索全新解决方案的突破。

为此，来自 Meta FAIR 和 Meta TBD 实验室的研究团队提出了一项创新性工作——SSR（自对弈 SWE-RL），旨在打破这一瓶颈。该方法的核心是让软件智能体能够自主生成学习经验，从而摆脱对人类数据的依赖。

SSR 借鉴了 AlphaGo 等自对弈系统的成功经验，为训练“超智能软件智能体”开辟了一条新路径。这些智能体无需现有问题描述、测试用例或人工监督，仅通过与真实代码库的交互即可实现学习和自我改进。

* 论文标题：Toward Training Superintelligent Software Agents through Self-Play SWE-RL
* 论文链接：https://arxiv.org/pdf/2512.18552

研究团队提出的 Self-play SWE-RL（SSR）是迈向超级智能软件智能体训练范式的第一步。该方法几乎不依赖人工数据，仅需假设能够访问一个包含源代码与依赖环境的沙盒化代码仓库，而无需任何人工标注的 issue 或测试用例。

基于这些真实代码库，SSR 通过一个自博弈的强化学习框架训练单一的 LLM 智能体，使其能够持续自主地注入并修复复杂度逐步提升的软件缺陷。在此过程中，每个缺陷都通过“测试补丁”进行形式化描述，而非使用自然语言。

SSR 的博弈方法

SSR 的核心思想是让大模型智能体通过一个持续循环的过程实现自我进化。

自对弈 SWE-RL（SSR）框架概览。

如图所示，同一个 LLM 策略被拆分为两个角色：Bug 注入智能体 和 Bug 修复智能体。它们共享同一个容器化运行环境和工具集，但任务目标不同。

具体流程如下：
1. Bug 注入智能体 获得一个原始的代码库环境，其任务是生成一个包含必要文件的“工件”来人为引入一个 Bug。系统随后会执行验证，确保该 Bug 真实存在且可复现。通过验证的 Bug 工件将提交给修复智能体。
2. Bug 修复智能体 则针对该 Bug 生成修复补丁。补丁的成功与否由该 Bug 定义的测试结果来验证。若修复失败，此过程会被视为一种“高阶 Bug”，促使智能体在新的上下文中再次尝试。

SSR 采用的两种主要 bug 注入策略：面向移除的方法（左）移除大量代码块；历史感知方法（右）有选择地恢复 git 历史更改以引入真实的 bug 模式。

智能体 bug 修复过程。

最终，Bug 注入阶段的奖励信号由一致性验证结果与修复结果共同构成，用于激励更高质量的 Bug 提案；Bug 修复阶段的奖励信号则主要依赖测试结果。底层的同一个 LLM 策略模型会在这两种奖励信号的共同作用下进行联合更新。

评估与测试

研究团队在 SWE-bench Verified 与 SWE-Bench Pro 两个基准上，系统对比了基础模型、传统强化学习方法以及 SSR 方法。

传统基线方法可以访问自然语言问题描述和测试信息，其强化学习过程本质上是检查生成的解决方案是否通过给定测试。相比之下，SSR 仅接触最原始的环境镜像，模型必须在没有任何问题描述和测试用例的情况下，通过自我对弈来自主发现问题、构造解决方案并进行验证。

实验结果呈现出两个关键现象：
1. 即便在完全没有任务相关训练数据的情况下，SSR 在整个训练过程中仍表现出稳定而持续的自我提升能力。这表明，大型语言模型可以仅凭与原始代码库的交互，就逐步增强其软件工程能力。
2. 在整个训练轨迹中，SSR 在两个基准测试上始终优于传统基线方法。这意味着，由模型自主生成的学习任务，比人工构造的数据提供了更丰富、更有效的学习信号。

在 SWE-bench Verified 与 SWE-Bench Pro 基准上，SSR 展现出显著的自我提升能力（分别提升 +10.4 与 +7.8 个百分点），并在整个训练过程中持续超越依赖人工数据的基线方法——尽管最终评测时使用的仍是自然语言描述的问题，而这些描述在自博弈训练阶段从未出现过。

Self-play SWE-RL 的消融实验结果。

消融实验表明，仅进行 Bug 注入训练或仅进行修复训练，性能都会下降。前者因无法从修复尝试中学习，后者则因缺乏动态生成的任务分布。相比之下，自我对弈要求智能体不仅要修复 Bug，还要不断提出具有挑战性的 Bug，这个过程本身就蕴含了丰富的学习内容：
* 识别哪些测试可以通过；
* 以有意义的方式破坏系统功能；
* 甚至刻意削弱测试以隐藏 Bug。

这些行为不断扩展训练信号，并将模型持续暴露在新的失败模式下。结果表明：一个持续进化、在线生成并解决 Bug 的训练过程，是模型实现长期自我提升的关键。

结语

SSR 代表着在开发能够无需直接人工监督进行学习和改进的真正自主 AI 系统方面，迈出了重要一步。通过证明大语言模型可以从真实软件仓库中生成有意义的学习经验，这项工作为将 AI 训练扩展到人类策划数据集之外开辟了新的可能性。

该方法直面当前 AI 开发中的根本性可扩展性限制。人工标注数据昂贵、有限且可能存在偏差，已成为开发更强大系统的瓶颈。SSR 的自生成课程机制，有望使训练任务在数量级上变得更加多样化和具有挑战性。

随着 AI 系统能力日益增强，从真实环境中自主学习的能力变得至关重要。SSR 的演示表明这种自主学习在软件领域是可行的，这为在其他技术领域（尤其是那些适合进行正式验证和迭代改进的领域）实现类似能力指明了方向。

尽管仍属早期成果，但这些结果表明：未来的软件智能体或将能够在真实代码仓库中自主获取海量学习经验，最终发展为在系统理解、复杂问题求解乃至从零构建全新软件方面超越人类能力的超级智能系统。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16730

Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

SSR 的博弈方法

评估与测试

结语

相关推荐

谷歌Decoupled DiLoCo：弹性预训练新突破，容错分布式训练实现零停机

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

OpenClaw-RL：让AI越用越聪明的开源框架，北大博士团队破解AI智能体训练难题