Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

“超级智能”是 Meta 长期坚持的宏大愿景，其目标是构建能够超越人类专家水平的自主 AI 智能体。然而，这一雄心勃勃的目标也引发了内部的不同声音。前 Meta FAIR 负责人 Yann LeCun 曾评论道：“通往超级智能…在我看来完全是胡扯，这条路根本行不通。”

尽管如此，Meta 的研究仍在持续推进。在 AI 智能体应用的典型领域——编程中，基于大语言模型的编程智能体已展现出强大的自动化潜力，但其发展仍受制于一个根本性瓶颈：对高质量人类数据的深度依赖。这包括：

这种依赖关系使得现有系统主要是在复现和优化既有知识，难以实现自主发现问题、探索新解法的突破。

为了打破这一瓶颈，来自 Meta FAIR 和 Meta TBD 实验室的研究团队提出了一种名为 SSR（自对弈 SWE-RL）的全新框架。该框架旨在让软件智能体能够自主生成学习经验，从而摆脱对人类数据的依赖。

SSR 借鉴了 AlphaGo 等自对弈系统的成功经验，为训练“超智能软件智能体”提供了一条新路径。这些智能体无需现有问题描述、测试用例或人工监督，仅通过与真实代码库的交互即可实现学习和自我改进。

论文标题：Toward Training Superintelligent Software Agents through Self-Play SWE-RL
论文链接：https://arxiv.org/pdf/2512.18552

研究团队提出的 Self-play SWE-RL 是迈向超级智能软件智能体训练范式的第一步。该方法几乎不依赖人工数据，仅假设能够访问带有源代码与依赖环境的沙盒化代码仓库，而不需要任何人工标注的 issue 或测试用例。

基于这些真实代码库，SSR 通过一种自博弈的强化学习框架训练单一 LLM 智能体，使其能够不断自主注入并修复复杂度逐步提升的软件缺陷。在此过程中，每个缺陷通过“测试补丁”进行形式化描述，而非使用自然语言。

SSR 的博弈循环

SSR 的核心思想是让大模型智能体通过一个持续循环的过程来自我进化。

自对弈 SWE-RL（SSR）框架概览。

如图所示，同一个 LLM 策略被拆分为两个角色：Bug 注入智能体和 Bug 修复智能体。它们共享同一个容器化运行环境和工具集，但任务目标不同。

Bug 注入智能体：其任务是在一个隔离的原始代码库环境中，通过生成一个包含必要文件的“工件”来人为引入一个 Bug。系统会通过实际执行来验证该 Bug 的真实性和可复现性。通过验证的 Bug 工件将提交给修复智能体。
Bug 修复智能体：其任务是针对接收到的 Bug 生成最终补丁。补丁的成功与否由该 Bug 定义的测试结果来验证。若修复失败，该过程会被视为一种“高阶 Bug”，促使智能体在新的上下文中再次尝试。

最终，注入阶段的奖励信号由 Bug 的一致性和修复难度共同构成，以激励更高质量的 Bug 提案；修复阶段的奖励信号则主要依赖测试结果。底层的同一个 LLM 策略模型会在这两种奖励信号的共同作用下进行联合更新。

SSR 采用的两种主要 bug 注入策略：面向移除的方法（左）移除大量代码块，而历史感知方法（右）有选择地恢复 git 日志中的历史更改以引入真实的 bug 模式。

智能体 bug 修复过程。

研究团队在 SWE-bench Verified 与 SWE-Bench Pro 两个基准上，对基础模型、传统强化学习方法以及 SSR 方法进行了系统对比。

传统方法可以访问自然语言问题描述和测试用例，其强化学习过程本质上是检查生成的解决方案是否通过给定测试。相比之下，SSR 仅接触最原始的环境镜像，模型必须在没有任何问题描述和测试用例的情况下，通过自我对弈来自主发现问题、构造解决方案并进行验证。

实验结果呈现出两个关键现象：

即便在完全没有任务相关训练数据的情况下，SSR 在整个训练过程中仍表现出稳定而持续的自我提升能力。这表明，大型语言模型可以仅凭与原始代码库的交互，就逐步增强自身的软件工程能力。
在整个训练轨迹中，SSR 在两个基准测试上始终优于传统基线方法。这意味着，由模型自主生成的学习任务，比人工构造的数据提供了更丰富、更有效的学习信号。

在 SWE-bench Verified 与 SWE-Bench Pro 上，SSR 展现出显著的自我提升能力（分别提升 +10.4 与 +7.8 个百分点），并持续超越依赖人工数据的基线方法——尽管最终评测时使用的仍是模型在训练阶段从未见过的自然语言问题描述。

Self-play SWE-RL 的消融实验结果。

消融实验表明，仅进行 Bug 注入训练或仅进行修复训练，性能都会下降。因为前者无法从修复尝试中学习，后者则缺乏由自我对弈生成的动态任务分布。自我对弈要求智能体不仅要修复 Bug，还要不断提出具有挑战性的 Bug，这个过程本身蕴含了丰富的学习内容：

这些行为不断扩展训练信号，让模型持续暴露在新的失败模式之下。结果表明，一个持续进化、在线生成并解决 Bug 的训练过程，是模型实现长期自我提升的关键。

SSR 代表着在开发能够无需直接人工监督进行学习和改进的真正自主人工智能系统方面迈出了重要一步。

通过证明大型语言模型可以从真实世界的软件仓库中自主生成有意义的学习经验，这项工作为将 AI 训练扩展到人类策划数据集之外开辟了新的可能性。它解决了当前 AI 开发中根本性的可扩展性限制：人工标注数据昂贵、有限且可能存在偏差。SSR 的自生成课程有望使训练任务在数量级上更加多样化和具有挑战性。

随着 AI 系统能力日益增强，从真实世界环境中自主学习的能力对于开发能够在复杂场景中提供主导性帮助的智能体至关重要。SSR 的演示表明这种自主学习在软件领域是可行的，这为在其他技术领域（尤其是那些正式验证和迭代改进可行的领域）实现类似能力指明了方向。

尽管仍属早期成果，但这些结果表明，未来的软件智能体或将能够在真实代码仓库中自主获取海量学习经验，最终发展为在系统理解、复杂问题求解乃至从零构建全新软件方面超越人类能力的超级智能系统。

更多信息，请参阅原论文。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16718