AI编程智能体缺乏工程纪律?Superpowers框架用TDD和子智能体驱动开发强制规范

你是否也遇到过这样的场景:让 AI 写一个“简单的”Todo 应用,它二话不说直接吐出三百行代码——没有设计文档,没有测试用例,变量命名随心所欲,更别提什么架构层面的思考了。你说“加个功能”,它把之前的代码推倒重来;你说“修个 Bug”,它只在症状上打补丁,结果又引入两个新 Bug。

这并非 AI 不够聪明,而是缺乏工程纪律的问题。人类程序员经过多年训练才学会“先设计后编码”“先写测试后实现”“先找根因后修复”,但 AI 智能体默认没有这套规矩。

  • 一套行之有效的智能体技能框架与软件开发方法论。
  • https://github.com/obra/superpowers
  • 3500 字,阅读 17 分钟,播客 14 分钟

Superpowers 正是要解决这个问题:它不是又一个代码生成工具,而是一套强制 AI 智能体遵循软件工程最佳实践的技能框架与开发方法论。它用“技能”取代“提示词”,用流程门禁取代随意发挥,让 AI 智能体从“能写代码”进化为“能做工程”。

本文目录

  • 快速上手
  • 一、架构设计
    • 1.1 项目定位:不是工具,是方法论
    • 1.2 目录结构与技术组成
    • 1.3 插件机制:技能如何被加载
  • 二、核心工作流:从创意到交付的七步流水线
    • 2.1 brainstorming:拒绝“上来就写代码”
    • 2.2 writing-plans:为“没有品味的热心初级工程师”写计划
    • 2.3 subagent-driven-development:子智能体流水线
  • 三、TDD 的极端执行:铁律与反合理化
  • 四、技能的元层设计:writing-skills
    • 4.1 用 TDD 写文档
    • 4.2 CSO:面向 AI 搜索的优化
  • 五、系统化调试:四阶段根因分析
  • 总结与启示

AI编程智能体缺乏工程纪律?Superpowers框架用TDD和子智能体驱动开发强制规范

快速上手

Superpowers 支持 Claude Code、Codex CLI、Gemini CLI、Cursor 等多种 AI 编程环境。以最常用的 Claude Code 为例,一行命令即可完成安装:

/plugin install superpowers@claude-plugins-official

安装后无需任何额外配置。当你在对话中提出“Let’s build X”时,Superpowers 会自动触发头脑风暴技能,引导智能体先做设计再写代码。更多安装方式(Codex、Gemini CLI、Cursor 等),请参考 README 安装指南[1]。

一、架构设计

1.1 项目定位:不是工具,是方法论

Superpowers 的定位非常独特——它自称是“一套完整的软件开发方法论”(a complete software development methodology)。传统意义上的代码生成工具关注“写什么代码”,而 Superpowers 关注的是“AI 智能体该如何做工程”。

项目的核心哲学可以用四句话概括:

  • 测试驱动开发(Test-Driven Development)——先写测试,永远如此
  • 系统化优于随意(Systematic over ad-hoc)——流程优于猜测
  • 降低复杂性(Complexity reduction)——简洁是首要目标
  • 证据优于声称(Evidence over claims)——验证后才能宣告成功

1.2 目录结构与技术组成

superpowers/
├── .claude-plugin/        # Claude Code 插件元数据
├── .codex-plugin/         # Codex 插件适配
├── .cursor-plugin/        # Cursor 插件适配
├── .opencode/             # OpenCode 插件适配
├── skills/                # ★ 核心:所有技能定义
│   ├── brainstorming/
│   ├── subagent-driven-development/
│   ├── test-driven-development/
│   ├── writing-plans/
│   ├── systematic-debugging/
│   ├── using-git-worktrees/
│   └── ...(共14个技能)
├── scripts/               # 版本管理与插件同步脚本
├── tests/                 # 自动化技能测试
└── hooks/                 # Git 钩子

有趣的是,项目 66% 的代码是 Shell 脚本——这些脚本主要用于插件同步、版本管理和测试执行,而非“核心逻辑”。真正的核心是 skills/ 目录下的 Markdown 文件

没错,Superpowers 的“代码”本质上是一组精心编写的结构化指令文档,它们通过插件系统注入到 AI 智能体的上下文中,从而改变智能体的行为模式。

1.3 插件机制:技能如何被加载

{
"name": "superpowers",
"description": "Core skills library for Claude Code: TDD, debugging, collaboration patterns, and proven techniques",
"version": "5.1.0",
"author": { "name": "Jesse Vincent" },
"license": "MIT"
}

当 AI 智能体启动一次新的会话时,插件系统会首先加载一个名为 using-superpowers 的“引导技能”。这个技能会注入一条不可违背的核心规则:在做出任何响应之前,必须先检查是否有适用的技能可以调用

二、核心工作流:从创意到交付的七步流水线

Superpowers 定义了一条完整的软件开发流水线,该流水线由七个步骤组成,每一步都由一个专门的技能强制执行:

brainstorming → using-git-worktrees → writing-plans → subagent-driven-development → test-driven-development → requesting-code-review → finishing-a-development-branch

请注意,这并非一个“建议”或“最佳实践”,而是一条强制执行的流程。下面我们来逐一拆解其中的关键环节。

2.1 brainstorming:拒绝“上来就写代码”

这是整条流水线的入口。当用户提出“让我们做一个 X”时,智能体不会立刻开始编写代码,而是会进入一种苏格拉底式的设计对话:

<HARD-GATE>
Do NOT invoke any implementation skill, write any code, scaffold any project,
or take any implementation action until you have presented a design
and the user has approved it.
</HARD-GATE>

这个 <HARD-GATE> 标签是 Superpowers 的一个核心设计模式:通过一个明确的“门禁”来阻止智能体跳过任何流程步骤

brainstorming 技能要求智能体完成一个包含 9 个步骤的检查清单:探索项目上下文 → 提出澄清问题(每次只问一个)→ 提出 2-3 种方案 → 分段呈现设计 → 撰写设计文档 → 自审规格 → 用户审核 → 转交给计划编写。

特别值得注意的是其关于“反模式”的声明:

Every project goes through this process. A todo list, a single-function utility, a config change — all of them. “Simple” projects are where unexamined assumptions cause the most wasted work.

即使是一个“简单的”配置修改,也必须经过完整的设计流程。这种看似“偏执”的做法,正是对 AI 智能体“自以为理解了需求就开始写代码”这一致命倾向的精准对治。

2.2 writing-plans:为“没有品味的热心初级工程师”写计划

计划编写技能的描述非常生动:

Write comprehensive implementation plans assuming the engineer has zero context
for our codebase and questionable taste.

每个任务都会被拆解成 2-5 分钟的“一口大小”的步骤,并且每一步都必须包含:

  • 精确的文件路径(不允许出现“在相关文件中”这种模糊的表达)
  • 完整的代码(不允许出现“类似 Task N”的交叉引用)
  • 精确的运行命令与预期输出
  • TDD 的 Red-Green 循环

更关键的是,计划中严禁使用任何占位符

Every step must contain the actual content an engineer needs. These are plan failures:

- “TBD”, “TODO”, “implement later”
- “Add appropriate error handling”
- “Write tests for the above” (without actual test code)
- “Similar to Task N”

2.3 subagent-driven-development:子智能体流水线

这是 Superpowers 最具创新性的技能。它将实现工作分解为一个按任务执行的子智能体流水线

每个任务:
Implementer子智能体(实现+自审+提交)
↓
Spec Reviewer子智能体(规格合规审查)
↓ (不合规则返回Implementer修复)
Code Quality Reviewer子智能体(代码质量审查)
↓ (不合格则返回Implementer修复)
标记任务完成 → 下一个任务

其核心设计原则是为每个任务启动一个全新的子智能体,以此来避免上下文污染。控制器(主智能体)负责一次性读取整个计划,提取所有任务的完整文本,然后逐个分发给各个子智能体。子智能体不需要自己去读取计划文件——控制器已经为它准备好了所有需要的信息。

**Core principle:** Fresh subagent per task + two-stage review
(spec then quality) = high quality, fast iteration

两阶段审查的顺序是不可调换的:必须先通过规格合规审查(“你是否实现了规格要求的所有功能?有没有多实现了什么?”),然后才能进入代码质量审查。Red Flags 列表中明确写道:

Start code quality review before spec compliance is ✅ (wrong order)

三、TDD 的极端执行:铁律与反合理化

3.1 测试驱动开发的“铁律”

Superpowers 对 TDD 的执行达到了近乎“极端”的程度:

NO PRODUCTION CODE WITHOUT A FAILING TEST FIRST

Write code before the test? Delete it. Start over.

**No exceptions:**

- Don't keep it as “reference”
- Don't “adapt” it while writing tests
- Don't look at it
- Delete means delete

如果智能体在编写测试之前就写了实现代码,那么必须删除实现代码。不能将其保留作为“参考”,不能“在写测试的同时去适配它”,甚至不能“看一眼”。这不是一个建议,而是一条铁律。

3.2 反合理化表:堵住 AI 的“借口”

Superpowers 深谙 AI 智能体的心理弱点——它们极其擅长为跳过流程寻找各种“合理化”的借口。为此,每个纪律性技能都配套了一张合理化借口对照表

借口 现实
“太简单了不需要测试” 简单代码也会出错。测试只需 30 秒。
“我先写代码,之后再补测试” 后补的测试立即通过,证明不了任何事。
“删掉 X 小时的工作太浪费了” 沉没成本谬误。保留不可信的代码才是真正的浪费。
“TDD 太教条了,实用主义意味着灵活” TDD 本身就是实用主义。

这一设计源于一个深刻洞察:AI 智能体并非不知道规则,而是在压力下会合理化地绕过规则。Superpowers 不仅定义规则,还预判并封堵了智能体可能使用的每一种逃避话术。

四、技能的元层设计:writing-skills

4.1 用 TDD 写文档

Superpowers 有一个极其精妙的“元技能”——writing-skills,它将 TDD 方法论应用到了技能文档本身的编写:

Writing skills IS Test-Driven Development applied to process documentation.
TDD 概念 技能创建
测试用例 给子智能体的压力场景
生产代码 技能文档(SKILL.md)
测试失败(RED) 没有技能时智能体违反规则
测试通过(GREEN) 有技能时智能体遵守规则
重构 封堵新发现的借口漏洞

这意味着:创建一个新技能时,你必须先在没有这个技能的情况下测试智能体行为,观察它在压力下如何失败、用了什么借口,然后才能针对这些失败模式编写技能文档。

4.2 CSO:面向 AI 搜索的优化

技能的 YAML frontmatter 中的 description 字段有一条反直觉的规则:只描述触发条件,不要概括技能的工作流程

# ❌ 错误:概括了工作流,AI会跟着description走而跳过正文
description:Usewhenexecutingplans-dispatchessubagentpertaskwithcodereview

# ✅ 正确:只描述触发条件
description:Usewhenexecutingimplementationplanswithindependenttasks

原因在于:测试发现,如果 description 包含了工作流摘要,AI 智能体会直接按照 description 执行而跳过阅读完整技能内容。这个细节体现了 Superpowers 团队对 AI 行为模式的深度理解。

五、系统化调试:四阶段根因分析

systematic-debugging 技能定义了一个四阶段调试流程:

Phase 1: 根因调查 → Phase 2: 模式分析 → Phase 3: 假设与验证 → Phase 4: 实现修复

其中最具洞察力的规则是三次修复失败规则

- If < 3: Return to Phase 1, re-analyze with new information
- If ≥ 3: STOP and question the architecture
- DON'T attempt Fix #4 without architectural discussion

如果连续三次修复尝试都失败了,这不是一个“假设错误”的问题,而是一个架构错误的信号。必须停下来与人类伙伴讨论根本性的设计问题。

总结与启示

Superpowers 的核心创新在于:它将“软件工程最佳实践”从人类程序员的隐性知识,转化为了 AI 智能体的可执行指令系统。这些指令不是温柔的“建议”,而是带有门禁、反合理化表和红旗检查的强制流程

从技术实现上看,整个系统的“代码”本质上是 Markdown 文档——但这些文档经过了如同软件工程般的严格测试(用子智能体做压力测试)、版本管理和跨平台适配。它用文档的形式实现了编译器的功能:将高层意图(“构建一个 X”)编译为严格的工程流程。

这个项目给我们的启示或许是:AI 智能体的能力瓶颈不在智能,而在纪律。正如 Superpowers 的 README 所言——“mandatory workflows, not suggestions”。 当我们学会给 AI 套上工程纪律的缰绳,它才能真正成为可信赖的“超级力量”。

参考资料[1]

README 安装指南: https://github.com/obra/superpowers#installation

相关推荐


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35803

(0)
上一篇 15小时前
下一篇 15小时前

相关推荐

  • 开源3天狂揽2万星!Open Design复刻Claude Design,一句话生成可交付的HTML/PPT

    Anthropic 的 Claude Design 发布没多久,GitHub 上便迅速出现了开源复刻版。 4 月 17 日,Anthropic 正式上线了 Claude Design,基于 Opus 4.7 模型。 只需输入一句话,即可直接生成可交付的设计成品——不是草图,不是线框图,而是完整的 HTML 页面、PPT 或移动端原型。 效果极为震撼,迅速引爆…

    2026年5月5日
    54600
  • 无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

    告别“网页操作翻车”:开源Web Agent Avenir-Web 刷新纪录,成功率飙至53.7% 伦敦大学学院(UCL)、普林斯顿大学与爱丁堡大学的联合研究团队,近日推出了名为 Avenir-Web 的开源框架。它让现有的多模态模型具备了像人类一样操作网页的能力,无需任何额外训练即可投入使用。 现有的Web Agent在处理复杂网页结构(例如 iframe…

    2026年4月29日
    35100
  • MacBook本地跑284B大模型!Redis之父开源神器,KV缓存磁盘化颠覆传统

    01 让你的 MacBook 也能本地运行 DeepSeek V4 作为 Redis 的缔造者,antirez 在开源社区堪称传奇。 最近,他带来了一个新项目——ds4。上线仅仅 4 天,便收获了超过 7000 个 Star。 ds4 是一个专为 DeepSeek V4 Flash 打造的本地推理引擎,采用 C 语言编写,并针对 Apple Metal 进行…

    2026年5月12日
    32000
  • OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

    近期,一个名为OpenMythos的开源项目整合了公开研究及对Claude Mythos架构的主流推测,实现了一种创新的循环深度Transformer架构。 该架构名为循环深度Transformer,其核心在于通过跨专家的权重共享与条件计算实现迭代深度。已有研究证实,这种设计能以仅一半的参数量,达到与传统模型同等的性能。 核心思路:不堆叠参数,而增加循环 该…

    2026年4月21日
    53500
  • Rust打造AI算力平台KeyCompute:智能路由、精确计费,还能调度个人PC算力

    在当前大模型技术蓬勃发展的背景下,企业和开发者普遍面临一个共同的技术难题:如何在 OpenAI、Claude、Gemini、DeepSeek 等多个服务提供商之间,实现统一的接口接入、智能化的流量调度、精确的用量计费以及自动化的故障恢复? 现有的 API 网关方案,要么采用 Python 或 Node.js 编写,性能表现欠佳;要么缺乏对流式处理生命周期的有…

    开源项目 2026年5月15日
    11200