OpenAI内部揭秘：95%工程师用Codex，AI将吃掉所有脚手架，B2B SaaS黄金时代来临

“我们可能真的会进入一个B2B SaaS的黄金时代！”
“接近100%的代码最初都是由AI生成的。”
“我们活在‘硅谷泡泡’里。”

春节前夕，OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。API作为OpenAI的第一个产品，也是几乎所有AI创业公司都在集成的产品，这给了Sherwin一个极其独特且宏观的视角。整个行业正在发生什么，它又将走向何方？

Sherwin提到一个被市场严重低估的现象——“一人独角兽”，这是Sam Altman最早提出的概念。当AI把个人生产力放大十倍、百倍，理论上，一个人真的可以构建一家十亿美元公司。

也许会有一个十亿美元公司，但可能会有上百个一亿美元公司，成千上万个一千万美元公司。

对个人来说，一家一千万美元的公司已经足够实现财务自由。

更为重要的是接下来的二阶和三阶市场变化。这也是很少人会公开提及的部分。

Sherwin认为，未来业界会进入B2B SaaS和软件创业的黄金时代。围绕这些“一人公司”，可能会出现上百家小公司构建高度定制的软件，以专门服务这些高杠杆个体。

“随着软件开发和运营公司的成本不断下降，你会看到越来越多公司出现。”

即：AI并不是消灭软件，而是把软件需求打碎成无数更细、更垂直的场景。过去，一个中型企业可能只买几套通用SaaS；未来，一个高杠杆个体，可能会购买十几种高度定制的AI工作流工具。

那么三阶效应会怎样呢？

Sherwin给出了一个非常有意思的假设：

如果世界变成大量微型公司为一两个人服务的形态，创业生态和VC生态都会改变。

也许只剩下少数大型平台型公司支撑这些微型企业。

而那种能带来100倍、1000倍回报的风险投资项目可能反而减少，因为更多公司会停留在1000万到5000万美元规模。

此外，Sherwin还给出了一个捅破泡沫的言论：大多数AI部署都是负回报的！世界上大多数人，包括美国大多数人其实并不懂得如何真正部署和“压榨”AI的价值。“硅谷是泡泡，X是泡泡，软件工程也是泡泡。他们本身不是软件工程师，也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。”

那么在OpenAI内部是如何运用AI的呢？他透露，OpenAI内部有一个团队正在做实验，尝试维护一个100%由Codex编写的代码库。不同之处在于，当Agent运行不顺时，维护团队并不会“撸起袖子自己敲代码”，而是始终让AI自己编写。

而最重要的一个发现就是：当Agent没有按你期望工作，通常是“上下文问题”。要么你描述不够充分，要么它缺乏必要信息。解决方法往往不是自己重写，而是补充文档、添加代码注释、改进代码结构，或者在仓库中增加MD文件等资源，把你脑海里的“部落知识”显式化，让模型能读到。

Sherwin另一个有意思的判断是：模型会把“脚手架”、“Agent框架”当早餐吃掉。

“这个领域和模型本身变化太快了，它们往往会自我颠覆，模型会把你搭的脚手架当早餐吃掉。

但随着模型变强，更好的方法反而是去掉大量逻辑，直接信任模型，只给它搜索工具——甚至只是普通文件系统。

“向量数据库仍然有价值，但围绕它构建的整个生态和复杂脚手架，重要性已经下降。随着模型进步，你可能需要重构抽象层和工具框架。”

总之，AI这个领域既令人兴奋，也令人抓狂——因为目标是移动的。

所以，Sherwin给出的建议是：一定不要过度听取客户意见，而是要面向未来1～2年的模型趋势而构建。

对于未来18个月，他还给出了两个方向：长时程Agent和原生音频模型。

此外，播客中还有不少趣料，比如他认为软件工程会朝着“外科医生”发展，再比如业务流程自动化被硅谷低估了，等等。

95%工程师都在用Codex，几乎100%代码最初都是AI生成

主持人： Sherwin，非常感谢你来到节目。
Sherwin Wu： 谢谢邀请。

主持人： 我想从一个可以视为AI进展“晴雨表”的问题开始，尤其是在工程领域。现在你——如果你还写代码的话——以及你团队的代码，有多少比例是由AI编写的？

Sherwin Wu： 我现在偶尔还写代码。对像我这样的管理者来说，使用这些AI工具其实比手写代码容易得多。我和OpenAI的几位工程经理，目前所有代码基本都由Codex编写。

更广泛来看，内部有一种明显的能量场，大家都能感受到这些工具进步有多大，Codex对我们来说已经变得多么好用。很难精确衡量代码比例，因为几乎可以说接近100%的代码最初都是由AI生成的。我们真正追踪的是使用情况：目前绝大多数工程师每天都在用Codex——95%的工程师在用；100%的PR每天都由Codex审核。也就是说，任何进入生产环境的代码都会经过Codex“过目”，它会提出改进建议。对我们来说最令人兴奋的，其实是这种能量感。

另一个观察是：用Codex更多的工程师，提交的PR数量高出70%，而且这个差距还在扩大。他们越来越熟练，效率越来越高。

主持人： 所以确认一下，你是说那95%的工程师，他们的代码都是AI写的，然后由他们审核？

Sherwin Wu： 是的。

主持人： 这听起来已经几乎不再“疯狂”了，我们都开始习惯。

Sherwin Wu： 还是需要适应的。也有工程师对Codex的信任度稍低。但我几乎每天都会听到有人惊叹它能完成什么，他们对模型自主能力的信任在不断提高。Kevin Whale（OpenAI首席产品官）常说：“这是模型此生最差的时刻。”这同样适用于软件工程。模型只会越来越好，人们的信任也会不断增强。

主持人： Kevin也在节目里说过这句话。还有Peter——OpenClaw的开发者——他说自己用Codex时，几乎相信它可以直接提交到主分支。

Sherwin Wu： 他是个很好的用户，也给我们很多反馈。OpenClaw确实是个很棒的产品。今天早上我还看到Moltbook的分享，看到AI Agent彼此对话，感觉非常超现实，就像电影《Her》在现实中发生。

工程师变成了管理者，同时管理20个Agent线程

主持人： 回到这个对工程师而言疯狂的时代。我们从“自己写每一行代码”变成“AI写所有代码”。我不知道还有哪个职业变化这么剧烈。工程师的角色在未来几年会变成什么样？

Sherwin Wu： 看到这一切真的很酷，也正是这种变化带来了兴奋。未来一到两年，工程师的工作会发生重大改变。现在大家还在摸索阶段，这是一段罕见的窗口期，也许在未来12到24个月，我们可以自己定义新的标准。

有一个常见说法是：个人贡献型工程师正在变成技术负责人，几乎像管理者一样。他们在管理成群的Agent。我团队里的工程师经常同时拉着10到20个线程并行推进——当然不是同时跑任务，而是在不断检查、引导、给Codex反馈。他们的工作已经从“写代码”转变为“管理代码生成过程”。

软件工程师就像“巫师”，用AI就像施咒语

Sherwin Wu： 至于未来走向，我常想到大学时读的一本编程教材——《Structure and Interpretation of Computer Programs》。

《SICP》在麻省理工学院（MIT）当年非常流行，它曾长期作为入门编程课的教材，也因此拥有一种“宗教式”的追随者文化。它用的是一种名为Scheme的Lisp方言来教学，会把你带入函数式编程的世界，非常开脑洞。但对我来说，这本书最难忘的是它在开篇对“编程”这门学科的定义——它把编程类比为“巫术”。书里说，软件工程师就像巫师，编程语言就像咒语，你念出这些咒语，它们就会替你完成事情。挑战在于：你要念出什么样的咒语，程序才会按你的意愿运行。这本书写于1980年，但这个隐喻居然一路延续至今。

我觉得它正在真实发生在我们进入“vibe coding”新时代的过程中。编程语言一直都是某种“咒语”，只是随着时间推移，表达方式越来越高级，让计算机按你的意图行动变得越来越容易。而这一波AI，可能就是这条演进路径的下一阶段。现在它真的成了“咒语”——你可以直接告诉Codex、Cursor你想要什么，然后它们去帮你完成。

我特别喜欢“巫师”这个比喻，因为我们现在的状态其实越来越像《幻想曲》里的“魔法师学徒”。米老鼠戴上魔法帽，试图施法，结果失控——扫帚开始疯狂打水，房间被淹。他给扫帚下达任务后自己睡着了，事情就失控了。我觉得这比喻非常贴切。一方面，这些“咒语”威力巨大，杠杆极高；但另一方面，你必须知道自己在做什么。不能完全放手不管，否则模型就可能“跑偏”。

当我看到工程师同时管理20个Codex线程时，那确实需要技巧、资历和深思熟虑。你不能彻底离开，也不能完全忽视。但一位真正熟练的高级工程师，现在可以通过这些工具完成远超以往的事情。这也正是乐趣所在——真的感觉自己成了巫师，施展魔法，让软件为你完成各种任务。

主持人： 我刚才听你讲的时候脑子里就是“魔法师学徒”的画面。之前也有嘉宾说过，现在像是拥有一个可以许愿的精灵，但你必须非常精确地表达愿望，否则后果难料——甚至像“猴爪”故事那样，愿望实现了，却伴随副作用。

Sherwin Wu： 对，这个比喻很好。SICP也被称为“巫师之书”，因为这个隐喻贯穿全书。我们现在真的走到了那个阶段，这本身就很酷。

OpenAI内部揭秘：95%工程师用Codex，AI将吃掉所有脚手架，B2B SaaS黄金时代来临

OpenAI内部实验：100%由Codex编写代码的团队，维护基本就是补充上下文

主持人： 有两个方向我想继续追问。一个是，我越来越多地听到人们提到，当Agent不按预期工作时，会产生一种压力。你同时启动一堆Codex Agent，还得盯着它们——这个不工作了，那个浪费时间了。你在团队里也感受到这种压力吗？

Sherwin Wu： 有，而且经常发生。我认为这里正是目前最有意思的部分。模型和工具都还不完美，我们仍在摸索如何与它们最佳协作。

内部有一个特别有意思的团队正在做实验：他们维护一个100%由Codex编写的代码库。通常你会让AI写代码，但最终会自己重写很多部分、做检查修改。但这个团队是“彻底Codex化”，完全不留退路。他们遇到的正是你说的问题：想实现某个功能，但Agent始终做不到。通常这时你会“撸起袖子”自己写代码，或用Tab补全、Cursor等工具。但这个团队没有这个逃生舱口。

于是问题变成：如何让Agent真正完成任务？我们可能会发布一篇博客总结经验。一个重要发现是：当Agent没有按你期望工作，通常是“上下文问题”。要么你描述不够充分，要么它缺乏必要信息。解决方法往往不是自己重写，而是补充文档、添加代码注释、改进代码结构，或者在仓库中增加MD文件等资源，把你脑海里的“部落知识”显式化，让模型能读到。

取消“人工逃生通道”之后，他们开始真正理解，如果要全面拥抱Agent，我们需要解决哪些结构性问题。

15分钟的审查任务缩短到2～3分钟

主持人： 你提到，使用AI的工程师提交PR的数量大幅增加。这意味着代码审查会成为瓶颈。你们有什么办法避免工程师整天只是在Review PR吗？

Sherwin Wu： 首先，Codex现在审核我们100%的PR。一个有趣现象是：我们最早交给模型的，往往是我们最讨厌、最枯燥的工作。代码审查就是其中之一。

对我来说，代码审查曾经是最痛苦的工作之一。我毕业后的第一份工作在Quora，负责Newsfeed代码。因为那是核心模块，所有人都会改动。每天早上打开电脑，看到20到30个待审PR，拖着拖着就变成50个。那种感觉非常糟糕。

Codex在代码审查方面非常强。尤其是GPT-4.5在这方面已经非常擅长，只要你给它合适的引导方向。它可以快速指出潜在问题、改进建议，甚至提前识别破坏性变更。

所以，至少在代码审查这个维度，AI确实正在显著缓解规模化带来的压力。

Sherwin Wu： 所以在代码审查方面，是的，我们确实创建了大量PR，但Codex会审核全部PR。这让代码审查从原本10到15分钟的任务，有时缩短到两三分钟，因为很多修改建议已经提前生成好了。很多情况下，尤其是小型PR，甚至不再需要人工审核——我们在这方面已经相当信任Codex。代码审查的本质是“第二双眼睛”，确保你没犯低级错误。现在，Codex已经是一双非常聪明的“第二双眼睛”，所以我们在这方面投入得很深。

此外，CI流程以及代码提交后的部署流程，也已经大量通过Codex实现自动化。很多工程师最烦的事情是：写完漂亮的代码之后，怎么把它部署上线？要跑测试、修lint错误、做代码审查……这一整套流程。很多环节都可以通过Codex自动化处理。我们内部已经构建了一些工具来自动修复lint错误——如果出现lint问题，Codex可以直接生成补丁，然后重新触发CI流程。我们的目标是把工程师在这些环节的工作量压缩到最低。结果就是，他们现在可以合并和发布更多PR。

吃自己的狗粮，用不同模型版本切换

主持人： Codex写代码，又用Codex审核代码。我很好奇，你们是否考虑用其他模型来审核自己模型的工作？还是说现在已经足够好了？

Sherwin Wu： 确实存在某种“循环”的问题——回到“魔法师学徒”的比喻，你不希望扫帚失控。所以我们在选择哪些PR可以完全交由Codex审核时是非常谨慎的。大多数人仍然会查看自己的PR，并不是完全放手，而是从“100%注意力”降低到大概“30%注意力”，这已经足够提高效率。

至于多模型策略，我们内部测试很多模型，也有不少模型变体可供选择。外部模型用得较少，我们认为“吃自己的狗粮”很重要，通过使用自家模型来获得反馈。当然，在内部不同模型版本之间切换，获得不同视角，是常见做法，而且效果不错。

主持人： 为了给大家一个清晰的现状刻度：可以说OpenAI现在生产环境中的代码100%由Codex编写吗？

Sherwin Wu： 我不会说今天线上运行的代码100%由AI写成，因为归因很难精确。但几乎所有工程师现在都高度依赖Codex。如果要粗略估计，我会说现在绝大多数代码很可能最初是由AI生成的。

顶级绩效者会越来越强，管理者本身也变得更高杠杆

主持人： 我们谈了很多IC工程师的变化，但关于工程经理的讨论较少。AI兴起之后，你作为经理的生活发生了什么变化？未来经理的角色会是什么？

Sherwin Wu： 相比工程师，经理的变化没那么剧烈。还没有专门的“经理版Codex”。不过，我确实用Codex来辅助一些管理相关的工作。

目前变化还不算巨大，但趋势已经出现。如果把趋势推演下去，就能看到方向。一个越来越明显的现象是：Codex极大放大了顶尖绩效者的生产力。我觉得这可能是AI在整个社会层面的共性——那些真正“倾身投入”、有主动性、愿意掌握工具的人，会大幅自我增强。

我已经看到这种分化：顶尖绩效者的产出明显拉开差距。因此，团队内部的生产力分布变得更宽。我的管理哲学一直是，把大部分时间花在顶尖绩效者身上——确保他们没有阻碍、保持开心、感觉被支持、被倾听。在AI时代，这一点更重要，因为顶尖人才会用这些工具“飞起来”。

比如那个维护100% Codex代码库的团队，让他们自由探索、深挖最佳实践，已经带来很大回报。我认为未来经理会花更多时间在这类高杠杆群体上。

另一个趋势是：AI工具让经理本身也变得更高杠杆。比如把ChatGPT接入组织知识库，连接GitHub、Notion、Google Docs，在做绩效评估时，可以快速生成一份过去12个月工作成果的深度报告。

我推测，未来经理可以管理更大的团队。就像工程师管理20到30个Codex线程一样，管理者也会因为工具的加持而变得更高杠杆。当前软件工程的最佳管理跨度大概是6到8人，但未来可能会远远超过这个数字。

这种趋势已经在支持、运营等非工程领域出现：随着更多事务交给AI代理，人可以处理更多事务，也能管理更多人。我认为在人力管理领域也会发生类似变化。我们已经看到一些工程经理管理的人数显著增加，而且做得相当不错，因为他们能更高效地获取团队信息、理解组织背景。

主持人： 你提到一直把时间投入在顶尖绩效者身上。Mark Andreessen之前在节目里说过，AI让好的人更好，让伟大的人变得卓越。

Sherwin Wu： 对。一个很好的例子是，内部有一群工程师非常沉浸在Codex实践中，研究如何与模型最佳互动。这是极高杠杆的事情。作为经理，我会鼓励他们继续探索，并把最佳实践在组织内传播——通过知识分享会议、文档沉淀等方式。这会抬高整个组织的水平。我认为这正是“顶尖绩效者变得卓越”的体现。

一人独角兽：更多公司会停留在5000万美元的规模

与未来二阶、三阶变化

主持人： 很多人都有一种直觉：AI很大，它正在改变世界。但你觉得有哪些变化是大家还没有真正“定价进去”的？有哪些潜在影响是我们还没有意识到的？

Sherwin Wu： 我最喜欢的一个说法，是这波AI浪潮中诞生的“一个人打造十亿美元公司”的概念。我记得可能是Sam最早提出来的。这个想法很迷人——当个人杠杆被极度放大，理论上确实可能出现一家“一个人、十亿美元”的公司。但我觉得大家还没有真正把它的二阶、三阶效应算进去。

“一个人十亿美元公司”意味着，一个人的主动性和杠杆被工具放大到极致，他可以极其高效地完成公司所需的一切，从而打造出价值十亿美元的业务。但它还有其他含义。第一，如果一个人能做到这一点，那说明创业本身会变得更容易。我认为这会带来一次巨大的创业潮，尤其是中小企业（SMB）式的爆发——任何人都能为任何细分场景构建软件。

我们已经在AI创业领域看到垂直化趋势：为特定行业打造AI工具往往效果很好，因为你能深度理解那个场景。如果把这个趋势推演下去，完全可能出现100倍数量的垂直创业公司。

我甚至觉得，为了支撑一个“一个人十亿美元公司”，可能会有上百家小公司构建高度定制的软件，专门服务这些高杠杆个体。因此，我们或许会进入B2B SaaS和软件创业的黄金时代。随着软件开发和运营公司的成本不断下降，你会看到越来越多公司出现。

我的想法是：也许会有一个十亿美元公司，但可能会有上百个一亿美元公司，成千上万个一千万美元公司。对个人来说，一家一千万美元的公司已经足够实现财务自由。这种爆发式增长，我觉得大家还没有真正“定价”。

再往三阶效应看——当然越往远推不确定性越高——如果世界变成大量微型公司为一两个人服务的形态，创业生态和VC生态都会改变。也许只剩下少数大型平台型公司支撑这些微型企业。而那种能带来100倍、1000倍回报的风险投资项目可能反而减少，因为更多公司会停留在1000万到5000万美元规模。这对VC来说未必理想，但对高主动性的个人来说非常好，他们可以借助AI为自己打造业务。

主持人： 我们已经讲到三阶效应了，我想听四阶效应了。

Sherwin Wu： 四阶效应太“超脑”了，我还没法推那么远（笑）。

主持人： 关于“十亿美元公司”，我其实有点悲观。光是支持成本就很难规模化。即便有AI帮忙，除非你客户很少且客单价极高，否则支持问题本身就难以靠一个人处理。

Sherwin Wu： 我同意这一点，但我的看法略有不同。也许你自己的播客就可能成为十亿美元公司。关键在于，你不必亲自派AI去处理所有支持工单。可能会出现十几家专门为播客和Newsletter构建支持软件的小公司——它们本身就是“一个人公司”。它们能非常轻松地构建出高度定制的产品，而你作为“一个人公司”去购买这些服务。

随着软件构建成本急剧下降，你可能会外包越来越多事务，从而缩小自己公司的规模。最终，仍然可能是一个人驱动一个高杠杆的公司，达到十亿美元规模。当然，不确定性仍然存在。

主持人： 我也在想，像Peter（OpenClaw创始人）现在被各种需求、邮件、PR淹没——而他甚至还没变现。

Sherwin Wu： 这可能就像我们刚发布ChatGPT那几个月的疯狂状态。他一个人承受这种规模，一定非常疯狂。

主持人： 也许四阶效应是：分发变得更重要，因为太多东西在争夺注意力。有受众、有平台的人价值更高。

软件工程会朝“外科医生”发展

主持人： 回到管理话题。除了多花时间在顶尖绩效者身上，你还有哪些核心管理心得？

Sherwin Wu： 很多经验未必特定于OpenAI API业务。我自己的管理理念这些年有所演进，但总体变化不算太大。

其中一个核心原则就是刚才提到的：把大量时间投入在顶尖绩效者身上。具体来说，可能超过50%的时间花在前10%的绩效者身上，真正赋能他们。

我常用一个比喻——来自《The Mythical Man-Month》——把软件工程师比作外科医生。这个比喻对我的管理理念影响很大。

其实挺有意思的。我是从那本《The Mythical Man-Month》里看到这个比喻的。那本书写于上世纪70年代，当时他们其实像是在预测未来。他们说，软件工程可能会演变成一种类似“外科手术室”的模式——工程师就像外科医生。手术室里真正“动刀”的只有一个人，其他人——护士、住院医师、研究员——都在为他提供支持。外科医生说“给我手术刀”，就有人递上；说“需要某个设备”，马上就到位。所有人围绕一个核心执行者展开支持。那本书当年就预言，软件工程可能会朝这个方向发展。

当然，现实并没有完全变成那样——软件开发仍然是高度协作的，不是一个人完成所有工作。但我一直很喜欢这个类比，也在自己的管理理念中努力去“模拟”这种模式。软件工程不是手术，但我希望团队成员能有“外科医生”的感觉：他们是核心执行者，而我作为管理者，要确保他们拥有一切所需资源，感觉背后有一支军队在支持他们——哪怕实际上只有我一个人在做这些支持工作。举个例子，“提前看到转角”并为团队扫清障碍，在组织层面上极其重要。尤其在今天的AI时代更是如此。如果大家只是不断提交PR，真正卡住进度的往往不是技术，而是组织流程和协作问题。作为管理者，如果能提前预判阻塞点，在“医生”开口之前就准备好“手术刀”，那就是最佳状态。这是我理解的工程管理方式。这个类比虽然不完全贴切，但一直伴随我整个职业生涯。

主持人： 我很喜欢这个说法。我在想，AI是不是也能帮助管理者“提前看到转角”？比如预测某个工程师将会因为某个决策被卡住，我们是不是可以提前处理？

Sherwin Wu： 这是个很好的问题。我还没试过，但如果把ChatGPT接入公司知识库，问它：“当前团队的活跃阻塞点是什么？扫一遍Notion文档、Slack消息，找出潜在卡点。”也许会很有意思。你刚刚给了我一个灵感。更进一步，不只是识别当前阻塞点，而是预测未来几个月某个工程师或团队可能遇到什么问题。让AI去做二阶、三阶推演——提前预判下个月的“卡点”。这个思路很有潜力。

我们活在泡泡里：硅谷是泡泡，X也是泡泡，

大多数人并不真正懂AI部署

主持人： 我想把话题转回你们的API和平台。你和很多公司合作，帮助他们部署AI。你提到很多公司在AI部署上其实是负ROI，这和外界的感受一致。到底出了什么问题？

Sherwin Wu： 先澄清一下，我没有直接看到量化数据——这类ROI很难精确测算。但从观察来看，我不会惊讶如果很多AI部署确实是负回报的。甚至在科技圈之外，很多人有一种情绪：AI是被“强行推到他们头上”的。这种抵触感，本身可能就和负ROI有关。

我看到几个现象。第一，我们所在的硅谷，其实活在一个泡泡里。X是泡泡，硅谷是泡泡，软件工程是泡泡。世界上大多数人——包括美国的大多数人——都不是软件工程师，也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。在我们这里，大家讨论的是最佳实践、codecs、agents、MCPs等高级用法；X上那些发帖的人几乎都是重度AI用户。但当我和一些公司一线员工交流时，他们只是用AI做非常基础的事情，对技术原理几乎没有理解，也没有真正“压榨”它的能力。

理想的AI部署模式是什么？成功案例往往具备两个条件：自上而下的战略支持，以及自下而上的主动采用。高层需要明确方向并投入资源，但更关键的是基层员工愿意学习、尝试，并在具体工作场景中摸索“最后一公里”的应用细节。只有当一线员工主动拥抱技术，AI才能真正开始创造价值。

在OpenAI内部也是如此。真正加速公司AI驱动的，是员工开始将这些工具直接应用到日常工作中。每个岗位——工程、财务、运营、销售——都有独特的工作细节，需要自下而上地打磨。很多公司缺少这种自下而上的热情，因此AI部署很难产生正向的投资回报。

有些公司采用完全自上而下的命令式推进，脱离一线实际。结果是员工队伍并不理解技术，只知道“应该用”，却不知“如何用”，周围也缺乏可学习的榜样。

主持人： 公司应如何有效推动AI？

Sherwin Wu： 我建议在内部设立一个全职的“突击队”（AI tiger team），专门探索技术能力边界，将其落地到具体工作流，并进行知识分享，制造兴奋感。没有这样的团队，很难真正用起来。

主持人： 这个团队应该由什么角色构成？工程师主导吗？

Sherwin Wu： 一个有趣的模式是围绕“技术邻近型人才”组建——他们可能不是软件工程师，但具备很强的技术亲和力。例如客服或运营负责人，他们可能不会写代码，但擅长使用各类工具（如Excel），并且对新技术充满热情，愿意钻研。这类人往往是团队的核心。工程师当然理解技术，但他们并非每家公司都有，且稀缺、昂贵。

主持人： 所以，反模式就是CEO宣布“AI-first”并挂钩绩效，但没有自下而上的传播者，最终效果不佳？

Sherwin Wu： 完全正确。更好的做法是找到那些最兴奋、最主动的员工，将他们聚集成一个“AI evangelist”团队，探索用法，再向全公司扩散。这类似于找到AI采用上的“高绩效者”，赋能他们去组织黑客松、内部分享，在组织内部播下种子。

Agent框架、脚手架的作用在减弱

今天流行的是Skills、上下文管理

主持人： 你提过一个有争议的观点：在AI领域，过度听客户意见可能会带偏方向。

Sherwin Wu： 我不认为这很“热”。与客户沟通当然有价值。但问题在于，AI领域变化极快，模型在不断自我颠覆，尤其是在工具和“脚手架”层面。

我最近读到FinTool创始人Nicholas的一篇文章，他总结在金融服务中构建AI agent的经验。有一句话我特别喜欢：“模型会把你的脚手架当早餐吃掉。”

回想2022年ChatGPT刚发布时，模型还很“原始”，于是开发者生态围绕它构建了大量产品级脚手架，如各种框架、agent框架、向量数据库、embedding系统，用以“引导”模型输出。但随着模型能力迅速提升，它们真的开始“吃掉”这些脚手架。

今天流行的是skills文件、基于文件的上下文管理。但我能想象一个未来，模型可以自己管理这些，不再需要这种文件式结构。演化已经发生：agent框架的作用在减弱；2023年我们认为向量数据库会成为组织上下文的核心，需要把所有语料embedding并优化搜索。

但随着模型变强，更好的方法反而是简化逻辑，信任模型，只给它搜索工具——甚至只是普通文件系统。向量数据库仍有价值，但围绕它构建的复杂生态和脚手架，其重要性已经下降。

所以回到“要不要听客户”的问题：如果你只听客户，他们可能会要“更好的向量数据库”或“更强的agent框架”。但那可能只是当前的局部最优。随着模型进步，你可能需要重构抽象层和工具框架。这个领域令人兴奋也抓狂——因为目标是移动的。今天的工具组合，未来很可能会大幅演化。与客户沟通时，必须平衡他们当前的需求和你对未来1-2年模型趋势的判断。

主持人： 这让我想到《苦涩教训》——在AI里，越少人为复杂逻辑和手工规则，越能规模化，让算力和模型自己解决问题。

Sherwin Wu： 是的，几乎可以说有一个“AI构建版的苦涩教训”。我们曾围绕模型搭建了很多架构，但模型进步后把它们都吞掉了。坦率讲，我们OpenAI API团队也走过一些弯路。但模型不断进步，我们每天都在重新学习这条“苦涩教训”。

构建面向未来的AI产品

主持人： 对于今天基于API或agent构建产品的人，最核心的建议是什么？

Sherwin Wu： 我的核心建议一直是：为模型将要去的方向构建，而不是为模型今天的状态构建。

这是一个不断移动的目标。我看到那些真正做得好的创业公司，往往是围绕一种“理想能力”在做产品——这种能力今天可能只实现了80%。产品现在是“差一点点就到位”，但随着模型变强，突然某一天就“啪”地一下完全跑通。他们在设计产品时，是把模型能力持续提升这个趋势考虑进去的。如果你默认模型是静态的，你做出来的体验一定不如这种“面向未来”的产品。是的，你可能需要稍微等一等，但模型进步太快了，通常也等不了太久。

未来6-18个月模型会走向哪里？

音频被严重低估了

主持人： 未来6到12个月，API、平台和模型会走向哪里？

Sherwin Wu： 一个明显的方向是——模型可以连贯执行更长时间的任务。现在已有基准测试衡量模型在软件工程任务上的持续时长。前沿模型在50%成功率下已能完成多小时任务，在80%成功率下接近一小时。历代模型的进步趋势非常清晰。

目前大多数产品还在围绕“分钟级任务”优化。即使是代码工具，也更多是交互式、10分钟左右的工作流。按照趋势推演，未来12到18个月，模型可能可以非常连贯地完成多小时甚至半天级别的任务。围绕这种能力构建的产品将完全不同。当然需要加入反馈机制，但可实现的任务空间会大幅扩展。

另一个方向是多模态，尤其是音频。模型现有的音频能力已经不错，但未来6到12个月会显著提升，特别是原生语音到语音模型。在企业场景里，音频被严重低估。大家都在谈论代码和文本，但现实世界大量业务是通过“说话”完成的——客服、销售、运营。未来12到18个月，这个领域会非常激动人心，解锁更多能力。

主持人： 总结一下，就是Agent会运行更久、更稳定；音频会变得更核心、更原生。

Sherwin Wu： 是的，非常令人兴奋。

业务流程自动化的机会被硅谷低估了

主持人： 你还非常看好AI在业务流程自动化上的机会。

Sherwin Wu： 这又回到“我们活在硅谷泡泡里”这个问题。我们习惯的软件工程、产品管理，与支撑整个经济运行的工作形态差异巨大。如果你和一家非科技公司聊天，会发现大量工作都是“业务流程”。

软件工程是开放式知识工作，不可重复，你不会一遍遍做同一个功能。但大量现实世界工作是高度可重复的——有标准操作流程（SOP），有既定步骤，偏离反而不好。比如你打客服电话，对方就在跑流程；打给水电公司，他们有明确能做和不能做的事情。我非常看好这一类——将AI真正嵌入企业数据和系统，自动化这些高确定性的、可重复的业务流程。这块机会被低估，是因为它不在硅谷主流讨论视野里。

主持人： 你的意思是，相比工程领域，AI在这些重复型岗位上的生产力影响可能更大？

Sherwin Wu： 至少是同样巨大，甚至在业务流程侧的变化会更显著。我常被问：20年后的公司会是什么样？软件工程只是其中一部分，更大的变化可能发生在业务流程层面。这块规模非常庞大，只是我们在X或Twitter上很少讨论。

创业者会不会被OpenAI碾压？

不用过度焦虑，做用户真正热爱的产品

主持人： 换个话题。所有基于API创业的人都会问：如何避免被OpenAI自己下场做同样的产品？

Sherwin Wu： 我的一般回答是，这个市场真的太大了，大到创业公司其实不必过度纠结OpenAI或者其他大模型实验室会往哪里走。我见过很多创业公司，有做得不成功的，也有做得非常好的。那些失败的公司，从来不是因为OpenAI、某个大实验室或者Google下场“碾压”了他们，而是因为他们做的产品根本没有真正打动客户。反过来看那些起飞的公司——哪怕是在极度竞争的领域，比如编程工具，像Cursor现在已经非常大了——原因只有一个：他们做了用户真正热爱的产品。

所以我的建议是，不要过度焦虑。只要你做出真正有人喜欢的东西，你一定会在这个生态里找到自己的空间。我真的无法夸张地形容现在机会有多大。用AI构建产品的机会窗口，是前所未有的。一个有趣的例子是：这个市场大到连VC的“可接受投资范围”都被改写了。风投现在会毫不犹豫投资彼此竞争的公司，因为机会空间实在太大了。从创业者角度看，这反而是最令人振奋的——哪怕你只做出一个让一部分人“非常非常喜欢”的产品，也可能成长为一家极其有价值的公司。所以不要过度思考OpenAI会不会做同样的事。

OpenAI的定位：生态平台型公司，不会把能力锁在自己产品里

Sherwin Wu： 另外，从OpenAI的角度，我们一直把自己视为一个“生态平台型公司”。API是我们的第一个产品。我们非常重视生态建设，也不希望去挤压它。Sam和Greg从一开始就反复强调这一点。如果你观察我们的决策，会发现这一点贯穿始终。我们发布的每一个模型，都会进入API。哪怕是为Codex场景优化的模型，也最终会开放给API用户。我们不会把能力“锁在自己产品里”。我们保持平台中立，不屏蔽竞争者，允许开发者访问我们的模型。最近测试的“用ChatGPT登录”等功能，本质上也是在强化生态。

我们的思路是“水涨船高”。也许我们像一艘航母，但如果潮水上涨，所有船都会受益，我们自己也会受益。API的增长已经证明了这一点。所以，与其把OpenAI看成一个会把别人挤走的存在，不如专注于打造真正有价值的产品。我们会继续致力于一个开放生态。

主持人： 为什么对OpenAI来说，“做平台”这么重要？

Sherwin Wu： 这其实写在我们的使命里。我们的使命有两部分：第一，构建AGI；第二，让AGI的收益惠及全人类。重点在“全人类”。我们很早就意识到，单靠一家公司不可能触达世界每个角落。所以早在2020年我们就推出了API。我们需要一个平台，让其他人去构建我们自己不可能覆盖的应用——比如播客主和Newsletter作者的客服机器人。这正是API存在的意义。我们每天都在和客户交流，也非常享受看到各种多样化的应用诞生。这从第一天起就是使命的一部分。

主持人： 还有你们的ChatGPT应用商店。

Sherwin Wu： 那是ChatGPT团队主导的，我们密切合作。他们开发了Apps SDK。这也是平台战略的延伸。ChatGPT现在每周有大约8亿活跃用户——这是一个极其庞大的资产。与其独占这流量，不如让其他公司也能围绕这个用户群体构建产品，最终这也会扩大整个生态规模。

主持人： 每周8亿用户，这数字已经让人麻木了。

Sherwin Wu： 这大概相当于全球10%的人口，而且还在增长。规模确实令人震撼。

主持人： 你们一直强调“让AI惠及全人类”。比如免费版ChatGPT，任何人都可以使用，而且能力并不比最强模型差太远。

Sherwin Wu： 是的。免费模型这几年进步非常大。2022年的免费模型和今天相比完全不是一个量级。今天免费用户用到的是2GB 5级别的能力。我们一直在“抬高地板”，让全球更多人受益。再换个角度说，你花20美元一个月，就能用到和亿万富翁几乎相同的AI能力；花200美元，可以用Pro版本。某种程度上，这是前所未有的技术民主化。

OpenAI API的分层结构：从API到“元层面”

主持人： 最后一个问题。对于想基于API构建产品的人来说，你们的平台到底能做什么？

Sherwin Wu： 简单来说，我们的API允许开发者构建智能体、多模态应用、语音应用，以及各种结合企业数据的AI系统。你可以调用最前沿的模型，接入工具、文件系统、搜索、函数调用等能力，构建可以自主执行任务的系统。你可以围绕文本、代码、图像、音频构建应用，也可以把模型嵌入到自己的产品流程里。我们的目标是提供尽可能通用、强大、可扩展的基础能力，让开发者在其之上创造属于自己的产品和体验。

从根本上说，我们的 API 提供了一系列开发者端点，这些端点本质上让你可以调用我们的模型进行采样。目前最受欢迎的是 Responses API。它是一个为构建长时间运行的智能体而优化的接口，也就是那种可以持续工作一段时间的 agent。在一个非常底层的层面上，你基本上只是向模型输入文本，模型会运行一段时间，你可以轮询查看它在做什么，最终在某个时刻获得模型返回的结果。这是我们提供的最底层原语，实际上也是很多人最常用的方式。它非常“无预设立场”，几乎不做限制，你基本可以随心所欲构建任何东西，因为它足够底层。

在此之上，我们也开始构建越来越多的抽象层，帮助大家更容易搭建这些系统。再往上一层是 Agents SDK，它现在也变得极其流行。通过它，你可以基于 Responses API 或其他接口，构建更传统意义上的“智能体”——比如一个在无限循环中运行的 AI，它可以把子任务委派给子 agent，构建出一整套框架和脚手架。未来会演变成什么样还不好说，但它确实让构建这类系统变得更容易，比如添加护栏、把子任务分发给其他 agent，甚至编排一个“智能体群”。Agents SDK 就是为此设计的。

再往上，我们还开始构建一些工具，帮助解决部署智能体的“元层面”问题。比如我们有一个叫 Agent Kit 的产品，还有 Widgets——本质上是一组 UI 组件，可以让你非常轻松地在 API 或 Agents SDK 之上构建一个美观的界面。因为从 UI 角度看，很多智能体的形态其实很相似。除此之外，我们还有一系列评测工具，比如 Eval API。如果你想测试模型、智能体或工作流是否正常运行，可以通过我们的评测产品进行量化验证。

所以在我看来，这是一个分层结构——不同层级都在帮助你基于我们的模型构建想要的东西，抽象程度逐级提升、预设也逐渐增强。你可以直接使用整套技术栈，很快搭建一个 agent；也可以一路往下，回到底层的 Responses API，自由构建任何你想要的系统，因为它足够原始、足够底层。

接下来两三年会持续让人振奋

Sherwin Wu：如果还有什么想留给大家的话，我会说，未来两到三年将会是科技行业和创业世界最有趣的时期之一，而且可能是很久以来最有趣的一段时间。我鼓励大家不要把它当成理所当然。我是 2014 年进入职场的，最初几年很棒，但后来有五六年科技行业并不算特别兴奋。过去三年则是我职业生涯中最疯狂、最令人振奋的阶段，我认为接下来的两三年还会延续这种势头。所以不要错过。总有一天这波浪潮会趋于平缓，变得更加渐进式发展。但在此之前，我们将探索很多酷炫的东西，发明全新的事物，改变世界，也改变我们的工作方式。这是我最想说的。

主持人：当你说“不要错过”时，你会建议大家具体做什么？

Sherwin Wu：参与进来。正如你说的，主动投入。构建工具是其中一部分，但即便不是软件工程师，也完全可以参与。很多工作都会因此改变。使用这些工具，理解它们的能力边界——知道它们能做什么、不能做什么，然后观察它们随着模型进步能开始做到什么。核心就是熟悉这项技术，而不是躺平让它从你身边溜走。

主持人：但现在信息爆炸，也会让人焦虑。

Sherwin Wu：坦白说，我自己可能是个反面例子，因为我长期泡在 X 和公司 Slack 上，信息吸收量很大。但我观察到的一点是：大量内容其实是噪音。你不需要 110% 地吸收所有动态。专注一两个工具，从小处入手，已经远远足够。行业节奏本来就快，再叠加社交平台，会形成一种让人窒息的新闻洪流。其实你没必要掌握所有信息才能真正参与。哪怕只是安装 Codex 客户端玩一玩，或者安装 ChatGPT，把它连接到 Notion、Slack、GitHub 等内部数据源，看看它能做什么、不能做什么，都已经是在参与。

主持人：闪电问答环节——你最常推荐的两三本书是什么？

Sherwin Wu：我推荐一本小说和两本非虚构。小说是《There Is No Antimemetics Division》，作者是 QNTM。我是在 X 上看到有人分享的。这是一部带有科幻色彩的作品，我两天就读完了。文笔极佳，非常有创意，讲的是一个政府机构对抗“会让人遗忘自身存在之物”的故事。设定新鲜、构思聪明，而且无意中还挺幽默——虽然基调接近科幻恐怖，但读着读着会让人发笑。

非虚构方面，我最近一年读了不少关于中美关系的书。有两本让我印象深刻。第一本是丹·王的《Breakneck》，他用“律师型社会”和“工程师型社会”来对比美国与中国，分析各自的优劣。我读完后也在想，美国确实像是一个由律师主导的社会。

第二本是帕特里克·麦吉写的关于 Apple 与中国关系的书，非常有意思。我是个不折不扣的苹果迷，如果你现在看到我的桌面，会发现几乎全是苹果产品。那本书让我对苹果与中国之间的复杂互动有了更深入的理解。它包含了大量关于 Apple 公司的内部信息，我觉得非常吸引人。读起来节奏很快，也非常应景，是一本很“及时”的书。

主持人：那本《There Is No Antimemetics Division》听起来太棒了，我现在就下单。

Sherwin Wu：对对对，我记得也就两百来页，我真的两天就读完了，实在太精彩。

主持人：那你最近发现并特别喜欢的一款产品是什么？

Sherwin Wu：最近我重新搭建了家里的 Wi-Fi 和家庭网络系统，彻底换成了 Ubiquiti 的路由器和安防摄像头。之前从没接触过这个品牌，我以前的配置都很简单。这次深入使用后，真的觉得它做得非常好。如果要打个比方，它就像家庭网络领域的苹果。

硬件设计很漂亮，但真正厉害的是软件——他们的移动端管理应用做得非常出色，可以统一管理家庭网络。如果你家里布好了以太网线路，用它效果会非常好。我尤其推荐他们的安防摄像头系统，接入 Ubiquiti 生态后，可以通过手机、Apple TV、iPad 实时查看监控画面，体验非常流畅。价格不算便宜，但也没贵到离谱，整体体验真的很棒。

主持人：好建议。你有没有一句人生信条，经常在工作或生活中提醒自己？

Sherwin Wu：我经常对自己说的一句话是——永远不要自怜。无论是在工作还是生活中，总会发生各种事情。提醒自己不要沉溺于自怜，而是意识到自己始终拥有行动能力，能够把自己拉起来，这对我很重要。我也经常对别人这么说。

主持人：太好了。再次感谢你。

Sherwin Wu：谢谢你，Lenny。谢谢大家。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21999