“我们可能真的会进入一个B2B SaaS的黄金时代!”
“接近100%的代码最初都是由AI生成的。”
“我们活在‘硅谷泡泡’里。”
春节前夕,OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。API作为OpenAI的第一个产品,也是几乎所有AI创业公司都在集成的产品,这给了Sherwin一个极其独特且宏观的视角。整个行业正在发生什么,它又将走向何方?
Sherwin提到一个被市场严重低估的现象——“一人独角兽”,这是Sam Altman最早提出的概念。当AI把个人生产力放大十倍、百倍,理论上,一个人真的可以构建一家十亿美元公司。
也许会有一个十亿美元公司,但可能会有上百个一亿美元公司,成千上万个一千万美元公司。
对个人来说,一家一千万美元的公司已经足够实现财务自由。
更为重要的是接下来的二阶和三阶市场变化。这也是很少人会公开提及的部分。
Sherwin认为,未来业界会进入B2B SaaS和软件创业的黄金时代。围绕这些“一人公司”,可能会出现上百家小公司构建高度定制的软件,以专门服务这些高杠杆个体。
“随着软件开发和运营公司的成本不断下降,你会看到越来越多公司出现。”
即:AI并不是消灭软件,而是把软件需求打碎成无数更细、更垂直的场景。过去,一个中型企业可能只买几套通用SaaS;未来,一个高杠杆个体,可能会购买十几种高度定制的AI工作流工具。
那么三阶效应会怎样呢?
Sherwin给出了一个非常有意思的假设:
如果世界变成大量微型公司为一两个人服务的形态,创业生态和VC生态都会改变。
也许只剩下少数大型平台型公司支撑这些微型企业。
而那种能带来100倍、1000倍回报的风险投资项目可能反而减少,因为更多公司会停留在1000万到5000万美元规模。
此外,Sherwin还给出了一个捅破泡沫的言论:大多数AI部署都是负回报的!世界上大多数人,包括美国大多数人其实并不懂得如何真正部署和“压榨”AI的价值。“硅谷是泡泡,X是泡泡,软件工程也是泡泡。他们本身不是软件工程师,也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。”
那么在OpenAI内部是如何运用AI的呢?他透露,OpenAI内部有一个团队正在做实验,尝试维护一个100%由Codex编写的代码库。不同之处在于,当Agent运行不顺时,维护团队并不会“撸起袖子自己敲代码”,而是始终让AI自己编写。
而最重要的一个发现就是:当Agent没有按你期望工作,通常是“上下文问题”。要么你描述不够充分,要么它缺乏必要信息。解决方法往往不是自己重写,而是补充文档、添加代码注释、改进代码结构,或者在仓库中增加MD文件等资源,把你脑海里的“部落知识”显式化,让模型能读到。
Sherwin另一个有意思的判断是:模型会把“脚手架”、“Agent框架”当早餐吃掉。
“这个领域和模型本身变化太快了,它们往往会自我颠覆,模型会把你搭的脚手架当早餐吃掉。
但随着模型变强,更好的方法反而是去掉大量逻辑,直接信任模型,只给它搜索工具——甚至只是普通文件系统。
“向量数据库仍然有价值,但围绕它构建的整个生态和复杂脚手架,重要性已经下降。随着模型进步,你可能需要重构抽象层和工具框架。”
总之,AI这个领域既令人兴奋,也令人抓狂——因为目标是移动的。
所以,Sherwin给出的建议是:一定不要过度听取客户意见,而是要面向未来1~2年的模型趋势而构建。
对于未来18个月,他还给出了两个方向:长时程Agent和原生音频模型。
此外,播客中还有不少趣料,比如他认为软件工程会朝着“外科医生”发展,再比如业务流程自动化被硅谷低估了,等等。
95%工程师都在用Codex,几乎100%代码最初都是AI生成
主持人: Sherwin,非常感谢你来到节目。
Sherwin Wu: 谢谢邀请。
主持人: 我想从一个可以视为AI进展“晴雨表”的问题开始,尤其是在工程领域。现在你——如果你还写代码的话——以及你团队的代码,有多少比例是由AI编写的?
Sherwin Wu: 我现在偶尔还写代码。对像我这样的管理者来说,使用这些AI工具其实比手写代码容易得多。我和OpenAI的几位工程经理,目前所有代码基本都由Codex编写。
更广泛来看,内部有一种明显的能量场,大家都能感受到这些工具进步有多大,Codex对我们来说已经变得多么好用。很难精确衡量代码比例,因为几乎可以说接近100%的代码最初都是由AI生成的。我们真正追踪的是使用情况:目前绝大多数工程师每天都在用Codex——95%的工程师在用;100%的PR每天都由Codex审核。也就是说,任何进入生产环境的代码都会经过Codex“过目”,它会提出改进建议。对我们来说最令人兴奋的,其实是这种能量感。
另一个观察是:用Codex更多的工程师,提交的PR数量高出70%,而且这个差距还在扩大。他们越来越熟练,效率越来越高。
主持人: 所以确认一下,你是说那95%的工程师,他们的代码都是AI写的,然后由他们审核?
Sherwin Wu: 是的。
主持人: 这听起来已经几乎不再“疯狂”了,我们都开始习惯。
Sherwin Wu: 还是需要适应的。也有工程师对Codex的信任度稍低。但我几乎每天都会听到有人惊叹它能完成什么,他们对模型自主能力的信任在不断提高。Kevin Whale(OpenAI首席产品官)常说:“这是模型此生最差的时刻。”这同样适用于软件工程。模型只会越来越好,人们的信任也会不断增强。
主持人: Kevin也在节目里说过这句话。还有Peter——OpenClaw的开发者——他说自己用Codex时,几乎相信它可以直接提交到主分支。
Sherwin Wu: 他是个很好的用户,也给我们很多反馈。OpenClaw确实是个很棒的产品。今天早上我还看到Moltbook的分享,看到AI Agent彼此对话,感觉非常超现实,就像电影《Her》在现实中发生。
工程师变成了管理者,同时管理20个Agent线程
主持人: 回到这个对工程师而言疯狂的时代。我们从“自己写每一行代码”变成“AI写所有代码”。我不知道还有哪个职业变化这么剧烈。工程师的角色在未来几年会变成什么样?
Sherwin Wu: 看到这一切真的很酷,也正是这种变化带来了兴奋。未来一到两年,工程师的工作会发生重大改变。现在大家还在摸索阶段,这是一段罕见的窗口期,也许在未来12到24个月,我们可以自己定义新的标准。
有一个常见说法是:个人贡献型工程师正在变成技术负责人,几乎像管理者一样。他们在管理成群的Agent。我团队里的工程师经常同时拉着10到20个线程并行推进——当然不是同时跑任务,而是在不断检查、引导、给Codex反馈。他们的工作已经从“写代码”转变为“管理代码生成过程”。
软件工程师就像“巫师”,用AI就像施咒语
Sherwin Wu: 至于未来走向,我常想到大学时读的一本编程教材——《Structure and Interpretation of Computer Programs》。
《SICP》在麻省理工学院(MIT)当年非常流行,它曾长期作为入门编程课的教材,也因此拥有一种“宗教式”的追随者文化。它用的是一种名为Scheme的Lisp方言来教学,会把你带入函数式编程的世界,非常开脑洞。但对我来说,这本书最难忘的是它在开篇对“编程”这门学科的定义——它把编程类比为“巫术”。书里说,软件工程师就像巫师,编程语言就像咒语,你念出这些咒语,它们就会替你完成事情。挑战在于:你要念出什么样的咒语,程序才会按你的意愿运行。这本书写于1980年,但这个隐喻居然一路延续至今。
我觉得它正在真实发生在我们进入“vibe coding”新时代的过程中。编程语言一直都是某种“咒语”,只是随着时间推移,表达方式越来越高级,让计算机按你的意图行动变得越来越容易。而这一波AI,可能就是这条演进路径的下一阶段。现在它真的成了“咒语”——你可以直接告诉Codex、Cursor你想要什么,然后它们去帮你完成。
我特别喜欢“巫师”这个比喻,因为我们现在的状态其实越来越像《幻想曲》里的“魔法师学徒”。米老鼠戴上魔法帽,试图施法,结果失控——扫帚开始疯狂打水,房间被淹。他给扫帚下达任务后自己睡着了,事情就失控了。我觉得这比喻非常贴切。一方面,这些“咒语”威力巨大,杠杆极高;但另一方面,你必须知道自己在做什么。不能完全放手不管,否则模型就可能“跑偏”。
当我看到工程师同时管理20个Codex线程时,那确实需要技巧、资历和深思熟虑。你不能彻底离开,也不能完全忽视。但一位真正熟练的高级工程师,现在可以通过这些工具完成远超以往的事情。这也正是乐趣所在——真的感觉自己成了巫师,施展魔法,让软件为你完成各种任务。
主持人: 我刚才听你讲的时候脑子里就是“魔法师学徒”的画面。之前也有嘉宾说过,现在像是拥有一个可以许愿的精灵,但你必须非常精确地表达愿望,否则后果难料——甚至像“猴爪”故事那样,愿望实现了,却伴随副作用。
Sherwin Wu: 对,这个比喻很好。SICP也被称为“巫师之书”,因为这个隐喻贯穿全书。我们现在真的走到了那个阶段,这本身就很酷。

OpenAI内部实验:100%由Codex编写代码的团队,维护基本就是补充上下文
主持人: 有两个方向我想继续追问。一个是,我越来越多地听到人们提到,当Agent不按预期工作时,会产生一种压力。你同时启动一堆Codex Agent,还得盯着它们——这个不工作了,那个浪费时间了。你在团队里也感受到这种压力吗?
Sherwin Wu: 有,而且经常发生。我认为这里正是目前最有意思的部分。模型和工具都还不完美,我们仍在摸索如何与它们最佳协作。
内部有一个特别有意思的团队正在做实验:他们维护一个100%由Codex编写的代码库。通常你会让AI写代码,但最终会自己重写很多部分、做检查修改。但这个团队是“彻底Codex化”,完全不留退路。他们遇到的正是你说的问题:想实现某个功能,但Agent始终做不到。通常这时你会“撸起袖子”自己写代码,或用Tab补全、Cursor等工具。但这个团队没有这个逃生舱口。
于是问题变成:如何让Agent真正完成任务?我们可能会发布一篇博客总结经验。一个重要发现是:当Agent没有按你期望工作,通常是“上下文问题”。要么你描述不够充分,要么它缺乏必要信息。解决方法往往不是自己重写,而是补充文档、添加代码注释、改进代码结构,或者在仓库中增加MD文件等资源,把你脑海里的“部落知识”显式化,让模型能读到。
取消“人工逃生通道”之后,他们开始真正理解,如果要全面拥抱Agent,我们需要解决哪些结构性问题。
15分钟的审查任务缩短到2~3分钟
主持人: 你提到,使用AI的工程师提交PR的数量大幅增加。这意味着代码审查会成为瓶颈。你们有什么办法避免工程师整天只是在Review PR吗?
Sherwin Wu: 首先,Codex现在审核我们100%的PR。一个有趣现象是:我们最早交给模型的,往往是我们最讨厌、最枯燥的工作。代码审查就是其中之一。
对我来说,代码审查曾经是最痛苦的工作之一。我毕业后的第一份工作在Quora,负责Newsfeed代码。因为那是核心模块,所有人都会改动。每天早上打开电脑,看到20到30个待审PR,拖着拖着就变成50个。那种感觉非常糟糕。
Codex在代码审查方面非常强。尤其是GPT-4.5在这方面已经非常擅长,只要你给它合适的引导方向。它可以快速指出潜在问题、改进建议,甚至提前识别破坏性变更。
所以,至少在代码审查这个维度,AI确实正在显著缓解规模化带来的压力。
Sherwin Wu: 所以在代码审查方面,是的,我们确实创建了大量PR,但Codex会审核全部PR。这让代码审查从原本10到15分钟的任务,有时缩短到两三分钟,因为很多修改建议已经提前生成好了。很多情况下,尤其是小型PR,甚至不再需要人工审核——我们在这方面已经相当信任Codex。代码审查的本质是“第二双眼睛”,确保你没犯低级错误。现在,Codex已经是一双非常聪明的“第二双眼睛”,所以我们在这方面投入得很深。
此外,CI流程以及代码提交后的部署流程,也已经大量通过Codex实现自动化。很多工程师最烦的事情是:写完漂亮的代码之后,怎么把它部署上线?要跑测试、修lint错误、做代码审查……这一整套流程。很多环节都可以通过Codex自动化处理。我们内部已经构建了一些工具来自动修复lint错误——如果出现lint问题,Codex可以直接生成补丁,然后重新触发CI流程。我们的目标是把工程师在这些环节的工作量压缩到最低。结果就是,他们现在可以合并和发布更多PR。
吃自己的狗粮,用不同模型版本切换
主持人: Codex写代码,又用Codex审核代码。我很好奇,你们是否考虑用其他模型来审核自己模型的工作?还是说现在已经足够好了?
Sherwin Wu: 确实存在某种“循环”的问题——回到“魔法师学徒”的比喻,你不希望扫帚失控。所以我们在选择哪些PR可以完全交由Codex审核时是非常谨慎的。大多数人仍然会查看自己的PR,并不是完全放手,而是从“100%注意力”降低到大概“30%注意力”,这已经足够提高效率。
至于多模型策略,我们内部测试很多模型,也有不少模型变体可供选择。外部模型用得较少,我们认为“吃自己的狗粮”很重要,通过使用自家模型来获得反馈。当然,在内部不同模型版本之间切换,获得不同视角,是常见做法,而且效果不错。
主持人: 为了给大家一个清晰的现状刻度:可以说OpenAI现在生产环境中的代码100%由Codex编写吗?
Sherwin Wu: 我不会说今天线上运行的代码100%由AI写成,因为归因很难精确。但几乎所有工程师现在都高度依赖Codex。如果要粗略估计,我会说现在绝大多数代码很可能最初是由AI生成的。
顶级绩效者会越来越强,管理者本身也变得更高杠杆
主持人: 我们谈了很多IC工程师的变化,但关于工程经理的讨论较少。AI兴起之后,你作为经理的生活发生了什么变化?未来经理的角色会是什么?
Sherwin Wu: 相比工程师,经理的变化没那么剧烈。还没有专门的“经理版Codex”。不过,我确实用Codex来辅助一些管理相关的工作。
目前变化还不算巨大,但趋势已经出现。如果把趋势推演下去,就能看到方向。一个越来越明显的现象是:Codex极大放大了顶尖绩效者的生产力。我觉得这可能是AI在整个社会层面的共性——那些真正“倾身投入”、有主动性、愿意掌握工具的人,会大幅自我增强。
我已经看到这种分化:顶尖绩效者的产出明显拉开差距。因此,团队内部的生产力分布变得更宽。我的管理哲学一直是,把大部分时间花在顶尖绩效者身上——确保他们没有阻碍、保持开心、感觉被支持、被倾听。在AI时代,这一点更重要,因为顶尖人才会用这些工具“飞起来”。
比如那个维护100% Codex代码库的团队,让他们自由探索、深挖最佳实践,已经带来很大回报。我认为未来经理会花更多时间在这类高杠杆群体上。
另一个趋势是:AI工具让经理本身也变得更高杠杆。比如把ChatGPT接入组织知识库,连接GitHub、Notion、Google Docs,在做绩效评估时,可以快速生成一份过去12个月工作成果的深度报告。
我推测,未来经理可以管理更大的团队。就像工程师管理20到30个Codex线程一样,管理者也会因为工具的加持而变得更高杠杆。当前软件工程的最佳管理跨度大概是6到8人,但未来可能会远远超过这个数字。
这种趋势已经在支持、运营等非工程领域出现:随着更多事务交给AI代理,人可以处理更多事务,也能管理更多人。我认为在人力管理领域也会发生类似变化。我们已经看到一些工程经理管理的人数显著增加,而且做得相当不错,因为他们能更高效地获取团队信息、理解组织背景。
主持人: 你提到一直把时间投入在顶尖绩效者身上。Mark Andreessen之前在节目里说过,AI让好的人更好,让伟大的人变得卓越。
Sherwin Wu: 对。一个很好的例子是,内部有一群工程师非常沉浸在Codex实践中,研究如何与模型最佳互动。这是极高杠杆的事情。作为经理,我会鼓励他们继续探索,并把最佳实践在组织内传播——通过知识分享会议、文档沉淀等方式。这会抬高整个组织的水平。我认为这正是“顶尖绩效者变得卓越”的体现。
一人独角兽:更多公司会停留在5000万美元的规模
与未来二阶、三阶变化
主持人: 很多人都有一种直觉:AI很大,它正在改变世界。但你觉得有哪些变化是大家还没有真正“定价进去”的?有哪些潜在影响是我们还没有意识到的?
Sherwin Wu: 我最喜欢的一个说法,是这波AI浪潮中诞生的“一个人打造十亿美元公司”的概念。我记得可能是Sam最早提出来的。这个想法很迷人——当个人杠杆被极度放大,理论上确实可能出现一家“一个人、十亿美元”的公司。但我觉得大家还没有真正把它的二阶、三阶效应算进去。
“一个人十亿美元公司”意味着,一个人的主动性和杠杆被工具放大到极致,他可以极其高效地完成公司所需的一切,从而打造出价值十亿美元的业务。但它还有其他含义。第一,如果一个人能做到这一点,那说明创业本身会变得更容易。我认为这会带来一次巨大的创业潮,尤其是中小企业(SMB)式的爆发——任何人都能为任何细分场景构建软件。
我们已经在AI创业领域看到垂直化趋势:为特定行业打造AI工具往往效果很好,因为你能深度理解那个场景。如果把这个趋势推演下去,完全可能出现100倍数量的垂直创业公司。
我甚至觉得,为了支撑一个“一个人十亿美元公司”,可能会有上百家小公司构建高度定制的软件,专门服务这些高杠杆个体。因此,我们或许会进入B2B SaaS和软件创业的黄金时代。随着软件开发和运营公司的成本不断下降,你会看到越来越多公司出现。
我的想法是:也许会有一个十亿美元公司,但可能会有上百个一亿美元公司,成千上万个一千万美元公司。对个人来说,一家一千万美元的公司已经足够实现财务自由。这种爆发式增长,我觉得大家还没有真正“定价”。
再往三阶效应看——当然越往远推不确定性越高——如果世界变成大量微型公司为一两个人服务的形态,创业生态和VC生态都会改变。也许只剩下少数大型平台型公司支撑这些微型企业。而那种能带来100倍、1000倍回报的风险投资项目可能反而减少,因为更多公司会停留在1000万到5000万美元规模。这对VC来说未必理想,但对高主动性的个人来说非常好,他们可以借助AI为自己打造业务。
主持人: 我们已经讲到三阶效应了,我想听四阶效应了。
Sherwin Wu: 四阶效应太“超脑”了,我还没法推那么远(笑)。
主持人: 关于“十亿美元公司”,我其实有点悲观。光是支持成本就很难规模化。即便有AI帮忙,除非你客户很少且客单价极高,否则支持问题本身就难以靠一个人处理。
Sherwin Wu: 我同意这一点,但我的看法略有不同。也许你自己的播客就可能成为十亿美元公司。关键在于,你不必亲自派AI去处理所有支持工单。可能会出现十几家专门为播客和Newsletter构建支持软件的小公司——它们本身就是“一个人公司”。它们能非常轻松地构建出高度定制的产品,而你作为“一个人公司”去购买这些服务。
随着软件构建成本急剧下降,你可能会外包越来越多事务,从而缩小自己公司的规模。最终,仍然可能是一个人驱动一个高杠杆的公司,达到十亿美元规模。当然,不确定性仍然存在。

主持人: 我也在想,像Peter(OpenClaw创始人)现在被各种需求、邮件、PR淹没——而他甚至还没变现。
Sherwin Wu: 这可能就像我们刚发布ChatGPT那几个月的疯狂状态。他一个人承受这种规模,一定非常疯狂。
主持人: 也许四阶效应是:分发变得更重要,因为太多东西在争夺注意力。有受众、有平台的人价值更高。
软件工程会朝“外科医生”发展
主持人: 回到管理话题。除了多花时间在顶尖绩效者身上,你还有哪些核心管理心得?
Sherwin Wu: 很多经验未必特定于OpenAI API业务。我自己的管理理念这些年有所演进,但总体变化不算太大。
其中一个核心原则就是刚才提到的:把大量时间投入在顶尖绩效者身上。具体来说,可能超过50%的时间花在前10%的绩效者身上,真正赋能他们。
我常用一个比喻——来自《The Mythical Man-Month》——把软件工程师比作外科医生。这个比喻对我的管理理念影响很大。
其实挺有意思的。我是从那本《The Mythical Man-Month》里看到这个比喻的。那本书写于上世纪70年代,当时他们其实像是在预测未来。他们说,软件工程可能会演变成一种类似“外科手术室”的模式——工程师就像外科医生。手术室里真正“动刀”的只有一个人,其他人——护士、住院医师、研究员——都在为他提供支持。外科医生说“给我手术刀”,就有人递上;说“需要某个设备”,马上就到位。所有人围绕一个核心执行者展开支持。那本书当年就预言,软件工程可能会朝这个方向发展。
当然,现实并没有完全变成那样——软件开发仍然是高度协作的,不是一个人完成所有工作。但我一直很喜欢这个类比,也在自己的管理理念中努力去“模拟”这种模式。软件工程不是手术,但我希望团队成员能有“外科医生”的感觉:他们是核心执行者,而我作为管理者,要确保他们拥有一切所需资源,感觉背后有一支军队在支持他们——哪怕实际上只有我一个人在做这些支持工作。 举个例子,“提前看到转角”并为团队扫清障碍,在组织层面上极其重要。尤其在今天的AI时代更是如此。如果大家只是不断提交PR,真正卡住进度的往往不是技术,而是组织流程和协作问题。作为管理者,如果能提前预判阻塞点,在“医生”开口之前就准备好“手术刀”,那就是最佳状态。这是我理解的工程管理方式。这个类比虽然不完全贴切,但一直伴随我整个职业生涯。
主持人: 我很喜欢这个说法。我在想,AI是不是也能帮助管理者“提前看到转角”?比如预测某个工程师将会因为某个决策被卡住,我们是不是可以提前处理?
Sherwin Wu: 这是个很好的问题。我还没试过,但如果把ChatGPT接入公司知识库,问它:“当前团队的活跃阻塞点是什么?扫一遍Notion文档、Slack消息,找出潜在卡点。”也许会很有意思。你刚刚给了我一个灵感。 更进一步,不只是识别当前阻塞点,而是预测未来几个月某个工程师或团队可能遇到什么问题。让AI去做二阶、三阶推演——提前预判下个月的“卡点”。这个思路很有潜力。
我们活在泡泡里:硅谷是泡泡,X也是泡泡,
大多数人并不真正懂AI部署
主持人: 我想把话题转回你们的API和平台。你和很多公司合作,帮助他们部署AI。你提到很多公司在AI部署上其实是负ROI,这和外界的感受一致。到底出了什么问题?
Sherwin Wu: 先澄清一下,我没有直接看到量化数据——这类ROI很难精确测算。但从观察来看,我不会惊讶如果很多AI部署确实是负回报的。甚至在科技圈之外,很多人有一种情绪:AI是被“强行推到他们头上”的。这种抵触感,本身可能就和负ROI有关。
我看到几个现象。第一,我们所在的硅谷,其实活在一个泡泡里。X是泡泡,硅谷是泡泡,软件工程是泡泡。世界上大多数人——包括美国的大多数人——都不是软件工程师,也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。 在我们这里,大家讨论的是最佳实践、codecs、agents、MCPs等高级用法;X上那些发帖的人几乎都是重度AI用户。但当我和一些公司一线员工交流时,他们只是用AI做非常基础的事情,对技术原理几乎没有理解,也没有真正“压榨”它的能力。
理想的AI部署模式是什么?成功案例往往具备两个条件:自上而下的战略支持,以及自下而上的主动采用。高层需要明确方向并投入资源,但更关键的是基层员工愿意学习、尝试,并在具体工作场景中摸索“最后一公里”的应用细节。只有当一线员工主动拥抱技术,AI才能真正开始创造价值。
在OpenAI内部也是如此。真正加速公司AI驱动的,是员工开始将这些工具直接应用到日常工作中。每个岗位——工程、财务、运营、销售——都有独特的工作细节,需要自下而上地打磨。很多公司缺少这种自下而上的热情,因此AI部署很难产生正向的投资回报。
有些公司采用完全自上而下的命令式推进,脱离一线实际。结果是员工队伍并不理解技术,只知道“应该用”,却不知“如何用”,周围也缺乏可学习的榜样。
主持人: 公司应如何有效推动AI?
Sherwin Wu: 我建议在内部设立一个全职的“突击队”(AI tiger team),专门探索技术能力边界,将其落地到具体工作流,并进行知识分享,制造兴奋感。没有这样的团队,很难真正用起来。
主持人: 这个团队应该由什么角色构成?工程师主导吗?
Sherwin Wu: 一个有趣的模式是围绕“技术邻近型人才”组建——他们可能不是软件工程师,但具备很强的技术亲和力。例如客服或运营负责人,他们可能不会写代码,但擅长使用各类工具(如Excel),并且对新技术充满热情,愿意钻研。这类人往往是团队的核心。工程师当然理解技术,但他们并非每家公司都有,且稀缺、昂贵。
主持人: 所以,反模式就是CEO宣布“AI-first”并挂钩绩效,但没有自下而上的传播者,最终效果不佳?
Sherwin Wu: 完全正确。更好的做法是找到那些最兴奋、最主动的员工,将他们聚集成一个“AI evangelist”团队,探索用法,再向全公司扩散。这类似于找到AI采用上的“高绩效者”,赋能他们去组织黑客松、内部分享,在组织内部播下种子。
Agent框架、脚手架的作用在减弱
今天流行的是Skills、上下文管理
主持人: 你提过一个有争议的观点:在AI领域,过度听客户意见可能会带偏方向。
Sherwin Wu: 我不认为这很“热”。与客户沟通当然有价值。但问题在于,AI领域变化极快,模型在不断自我颠覆,尤其是在工具和“脚手架”层面。
我最近读到FinTool创始人Nicholas的一篇文章,他总结在金融服务中构建AI agent的经验。有一句话我特别喜欢:“模型会把你的脚手架当早餐吃掉。”
回想2022年ChatGPT刚发布时,模型还很“原始”,于是开发者生态围绕它构建了大量产品级脚手架,如各种框架、agent框架、向量数据库、embedding系统,用以“引导”模型输出。但随着模型能力迅速提升,它们真的开始“吃掉”这些脚手架。

今天流行的是skills文件、基于文件的上下文管理。但我能想象一个未来,模型可以自己管理这些,不再需要这种文件式结构。演化已经发生:agent框架的作用在减弱;2023年我们认为向量数据库会成为组织上下文的核心,需要把所有语料embedding并优化搜索。
但随着模型变强,更好的方法反而是简化逻辑,信任模型,只给它搜索工具——甚至只是普通文件系统。向量数据库仍有价值,但围绕它构建的复杂生态和脚手架,其重要性已经下降。
所以回到“要不要听客户”的问题:如果你只听客户,他们可能会要“更好的向量数据库”或“更强的agent框架”。但那可能只是当前的局部最优。随着模型进步,你可能需要重构抽象层和工具框架。这个领域令人兴奋也抓狂——因为目标是移动的。今天的工具组合,未来很可能会大幅演化。与客户沟通时,必须平衡他们当前的需求和你对未来1-2年模型趋势的判断。
主持人: 这让我想到《苦涩教训》——在AI里,越少人为复杂逻辑和手工规则,越能规模化,让算力和模型自己解决问题。
Sherwin Wu: 是的,几乎可以说有一个“AI构建版的苦涩教训”。我们曾围绕模型搭建了很多架构,但模型进步后把它们都吞掉了。坦率讲,我们OpenAI API团队也走过一些弯路。但模型不断进步,我们每天都在重新学习这条“苦涩教训”。

构建面向未来的AI产品
主持人: 对于今天基于API或agent构建产品的人,最核心的建议是什么?
Sherwin Wu: 我的核心建议一直是:为模型将要去的方向构建,而不是为模型今天的状态构建。
这是一个不断移动的目标。我看到那些真正做得好的创业公司,往往是围绕一种“理想能力”在做产品——这种能力今天可能只实现了80%。产品现在是“差一点点就到位”,但随着模型变强,突然某一天就“啪”地一下完全跑通。他们在设计产品时,是把模型能力持续提升这个趋势考虑进去的。如果你默认模型是静态的,你做出来的体验一定不如这种“面向未来”的产品。是的,你可能需要稍微等一等,但模型进步太快了,通常也等不了太久。
未来6-18个月模型会走向哪里?
音频被严重低估了
主持人: 未来6到12个月,API、平台和模型会走向哪里?
Sherwin Wu: 一个明显的方向是——模型可以连贯执行更长时间的任务。现在已有基准测试衡量模型在软件工程任务上的持续时长。前沿模型在50%成功率下已能完成多小时任务,在80%成功率下接近一小时。历代模型的进步趋势非常清晰。
目前大多数产品还在围绕“分钟级任务”优化。即使是代码工具,也更多是交互式、10分钟左右的工作流。按照趋势推演,未来12到18个月,模型可能可以非常连贯地完成多小时甚至半天级别的任务。围绕这种能力构建的产品将完全不同。当然需要加入反馈机制,但可实现的任务空间会大幅扩展。
另一个方向是多模态,尤其是音频。模型现有的音频能力已经不错,但未来6到12个月会显著提升,特别是原生语音到语音模型。在企业场景里,音频被严重低估。大家都在谈论代码和文本,但现实世界大量业务是通过“说话”完成的——客服、销售、运营。未来12到18个月,这个领域会非常激动人心,解锁更多能力。
主持人: 总结一下,就是Agent会运行更久、更稳定;音频会变得更核心、更原生。
Sherwin Wu: 是的,非常令人兴奋。

业务流程自动化的机会被硅谷低估了
主持人: 你还非常看好AI在业务流程自动化上的机会。
Sherwin Wu: 这又回到“我们活在硅谷泡泡里”这个问题。我们习惯的软件工程、产品管理,与支撑整个经济运行的工作形态差异巨大。如果你和一家非科技公司聊天,会发现大量工作都是“业务流程”。
软件工程是开放式知识工作,不可重复,你不会一遍遍做同一个功能。但大量现实世界工作是高度可重复的——有标准操作流程(SOP),有既定步骤,偏离反而不好。比如你打客服电话,对方就在跑流程;打给水电公司,他们有明确能做和不能做的事情。我非常看好这一类——将AI真正嵌入企业数据和系统,自动化这些高确定性的、可重复的业务流程。这块机会被低估,是因为它不在硅谷主流讨论视野里。
主持人: 你的意思是,相比工程领域,AI在这些重复型岗位上的生产力影响可能更大?
Sherwin Wu: 至少是同样巨大,甚至在业务流程侧的变化会更显著。我常被问:20年后的公司会是什么样?软件工程只是其中一部分,更大的变化可能发生在业务流程层面。这块规模非常庞大,只是我们在X或Twitter上很少讨论。
创业者会不会被OpenAI碾压?
不用过度焦虑,做用户真正热爱的产品
主持人: 换个话题。所有基于API创业的人都会问:如何避免被OpenAI自己下场做同样的产品?
Sherwin Wu: 我的一般回答是,这个市场真的太大了,大到创业公司其实不必过度纠结OpenAI或者其他大模型实验室会往哪里走。我见过很多创业公司,有做得不成功的,也有做得非常好的。那些失败的公司,从来不是因为OpenAI、某个大实验室或者Google下场“碾压”了他们,而是因为他们做的产品根本没有真正打动客户。反过来看那些起飞的公司——哪怕是在极度竞争的领域,比如编程工具,像Cursor现在已经非常大了——原因只有一个:他们做了用户真正热爱的产品。
所以我的建议是,不要过度焦虑。只要你做出真正有人喜欢的东西,你一定会在这个生态里找到自己的空间。我真的无法夸张地形容现在机会有多大。用AI构建产品的机会窗口,是前所未有的。一个有趣的例子是:这个市场大到连VC的“可接受投资范围”都被改写了。风投现在会毫不犹豫投资彼此竞争的公司,因为机会空间实在太大了。从创业者角度看,这反而是最令人振奋的——哪怕你只做出一个让一部分人“非常非常喜欢”的产品,也可能成长为一家极其有价值的公司。所以不要过度思考OpenAI会不会做同样的事。
OpenAI的定位:生态平台型公司,不会把能力锁在自己产品里
Sherwin Wu: 另外,从OpenAI的角度,我们一直把自己视为一个“生态平台型公司”。API是我们的第一个产品。我们非常重视生态建设,也不希望去挤压它。Sam和Greg从一开始就反复强调这一点。如果你观察我们的决策,会发现这一点贯穿始终。我们发布的每一个模型,都会进入API。哪怕是为Codex场景优化的模型,也最终会开放给API用户。我们不会把能力“锁在自己产品里”。我们保持平台中立,不屏蔽竞争者,允许开发者访问我们的模型。最近测试的“用ChatGPT登录”等功能,本质上也是在强化生态。
我们的思路是“水涨船高”。也许我们像一艘航母,但如果潮水上涨,所有船都会受益,我们自己也会受益。API的增长已经证明了这一点。所以,与其把OpenAI看成一个会把别人挤走的存在,不如专注于打造真正有价值的产品。我们会继续致力于一个开放生态。
主持人: 为什么对OpenAI来说,“做平台”这么重要?
Sherwin Wu: 这其实写在我们的使命里。我们的使命有两部分:第一,构建AGI;第二,让AGI的收益惠及全人类。重点在“全人类”。我们很早就意识到,单靠一家公司不可能触达世界每个角落。所以早在2020年我们就推出了API。我们需要一个平台,让其他人去构建我们自己不可能覆盖的应用——比如播客主和Newsletter作者的客服机器人。这正是API存在的意义。我们每天都在和客户交流,也非常享受看到各种多样化的应用诞生。这从第一天起就是使命的一部分。
主持人: 还有你们的ChatGPT应用商店。
Sherwin Wu: 那是ChatGPT团队主导的,我们密切合作。他们开发了Apps SDK。这也是平台战略的延伸。ChatGPT现在每周有大约8亿活跃用户——这是一个极其庞大的资产。与其独占这流量,不如让其他公司也能围绕这个用户群体构建产品,最终这也会扩大整个生态规模。
主持人: 每周8亿用户,这数字已经让人麻木了。
Sherwin Wu: 这大概相当于全球10%的人口,而且还在增长。规模确实令人震撼。
主持人: 你们一直强调“让AI惠及全人类”。比如免费版ChatGPT,任何人都可以使用,而且能力并不比最强模型差太远。
Sherwin Wu: 是的。免费模型这几年进步非常大。2022年的免费模型和今天相比完全不是一个量级。今天免费用户用到的是2GB 5级别的能力。我们一直在“抬高地板”,让全球更多人受益。再换个角度说,你花20美元一个月,就能用到和亿万富翁几乎相同的AI能力;花200美元,可以用Pro版本。某种程度上,这是前所未有的技术民主化。
OpenAI API的分层结构:从API到“元层面”
主持人: 最后一个问题。对于想基于API构建产品的人来说,你们的平台到底能做什么?
Sherwin Wu: 简单来说,我们的API允许开发者构建智能体、多模态应用、语音应用,以及各种结合企业数据的AI系统。你可以调用最前沿的模型,接入工具、文件系统、搜索、函数调用等能力,构建可以自主执行任务的系统。你可以围绕文本、代码、图像、音频构建应用,也可以把模型嵌入到自己的产品流程里。我们的目标是提供尽可能通用、强大、可扩展的基础能力,让开发者在其之上创造属于自己的产品和体验。
从根本上说,我们的 API 提供了一系列开发者端点,这些端点本质上让你可以调用我们的模型进行采样。目前最受欢迎的是 Responses API。它是一个为构建长时间运行的智能体而优化的接口,也就是那种可以持续工作一段时间的 agent。在一个非常底层的层面上,你基本上只是向模型输入文本,模型会运行一段时间,你可以轮询查看它在做什么,最终在某个时刻获得模型返回的结果。这是我们提供的最底层原语,实际上也是很多人最常用的方式。它非常“无预设立场”,几乎不做限制,你基本可以随心所欲构建任何东西,因为它足够底层。
在此之上,我们也开始构建越来越多的抽象层,帮助大家更容易搭建这些系统。再往上一层是 Agents SDK,它现在也变得极其流行。通过它,你可以基于 Responses API 或其他接口,构建更传统意义上的“智能体”——比如一个在无限循环中运行的 AI,它可以把子任务委派给子 agent,构建出一整套框架和脚手架。未来会演变成什么样还不好说,但它确实让构建这类系统变得更容易,比如添加护栏、把子任务分发给其他 agent,甚至编排一个“智能体群”。Agents SDK 就是为此设计的。
再往上,我们还开始构建一些工具,帮助解决部署智能体的“元层面”问题。比如我们有一个叫 Agent Kit 的产品,还有 Widgets——本质上是一组 UI 组件,可以让你非常轻松地在 API 或 Agents SDK 之上构建一个美观的界面。因为从 UI 角度看,很多智能体的形态其实很相似。除此之外,我们还有一系列评测工具,比如 Eval API。如果你想测试模型、智能体或工作流是否正常运行,可以通过我们的评测产品进行量化验证。
所以在我看来,这是一个分层结构——不同层级都在帮助你基于我们的模型构建想要的东西,抽象程度逐级提升、预设也逐渐增强。你可以直接使用整套技术栈,很快搭建一个 agent;也可以一路往下,回到底层的 Responses API,自由构建任何你想要的系统,因为它足够原始、足够底层。

接下来两三年会持续让人振奋
Sherwin Wu:如果还有什么想留给大家的话,我会说,未来两到三年将会是科技行业和创业世界最有趣的时期之一,而且可能是很久以来最有趣的一段时间。我鼓励大家不要把它当成理所当然。我是 2014 年进入职场的,最初几年很棒,但后来有五六年科技行业并不算特别兴奋。过去三年则是我职业生涯中最疯狂、最令人振奋的阶段,我认为接下来的两三年还会延续这种势头。所以不要错过。总有一天这波浪潮会趋于平缓,变得更加渐进式发展。但在此之前,我们将探索很多酷炫的东西,发明全新的事物,改变世界,也改变我们的工作方式。这是我最想说的。
主持人:当你说“不要错过”时,你会建议大家具体做什么?
Sherwin Wu:参与进来。正如你说的,主动投入。构建工具是其中一部分,但即便不是软件工程师,也完全可以参与。很多工作都会因此改变。使用这些工具,理解它们的能力边界——知道它们能做什么、不能做什么,然后观察它们随着模型进步能开始做到什么。核心就是熟悉这项技术,而不是躺平让它从你身边溜走。
主持人:但现在信息爆炸,也会让人焦虑。
Sherwin Wu:坦白说,我自己可能是个反面例子,因为我长期泡在 X 和公司 Slack 上,信息吸收量很大。但我观察到的一点是:大量内容其实是噪音。你不需要 110% 地吸收所有动态。专注一两个工具,从小处入手,已经远远足够。行业节奏本来就快,再叠加社交平台,会形成一种让人窒息的新闻洪流。其实你没必要掌握所有信息才能真正参与。哪怕只是安装 Codex 客户端玩一玩,或者安装 ChatGPT,把它连接到 Notion、Slack、GitHub 等内部数据源,看看它能做什么、不能做什么,都已经是在参与。
主持人:闪电问答环节——你最常推荐的两三本书是什么?
Sherwin Wu:我推荐一本小说和两本非虚构。小说是《There Is No Antimemetics Division》,作者是 QNTM。我是在 X 上看到有人分享的。这是一部带有科幻色彩的作品,我两天就读完了。文笔极佳,非常有创意,讲的是一个政府机构对抗“会让人遗忘自身存在之物”的故事。设定新鲜、构思聪明,而且无意中还挺幽默——虽然基调接近科幻恐怖,但读着读着会让人发笑。
非虚构方面,我最近一年读了不少关于中美关系的书。有两本让我印象深刻。第一本是丹·王的《Breakneck》,他用“律师型社会”和“工程师型社会”来对比美国与中国,分析各自的优劣。我读完后也在想,美国确实像是一个由律师主导的社会。
第二本是帕特里克·麦吉写的关于 Apple 与中国关系的书,非常有意思。我是个不折不扣的苹果迷,如果你现在看到我的桌面,会发现几乎全是苹果产品。那本书让我对苹果与中国之间的复杂互动有了更深入的理解。它包含了大量关于 Apple 公司的内部信息,我觉得非常吸引人。读起来节奏很快,也非常应景,是一本很“及时”的书。
主持人:那本《There Is No Antimemetics Division》听起来太棒了,我现在就下单。
Sherwin Wu:对对对,我记得也就两百来页,我真的两天就读完了,实在太精彩。
主持人:那你最近发现并特别喜欢的一款产品是什么?
Sherwin Wu:最近我重新搭建了家里的 Wi-Fi 和家庭网络系统,彻底换成了 Ubiquiti 的路由器和安防摄像头。之前从没接触过这个品牌,我以前的配置都很简单。这次深入使用后,真的觉得它做得非常好。如果要打个比方,它就像家庭网络领域的苹果。
硬件设计很漂亮,但真正厉害的是软件——他们的移动端管理应用做得非常出色,可以统一管理家庭网络。如果你家里布好了以太网线路,用它效果会非常好。我尤其推荐他们的安防摄像头系统,接入 Ubiquiti 生态后,可以通过手机、Apple TV、iPad 实时查看监控画面,体验非常流畅。价格不算便宜,但也没贵到离谱,整体体验真的很棒。
主持人:好建议。你有没有一句人生信条,经常在工作或生活中提醒自己?
Sherwin Wu:我经常对自己说的一句话是——永远不要自怜。无论是在工作还是生活中,总会发生各种事情。提醒自己不要沉溺于自怜,而是意识到自己始终拥有行动能力,能够把自己拉起来,这对我很重要。我也经常对别人这么说。
主持人:太好了。再次感谢你。
Sherwin Wu:谢谢你,Lenny。谢谢大家。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21999
