OpenAI总裁Greg Brockman专访:战略聚焦、Super App与新模型“Spud”
OpenAI联合创始人兼总裁Greg Brockman近期在一档播客节目中,详细阐述了公司近期的战略调整、未来产品规划以及对行业竞争的看法。以下为对话实录精校。
对话实录精校
为何调整Sora的发展方向?
主持人:外界观察到OpenAI似乎放缓了Sora视频模型的推进,转而聚焦于所谓的“Super App”。这一战略转变的原因是什么?
Greg Brockman:过去我们一直并行推进两条主线:一是深度学习技术的研发,以验证其能否产生预期的积极影响;二是尝试部署技术,通过实际业务获取真实世界的反馈和经验。
目前,我们的技术已经过了单纯的基准测试和演示阶段,被证明是可行的。现在必须进入真实世界,通过人们的实际使用来获得反馈,才能继续向前推进。因此,这是一个更大的战略调整。并非我们要从消费端转向企业端,而是我们无法同时推进所有项目。我们需要聚焦于那些能形成协同效应、真正产生广泛影响、并能帮助每个人的应用。

主持人:你曾将OpenAI比作迪士尼,以核心模型(如米老鼠)衍生出视频、助理、企业服务等多元产品。现在是无法兼顾这个模式了吗?
Greg Brockman:这个比喻在很大程度上仍然适用。但从技术实现角度看,Sora视频模型与GPT系列核心推理模型是技术树上不同的分支。
我们仍在继续Sora的研究,但将其置于机器人领域内推进——该领域目前仍处于研究阶段,尚未成熟到能在未来一年内于知识工作领域大规模落地。因此,我们当前的战略是:将主要精力集中在GPT系列上。这包括文本、语音等多种交互形式,它们都是在同一核心模型上进行微调,而非另起炉灶。在算力资源有限的情况下,同时推进两个差异巨大的产品分支是非常困难的。

主持人:为何不继续押注Sora?视频生成领域近期取得了显著进展。
Greg Brockman:当前最大的挑战是机会太多。我们在OpenAI很早就发现,只要逻辑在数学上成立,几乎所有想法都能奏效,这是深度学习的魅力所在。
但关键在于优先级排序和时机把握。我们已经确信,基于文本的模型是通向AGI(通用人工智能)的可行路径——AGI已近在眼前,今年我们还将推出更强大的模型。
例如,最近一位物理学家研究许久的难题,我们的模型在12小时内就给出了解决方案。这种“思考”能力促使我们必须加倍投入。这并非否定其他方向的价值,而是OpenAI的使命是将AGI带给世界,我们需要将选定的技术路径推进到底。
主持人:DeepMind的Demis Hassabis曾表示,图像生成器最接近他心目中的AGI,因为它们必须理解物体间的互动。OpenAI只押注一条路径,是否会错过其他可能性?
Greg Brockman:在这个领域,你必须做出选择。OpenAI从一开始就确定了我们相信的AGI路径。此外,图像生成也是ChatGPT的一项重要功能,但我们是通过GPT架构而非扩散模型来实现的。
因此,我们要做的是尽可能统一技术栈,这样才能支撑起整个生态系统——OpenAI的目标是打造“通用”人工智能,其中的“G”正代表了这层含义。

Super App将如何构建?
主持人:那么,这个Super App具体会是什么样子?
Greg Brockman:它将整合编程、浏览器和ChatGPT的核心能力。我们的目标是构建一个能让用户亲身体验AGI力量的终端应用。它不仅仅是一个工具,更是你的“个人助理”——了解你、与你的目标一致、值得信赖。
过去,Codex主要是软件工程师的工具;未来,它将变成每个人的工具。你只需告诉电脑你想做什么,电脑会顺应人类,而不是反过来。
主持人:这是否意味着它既服务于商业场景,也适用于个人生活?
Greg Brockman:没错,就像你的笔记本电脑既用于工作也用于生活。未来的Super App将具备记忆功能,能够连接你的邮件、日历,了解你的偏好,从而更深入地帮助你达成目标。
主持人:预计何时推出?
Greg Brockman:我们将在未来几个月内分步推进。起点将是Codex应用——它既是一个通用的智能体框架,能够调用各种工具,又擅长编写软件。这个通用框架可以接入电子表格、Word文档等,协助完成知识工作。在OpenAI内部,我们已经看到许多员工自发地用它来处理这类事务。第一步是让Codex对普通知识工作者更加友好,后续还有许多步骤。

如何看待与Anthropic等竞争对手的较量?
主持人:像Anthropic已经推出了Claude Code等类似Super App的功能。OpenAI是否感到已经迎头赶上?
Greg Brockman:回顾12到18个月前,OpenAI一直高度重视编程方向,并在各类编程竞赛中表现优异。但当时我们并未充分投入“最后一公里”的易用性改进——AI虽然能解决竞赛题,却未接触过真实世界中杂乱无章、不那么规整的代码库。
直到去年年中,我们才开始认真补足这一块,专门组建团队,聚焦真实世界的各种问题,构建训练环境,让AI体验实际软件工程中会遇到的复杂与混乱。
目前,在与竞争对手的直接较量中,用户往往更倾向于选择我们。OpenAI正在加速前进,这个问题将会得到解决。
主持人:你们如何看待当前的竞争态势?随着对手追赶上来,公司内部氛围是否发生了变化?
Greg Brockman:我在OpenAI最感到担忧的时刻,其实是ChatGPT发布后的那次公司年会,当时有些人觉得“我们赢了”。我当时想的是:“不,我们始终是挑战者(Underdog)。”现在的竞争环境实际上非常健康,它让我们保持谦逊和专注,不再有“支线任务”,而是全神贯注于核心目标。
我从不认为我们像外界有时描述的那么好,也从不觉得有那么差,状态始终平稳。在模型研发方面,我对我们的路线图充满信心;在产品方面,我们也能量十足,一切都在朝着好的方向汇聚。

关于新模型“Spud”
主持人:传闻中的新模型“Spud”究竟是什么?
Greg Brockman:重点并不在于某一个特定的模型。“Spud”代表了OpenAI过去两年的研究成果,是一个全新的预训练模型。但它只是一个发展节点,模型引擎的进步速度将会越来越快。
主持人:它能完成哪些现有模型难以胜任的任务?
Greg Brockman:它将能解决更复杂的问题,具备更强的理解力,并对上下文有更好的把握。
人们常提到“大模型感”——当模型变得更聪明时,你会感觉它更懂你。你提出一个问题,AI若未能理解,会令人沮丧。新模型将减少这种需要你重复解释的情况。它既能提升能力上限——解决更开放、时间跨度更长的问题,也能改善基础体验——让你处理任何事务都更加得心应手。
主持人:普通用户能明显感受到这种变化吗?
Greg Brockman:情况可能会类似——有些用户会觉得体验天差地别,而有些应用本身并非受限于模型的智力,变化可能不那么明显。
但关键在于用户心智的逐渐转变。例如,有朋友被诊断为绝症,医生表示无能为力,他通过使用ChatGPT研究不同方案,最终找到了治疗途径。在这种场景下,你必须先相信AI能提供帮助,才会投入精力去使用它。随着技术变得更加强大,这种“能帮上忙”的感知会变得越来越明显。

即将在秋季推出的“AI研究员”
(对话持续进行中……)
主持人:你们内部还在开发一个自动化AI研究员,计划秋季推出。它具体能做什么?
Greg:我们正处于技术加速阶段——AI越强大,我们就越能用AI来改进AI,从而不断加快开发速度。与此同时,芯片厂商在持续投入,整个生态也在探索各种应用。所有这些能量汇聚在一起,使得AI正从一个经济分支转变为主要的驱动力。
这个自动化研究员,本质上是在硅片上实现研究科学家的整个工作流程。它现在已经能够承担相当比例的科研任务,我们可以让它自主运行,但这并不意味着完全撒手不管——就像指导一位初级研究员,你需要为他指明方向、审阅他产出的结果,而不是彻底放养。
主持人:从渐进式进步到势不可挡地超越人类智能,你不担心AI会出问题吗?
Greg:当然担心。在获取技术收益的同时,必须认真考虑风险。在技术层面,我们在安全上投入了大量精力,例如防范提示词注入攻击——一个非常聪明且连接了许多工具的AI,绝不能被人利用恶意指令操控。我们在这方面有优秀的团队,也取得了不错的进展。
有些问题其实可以类比人类——人类同样容易被钓鱼、被欺骗、看不清全局。我们在研发和发布模型时,都会借助这些类比来思考如何确保对齐(Alignment)。当然,还有更大的问题涉及整个经济和社会,这不是OpenAI一家公司能够解决的。
主持人:你曾说过,创造需要很多人做对很多事,但破坏只需一个人心存恶意。你认为潜在的回报真的值得冒这些风险吗?
Greg:我认为值得,但这个回答本身过于简单了。从OpenAI创立之初,我们就在思考:一个好的未来应该是什么样子?
一条路径是高度集中化,即只有一家机构在开发,这样压力较小,可以在确保安全后再推向所有人。但这种方式本身很难让人接受。
另一种是构建一个“有韧性的开放系统”,让众多参与者共同开发,同时围绕技术建立相应的社会基础设施——就像电力一样,虽然由很多人生产且存在危险,但我们建立了安全标准、监管体系和检查机制。
对于AI,我们也需要广泛的对话,让所有人都能参与进来,而不是由某个中心化的小组秘密完成。这是我们一直坚信的方向。

主持人:黄仁勋(NVIDIA CEO)说AGI(通用人工智能)已经实现了,你同意吗?
Greg:不同的人对AGI有不同的定义。如果以我个人的定义来看,我会说我们已经完成了70%到80%。极其明确的是,在未来几年内,我们将拥有AGI。届时,它将能够完成你在电脑上进行的几乎任何智力任务。
Agent带来的变革
主持人:去年12月似乎是一个转折点,让机器连续编码数小时从理论变成了现实。当时发生了什么?
Greg:在新模型发布后,AI的能力从能完成大约20%的任务,跃升到了80%。这是一个巨大的变化——从“有点意思”变成了“你必须围绕AI重构你的工作流程”。
我自己有一个用了很多年的测试提示:“帮我建一个网站”。这个网站在我当年学编程时花了几个月才做出来。后来使用AI,前后用了四个小时,反复调整提示。到了去年12月,只需一次提问,它就直接生成了,而且做得非常好。
主持人:模型是如何实现这种能力跨越的?
Greg:基础模型本身变得更加强大了。这是我们长期投入预训练的结果,而这仅仅是今年一系列进展的前奏。
但这也不仅仅是单点突破,我们在每个维度上都在推进。它并非从0%直接跳到80%,而是从20%提升到了80%。而且这种进步仍在继续。例如,从某个模型的5.2版本到5.3版本,一位从事底层系统工程的同事发现,以前AI根本无法处理他的工作,现在不仅能给出设计方案,还能直接实现、添加指标、进行性能分析并持续优化,最终产出完全符合他的要求。
可以说是“一点一点地积累,然后一下子突破”。
主持人:OpenAI后来将OpenClaw的创始人(Peter)请来了。这是否意味着“让AI替你管理生活”就是你们的愿景?
Greg:这项技术最核心的难点,其实是搞清楚它如何才能真正帮到人、人们想怎么使用它,以及智能体(Agent)的未来形态究竟是什么。
据我观察,在这个领域,真正投入其中、充满好奇心且有远见的人,是非常稀缺且宝贵的。Peter就是这样的人。
所以,与其说我们看重某个具体技术,不如说是看重他如何将这些能力真正融入人们的生活。作为一名技术人员,我觉得这非常激动人心。而从服务用户的角度,我们也正在全力投入这件事。

主持人:你曾说过,使用AI Agent就像成为“管理数十万Agent的CEO”。这会不会让人失去对问题的实际掌控?
Greg:我认为有利有弊。你可以将机械性的细节交给Agent,就像房主信任施工队一样,但你不能放弃自己的责任。你必须主动保持对其优势和弱点的把握,只有在信任某个系统能妥善处理的前提下,才能放心地将那些低层次任务交付出去。
主持人:你们经历了预训练、微调、强化学习,让模型一步步学会解决问题、使用工具。接下来是什么?
Greg:接下来是能力的不断深化,例如让AI真正能够操作电脑,完成任何你能做的事情。但同时,我们还需要建设企业级的身份认证、审计、可观测性等配套技术。
除此之外,我们还在大力推动语音交互,目标是让对话像现在这样自然。想象一下,你一早醒来,它就能向你汇报Agent昨晚的工作进展。我认为这会是一个巨大的应用场景。比如它会告诉你:“有个客户不太满意,希望和真人沟通,你需要去处理一下。”这些都将实现。
看得更远一点,是提升人类解决挑战的“天花板”。我们已经能看到端倪。就像AlphaGo的“第37手”,那是人类从未想过的下法,改变了整个围棋的认知。类似的突破将在各个领域发生,它们将极大地拓展我们对创造力和想法的理解,远超我们目前的想象。
主持人:既然模型已经如此强大,为什么这些突破还没有大规模发生?
Greg:因为我们仍处于理解这些模型能力的阶段。即使技术不再进步,现有的能力也足以引发巨大的经济转型。以前我们主要在那些有明确答案的任务(如数学、编程)上训练模型,现在我们正将训练扩展到开放式问题(如创意写作)。
还需要预训练吗?
主持人:随着OpenAI转向Agent型应用,有人开始讨论,是否不再需要那么大规模的预训练了?模型足够好后,让它自己去学习就行,不一定非要建设那些超大规模的数据中心。你负责这方面的战略,怎么看?
Greg:这种看法忽略了一个关键点:模型生产流程的每一步都是相乘效应的。更强的预训练会让后续的所有步骤都变得更轻松。模型的初始能力越强,它学习得就越快,在试错过程中犯的错误也越少。
以前我们主要关注预训练,没有太多考虑推理能力。但过去两年我们意识到,这两者需要平衡。你既可以把基础模型做得很强大,同时也必须让它能够高效地进行推理,以便用于强化学习和对外提供服务。
所以,目标不一定是无限扩大规模,而是要找到“智能×成本”的最优解。

主持人:如果未来主要依赖推理,还需要NVIDIA的GPU吗?
Greg:绝对需要。一方面,无论训练和推理的比例如何变化,大规模训练仍然需要集中大量的计算能力。另一方面,NVIDIA的团队非常出色,我们与他们进行着深度合作。
主持人:会不会有一天,大家觉得“模型已经足够聪明了,不需要再进行预训练了”?
Greg:那恐怕要等到人类解决了所有问题才行。实际上,过去五十年我们降低了很多雄心。例如,“让每个人都能享受医疗”——这不仅仅是治疗疾病,还包括预防和提前发现潜在问题。这完全可以通过更智能的模型来实现。
也许到某个程度,你会说“模型不需要再变得更聪明一倍了”,但总会有新的问题提出更高的要求。
为什么重金押注算力?
主持人:今年你们筹集了巨额资金(注:原文提及1100亿美元,此处按上下文处理),这些钱是直接投入到数据中心吗?这笔投资将如何回馈投资者?
Greg:算力不是成本中心,而是收入中心。这就像招聘销售人员,只要他们能卖出产品,雇佣的人越多,收益就越大。我们发现,算力的增长永远赶不上需求。

主持人:对于这种前所未有的投入,你很有信心吗?
Greg:历史已经证明了这一点。从ChatGPT发布开始,每当我的团队问我需要购买多少算力时,我的回答始终是“全部”。我们必须预测未来。目前的收入主要来自个人订阅,但面向知识工作的企业市场正展现出惊人的支付意愿。
主持人:现在消费者订阅是OpenAI最大的收入来源,未来企业业务会反超吗?
Greg:我认为“企业”这个概念本身也在演变。关键在于人们使用AI进行“知识工作”。例如,现在ChatGPT的消费者订阅用户也可以使用Codex等功能,所以界限不会那么清晰。未来,AI就像你的笔记本电脑一样,是你接入数字世界的入口,收入自然也会随之而来。
主持人:Anthropic CEO曾表示,有些玩家“过于冒进”,把杠杆拉得太满。他很可能在影射你们的基建投入,你对此怎么看?
Greg:我不同意这种说法。我们一直采取审慎的态度,并持续对技术趋势进行前瞻性判断。今年,所有行业参与者都将面临算力紧缺的局面,而我们是最早预判到这一点并提前布局的。其他玩家大约在去年底才反应过来,匆忙寻求算力,但那时可用的资源已经非常有限了。
主持人:有人认为,如果预测出现偏差,公司可能面临破产风险。你们也处于同样的境地吗?
Greg:我认为我们有更多的缓冲空间。担忧下行风险是合理的,但我们的投入并非押注于单一公司,而是基于对整个行业的信念——你是否相信这项技术能创造我们所见的巨大价值。
软件工程领域的变化已经非常明显。如果你不是工程师,没有亲身体验过Codex,确实很难描述那种差异。六个月前,我们内部已经观察到这些趋势,尽管外部证据尚不充分,但现在证据已经摆在眼前。
再过六个月,所有人都将切身感受到这一点,然后大家会发现,即便拥有强大的模型,也会面临无算力可用的困境。

主持人:AI在公众中的形象似乎并不完全正面,许多人担忧失业问题。你担心AI的品牌形象吗?
Greg:我们需要向公众展示AI如何改善生活。例如,有人借助ChatGPT协助诊断出了此前被误诊的儿童脑瘤,类似的故事被讲述得太少了。
关于数据中心,许多人担心其对环境和电费的影响。这里存在不少误解,比如水资源消耗其实非常低。我们承诺会支付自身的能源成本,避免推高居民电价。甚至在部分地区(如北达科他州),数据中心的建设反而帮助升级了老旧的电网,从而降低了居民的电费。
如何为AGI时代做准备?
主持人:如果现在有一个对AI感到恐惧的人,他可能认为AI会夺走他的工作、污染他的社区、让世界变化得太快。你想对他说什么?
Greg:第一件事就是亲自去尝试这些工具。只有真正体验过当前的AI,你才能理解它能为你做什么。人们往往更容易看到“可能失去什么”,而不是“可能得到什么”。我认为值得给它一个公平的机会,去全面理解天平的两端。
主持人:个人应如何为未来做准备?
Greg:最重要的仍是理解这项技术。我们观察到,最能从AI中受益的人,都是那些带着好奇心去尝试、并将其真正融入工作流程的人。
他们度过了“面对空白输入框不知如何下手”的初始阶段,培养出一种“我可以担任管理者”的思维——设定方向、分配任务、进行监督。
这项技术是为人类设计的,最终目的是帮助人类建立更多连接,让人有更多时间从事自己真正想做的事。关键在于想清楚——你究竟想要什么?然后借助这项技术去实现它。
全文完。
参考链接:
[1] https://www.youtube.com/watch?v=J6vYvk7R190
[2] https://x.com/chatgpt21/status/2039447583936901340
[3] https://x.com/AndrewCurran_/status/2039426704394035245

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28586


