在OpenAI研究副总裁Jerry Tworek看来,与其说GPT-5是GPT-4的延续,不如说它更接近o3模型的升级版——某种程度上,可以称之为“o3.1”。

作为o1模型的核心构建者之一,Jerry在首次深度播客访谈中透露,OpenAI正致力于再造一个“o3级突破”:打造一个能力更强、思考时间更长、能够自主与多系统交互的下一代模型。
在这场信息量密集的一小时对话中,Jerry系统回顾了从o1到GPT-5的技术演进,拆解了OpenAI的模型推理机制、内部组织架构,以及强化学习在技术路线中的核心地位。他还分享了自己加入OpenAI的经历,并对通用人工智能(AGI)的实现路径提出判断。
“如果让十年前的人看到今天的ChatGPT,他们或许会认为那就是AGI。”
此外,Jerry特别提到DeepSeek团队提出的GRPO算法对强化学习领域的推动,认为它促进了美国相关研究的进展。

有意思的是,当Jerry提到自己也是ChatGPT重度用户,每月为此支付约200美元时,网友们纷纷调侃:原来OpenAI员工也要自费使用自家产品。

这场访谈信息浓度极高,Jerry本人也在社交媒体上推荐:“如果你想深入理解强化学习,这期播客值得一听。”

▍GPT-5是如何“思考”的?
播客主持人Matt Turk提出了许多人的共同疑问:当我们与ChatGPT对话时,它到底在“想”什么?
Jerry指出,模型的推理过程类似于人类的思考,本质上是在探索未知答案,可能涉及运算、信息检索或自我学习。

推理过程具体表现为“思维链”。自o1模型发布以来,这一概念逐渐进入公众视野。它指的是将模型的内部思维以人类可读的语言表达出来。其逻辑是:语言模型在大量人类知识上训练,学会类人思考,再通过思维链“转译”给人类。
早期要激发模型的思维链,通常需在提示词中加入“让我们一步步思考”。如果直接提问,模型可能推理失败;而引导其分步推进,它便能生成思维链,最终得出答案。
一般来说,模型在推理上耗时越长,效果越好。但OpenAI从用户反馈中发现,大多数用户不愿长时间等待回复——这也影响了他们在模型设计上的取舍。
如今,OpenAI同时向用户提供高推理耗时与低推理耗时的模型,把选择权交还用户,并在内部尝试通过启发式方法寻找最佳平衡点。
OpenAI的推理模型探索始于o1,这也是他们发布的首个正式推理模型。不过Jerry坦言,o1更擅长解谜题,与其说是成熟产品,不如视作一次技术演示。

直到o3模型问世,局面才真正改变。o3代表了AI发展的一次结构性转变:它真正实用,能熟练使用工具与多源上下文信息,并在求解过程中表现出持续探索的韧性。

Jerry表示,自己正是从o3开始完全信任推理模型。因此从某种角度看,GPT-5可被视为o3的迭代版——o3.1,延续了相似的思考流程。
未来,OpenAI将继续寻求下一次重大突破,目标是打造能力更强、思考质量更高、也更自主的推理模型。
▍加入OpenAI,是“命中注定”的转折
作为OpenAI推理模型的关键人物,Jerry的入行经历却充满“天才的偶然”。
他将这个过程比作水晶的形成:自幼具备科研兴趣,在成长中逐渐清晰,直到OpenAI出现,“叮”的一声,时机成熟。
Jerry在波兰长大,从小在数学和科学上展露天赋。用他的话说,“这些学科仿佛天生就适合我。”18岁时他立志成为数学家,进入华沙大学攻读数学,渴望追求真理。但后来因不满学术界的刻板体制,他放弃了这条路径。
为维持生计,他转而运用数学能力成为交易员,曾在摩根大通股票衍生品部门实习,之后还创办过对冲基金。几年后,他对交易工作再次感到厌倦,陷入职业迷茫。

直到DeepMind推出DQN智能体,打破僵局。他被其中的强化学习技术吸引——此前他认为传统分类器并不智能,而DQN展现出学习复杂行为的能力。
2019年,他加入OpenAI,最初参与机器人项目,专注于灵巧操作。那正是OpenAI知名的“用机器人解魔方”项目,是强化学习与实体交互结合的典范。
之后,他领导了o1项目,推动OpenAI模型能力不断进步。目前,他的主要工作是与其他研究员交流,共同完善研究计划。
据Jerry介绍,OpenAI内部结构独特,结合了“自上而下”与“自下而上”的管理方式。公司整体聚焦三四个核心项目,集中资源重点投入,而研究员在项目内享有较高的自主权。

整个研究团队约600人,每位成员都能获取项目的全部信息。OpenAI认为,让研究员因信息不全而无法做出最佳成果的风险,远大于知识产权泄露。
OpenAI之所以能快速迭代产品,一年内从o1推进到GPT-5,得益于良好的运营结构、强劲的发展势头,以及顶尖人才的高效协作。他们都深信所做之事的价值:“AI在人类历史上只会被构建和部署一次。”
员工也大量使用内部工具,Jerry本人就是ChatGPT深度用户,每月自愿付费使用;CodeX等工具也广泛用于内部编程。
▍强化学习,OpenAI的关键引擎
对Jerry而言,强化学习是引领他进入OpenAI的钥匙;而对OpenAI整体而言,RL更是多次推动技术转折的核心。
今天的语言模型,可视为预训练与强化学习的结合:先进行预训练,再在其基础上做强化学习。两者相辅相成,这也是OpenAI自2019年以来的研究主线。
要理解RL在OpenAI的地位,首先得明白什么是RL。
Jerry比喻,RL类似于训狗:当狗行为正确,给予奖励(零食或微笑);行为错误,则施加惩罚(转移注意力或不悦表情)。RL在模型中起类似作用——对正确行为给予正向奖励,错误行为给予负向奖励。其核心在于策略与环境:
- 策略:指模型的行为,是将观察映射到行动的数学函数。
- 环境:即模型感知到的一切,必须是可交互的。环境会随模型行为而变化,例如学吉他时,拨弦会得到声音反馈。RL是教会模型响应环境变化的唯一路径。
DeepMind的DQN将RL推向新阶段——Deep RL,将神经网络与强化学习结合,催生真正有意义的智能体。

Jerry还分享了GPT-4训练完成时的一个插曲:初期团队对其表现并不满意,因为它在生成长回答时缺乏连贯性。后来通过RLHF(基于人类反馈的强化学习)解决了这一问题——人类对模型输出进行评价,并以此作为奖励信号。
正是RLHF的介入,才有了后来的“ChatGPT时刻”。

最近OpenAI在编程竞赛中的亮眼表现,Jerry归因于团队长期将编程谜题作为测试平台,用以验证RL思路。无意之间,RL的研究也为OpenAI赢得了阶段性荣誉。
只要能够评估结果并计算反馈信号,RL就可应用于任何领域——即使答案不限于简单对错。
但目前,规模化应用RL仍面临挑战。RL在实际运行中容易出现多种问题,相比预训练,存在更多瓶颈与故障模式。这是一个高度精细的过程:如果说预训练是炼钢,那么RL就像是制造半导体。

Jerry还特别肯定了DeepSeek团队提出的GRPO算法,指出这一开源成果让许多缺乏高级RL研究资源的美国实验室能更快启动并训练推理模型。
▍RL + 预训练:通往AGI的必经之路
关于AI的未来,Jerry在访谈结尾分享了自己的观点。
首先是AI智能体(Agent)。他认为AI带来的最大积极影响,是通过自动化解决人类问题。当前模型回答问题的速度很快,仅需几分钟;而内部测试显示,在某些任务上,模型其实可独立思考30分钟、1小时甚至更久。因此当前的挑战,是如何设计出能支持长时间思考的产品。
由基础推理驱动的智能体,将允许模型进行更长时间的独立思考,解决更复杂的任务,如编程、旅行规划、设计等。因此,AI向智能体化发展是大势所趋。
模型对齐(Alignment)也是公众关注焦点。Jerry指出,对齐问题本质是RL问题——只有让模型深入理解其行为与后果,才能做出符合人类价值观的选择。对齐将是持续的过程,因为“对齐”标准会随人类文明演进不断变化。

若要迈向AGI,当前的预训练与RL缺一不可,未来还需融入更多技术元素。Jerry明确反对“纯RL是通往AGI唯一道路”的观点,他强调:
“RL需要预训练才能成功,预训练也需要RL才能成功——二者必须协同。”
尽管AGI何时实现仍难预测——即模型能在无需大量外部输出和人为干预的情况下自我改进的时刻——但他相信,OpenAI正走在正确的道路上。未来的突破,将是引入新的复杂组件,而非全盘推翻现有架构。
信息来源:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4323
