GPT-5被比作o3.1？OpenAI首次深度解析“思考型AI”：强化学习与预训练双轨并行，才是实现AGI的关键路径

在OpenAI研究副总裁Jerry Tworek看来，与其说GPT-5是GPT-4的延续，不如说它更接近o3模型的升级版——某种程度上，可以称之为“o3.1”。

作为o1模型的核心构建者之一，Jerry在首次深度播客访谈中透露，OpenAI正致力于再造一个“o3级突破”：打造一个能力更强、思考时间更长、能够自主与多系统交互的下一代模型。

在这场信息量密集的一小时对话中，Jerry系统回顾了从o1到GPT-5的技术演进，拆解了OpenAI的模型推理机制、内部组织架构，以及强化学习在技术路线中的核心地位。他还分享了自己加入OpenAI的经历，并对通用人工智能（AGI）的实现路径提出判断。

“如果让十年前的人看到今天的ChatGPT，他们或许会认为那就是AGI。”

此外，Jerry特别提到DeepSeek团队提出的GRPO算法对强化学习领域的推动，认为它促进了美国相关研究的进展。

有意思的是，当Jerry提到自己也是ChatGPT重度用户，每月为此支付约200美元时，网友们纷纷调侃：原来OpenAI员工也要自费使用自家产品。

这场访谈信息浓度极高，Jerry本人也在社交媒体上推荐：“如果你想深入理解强化学习，这期播客值得一听。”

▍GPT-5是如何“思考”的？

播客主持人Matt Turk提出了许多人的共同疑问：当我们与ChatGPT对话时，它到底在“想”什么？

Jerry指出，模型的推理过程类似于人类的思考，本质上是在探索未知答案，可能涉及运算、信息检索或自我学习。

推理过程具体表现为“思维链”。自o1模型发布以来，这一概念逐渐进入公众视野。它指的是将模型的内部思维以人类可读的语言表达出来。其逻辑是：语言模型在大量人类知识上训练，学会类人思考，再通过思维链“转译”给人类。

早期要激发模型的思维链，通常需在提示词中加入“让我们一步步思考”。如果直接提问，模型可能推理失败；而引导其分步推进，它便能生成思维链，最终得出答案。

一般来说，模型在推理上耗时越长，效果越好。但OpenAI从用户反馈中发现，大多数用户不愿长时间等待回复——这也影响了他们在模型设计上的取舍。

如今，OpenAI同时向用户提供高推理耗时与低推理耗时的模型，把选择权交还用户，并在内部尝试通过启发式方法寻找最佳平衡点。

OpenAI的推理模型探索始于o1，这也是他们发布的首个正式推理模型。不过Jerry坦言，o1更擅长解谜题，与其说是成熟产品，不如视作一次技术演示。

直到o3模型问世，局面才真正改变。o3代表了AI发展的一次结构性转变：它真正实用，能熟练使用工具与多源上下文信息，并在求解过程中表现出持续探索的韧性。

Jerry表示，自己正是从o3开始完全信任推理模型。因此从某种角度看，GPT-5可被视为o3的迭代版——o3.1，延续了相似的思考流程。

未来，OpenAI将继续寻求下一次重大突破，目标是打造能力更强、思考质量更高、也更自主的推理模型。

▍加入OpenAI，是“命中注定”的转折

作为OpenAI推理模型的关键人物，Jerry的入行经历却充满“天才的偶然”。

他将这个过程比作水晶的形成：自幼具备科研兴趣，在成长中逐渐清晰，直到OpenAI出现，“叮”的一声，时机成熟。

Jerry在波兰长大，从小在数学和科学上展露天赋。用他的话说，“这些学科仿佛天生就适合我。”18岁时他立志成为数学家，进入华沙大学攻读数学，渴望追求真理。但后来因不满学术界的刻板体制，他放弃了这条路径。

为维持生计，他转而运用数学能力成为交易员，曾在摩根大通股票衍生品部门实习，之后还创办过对冲基金。几年后，他对交易工作再次感到厌倦，陷入职业迷茫。

直到DeepMind推出DQN智能体，打破僵局。他被其中的强化学习技术吸引——此前他认为传统分类器并不智能，而DQN展现出学习复杂行为的能力。

2019年，他加入OpenAI，最初参与机器人项目，专注于灵巧操作。那正是OpenAI知名的“用机器人解魔方”项目，是强化学习与实体交互结合的典范。

之后，他领导了o1项目，推动OpenAI模型能力不断进步。目前，他的主要工作是与其他研究员交流，共同完善研究计划。

据Jerry介绍，OpenAI内部结构独特，结合了“自上而下”与“自下而上”的管理方式。公司整体聚焦三四个核心项目，集中资源重点投入，而研究员在项目内享有较高的自主权。

整个研究团队约600人，每位成员都能获取项目的全部信息。OpenAI认为，让研究员因信息不全而无法做出最佳成果的风险，远大于知识产权泄露。

OpenAI之所以能快速迭代产品，一年内从o1推进到GPT-5，得益于良好的运营结构、强劲的发展势头，以及顶尖人才的高效协作。他们都深信所做之事的价值：“AI在人类历史上只会被构建和部署一次。”

员工也大量使用内部工具，Jerry本人就是ChatGPT深度用户，每月自愿付费使用；CodeX等工具也广泛用于内部编程。

▍强化学习，OpenAI的关键引擎

对Jerry而言，强化学习是引领他进入OpenAI的钥匙；而对OpenAI整体而言，RL更是多次推动技术转折的核心。

今天的语言模型，可视为预训练与强化学习的结合：先进行预训练，再在其基础上做强化学习。两者相辅相成，这也是OpenAI自2019年以来的研究主线。

要理解RL在OpenAI的地位，首先得明白什么是RL。

Jerry比喻，RL类似于训狗：当狗行为正确，给予奖励（零食或微笑）；行为错误，则施加惩罚（转移注意力或不悦表情）。RL在模型中起类似作用——对正确行为给予正向奖励，错误行为给予负向奖励。其核心在于策略与环境：

策略：指模型的行为，是将观察映射到行动的数学函数。
环境：即模型感知到的一切，必须是可交互的。环境会随模型行为而变化，例如学吉他时，拨弦会得到声音反馈。RL是教会模型响应环境变化的唯一路径。

DeepMind的DQN将RL推向新阶段——Deep RL，将神经网络与强化学习结合，催生真正有意义的智能体。

Jerry还分享了GPT-4训练完成时的一个插曲：初期团队对其表现并不满意，因为它在生成长回答时缺乏连贯性。后来通过RLHF（基于人类反馈的强化学习）解决了这一问题——人类对模型输出进行评价，并以此作为奖励信号。

正是RLHF的介入，才有了后来的“ChatGPT时刻”。

最近OpenAI在编程竞赛中的亮眼表现，Jerry归因于团队长期将编程谜题作为测试平台，用以验证RL思路。无意之间，RL的研究也为OpenAI赢得了阶段性荣誉。

只要能够评估结果并计算反馈信号，RL就可应用于任何领域——即使答案不限于简单对错。

但目前，规模化应用RL仍面临挑战。RL在实际运行中容易出现多种问题，相比预训练，存在更多瓶颈与故障模式。这是一个高度精细的过程：如果说预训练是炼钢，那么RL就像是制造半导体。

Jerry还特别肯定了DeepSeek团队提出的GRPO算法，指出这一开源成果让许多缺乏高级RL研究资源的美国实验室能更快启动并训练推理模型。

▍RL + 预训练：通往AGI的必经之路

关于AI的未来，Jerry在访谈结尾分享了自己的观点。

首先是AI智能体（Agent）。他认为AI带来的最大积极影响，是通过自动化解决人类问题。当前模型回答问题的速度很快，仅需几分钟；而内部测试显示，在某些任务上，模型其实可独立思考30分钟、1小时甚至更久。因此当前的挑战，是如何设计出能支持长时间思考的产品。

由基础推理驱动的智能体，将允许模型进行更长时间的独立思考，解决更复杂的任务，如编程、旅行规划、设计等。因此，AI向智能体化发展是大势所趋。

模型对齐（Alignment）也是公众关注焦点。Jerry指出，对齐问题本质是RL问题——只有让模型深入理解其行为与后果，才能做出符合人类价值观的选择。对齐将是持续的过程，因为“对齐”标准会随人类文明演进不断变化。

若要迈向AGI，当前的预训练与RL缺一不可，未来还需融入更多技术元素。Jerry明确反对“纯RL是通往AGI唯一道路”的观点，他强调：

“RL需要预训练才能成功，预训练也需要RL才能成功——二者必须协同。”

尽管AGI何时实现仍难预测——即模型能在无需大量外部输出和人为干预的情况下自我改进的时刻——但他相信，OpenAI正走在正确的道路上。未来的突破，将是引入新的复杂组件，而非全盘推翻现有架构。

信息来源：
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/4323

GPT-5被比作o3.1？OpenAI首次深度解析“思考型AI”：强化学习与预训练双轨并行，才是实现AGI的关键路径

相关推荐

谷歌Earth AI：地理空间智能的范式革命，开启地球级可计算时代

AI智能体经济新纪元：ClawTasks平台开启自主交易与雇佣革命

ICLR 2026 学术诚信危机：AI 幻觉引用如何挑战同行评审体系

大语言模型驱动的勒索软件3.0：AI如何重塑网络攻击范式

从12次拒签到AI框架革命：Soumith Chintala与PyTorch的逆袭之路

发表回复