GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

OpenAI研究副总裁Jerry Tworek首次详解GPT-5,称其本质是o3模型的升级版(o3.1)。他指出,强化学习与预训练结合是AGI发展的核心路径,未来将打造更自主、思考时间更长的推理模型。Jerry还认可DeepSeek的GRPO算法推动美国RL研究,并透露OpenAI内部高度自主、信息透明,员工甚至自费使用ChatGPT。

在OpenAI研究副总裁Jerry Tworek看来,与其说GPT-5GPT-4的延续,不如说它更接近o3模型的升级版——某种程度上,可以称之为“o3.1”。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

作为o1模型的核心构建者之一,Jerry在首次深度播客访谈中透露,OpenAI正致力于再造一个“o3级突破”:打造一个能力更强、思考时间更长、能够自主与多系统交互的下一代模型。

在这场信息量密集的一小时对话中,Jerry系统回顾了从o1到GPT-5的技术演进,拆解了OpenAI的模型推理机制、内部组织架构,以及强化学习在技术路线中的核心地位。他还分享了自己加入OpenAI的经历,并对通用人工智能(AGI)的实现路径提出判断。

“如果让十年前的人看到今天的ChatGPT,他们或许会认为那就是AGI。”

此外,Jerry特别提到DeepSeek团队提出的GRPO算法对强化学习领域的推动,认为它促进了美国相关研究的进展。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

有意思的是,当Jerry提到自己也是ChatGPT重度用户,每月为此支付约200美元时,网友们纷纷调侃:原来OpenAI员工也要自费使用自家产品。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

这场访谈信息浓度极高,Jerry本人也在社交媒体上推荐:“如果你想深入理解强化学习,这期播客值得一听。”

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

▍GPT-5是如何“思考”的?

播客主持人Matt Turk提出了许多人的共同疑问:当我们与ChatGPT对话时,它到底在“想”什么?

Jerry指出,模型的推理过程类似于人类的思考,本质上是在探索未知答案,可能涉及运算、信息检索或自我学习。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

推理过程具体表现为“思维链”。自o1模型发布以来,这一概念逐渐进入公众视野。它指的是将模型的内部思维以人类可读的语言表达出来。其逻辑是:语言模型在大量人类知识上训练,学会类人思考,再通过思维链“转译”给人类。

早期要激发模型的思维链,通常需在提示词中加入“让我们一步步思考”。如果直接提问,模型可能推理失败;而引导其分步推进,它便能生成思维链,最终得出答案。

一般来说,模型在推理上耗时越长,效果越好。但OpenAI从用户反馈中发现,大多数用户不愿长时间等待回复——这也影响了他们在模型设计上的取舍。

如今,OpenAI同时向用户提供高推理耗时与低推理耗时的模型,把选择权交还用户,并在内部尝试通过启发式方法寻找最佳平衡点。

OpenAI的推理模型探索始于o1,这也是他们发布的首个正式推理模型。不过Jerry坦言,o1更擅长解谜题,与其说是成熟产品,不如视作一次技术演示。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

直到o3模型问世,局面才真正改变。o3代表了AI发展的一次结构性转变:它真正实用,能熟练使用工具与多源上下文信息,并在求解过程中表现出持续探索的韧性。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry表示,自己正是从o3开始完全信任推理模型。因此从某种角度看,GPT-5可被视为o3的迭代版——o3.1,延续了相似的思考流程。

未来,OpenAI将继续寻求下一次重大突破,目标是打造能力更强、思考质量更高、也更自主的推理模型。

▍加入OpenAI,是“命中注定”的转折

作为OpenAI推理模型的关键人物,Jerry的入行经历却充满“天才的偶然”。

他将这个过程比作水晶的形成:自幼具备科研兴趣,在成长中逐渐清晰,直到OpenAI出现,“叮”的一声,时机成熟。

Jerry在波兰长大,从小在数学和科学上展露天赋。用他的话说,“这些学科仿佛天生就适合我。”18岁时他立志成为数学家,进入华沙大学攻读数学,渴望追求真理。但后来因不满学术界的刻板体制,他放弃了这条路径。

为维持生计,他转而运用数学能力成为交易员,曾在摩根大通股票衍生品部门实习,之后还创办过对冲基金。几年后,他对交易工作再次感到厌倦,陷入职业迷茫。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

直到DeepMind推出DQN智能体,打破僵局。他被其中的强化学习技术吸引——此前他认为传统分类器并不智能,而DQN展现出学习复杂行为的能力。

2019年,他加入OpenAI,最初参与机器人项目,专注于灵巧操作。那正是OpenAI知名的“用机器人解魔方”项目,是强化学习与实体交互结合的典范。

之后,他领导了o1项目,推动OpenAI模型能力不断进步。目前,他的主要工作是与其他研究员交流,共同完善研究计划。

据Jerry介绍,OpenAI内部结构独特,结合了“自上而下”与“自下而上”的管理方式。公司整体聚焦三四个核心项目,集中资源重点投入,而研究员在项目内享有较高的自主权。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

整个研究团队约600人,每位成员都能获取项目的全部信息。OpenAI认为,让研究员因信息不全而无法做出最佳成果的风险,远大于知识产权泄露。

OpenAI之所以能快速迭代产品,一年内从o1推进到GPT-5,得益于良好的运营结构、强劲的发展势头,以及顶尖人才的高效协作。他们都深信所做之事的价值:“AI在人类历史上只会被构建和部署一次。”

员工也大量使用内部工具,Jerry本人就是ChatGPT深度用户,每月自愿付费使用;CodeX等工具也广泛用于内部编程。

▍强化学习,OpenAI的关键引擎

对Jerry而言,强化学习是引领他进入OpenAI的钥匙;而对OpenAI整体而言,RL更是多次推动技术转折的核心。

今天的语言模型,可视为预训练与强化学习的结合:先进行预训练,再在其基础上做强化学习。两者相辅相成,这也是OpenAI自2019年以来的研究主线。

要理解RL在OpenAI的地位,首先得明白什么是RL。

Jerry比喻,RL类似于训狗:当狗行为正确,给予奖励(零食或微笑);行为错误,则施加惩罚(转移注意力或不悦表情)。RL在模型中起类似作用——对正确行为给予正向奖励,错误行为给予负向奖励。其核心在于策略与环境:

  • 策略:指模型的行为,是将观察映射到行动的数学函数。
  • 环境:即模型感知到的一切,必须是可交互的。环境会随模型行为而变化,例如学吉他时,拨弦会得到声音反馈。RL是教会模型响应环境变化的唯一路径。

DeepMind的DQN将RL推向新阶段——Deep RL,将神经网络与强化学习结合,催生真正有意义的智能体。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry还分享了GPT-4训练完成时的一个插曲:初期团队对其表现并不满意,因为它在生成长回答时缺乏连贯性。后来通过RLHF(基于人类反馈的强化学习)解决了这一问题——人类对模型输出进行评价,并以此作为奖励信号。

正是RLHF的介入,才有了后来的“ChatGPT时刻”。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

最近OpenAI在编程竞赛中的亮眼表现,Jerry归因于团队长期将编程谜题作为测试平台,用以验证RL思路。无意之间,RL的研究也为OpenAI赢得了阶段性荣誉。

只要能够评估结果并计算反馈信号,RL就可应用于任何领域——即使答案不限于简单对错。

但目前,规模化应用RL仍面临挑战。RL在实际运行中容易出现多种问题,相比预训练,存在更多瓶颈与故障模式。这是一个高度精细的过程:如果说预训练是炼钢,那么RL就像是制造半导体。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry还特别肯定了DeepSeek团队提出的GRPO算法,指出这一开源成果让许多缺乏高级RL研究资源的美国实验室能更快启动并训练推理模型。

▍RL + 预训练:通往AGI的必经之路

关于AI的未来,Jerry在访谈结尾分享了自己的观点。

首先是AI智能体(Agent)。他认为AI带来的最大积极影响,是通过自动化解决人类问题。当前模型回答问题的速度很快,仅需几分钟;而内部测试显示,在某些任务上,模型其实可独立思考30分钟、1小时甚至更久。因此当前的挑战,是如何设计出能支持长时间思考的产品。

由基础推理驱动的智能体,将允许模型进行更长时间的独立思考,解决更复杂的任务,如编程、旅行规划、设计等。因此,AI向智能体化发展是大势所趋。

模型对齐(Alignment)也是公众关注焦点。Jerry指出,对齐问题本质是RL问题——只有让模型深入理解其行为与后果,才能做出符合人类价值观的选择。对齐将是持续的过程,因为“对齐”标准会随人类文明演进不断变化。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

若要迈向AGI,当前的预训练与RL缺一不可,未来还需融入更多技术元素。Jerry明确反对“纯RL是通往AGI唯一道路”的观点,他强调:

“RL需要预训练才能成功,预训练也需要RL才能成功——二者必须协同。”

尽管AGI何时实现仍难预测——即模型能在无需大量外部输出和人为干预的情况下自我改进的时刻——但他相信,OpenAI正走在正确的道路上。未来的突破,将是引入新的复杂组件,而非全盘推翻现有架构。

信息来源:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4323

(0)
上一篇 2025年10月23日 下午12:14
下一篇 2025年10月24日 下午7:04

相关推荐

  • 谷歌Veo 3.1震撼发布,全面迎战Sora 2:AI视频的“专业级”战争正式打响

    2025年10月16日,谷歌发布AI视频生成模型Veo 3.1,正面迎战OpenAI的Sora 2。新版本主打电影级画质、原生音频同步、精准对象编辑与首尾帧插值,支持最长148秒视频生成,全面接入Flow、Gemini API与Vertex AI平台。与Sora 2的“生活化、社交化”路线不同,Veo 3.1定位专业创作与商业应用,标志着AI视频生成进入可控、可编辑、可商用的工业化阶段。

    2025年10月16日
    20701
  • Cursor 2.0 正式发布:自研模型 Composer 与多智能体协作界面同步上线

    Cursor 2.0 正式发布,推出自研编码模型 Composer 及多智能体并行协作界面。Composer 在编码智能上达到前沿水平,生成速度达每秒 250 个 token,为同类模型的四倍,支持低延迟交互式编程。新版本界面以智能体为中心,支持多任务并行处理,并优化了代码评审与测试流程。此次更新标志着 Cursor 从依赖第三方模型的“AI 外壳”转型为“AI 原生平台”。

    3天前
    6010
  • ChatGPT千亿tokens,干掉麦肯锡5000名顾问

    魔幻啊魔幻。 全球顶级咨询公司麦肯锡,居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。 麦肯锡自己还怪自豪的,第一时间就把奖牌po到了领英上。 等等,好像哪里不对……但凡过遍脑子,都能察觉出“这份荣耀”有点不对味—— 你花百万美金买PPT的麦肯锡,竟然是ChatGPT的大客户?! 这大概也意味着,很多机构花了数百万美元购买的战略咨询PPT,其实…

    2025年10月22日
    4100
  • 开源模型TOP5,被中国厂商包圆了

    10月,公开数据显示,来自中国的开源大模型已经牢牢占据榜单前五。

    2025年10月15日
    7100
  • OpenAI推出首款ChatGPT浏览器,即刻免费体验!

    从今天起,使用ChatGPT有了OpenAI官方的浏览器选择。 这款名为ChatGPT Atlas(阿特拉斯,灵感来自古希腊神话中托举地球的神祇)的浏览器,是OpenAI首款AI原生的浏览器产品,现已正式上线。 它有哪些功能? 简言之,ChatGPT已有的核心能力正被全面整合进这款浏览器中,未来更多功能也将陆续融入。 这是OpenAI打造的全新入口,旨在让用…

    2025年10月22日
    6300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注