GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

OpenAI研究副总裁Jerry Tworek首次详解GPT-5,称其本质是o3模型的升级版(o3.1)。他指出,强化学习与预训练结合是AGI发展的核心路径,未来将打造更自主、思考时间更长的推理模型。Jerry还认可DeepSeek的GRPO算法推动美国RL研究,并透露OpenAI内部高度自主、信息透明,员工甚至自费使用ChatGPT。

在OpenAI研究副总裁Jerry Tworek看来,与其说GPT-5GPT-4的延续,不如说它更接近o3模型的升级版——某种程度上,可以称之为“o3.1”。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

作为o1模型的核心构建者之一,Jerry在首次深度播客访谈中透露,OpenAI正致力于再造一个“o3级突破”:打造一个能力更强、思考时间更长、能够自主与多系统交互的下一代模型。

在这场信息量密集的一小时对话中,Jerry系统回顾了从o1到GPT-5的技术演进,拆解了OpenAI的模型推理机制、内部组织架构,以及强化学习在技术路线中的核心地位。他还分享了自己加入OpenAI的经历,并对通用人工智能(AGI)的实现路径提出判断。

“如果让十年前的人看到今天的ChatGPT,他们或许会认为那就是AGI。”

此外,Jerry特别提到DeepSeek团队提出的GRPO算法对强化学习领域的推动,认为它促进了美国相关研究的进展。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

有意思的是,当Jerry提到自己也是ChatGPT重度用户,每月为此支付约200美元时,网友们纷纷调侃:原来OpenAI员工也要自费使用自家产品。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

这场访谈信息浓度极高,Jerry本人也在社交媒体上推荐:“如果你想深入理解强化学习,这期播客值得一听。”

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

▍GPT-5是如何“思考”的?

播客主持人Matt Turk提出了许多人的共同疑问:当我们与ChatGPT对话时,它到底在“想”什么?

Jerry指出,模型的推理过程类似于人类的思考,本质上是在探索未知答案,可能涉及运算、信息检索或自我学习。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

推理过程具体表现为“思维链”。自o1模型发布以来,这一概念逐渐进入公众视野。它指的是将模型的内部思维以人类可读的语言表达出来。其逻辑是:语言模型在大量人类知识上训练,学会类人思考,再通过思维链“转译”给人类。

早期要激发模型的思维链,通常需在提示词中加入“让我们一步步思考”。如果直接提问,模型可能推理失败;而引导其分步推进,它便能生成思维链,最终得出答案。

一般来说,模型在推理上耗时越长,效果越好。但OpenAI从用户反馈中发现,大多数用户不愿长时间等待回复——这也影响了他们在模型设计上的取舍。

如今,OpenAI同时向用户提供高推理耗时与低推理耗时的模型,把选择权交还用户,并在内部尝试通过启发式方法寻找最佳平衡点。

OpenAI的推理模型探索始于o1,这也是他们发布的首个正式推理模型。不过Jerry坦言,o1更擅长解谜题,与其说是成熟产品,不如视作一次技术演示。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

直到o3模型问世,局面才真正改变。o3代表了AI发展的一次结构性转变:它真正实用,能熟练使用工具与多源上下文信息,并在求解过程中表现出持续探索的韧性。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry表示,自己正是从o3开始完全信任推理模型。因此从某种角度看,GPT-5可被视为o3的迭代版——o3.1,延续了相似的思考流程。

未来,OpenAI将继续寻求下一次重大突破,目标是打造能力更强、思考质量更高、也更自主的推理模型。

▍加入OpenAI,是“命中注定”的转折

作为OpenAI推理模型的关键人物,Jerry的入行经历却充满“天才的偶然”。

他将这个过程比作水晶的形成:自幼具备科研兴趣,在成长中逐渐清晰,直到OpenAI出现,“叮”的一声,时机成熟。

Jerry在波兰长大,从小在数学和科学上展露天赋。用他的话说,“这些学科仿佛天生就适合我。”18岁时他立志成为数学家,进入华沙大学攻读数学,渴望追求真理。但后来因不满学术界的刻板体制,他放弃了这条路径。

为维持生计,他转而运用数学能力成为交易员,曾在摩根大通股票衍生品部门实习,之后还创办过对冲基金。几年后,他对交易工作再次感到厌倦,陷入职业迷茫。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

直到DeepMind推出DQN智能体,打破僵局。他被其中的强化学习技术吸引——此前他认为传统分类器并不智能,而DQN展现出学习复杂行为的能力。

2019年,他加入OpenAI,最初参与机器人项目,专注于灵巧操作。那正是OpenAI知名的“用机器人解魔方”项目,是强化学习与实体交互结合的典范。

之后,他领导了o1项目,推动OpenAI模型能力不断进步。目前,他的主要工作是与其他研究员交流,共同完善研究计划。

据Jerry介绍,OpenAI内部结构独特,结合了“自上而下”与“自下而上”的管理方式。公司整体聚焦三四个核心项目,集中资源重点投入,而研究员在项目内享有较高的自主权。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

整个研究团队约600人,每位成员都能获取项目的全部信息。OpenAI认为,让研究员因信息不全而无法做出最佳成果的风险,远大于知识产权泄露。

OpenAI之所以能快速迭代产品,一年内从o1推进到GPT-5,得益于良好的运营结构、强劲的发展势头,以及顶尖人才的高效协作。他们都深信所做之事的价值:“AI在人类历史上只会被构建和部署一次。”

员工也大量使用内部工具,Jerry本人就是ChatGPT深度用户,每月自愿付费使用;CodeX等工具也广泛用于内部编程。

▍强化学习,OpenAI的关键引擎

对Jerry而言,强化学习是引领他进入OpenAI的钥匙;而对OpenAI整体而言,RL更是多次推动技术转折的核心。

今天的语言模型,可视为预训练与强化学习的结合:先进行预训练,再在其基础上做强化学习。两者相辅相成,这也是OpenAI自2019年以来的研究主线。

要理解RL在OpenAI的地位,首先得明白什么是RL。

Jerry比喻,RL类似于训狗:当狗行为正确,给予奖励(零食或微笑);行为错误,则施加惩罚(转移注意力或不悦表情)。RL在模型中起类似作用——对正确行为给予正向奖励,错误行为给予负向奖励。其核心在于策略与环境:

  • 策略:指模型的行为,是将观察映射到行动的数学函数。
  • 环境:即模型感知到的一切,必须是可交互的。环境会随模型行为而变化,例如学吉他时,拨弦会得到声音反馈。RL是教会模型响应环境变化的唯一路径。

DeepMind的DQN将RL推向新阶段——Deep RL,将神经网络与强化学习结合,催生真正有意义的智能体。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry还分享了GPT-4训练完成时的一个插曲:初期团队对其表现并不满意,因为它在生成长回答时缺乏连贯性。后来通过RLHF(基于人类反馈的强化学习)解决了这一问题——人类对模型输出进行评价,并以此作为奖励信号。

正是RLHF的介入,才有了后来的“ChatGPT时刻”。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

最近OpenAI在编程竞赛中的亮眼表现,Jerry归因于团队长期将编程谜题作为测试平台,用以验证RL思路。无意之间,RL的研究也为OpenAI赢得了阶段性荣誉。

只要能够评估结果并计算反馈信号,RL就可应用于任何领域——即使答案不限于简单对错。

但目前,规模化应用RL仍面临挑战。RL在实际运行中容易出现多种问题,相比预训练,存在更多瓶颈与故障模式。这是一个高度精细的过程:如果说预训练是炼钢,那么RL就像是制造半导体。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry还特别肯定了DeepSeek团队提出的GRPO算法,指出这一开源成果让许多缺乏高级RL研究资源的美国实验室能更快启动并训练推理模型。

▍RL + 预训练:通往AGI的必经之路

关于AI的未来,Jerry在访谈结尾分享了自己的观点。

首先是AI智能体(Agent)。他认为AI带来的最大积极影响,是通过自动化解决人类问题。当前模型回答问题的速度很快,仅需几分钟;而内部测试显示,在某些任务上,模型其实可独立思考30分钟、1小时甚至更久。因此当前的挑战,是如何设计出能支持长时间思考的产品。

由基础推理驱动的智能体,将允许模型进行更长时间的独立思考,解决更复杂的任务,如编程、旅行规划、设计等。因此,AI向智能体化发展是大势所趋。

模型对齐(Alignment)也是公众关注焦点。Jerry指出,对齐问题本质是RL问题——只有让模型深入理解其行为与后果,才能做出符合人类价值观的选择。对齐将是持续的过程,因为“对齐”标准会随人类文明演进不断变化。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

若要迈向AGI,当前的预训练与RL缺一不可,未来还需融入更多技术元素。Jerry明确反对“纯RL是通往AGI唯一道路”的观点,他强调:

“RL需要预训练才能成功,预训练也需要RL才能成功——二者必须协同。”

尽管AGI何时实现仍难预测——即模型能在无需大量外部输出和人为干预的情况下自我改进的时刻——但他相信,OpenAI正走在正确的道路上。未来的突破,将是引入新的复杂组件,而非全盘推翻现有架构。

信息来源:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/4323

(0)
上一篇 2025年10月23日 下午12:14
下一篇 2025年10月24日 上午7:42

相关推荐

  • 谷歌Earth AI:地理空间智能的范式革命,开启地球级可计算时代

    谷歌近日发布的Earth AI系统,标志着地理空间人工智能领域迈入了一个全新的范式阶段。这一系统不仅整合了谷歌数十年来在世界建模方面的深厚积累,更关键的是,它通过Gemini驱动的推理能力,首次实现了地球尺度的复杂地理空间问题求解能力,将整个地球转变为一个“可计算对象”。这一突破性进展,正在重新定义我们如何理解、分析和应对全球性挑战。 从技术架构层面分析,G…

    2025年11月5日
    39700
  • AI智能体经济新纪元:ClawTasks平台开启自主交易与雇佣革命

    估计连Clawd之父Peter Steinberger都没想到,事态发展如此之快。 就在昨天Clawdbot刚刚开始社交后,Clawd生态再次进化,Clawdbot现在可以真金白银地赚钱了。就在刚刚,Matt Shumer推出了ClawTasks,一个让AI智能体相互雇佣并用真实货币交易的平台。智能体可以在这里发布悬赏任务,也可以接单赚取USDC。 整个流程…

    2026年2月1日
    47000
  • ICLR 2026 学术诚信危机:AI 幻觉引用如何挑战同行评审体系

    近期,ICLR 2026 会议陷入了一场前所未有的学术诚信风暴。继此前曝出 21% 审稿意见完全由 AI 生成、OpenReview 评审数据大规模泄露后,AI 生成内容检测平台 GPTZero 的最新调查再次揭示了更严峻的问题:在随机抽样的 300 篇投稿论文中,竟有 50 篇至少包含一处明显的“幻觉引用”。这一发现不仅暴露了当前学术评审体系的脆弱性,更引…

    2025年12月8日
    51100
  • 大语言模型驱动的勒索软件3.0:AI如何重塑网络攻击范式

    当大语言模型(LLM)技术正广泛应用于代码生成、数据分析等生产力场景时,网络安全领域却悄然出现了一个令人警醒的转折点——黑客已开始将LLM改造为“全自动攻击指挥官”。纽约大学坦登工程学院的研究团队近期披露的第三代勒索软件概念形态(Ransomware 3.0),标志着首个由LLM全程编排的勒索软件诞生。这一新型攻击模式不再依赖预装恶意代码,而是在攻击过程中实…

    2025年10月31日
    37300
  • 从12次拒签到AI框架革命:Soumith Chintala与PyTorch的逆袭之路

    在人工智能发展的历史长河中,框架工具往往成为技术演进的关键催化剂。2017年,一个名为PyTorch的开源框架悄然问世,它改变了深度学习研究的范式,重塑了AI开发的生态格局。而这一切的背后,是一位曾被世界反复拒绝的工程师——Soumith Chintala。 Soumith Chintala的起点并不耀眼。他出生于印度海德拉巴,就读于VIT Vellore这…

    2025年11月15日
    33900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注