GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

OpenAI研究副总裁Jerry Tworek首次详解GPT-5,称其本质是o3模型的升级版(o3.1)。他指出,强化学习与预训练结合是AGI发展的核心路径,未来将打造更自主、思考时间更长的推理模型。Jerry还认可DeepSeek的GRPO算法推动美国RL研究,并透露OpenAI内部高度自主、信息透明,员工甚至自费使用ChatGPT。

在OpenAI研究副总裁Jerry Tworek看来,与其说GPT-5GPT-4的延续,不如说它更接近o3模型的升级版——某种程度上,可以称之为“o3.1”。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

作为o1模型的核心构建者之一,Jerry在首次深度播客访谈中透露,OpenAI正致力于再造一个“o3级突破”:打造一个能力更强、思考时间更长、能够自主与多系统交互的下一代模型。

在这场信息量密集的一小时对话中,Jerry系统回顾了从o1到GPT-5的技术演进,拆解了OpenAI的模型推理机制、内部组织架构,以及强化学习在技术路线中的核心地位。他还分享了自己加入OpenAI的经历,并对通用人工智能(AGI)的实现路径提出判断。

“如果让十年前的人看到今天的ChatGPT,他们或许会认为那就是AGI。”

此外,Jerry特别提到DeepSeek团队提出的GRPO算法对强化学习领域的推动,认为它促进了美国相关研究的进展。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

有意思的是,当Jerry提到自己也是ChatGPT重度用户,每月为此支付约200美元时,网友们纷纷调侃:原来OpenAI员工也要自费使用自家产品。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

这场访谈信息浓度极高,Jerry本人也在社交媒体上推荐:“如果你想深入理解强化学习,这期播客值得一听。”

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

▍GPT-5是如何“思考”的?

播客主持人Matt Turk提出了许多人的共同疑问:当我们与ChatGPT对话时,它到底在“想”什么?

Jerry指出,模型的推理过程类似于人类的思考,本质上是在探索未知答案,可能涉及运算、信息检索或自我学习。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

推理过程具体表现为“思维链”。自o1模型发布以来,这一概念逐渐进入公众视野。它指的是将模型的内部思维以人类可读的语言表达出来。其逻辑是:语言模型在大量人类知识上训练,学会类人思考,再通过思维链“转译”给人类。

早期要激发模型的思维链,通常需在提示词中加入“让我们一步步思考”。如果直接提问,模型可能推理失败;而引导其分步推进,它便能生成思维链,最终得出答案。

一般来说,模型在推理上耗时越长,效果越好。但OpenAI从用户反馈中发现,大多数用户不愿长时间等待回复——这也影响了他们在模型设计上的取舍。

如今,OpenAI同时向用户提供高推理耗时与低推理耗时的模型,把选择权交还用户,并在内部尝试通过启发式方法寻找最佳平衡点。

OpenAI的推理模型探索始于o1,这也是他们发布的首个正式推理模型。不过Jerry坦言,o1更擅长解谜题,与其说是成熟产品,不如视作一次技术演示。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

直到o3模型问世,局面才真正改变。o3代表了AI发展的一次结构性转变:它真正实用,能熟练使用工具与多源上下文信息,并在求解过程中表现出持续探索的韧性。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry表示,自己正是从o3开始完全信任推理模型。因此从某种角度看,GPT-5可被视为o3的迭代版——o3.1,延续了相似的思考流程。

未来,OpenAI将继续寻求下一次重大突破,目标是打造能力更强、思考质量更高、也更自主的推理模型。

▍加入OpenAI,是“命中注定”的转折

作为OpenAI推理模型的关键人物,Jerry的入行经历却充满“天才的偶然”。

他将这个过程比作水晶的形成:自幼具备科研兴趣,在成长中逐渐清晰,直到OpenAI出现,“叮”的一声,时机成熟。

Jerry在波兰长大,从小在数学和科学上展露天赋。用他的话说,“这些学科仿佛天生就适合我。”18岁时他立志成为数学家,进入华沙大学攻读数学,渴望追求真理。但后来因不满学术界的刻板体制,他放弃了这条路径。

为维持生计,他转而运用数学能力成为交易员,曾在摩根大通股票衍生品部门实习,之后还创办过对冲基金。几年后,他对交易工作再次感到厌倦,陷入职业迷茫。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

直到DeepMind推出DQN智能体,打破僵局。他被其中的强化学习技术吸引——此前他认为传统分类器并不智能,而DQN展现出学习复杂行为的能力。

2019年,他加入OpenAI,最初参与机器人项目,专注于灵巧操作。那正是OpenAI知名的“用机器人解魔方”项目,是强化学习与实体交互结合的典范。

之后,他领导了o1项目,推动OpenAI模型能力不断进步。目前,他的主要工作是与其他研究员交流,共同完善研究计划。

据Jerry介绍,OpenAI内部结构独特,结合了“自上而下”与“自下而上”的管理方式。公司整体聚焦三四个核心项目,集中资源重点投入,而研究员在项目内享有较高的自主权。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

整个研究团队约600人,每位成员都能获取项目的全部信息。OpenAI认为,让研究员因信息不全而无法做出最佳成果的风险,远大于知识产权泄露。

OpenAI之所以能快速迭代产品,一年内从o1推进到GPT-5,得益于良好的运营结构、强劲的发展势头,以及顶尖人才的高效协作。他们都深信所做之事的价值:“AI在人类历史上只会被构建和部署一次。”

员工也大量使用内部工具,Jerry本人就是ChatGPT深度用户,每月自愿付费使用;CodeX等工具也广泛用于内部编程。

▍强化学习,OpenAI的关键引擎

对Jerry而言,强化学习是引领他进入OpenAI的钥匙;而对OpenAI整体而言,RL更是多次推动技术转折的核心。

今天的语言模型,可视为预训练与强化学习的结合:先进行预训练,再在其基础上做强化学习。两者相辅相成,这也是OpenAI自2019年以来的研究主线。

要理解RL在OpenAI的地位,首先得明白什么是RL。

Jerry比喻,RL类似于训狗:当狗行为正确,给予奖励(零食或微笑);行为错误,则施加惩罚(转移注意力或不悦表情)。RL在模型中起类似作用——对正确行为给予正向奖励,错误行为给予负向奖励。其核心在于策略与环境:

  • 策略:指模型的行为,是将观察映射到行动的数学函数。
  • 环境:即模型感知到的一切,必须是可交互的。环境会随模型行为而变化,例如学吉他时,拨弦会得到声音反馈。RL是教会模型响应环境变化的唯一路径。

DeepMind的DQN将RL推向新阶段——Deep RL,将神经网络与强化学习结合,催生真正有意义的智能体。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry还分享了GPT-4训练完成时的一个插曲:初期团队对其表现并不满意,因为它在生成长回答时缺乏连贯性。后来通过RLHF(基于人类反馈的强化学习)解决了这一问题——人类对模型输出进行评价,并以此作为奖励信号。

正是RLHF的介入,才有了后来的“ChatGPT时刻”。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

最近OpenAI在编程竞赛中的亮眼表现,Jerry归因于团队长期将编程谜题作为测试平台,用以验证RL思路。无意之间,RL的研究也为OpenAI赢得了阶段性荣誉。

只要能够评估结果并计算反馈信号,RL就可应用于任何领域——即使答案不限于简单对错。

但目前,规模化应用RL仍面临挑战。RL在实际运行中容易出现多种问题,相比预训练,存在更多瓶颈与故障模式。这是一个高度精细的过程:如果说预训练是炼钢,那么RL就像是制造半导体。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

Jerry还特别肯定了DeepSeek团队提出的GRPO算法,指出这一开源成果让许多缺乏高级RL研究资源的美国实验室能更快启动并训练推理模型。

▍RL + 预训练:通往AGI的必经之路

关于AI的未来,Jerry在访谈结尾分享了自己的观点。

首先是AI智能体(Agent)。他认为AI带来的最大积极影响,是通过自动化解决人类问题。当前模型回答问题的速度很快,仅需几分钟;而内部测试显示,在某些任务上,模型其实可独立思考30分钟、1小时甚至更久。因此当前的挑战,是如何设计出能支持长时间思考的产品。

由基础推理驱动的智能体,将允许模型进行更长时间的独立思考,解决更复杂的任务,如编程、旅行规划、设计等。因此,AI向智能体化发展是大势所趋。

模型对齐(Alignment)也是公众关注焦点。Jerry指出,对齐问题本质是RL问题——只有让模型深入理解其行为与后果,才能做出符合人类价值观的选择。对齐将是持续的过程,因为“对齐”标准会随人类文明演进不断变化。

GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

若要迈向AGI,当前的预训练与RL缺一不可,未来还需融入更多技术元素。Jerry明确反对“纯RL是通往AGI唯一道路”的观点,他强调:

“RL需要预训练才能成功,预训练也需要RL才能成功——二者必须协同。”

尽管AGI何时实现仍难预测——即模型能在无需大量外部输出和人为干预的情况下自我改进的时刻——但他相信,OpenAI正走在正确的道路上。未来的突破,将是引入新的复杂组件,而非全盘推翻现有架构。

信息来源:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4323

(0)
上一篇 2025年10月23日 下午12:14
下一篇 2025年10月24日 上午7:42

相关推荐

  • Meta闪电收购AI社交平台Moltbook,40天创业神话背后的安全与连接博弈

    Meta闪电收购AI社交平台Moltbook,40天创业神话背后的安全与连接博弈 上线仅40天的AI智能体社交平台Moltbook已被收购,收购方为Facebook的母公司Meta。 此前在收购OpenClaw上未能如愿的扎克伯格,此次迅速出手,将Moltbook及其两位创始人Matt Schlicht和Ben Parr一并收入麾下。具体收购金额未披露,两位…

    2026年3月11日
    29300
  • 国产AI大模型GLM-5横空出世:开源对标Claude Opus,10分钟傻瓜化部署Agent任务

    前两天,海外科技社区仿佛集体化身侦探,陷入了一场热烈的猜谜游戏。 这一切源于一个名为 Pony Alpha 的匿名模型,它没有任何发布会,也没有任何公司认领,却凭借几个简单的 API 接口和惊艳的生成质量,在各大评测榜单上横空出世,迅速引爆了 X(原 Twitter)和 Reddit 等技术社区。 全球模型聚合平台 OpenRouter 于 2月6日首次公开…

    2026年2月12日
    25700
  • QQ浏览器AI化转型深度解析:从工具到智能体的全场景重构

    在人工智能浪潮席卷全球的当下,传统互联网产品正面临前所未有的转型压力。作为拥有上亿用户的国民级应用,QQ浏览器近期宣布全面升级为AI浏览器,这一战略转向不仅体现了腾讯在AI领域的深厚布局,更预示着浏览器行业将从信息工具向智能服务平台演进的根本性变革。本文将从技术架构、产品设计、用户体验及行业影响四个维度,深入剖析QQ浏览器的AI化转型路径。 从技术底层来看,…

    2025年12月19日
    23100
  • 智谱GLM-4.7登顶开源模型榜首,以511亿港元市值冲刺“全球大模型第一股”

    “全球大模型第一股”即将登陆港股!北京智谱华章科技股份有限公司(下称“智谱”)今起招股,预计2026年1月5日结束,并计划于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市。 全球公开发售文件显示,智谱(02513.HK)计划在本次IPO中发行3741.95万股H股。其中,香港公开发售187.1万股H股,国际发售3554.85万股H股。以每…

    2025年12月30日
    27900
  • 中国开源大模型引领全球AI应用创新:从Cursor到Windsurf的“反向技术输出”现象深度解析

    近期,全球AI领域出现了一个引人注目的现象:美国顶流AI编程应用Cursor和Windsurf相继发布的新模型,被多方证据指向其底层技术可能基于中国的开源大模型。这一发现不仅在国际技术社区引发热议,更揭示了中国在人工智能开源生态建设方面取得的实质性突破。 **技术溯源:从“中文输出”到模型架构的线索** Cursor最新发布的Composer-1模型被用户发…

    2025年11月2日
    19800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注