OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战

OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战 OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战

编辑 | 听雨

OpenAI前研究员Jerry Tworek近日在《Unsupervised Learning》节目中分享了他对AI发展的深度见解。Jerry Tworek是OpenAI推理模型o1、o3及Codex的关键架构师,深度参与了近年AI领域的多项突破。他近期离开OpenAI,旨在探索在大型实验室框架下较难开展的研究方向。

在访谈中,Jerry探讨了多个核心议题,包括预训练与强化学习的扩展极限与前景、对AGI(通用人工智能)的时间预期、各大实验室研究方向趋同的现象、OpenAI发布GPT-4时的关键决策,以及优秀AI研究院的标准。

OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战

Jerry指出,规模化(Scaling)范式带来的能力提升是稳定且可预测的,但它最终能否通向AGI,关键在于模型的泛化能力。他观察到,当前AI领域正变得极其擅长完成“我们明确训练过的东西”。

他坦言,自己曾对通过强化学习实现AGI非常乐观,但随着深入研究,他的预期变得更为保守。一个关键的观念转变在于:如果模型无法在遇到困难时自行突破、无法将自己从“卡住”的状态中解救出来,就很难称之为真正的AGI。

自2019年加入以来,Jerry见证了OpenAI从一个三四十人的小实验室成长为行业巨头。他认为这段经历“真的很疯狂”,并且他最初深信这里是能够“构建AGI”的地方。

在Jerry看来,OpenAI历史上最关键的决策有两个:一是集中大量资源押注GPT-4的开发,这是一个伴随巨大取舍但事后被证明极其成功的决定;二是全面转向并押注“推理模型是未来”,从而推出了o1和o3系列模型。

Jerry透露,OpenAI的研究部门与产品团队始终高度分离,公司的核心使命一直聚焦于“构建智能”。他认为,一家公司通常只能将一件极难的事情做到极致,很难同时在多个高难度方向上都达到顶级水平。他举例称,Anthropic在编程领域的领先,正得益于这种方向的聚焦。

Jerry还分享了他对AI领域人才需求的看法,认为当下最重要的技能之一是“管理初级工程师”的能力。最优秀的管理者既能深刻理解系统,又懂得适当放权——这种协作方式也恰恰是与AI模型协作的最佳模式。

此外,Jerry近期的一个重要认知更新是:静态模型永远不可能成为AGI,持续学习能力必不可少。对于机器人领域,他预测出现类似ChatGPT的“拐点时刻”可能还需要两到三年时间。

以下是经过编辑的对话内容节选:

Scaling范式还能走多远:规模化带来的收益很稳定,问题在于泛化

主持人:
你在OpenAI推动了推理模型的引入以及强化学习的规模化。基于现有的Scaling范式,你的判断是:当前依赖预训练加强化学习的路径,其能力提升的边界大致在哪里?这条路线最终能将模型带到何种程度?

Jerry:
肯定能把我们带到某个地方。问题是,我们该如何定义那个“地方”?

主持人:
可以由你来定义。

Jerry:
但对大多数从业者而言,一个非常现实且相当震撼的事实是:规模化带来的收益是真实的、可预测的,并且相当稳定
每当我们扩大预训练规模,就能获得更好的预训练模型——它们对世界的了解更深入,对语言的理解更深刻,能构建起更完整的“语言化世界模型”。
同样,扩大强化学习的规模,也能让模型在掌握我们期望的技能方面表现得更好。

在这两种情况下,你基本上都会“得到你所训练的东西”。
如果你想要一个擅长下一个词元预测的模型,那就进行大规模预训练,你会得到一个在该任务上非常强大的模型;如果你想要一组特定技能,就对那些技能进行强化学习,模型也会在这些任务上变得非常出色。
从某种意义上说,几乎看不到明显的上限。现在的共识是:只要你在意某项技能,就针对它做强化学习,模型就能将其掌握得非常好——事情基本就是这么简单有效。
真正令人犹豫或感到受阻的地方在于:这些模型的泛化能力究竟如何? 它们在训练数据分布之外的表现怎样?
对于预训练语料中根本不存在的知识,模型能否处理?大概率不能。对于你从未用强化学习训练过的任务,它们表现如何?大概率也不太好。

因此,这几乎构成了当前AI世界的核心问题:我们正在变得极其擅长“我们明确训练过的东西”。

主持人:
这似乎引出了两种观点:一种认为,我们才刚刚开始探索强化学习的潜力,随着规模继续扩展,泛化能力会自然涌现,现有的Scaling路线足以带我们走得很远;另一种则认为,要取得进一步突破,可能需要引入全新的范式。你更倾向于哪一边?

Jerry:
我认为这在很大程度上是一个经济性问题。显然,“规模化”在很大程度上意味着增加数据,没有数据,规模化几乎无法进行。
如果你不断加入希望模型擅长的数据,模型就会在这些方面变得更好。

你目前看到的现象是:几乎每个季度、每个实验室都会发布一个更强的模型。
这背后通常意味着三件事:
第一,更多的计算资源;
第二,更重要的是,更多的数据
第三,也是最关键的,这些数据是针对上一代模型的短板而精心定制的

这是一种极其强大的方法论:通过不断迭代,就能训练出越来越好的模型。从这个角度看,如果你持续补充“你希望模型掌握的事情”的数据,最终确实可以得到一个在这些方面表现优异的模型。
但这个循环在某些方面是很慢的。真正的问题在于:有没有可能更快?
在现有训练范式下,我确实相信,只要不断加入目标数据,模型就能学会相应技能,并具备一定程度的泛化能力。
但关键问题是:有没有其他研究方向,能够用更少的数据,获得更多的能力? 是否存在更“根本性”的方式,让模型能更好地利用已见过、已学到的知识进行泛化?

主持人:
我们稍后再讨论这些潜在的新方向。首先为听众建立一个背景:根据你的经验,强化学习目前在哪些方面有效,在哪些方面效果不佳
很多人会提到“容易验证”和“不容易验证”的任务差异。你自己的心智模型是什么?哪些是当今强化学习真正能有效处理的?

Jerry:
“容易验证/难以验证”这个问题,本质上接近于:我们能否获得一个有意义的、高质量的信号
在OpenAI,我们已经在许多方面取得了显著进展,使模型能通过强化学习在各种任务上表现得更好。事实上,强化学习可以应用于非常多的事情

但有些事情,本质上就难以界定什么是“好”,什么是“不好”,或者你需要等待很长时间才能获得反馈。
例如写一本书:你当然可以用一些简单标准判断其好坏,但真正可靠的信号,可能要等到它出版后,看有多少人愿意阅读和购买。
即便如此,这个信号也并非总是可靠——评论家可能一致认为这是一本杰作,但由于营销失败,它可能根本卖不出去。

那么,我们如何对“写一本好书”进行强化学习?这本身就很难回答。人类是如何学会写好书的?同样是一个极其复杂的问题。

创业也是类似的例子。许多公司在早期起步,我们如何判断哪一家是“好公司”?往往需要五年、十年之后才能看清。创业者早期做的某个决策究竟是对是错?还是说,成功很大程度上源于运气?在这种场景下,直接应用强化学习是非常困难的。

不过,只要你能获得任何形式的反馈,原则上就可以用它来进行强化学习。

主持人:
你参与的模型在编程竞赛、数学竞赛等任务上的表现令人震撼。但大家仍在尝试建立一种直觉:现实世界中的大多数任务,更接近于“编程和数学”这类,还是更接近于“写书、创业”这种极难构建奖励信号、也难以反复试验的任务?例如会计、医学、法律——你直觉上认为它们更接近哪一类?

Jerry:
归根结底,还是一个问题:你有多容易判断“你做得好不好”。即便对人类来说,判断一本书写得好不好,本身就很难。

如果你是一个会计团队的管理者,而这个领域有明确的规则,你可以相对容易地判断哪个会计做得好,哪个做得不好。只要规则清晰,你就可以用这些规则训练几乎任何系统。

医学也是如此。我最近思考了很多关于外科医生的问题:那里确实存在明确的规则,也存在明确的反馈信号——病人是否在手术后存活,这本身就是一个非常强的成功标准。
更有意思的是:真正顶尖的医生,往往会在关键时刻违背既有规则。他们凭借经验判断,必须以一种前所未有的方式来进行手术。他们打破惯例,结果却成功了,挽救了病人。

我认为,模型在足够时间和足够尝试次数的前提下,也有可能做到类似的事情。
真正的问题在于:模型需要多长时间,才能真正达到这种水平?

主持人:
如果我们想让强化学习在更多人类关心的任务上具备泛化能力,你认为接下来真正需要攻克的前沿问题是什么?

Jerry:
我认为,泛化本质上是模型本身的属性。训练时,你真正决定的是训练目标;最终,你得到的,基本就是你所优化的那个目标。问题在于:你还能“顺带”得到多少额外能力?

确实存在一些学习方法——即便是 next-token prediction,它们几乎不泛化,比如最近邻分类。从理论上讲,它能解决任何机器学习问题,但泛化能力极差,因为它构建的世界表示极其简单。

神经网络,尤其是大规模训练的神经网络,神奇之处在于:它们学到了非常有用、非常抽象的世界表示。有时我们甚至会觉得这是“白捡的”:为什么一个在互联网上训练的巨大 Transformer,居然能如此深入地理解现实世界中的各种概念?

这种泛化能力,来自 Transformer 架构、大量参数,以及反复施加的梯度下降。这本身就像一种魔法。问题是:是否存在一种不同的模型,能够泛化得更好? 几乎可以确定,答案是“有”。真正的问题是——它会长什么样?


如果模型遇到困难时无法自行突破,很难称之为“AGI”。

主持人:
我听你以前提到过,你在做强化学习规模化之后,对 AGI 的一些时间预期变得更保守了。为什么?

Jerry:
我以前确实是一个非常乐观的人,觉得只要对模型做强化学习,就能走到 AGI。
也许我们已经做到了。也许它已经是 AGI 了——这完全是一个非常主观的判断。因为“AGI 是什么”,往往取决于我们还缺什么。

现在的模型已经能解决几乎所有奥林匹克级别的问题、各种竞赛问题。甚至已经开始在解决一些前所未有的数学问题。你每周都能看到 GPT-5.2 之类的例子。

那什么时候才会有一个“大家都会同时点头说是”的时刻?我不知道。
我是编程模型的重度用户。它们依然会犯错。它们能帮我完成一些原本要花非常长时间的工作,是极其强大的生产力放大器。但与此同时,也存在明显的失败场景。当模型失败时,你会很快感到一种“无力感”。你可以反复粘贴错误信息、告诉模型“这个不行,换一种方式”,有时候甚至要给它“精神鼓励”。
但本质上,模型并没有一种机制,能够在失败后真正更新自己的信念和内部知识。这大概是我观念上最大的变化:如果模型无法在遇到困难时自行突破、无法把自己从“卡住”的状态中解救出来,我就很难称它为 AGI。

真正的智能,会不断尝试、不断探测问题的结构,直到找到解决方案。而当前的模型,还做不到这一点。

主持人:
这正好过渡到一些“超出纯粹预训练和强化学习规模化”的研究方向。你刚才谈到的很多问题,其实和“持续学习”非常接近——这也是最近越来越多被公开讨论的话题。我很好奇,从一个宏观层面来看,你会如何向听众解释:要让持续学习真正可行,最核心、最需要被解决的一组问题是什么?

Jerry:
最核心的一点在于:如果你希望模型能够持续地被训练,那你就必须确保模型不会崩溃,不会进入某种奇怪的、失控的状态。
深度学习训练失败的方式有很多种,而现在大型实验室里相当大一部分工作,其实都是在让模型“保持在轨道上”,让训练过程保持健康。
从根本上说,这是一件非常脆弱的事情——训练并不是一个天然会顺利进行的过程,你必须持续投入大量精力,训练才不会“炸掉”。如果你不这样做,最终就很难得到一个好模型。

而这在我看来,与人类学习的方式有着本质上的不同。人类的学习过程要反脆弱得多,也更鲁棒。人类可以在学习过程中不断自我修复、调整,而不是轻易崩溃。
我在做强化学习研究时,常常会感到惊讶:人类是多么少见地会在学习新信息后突然“宕机”,开始胡言乱语,或者陷入某种奇怪的认知状态;而 AI 模型却相当容易发生这种情况。
这正是研究者们一直在试图解决的问题——无论是从理论还是实践角度:如何对抗这种不稳定性。
我认为,这种训练过程本身的根本鲁棒性,很可能正是实现持续学习所必需的关键前提。

主持人:
在你看来,关于持续学习的一些有意思的想法,有多少是其实已经存在一段时间、被反复讨论过的?又有多少是真正全新的研究问题?

Jerry:
我觉得,作为研究者,一个最重要、也最值得反复问自己的问题是:为什么这个问题到现在还没有被解决?
持续学习显然还没有被真正解决,那么问题就在于:为什么?
世界上有这么多聪明的研究者,有这么多卓越的想法,但至今没有人真正“攻破”持续学习,这背后一定有原因。

关于这个问题,有很多不同的假设。但其中一个我认为非常根本的原因是:这很可能是一个必须在“规模”上才能解决的问题,至少要达到某个阈值规模。
而现在,真正具备条件去做这种研究的顶级实验室数量非常有限;它们能同时推进的研究项目也有限。
所以很可能,并不是没有正确方向,而是如果这是一个可以在小规模下被彻底验证、被根本性突破的问题,或许早就已经有人做出来了。
那它要么是一个极其复杂、理论上非常困难的问题;要么就是需要已经非常大的模型和算力资源,而这些只掌握在极少数实验室手中。
而这些少数实验室,很可能只是还没来得及、或者还没选择去探索某一条特定的路径——因为它们当时正忙于别的事情。

主持人:
我以前听你说过这样一种观点:在 AI 研究中,有些想法“还没到合适的时间”,但它们依然是好想法。强化学习本身就是一个例子——在拥有大规模预训练模型作为基础之后,它才真正爆发。
所以听起来,你的直觉是:现在其实已经存在一些非常好的想法,只是如果它们真的能被放到足够大的规模上去尝试,可能会对这一类问题产生巨大帮助。

Jerry:
是的,完全同意。


各大实验室在研究方向上高度趋同

主持人:
你也提到过一个现象:各大实验室在研究方向上正在高度趋同,大家做的事情越来越相似。我不知道这是否也是你过去两三年的真实感受,但当你当年主导某些工作时,那些确实是全新的方向,很多实验室在当时是有点措手不及的。
你能不能谈谈过去一年左右这种“收敛”的趋势?这对你来说意外吗?

Jerry:
在强化学习中,有一个非常经典、被充分研究过的权衡:探索与利用
什么时候应该尝试新的东西?什么时候应该极致优化你已经很擅长的东西?这个权衡本身没有标准答案,因为你永远不知道“未知的东西”到底值不值得探索。

从根本上说,问题在于:是否存在一条与当前路径截然不同的路线,能带来巨大收益? 但如果你并不了解整个搜索空间的地形,这个问题本身就极其困难。

我记得曾经有人跟我说过一句话:为什么所有商用飞机看起来都长得差不多?尽管制造它们的公司并不止一家。原因在于:在经济约束下,这基本上已经是最有效的设计了。

当前各大实验室的行为,受到强大的经济力量驱动。要在竞争中立足,就必须在尽可能低的成本下,构建尽可能好的模型。在这一目标下,现有的技术组合已被证明相当高效。

客户可以随时切换模型,最终受益的是用户——这进一步推动实验室在同一条路径上持续进行效率优化。

当然,这里始终存在一个探索与利用的权衡。我们是否应该“出海航行”,去寻找一片全新的大陆?是否应该训练一种彻底不同的架构?

这么做很可能会分散注意力,让你无法持续将现有方法打磨得更好、更高效。但另一方面,那片未知领域或许蕴藏着10倍、甚至100倍的突破潜力。

最终,这取决于一种信念与判断:我们愿意为探索未知承担多大的风险?

主持人:
正如你所说,现在存在一条非常清晰的路线:不断向强化学习和各类任务中添加数据,持续提升具有经济价值的能力。每个实验室都有一张明确的路线图,这反而让“孤注一掷去赌一个全新方向”变得更加困难。相比之下,当年预训练似乎接近瓶颈时,反而更容易鼓励探索。

Jerry:
是的,不同的历史阶段确实不同。有些时期,探索的空间更大,容错率也更高;而当竞争变得极其激烈时,情况就会变得很像一个“囚徒困境”——只要你选择与众不同,就很容易在市场竞争中失去优势。

主持人:
你认为实验室是否一定要成为“下一个重大突破”的发现者?我之所以这么问,是因为这些想法往往扩散得非常快。例如你在推理模型上的开创性工作,如今已经有好几家实验室都拥有了很强的推理模型。我甚至在想:即使突破发生在别处,实验室是不是也完全可以接受?因为这些想法最终都会被吸收进现有的商业体系。

Jerry:
思想的扩散当然是好事,但“领先一步”的价值不应被低估。我们已经见过这样的例子:曾经很多人认为OpenAI不可能成功,但它在大规模Transformer预训练上领先一步,最终成为世界上最成功的公司之一。同样,OpenAI率先解决了大规模强化学习的问题,这使得它直到今天,依然拥有业内最强的强化学习研究体系之一,能够进行更大胆、更具雄心的尝试。

即便想法会扩散,先发优势依然极其强大——如果你能维持住这种优势,它甚至可能长期存在。我最近在读一本关于半导体制造的书。很多最早的关键技术发明都发生在美国,随后逐渐扩散到世界各地。但与此同时,也存在某些阶段性的领先优势,是其他国家始终无法追赶的——这种早期下注、持续投入所带来的复利效应,会在很长时间内发挥作用。

并不是只有一个国家能做半导体,但也绝不是每个国家都能。每一次产业变迁中,总会有新的成功者、新的失败者;有些老公司成功转型,有些则被淘汰——这就是进步中的达尔文过程。

主持人:
消费者和企业往往会记住第一个带来“魔法般体验”的公司。你们在ChatGPT上显然经历过这一点。你在强化学习上取得了如此多的进展,而这一方向至今仍在持续推进,但你最终选择离开OpenAI,去探索新的研究领域。我很好奇:你是什么时候开始意识到,自己可能想要离开的?又是如何真正做出这个决定的?

Jerry:
这并不是一个突然发生的决定,而是一个在内心中慢慢生长的过程。OpenAI并不是一个容易离开的地方——我在那里有很多朋友、很多共同的历史,我的人生有很大一部分是在那里建立的。我曾经非常努力地尝试让一切继续运转,寻找不同的可能性。

但作为研究者,如果有一天你醒来,发现自己不再真正热爱正在做的事情,不再对它感到极度兴奋,那也许就是时候去尝试别的东西了。如果你没有100%的热情,几乎不可能做出最好的研究工作。我在OpenAI曾有过很多充满无限热情的日子,但到后来,这种感觉变得越来越难以维持。

主持人:
那现在是什么在给你能量?

Jerry:
从最根本的层面来说,我当初加入OpenAI,是因为我相信强化学习是通向AGI的必要组成部分,我真的、非常想让它发生。把“推理模型”引入这个世界,对我来说是一种范式级的转变。某种程度上,我想再次追逐那种感觉——找到当下模型训练方式中缺失的一块,并设法让它成为主流。但一旦你做过那样的事情,就很难再获得同等强度的“冲击感”。所以我现在想要的是一些自由,去思考、去探索,去尝试解决那些最核心、最重要的问题。

主持人:
你现在是带着很多具体假设在推进,还是更多在“拉远视角”,重新观察整个领域?

Jerry:
通常来说,真正重要的问题,并不是你在做了七年机器学习之后才突然发现的。你其实早就知道哪些问题最关键。真正困难的是:如何用一种与所有人不同的方式去解决它们。因为如果它们能被常规方式解决,早就已经有人成功了。

主持人:
你曾说过,自2019年加入OpenAI以来,几乎每一年都像是一家“不同的公司”。我很想请你回顾一下这六七年的演变,讲讲你眼中的OpenAI成长叙事。

Jerry:
从一个只有三四十人的小实验室起步,而且从一开始就完全开放,这是一个极其大胆的选择。我们当时真的相信,这里会是构建AGI的地方,会为世界带来数字智能的普遍收益。

从最初几个人做一些“看起来很酷、但极其野心勃勃”的项目,到今天发展成世界上最大的公司之一,做出了几乎所有人都知道、每天都在用的产品,甚至已经很难想象生活中没有它——这段经历真的非常疯狂。

你也知道,OpenAI的管理层和组织结构在过去一年里发生了相当大的变化。你每天共事的人变了,公司规模变了,研究主题也在不断变化。早期甚至根本没有“预训练”这个概念,后来有一段时间几乎一切都围绕预训练展开;再之后,它有点变成了我们“老OpenAI”的样子。现在则更平衡一些,既有预训练,也有其他方向。

很多人离开OpenAI,去创办公司、开启新的人生阶段;与此同时,也有大量优秀的新鲜血液加入,继续在内部做非常出色的研究。这是一家不断自我重塑、并在每个阶段都成功成长的公司。

我常常会想,那些伟大的成功公司,它们的故事一定很精彩,而能亲历这些阶段一定是种难以复制的体验。我觉得自己参与了OpenAI相当早期的一段历程,这种经历真的很难和其他任何事情相比。

主持人:
大家都很期待未来会有人系统地写下OpenAI这一段历史。通常这种故事都会聚焦在那些“关键但极其艰难的决定”上——那些可能向不同方向发展的分岔点。对你来说,有没有哪些特别关键的决策,让你印象深刻?

Jerry:
这是个好问题。我其实只真正参与了其中一部分,很多决定我可能只是“背景角色”。

比如,是否要向世界发布ChatGPT的讨论——你可能也听说过,它后来的流行程度、病毒式传播,在内部至少我从没听谁真正预料到。随着ChatGPT以及随后GPT-4的发布,我们创造了一个“时刻”,形成了一种极难预测的势能,这在很多维度上塑造了今天的OpenAI。

再比如,在那个时间点集中大量资源训练GPT-4,这也是一个伴随巨大取舍的决定,但它在OpenAI历史中极其关键,事实证明是一个非常好的选择。

还有一次非常重要的赌博:押注“推理模型是未来”。当时完全没有把握,更多是基于第一性原理的思考和直觉。我们决定让OpenAI彻底转向这一方向,哪怕当时还看不到产品市场契合点。

最早的推理模型看起来很聪明,但几乎只适合做谜题,对现实用途帮助不大。直到后来,随着更多投入、工具使用能力的加入,它们才开始在研究和编程上变得极其有用。一旦出现了真正的PMF(产品市场契合),人类就非常擅长对一个“已经可行的东西”进行优化。但走到那一步,本身就是一段非常艰难、也非常值得研究的旅程。OpenAI在那个阶段,真的通过了考试。

主持人:
你描述的这种“在不确定中持续加码投入”的过程非常有意思,也和你们现在对推理模型的判断高度相关。你是在什么时候真正意识到:这不只是好玩,而是可以规模化、走得很远?

Jerry:
说实话,我从一开始就相信它。这主要源于我对强化学习的信念。
从我加入 OpenAI 的第一天起,我就坚信:如果要走向 AGI,强化学习是必不可少的组成部分。问题从来不是“要不要”,而是“什么时候准备好、以及怎么做”。随着时间和研究推进,我们不断得到实验结果,进一步验证这条路径是对的。

主持人:
OpenAI 一个很独特的地方在于:它既是一个追求 AGI 的研究实验室,又“意外地”做出了一个席卷全球的消费者产品。公司同时做消费级产品、企业产品和核心研究,这在内部是如何运作的?研究人员会不会被拉向太多不同方向?

Jerry:
有一点其实很清楚:OpenAI 的研究部门从一开始就与产品团队高度分离。公司的核心使命始终是“构建智能”。
确实有一个专门面向产品的研究团队,负责围绕具体产品指标优化模型;但绝大多数研究的关注点始终是:如何让模型变得更智能。至少在研究内部,这种“拉扯感”并不强。
真正复杂的是:OpenAI 站在我们这一代人可能经历的最大技术变革中心。机会实在太多了,几乎所有行业都会被 AI 重塑。如果什么都不做,反而显得浪费。
但这也带来了一个非常现实、非常危险的问题:聚焦。公司通常只能把一件极难的事做到极致,很少有组织能同时把多件极难的事都做到顶级。这对 OpenAI 来说是一个巨大的风险。
举个例子,OpenAI 曾经在“代码”方向上失去过一段时间的专注,把注意力更多放在消费者产品上,这确实付出了市场份额的代价。现在他们正在非常努力地追回来,最近的编码模型确实又变得非常强了,但这段分心是有成本的。
做 AI 的公司现在就像走进了糖果店,到处都是潜在价值极高的东西,很难克制自己不去多做。但每一个方向都有竞争,问题只在于:谁能把哪一件事做到真正正确。

主持人:
这也正好引出生态系统的问题。你提到了编码领域,Anthropic 为什么在代码上表现得如此突出?

Jerry:
一句话:聚焦
我认识 Anthropic 的创始人,从他们还在 OpenAI 的时候就是如此。他们一直极其重视编程,并且坚信这是通往 AGI 的关键组成部分。我可以想象他们这些年在这一方向投入了多么专注的精力。
最新的 Claude 编码模型和代理,确实把这个愿景推得很远。他们说“公司里已经很少有人亲自写代码了”,我相信这不是夸张。

主持人:
这是否意味着未来的大模型实验室会自然走向分工,各自专注不同能力?

Jerry:
这取决于我们最终生活在哪一种世界里。
如果数据是核心驱动力,那这是一场零和博弈:你把数据投向某项技能,模型就在那项技能上更强,于是市场自然分裂、专门化。
如果研究才是关键,那研究具有一种“魔法属性”:一次成功的突破,可能让模型在所有领域同时跃迁,直接全面领先。
我们现在还无法确定哪一种未来会占上风。但我很确定:一定存在更通用的路径,只是不知道它有多难被找到。
甚至存在一种略微悲观、但并非不可能的情况:也许我们已经到了人类最后一个能亲手设计的模型,而接下来,模型会自己研究更好的模型。现在的编码代理已经足够强大,再加上巨量算力,这种推断并不荒谬。当然,我仍然希望人类还有一些关键的事情能继续亲自完成。
从本质上看,编程的历史就是不断提高抽象层级。编码代理可以被视为一种全新的、更高层的“编程语言”。
我认为未来很可能不再是人类直接敲代码,但软件仍然必须可靠。我们需要解决的问题是:当我们既不写、甚至不读代码时,如何确保系统做对了事?我相信这些问题是可以解决的。
当下最重要的技能,其实是“管理初级工程师”的能力。最好的管理者既深刻理解系统,又能放手让别人做决定——这恰恰也是与模型协作的最佳方式。
不和研究团队挨在一起,确实是应用公司的一种劣势。最终,成功的 AI 公司往往都会开始自己训练模型。应用公司可能从产品起步,逐步走向后训练、再训练,最终甚至建设自己的数据中心——这是一个自然的成长路径。
这并不意味着小公司没有机会。如果数据重要,就能靠数据差异化;如果研究重要,小公司也可能在约束中产生创新。专注某一领域,看到模型的不足,反而有可能做出一个在该领域极强、甚至在更广泛层面更优的模型,并由此成长为下一家巨头。

主持人:
但现实是,过去常见的问题在于:你可能刚刚领先了一点点,甚至只有“一秒钟”,下一代模型一发布,你又突然发现自己已经被远远甩在后面了。

Jerry:
竞争确实很残酷。我们在美国科技行业已经看到过很多次,大公司拥有大量结构性优势,这一点是真的。但与此同时,新的、非常成功的大公司也一直在不断涌现。所以这并不是没有希望,只是非常困难。

主持人:
我想把话题转向人才生态和研究本身。你既是一位非常杰出的研究者,也和许多顶级研究者共事过。现在研究员的招聘竞争异常激烈,你当年也参与了 OpenAI 的大量招聘工作。那么今天,究竟是什么在决定研究者会选择去哪家公司?

Jerry:
这是个好问题。说到底,人是非常复杂的——现在甚至比模型还复杂。每个人的激励机制、想要的东西都不一样,所以我其实很难一概而论。
我觉得,招聘者不应该只问“我怎么才能吸引最多的人”,或者“怎样让自己看起来对所有研究者都最有吸引力”。这当然是个问题,但还有一个更重要的问题:什么样的研究者会真正想在这里工作?
因为试图取悦所有人几乎是不可能的。不同的人有不同的偏好、不同的价值观、不同的工作方式。与其如此,不如刻意构建一个在价值观和方法论上高度一致的团队。事实已经反复证明:目标一致、彼此对齐的团队,行动更快、效果更好。
所以这本质上是一个双向筛选的过程,找到“合适的人”和“合适的团队”,这会让个人更快乐、团队更成功,也会让这个团队随着时间变得越来越有吸引力。

主持人:
但我们也看到了一些很有意思的实验,比如 Meta 曾经用极其夸张的薪酬包来抢人。你怎么看这种做法?

Jerry:
不同公司有不同的组建研究团队的策略。某个阶段,Meta 显然处在供需曲线不利的一侧,在经历了一些挫折之后,他们需要用非常有吸引力的条件把人重新吸引回来。
“势能”和“动量”在人才市场中非常重要,也非常难扭转。一旦行业里形成一种“你不行了”的认知,就会导致你招不到人,而这本身又会进一步强化这种印象。
所以从这个角度看,这是一个合理、甚至是聪明的策略,用来打断负反馈循环。在 AI 对大型科技公司至关重要的背景下,Meta 也确实重建了一支新的团队,正在训练新的模型。整个行业都在关注这次尝试是否成功,以及它会如何决定这个实验室的未来。但无论如何,这一步确实给 Meta AI 注入了新的生命力。

主持人:
你做过大量开创性的 AI 研究,也和很多顶尖研究者共事过。在你看来,什么样的人才算是优秀的 AI 研究者?

Jerry:
这是个很难回答的问题。某种程度上,成功确实和“在对的时间出现在对的地方”有关。
但如果要谈基本功,我认为当下一个优秀的 AI 研究者,必须同时在系统与工程层面理论层面都非常扎实。你需要理解计算机系统如何运作、神经网络如何训练,同时也要理解神经网络和优化的理论基础。只擅长其中一边,几乎不可能做到顶尖;而如果两边都至少“够好”,你的研究效率会直接提升一个数量级。
另一个极其重要、但经常被忽视的能力,是独立思考与反从众。人类有一种天然倾向,会逐渐向群体的中位观点收敛,而这几乎会扼杀真正的研究。我常说,如果你有 100 个研究者都在想同一件事,那你本质上只有 1 个研究者。
研究的本质就是去做“还不奏效的事情”,而这些事情,恰恰是大多数人暂时不相信的。要做到这一点,需要一种很稀缺的品质——勇气。敢于站出来说:“我们试试一条不同的路。”
在今天这个实验极其昂贵的时代,这尤其困难。很多机器学习实验的成本已经接近好莱坞电影。就像拍电影一样,你可以通过明星、特效来尽量降低风险,但最终,实验就是实验,结果永远不确定。
所以总结来说:深刻理解系统与理论、不过度随大流、并且有勇气坚持自己的判断,这是我心目中优秀 AI 研究者的核心特质。

静态模型永远不可能成为AGI

机器人出现“拐点时刻”需两到三年

主持人
我们通常会用一个快问快答来结束访谈。第一个问题:过去一年里,你在 AI 上改变过的一个重要看法是什么?

Jerry
我最近一个重大的认知更新是:静态模型永远不可能成为 AGI。持续学习是必不可少的。

主持人
这是因为静态模型在能力上做不到,还是因为从定义上,它就不符合 AGI 的要求?

Jerry
更多是因为我们逐渐看清了模型仍然缺失的东西。它们已经在很多方面非常强了,但如果不能持续学习,在我看来,它们永远都只会是一个需要人类监督的工具,而不是真正的智能体。

主持人
除了今天讨论的领域,AI 在其他方向也在快速进展。你觉得机器人领域出现类似 ChatGPT 的“拐点时刻”,大概还要多久?

Jerry
我猜大概两到三年。

主持人
这个判断挺激进的。很多人还在怀疑机器人领域到底有没有 scaling laws,数据够不够。

Jerry
说实话,我觉得现实情况比大多数人想象的要好。已经有很多公司在取得实质性进展,只是这些成果需要时间发酵,也需要进一步投资。我对未来几年的机器人发展是相当乐观的。

主持人
那在生物领域呢?

Jerry
生物会慢得多。

主持人
为什么比机器人慢?

Jerry
从所需智能水平和操作精度来看,生物学复杂得多。这是一个需要更多基础性投入、才能真正开始起飞的领域。

主持人
在模型持续进步的背景下,你觉得社会可能低估、或者讨论得还不够充分的一个影响是什么?

Jerry
大规模的工作自动化,在未来几十年里几乎是不可避免的。一方面,我们确实在谈这个问题;但另一方面,我觉得我们谈得还远远不够认真。
世界会和今天非常不同,这对我来说几乎是确定的。社会变迁本身是缓慢的,但这种转变会非常怪异,也可能在某些方面非常痛苦。我们需要提前思考,怎样让这个过程尽可能不那么痛苦,因为未来的就业形态一定会和今天截然不同。

OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19750

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 微软MIRA:基于4540亿医疗时序数据的通用基座模型,突破不规则采样难题

    MIRA团队 投稿 在大模型(LLM)与计算机视觉(CV)争相重塑医疗行业的今天,我们似乎已经拥有了功能强大的数字助手:它们能够像放射科医生一样精准解读CT影像,也能像内科医生一样撰写病历摘要。 但医疗AI世界中,仍有一块关键拼图缺失——那就是理解“生命动态演变”的能力。 △ 图1.不同模态的医疗数据 正如图1所示,如果将患者的生命历程比作一部电影,现有的A…

    2026年1月24日
    2500
  • DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

    DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…

    2026年1月13日
    10000
  • 揭秘70M小模型层数玄学:隐藏维度≥512是关键,32层成最佳配置

    知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中,揭示了关于70M参数小模型的几个关键发现: 首先,模型的具体架构选择其重要性被高估,相比之下,模型的“形状”——即深度与宽度的配比——更为关键。 其次,小模型的层数选择存在明显的“玄学”现象:12层、32层和64层的模型表现优异,而16层、24层和48层的模型则效果不佳,其中…

    2026年1月11日
    6000
  • AscendKernelGen:突破NPU算子生成瓶颈,大语言模型领域适配实现95.5%编译成功率

    关键词:昇腾 Ascend、NPU 内核生成、大语言模型、领域适应、强化学习、评估基准 在人工智能飞速发展的今天,深度学习的计算需求呈指数级增长,传统的 CPU 和通用 GPU 已难以满足特定场景下的高效计算要求。为此,神经处理单元(Neural Processing Unit,NPU) 作为专为 AI 计算设计的领域专用加速器,逐渐成为现代 AI 基础设施…

    2026年1月23日
    2800
  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    8500