2025年底,AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度,其智能表现不仅全面超越了前代Gemini 2.5 Pro,甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2,表现令人惊艳。
就在近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean、Noam Shazeer——与谷歌AI Studio的产品负责人Logan Kilpatrick罕见同台,进行了一场深度对话。
这三位嘉宾在业界举足轻重:Oriol Vinyals是谷歌DeepMind的研究副总裁兼深度学习负责人;“传奇院士”Jeff Dean是谷歌首席科学家;而Noam Shazeer则是Transformer架构的论文作者之一,同时也是Gemini项目的联合负责人。

在对话中,三位负责人透露:
如今新一代的Flash模型,其能力往往已经能达到甚至超越上一代Pro模型的水平。
Oriol Vinyals更是直言:Pro模型的主要作用之一,就是用来“蒸馏”出Flash模型。他认为,即便在智能上做出些许妥协,更快、更经济的模型对用户而言至关重要。因此,对于Flash这类“小而强”的模型,团队将持续加大投入。
Logan Kilpatrick也分享了一项内部测试:在谷歌AI Studio中,针对 vibe coding 这一用例,团队对比了Flash模型与Pro模型的表现。结果发现,尽管Flash在智能上略逊一筹,但得益于其更低的延迟和更快的反馈速度,用户反而编写了更多代码、留存率也更高。这印证了速度体验的重要性,也说明了Flash模型为何广受欢迎。
此外,他们还探讨了Gemini过去一年的整体进展、内部训练细节、在Pro与Flash版本间的权衡,以及模型未来演进的关键方向。
Jeff Dean透露,Gemini目前的基础架构基于他于2018年提出的Pathway架构,该架构主要围绕三个目标构建:单一模型能泛化至数百万个任务、具备强大的多模态能力,并采用稀疏激活机制。他表示,Gemini目前已基本实现了这些目标,并且谷歌内部已经为Gemini制定了下一个“五年计划”,以规划其能力的持续演进。
在Gemini 3发布之初,Oriol Vinyals曾在社交平台X上表示,Gemini 3的核心突破在于提升了预训练与后训练的质量,并指出后训练领域仍是一片潜力巨大的“未开垦绿地”。

在此次对话中,他再次强调,当前阶段最大的突破空间很可能就在于后训练环节。
Jeff Dean则认为,在代码、推理和数学等领域的某些基准测试上,模型能力已接近瓶颈;但在“帮我规划一次旧金山旅行”这类开放式、复杂的现实任务上,模型仍有巨大的提升空间。
同时,Noam Shazeer与Jeff Dean都指出,模型的规模固然重要,但它已不再是决定性能的唯一变量。相比之下,模型的持续学习能力将成为未来重要的改进方向。
Gemini的起源:Google Brain与DeepMind的融合
Logan Kilpatrick:
目前已有不少用户试用并测试了Gemini 3 Flash,反馈非常积极,势头强劲。此前我们发布了Gemini 3 Pro,现在整个项目都在加速推进。
Jeff、Oriol、Noam,你们三位是Gemini的联合技术负责人,共同引领着项目方向。或许我们可以从Jeff开始,请你从个人视角谈谈:在Gemini 3 Flash和3 Pro发布的当下,我们正处于怎样的阶段?以及最近这段时间,团队是如何走到今天这一步的?
Jeff Dean:
当然。我们对Gemini 3系列模型感到非常兴奋,无论是几周前发布的Pro版本,还是昨天发布的Flash版本。
正如你所说,我、Oriol和Noam是Gemini项目的三位联合技术负责人。我们已合作多年,一直配合得非常愉快。
回顾Gemini项目的起源,它源于我的一个观察:在谷歌内部,我们在大语言模型规模化方面已取得诸多优秀成果;Google Brain(当时隶属于Google Research)也在推进多模态模型的研究;与此同时,Oriol所在的DeepMind团队也在进行类似的工作。
但问题在于,这些顶尖的人才和研究成果是分散的,计算资源也同样分散。我认为,如果我们能真正整合力量,作为一个统一的团队协作,效果会好得多。这就是Gemini团队和项目的起点——这发生在Gemini 1.0发布前不久。
此后,看着模型一代代演进非常有意思:从Gemini 1.5、2.0、2.5,到几周前发布的Gemini 3 Pro,再到本周的Gemini 3 Flash。我们对此都倍感振奋。
当然,我们也必须学会如何跨越地域、在多个地点高效协作,这本身就是一个学习过程。但我认为我们现在已经真正进入了状态。大约从一年前的2.5系列开始,到现在的3系列,我们明显找到了自己的节奏。
Logan Kilpatrick:
我非常认同这一点。看到来自Brain、DeepMind、Google Research的人才真正融合,并取得如此快速的进展,确实非常酷。
Oriol,我也很好奇你从个人视角如何看待这个问题,尤其是历史上Brain和DeepMind在研究方法上存在的差异。
我个人在观看《The Thinking Game》这部纪录片时,一个强烈的感受是:DeepMind在十年前解决的问题,以及后来AlphaFold面临的挑战,与我们今天在Gemini上遇到的难题非常相似。
其中让我印象最深的是数据问题:例如,人类真实标注的蛋白质折叠数据极其稀缺,团队必须通过各种方法“合成性地放大数据规模”。我很好奇,这种思路与你们今天所处的强化学习、“测试时计算”等范式之间,有多少相似性?你觉得当年那些挑战与当前阶段之间,存在多大的连续性?
Oriol Vinyals:
或许我可以从一个更宏观的角度来回答。
在组织层面,我个人非常幸运:多年前我曾在Brain团队工作,后来我搬到伦敦,加入了DeepMind。因此,我亲身经历了这两种研究文化在早期的差异。当然,正是我和Jeff之间的联系,最终帮助我们启动了Gemini项目,将这两个团队再次结合了起来。
从研究方式上看,尤其是DeepMind的早期文化,有一个非常鲜明的特点:明确的长期目标、宏大的愿景,以及“不解决问题誓不罢休”的项目周期。这种精神其实深刻地烙印在Gemini的起点上——Gemini的目标是构建AGI,是“解决智能”这个根本问题,我们是为长期使命而来。3.0版本很棒,但它绝非终点。
同时,Brain团队也拥有大量类似的长期项目,并带来了对神经网络架构、训练方法等方面多样化、前沿的探索与创新。这些宝贵的基因同样融入了Gemini。
因此,可以说这两个组织的DNA在Gemini中完成了融合。在方法论上,正如我们今天所见,无论是数据驱动的无监督/预训练,还是强化学习,依然是未来模型持续创新的“沃土”。
回顾一些早期项目,当时外界并不总是理解我们在做什么,例如我们研究电子游戏的那段时间。但我们的目标始终是:开发能够广泛泛化的算法。
事实上,许多当年为其他领域开发的算法,如今可以直接应用在大语言模型上。这一点在当时对我们来说是显而易见的,但对业界而言可能并不明显。
例如,AlphaFold中使用的知识蒸馏、强化学习结合监督式自举(如同AlphaGo所用),这些方法与今天在大语言模型中的实践是高度一致的。这些技术在被不断发现、打磨、改进,而每一轮迭代都带来了新的能力提升。
我认为,从 2.5 到 3.0 的跃迁,无论是在预训练还是后训练上,都叠加了大量这样的改进,最终形成了一次相当显著的提升。
Logan Kilpatrick
我非常喜欢这个说法。我之后可能还会再提到这一点。
顺便说一句,我记得之前看到过一个 meme,不知道是 Jeff 还是 Oriol 发的,大概意思是:“是该扩展预训练,还是扩展后训练?”然后答案是同时狂按两个按钮。这个 meme 是谁的功劳?
Jeff Dean
我觉得是 Oriol 吧?
Oriol Vinyals
我好像听说过这个说法,但 meme 不是我做的。不过感谢 whoever 发了那个 meme,我其实没看到。
Jeff Dean
真正的“秘密”就是:更好的预训练,加上更好的后训练 。
Oriol Vinyals
对,这就是秘密。非常“机密”的秘密。
Noam Shazeer
我觉得有趣的一点在于:虽然我们只有一个统一的目标,但这是一个可以从非常多正交方向持续取得进展的问题 。
正如 Oriol 提到的,“加强预训练”“加强后训练”只是其中两个按钮。实际上还有很多这样的按钮,每一个都能从不同维度提升模型效果。
这恰恰非常适合一个拥有数百、上千名工程师和研究员的大型组织。你可能会觉得这么多人一起工作一定会一团乱麻,但事实证明,如果问题本身可以被拆解为多个正交方向,那么在十个方向上各取得一点突破,叠加起来就会产生巨大进展。
这正是 Google Brain 自下而上研究方式的优势,而它也与 DeepMind 更加聚焦长期目标的方式形成了非常好的互补。
Logan Kilpatrick
最近我在和一些人讨论一个问题,Corey 也从某种角度提到过——我这里用自己的方式转述,不代表他的原话:产品本身是否也是一种“规模化机制” ?
我们可以扩展模型规模、扩展预训练和后训练、使用测试时计算等等。但现在你会看到,很多评测开始引入“带工具的 benchmark”“带 agent harness 的 benchmark”。
我很好奇你们怎么看待“产品”在其中扮演的角色:它是否能反过来帮助提升模型本身的能力和交互闭环?这是不是你们正在思考的方向?
Noam Shazeer
我认为这非常有价值。我很喜欢在 Google 这样的全栈公司工作,从底层 AI 技术,一直到服务数十亿用户。
产品不仅能为训练提供数据和反馈,也能极大提升团队的动力。看到自己做的东西正在被真实用户使用,这本身就非常有意义。
Jeff Dean
我补充一点:当你的工作被大量用户使用时,这对人是极其有激励作用的。
这可以是直接的,比如 Gemini App;也可以是间接的,比如 Gemini API,被开发者使用,或者嵌入到各种 Google 产品中。
这正是我当初进入软件工程领域的原因之一,看到自己的工作被使用,是非常快乐的事情。少数人做出的成果,可以让数百万、数千万,甚至数十亿人受益。这是软件行业非常独特、其他职业很难拥有的体验。
Oriol Vinyals
我从稍微不同的角度补充一下。我们三个人本质上都是深度学习研究者,但你永远无法绕开真实世界。
历史上有无数例子:正是因为真实世界的需求,我们才不得不发明新的技术。比如在图像识别早期,我们发现图像并不会总是居中,于是需要设计能够处理这种情况的模型。
又比如文本是变长的,你无法直接把卷积网络套在可变长度的文本上,于是我们发展了循环网络、再到 Transformer。
今天也是一样。如果用户希望和聊天模型进行跨越多年的长期交互,那我们就必须从研究层面正面解决这个问题。
所以现实世界的需求本身,也在强迫我们不断创新。当然,这也与动力、影响力密切相关,我们做的事情确实重要,这让我们保持脚踏实地。
Jeff Dean
我再补充一点。除了关注“谁在用你的产品”,在一家全栈公司里,另一个巨大优势是:我们会非常深入地思考训练模型所依赖的基础设施 。
我们已经构建自己的 AI 加速芯片 TPU 超过十年了。这对两件事至关重要:一是让深度学习模型可以部署到更多产品场景中;二是支持模型训练规模的持续扩展。
早在 2012 年左右 Brain 团队成立初期,我们主要使用数据中心里的 CPU 训练模型。当时我们就训练出了一个规模是此前最大模型 50 倍的神经网络,在视觉和语音任务上都取得了惊人的效果。
但我们也很快意识到:如果要把这些模型服务给大量用户,仅靠当时的 CPU 或 GPU 是不够的,这直接促成了 TPU 项目的诞生。
此后,我们持续迭代 TPU,使其能够很好地支撑 Gemini 的大规模训练和推理服务。
Logan Kilpatrick
是的,我们现在真的是怎么都不够用 TPU,这确实是一个非常现实的瓶颈。
我不太清楚“Gemini 联合技术负责人”这个职位的精确岗位说明是什么,但我猜,对你们三位来说,工作中至少有一部分是要决定:下一步的关键技术下注点在哪里,我们要朝哪些方向走 。
Demis 多次提到过这样一个观点,我相信也有不少人认同:要真正走向 AGI,可能一定需要某种架构层面或模型层面的根本性突破 ,而不仅仅是持续的工程创新。
当然,我们也看到,每一次模型发布本身就包含了大量创新。比如如果你单看 Gemini 3 Flash 和 3 Pro,就会发现这并不是第一次被提到,Flash 在后训练配方上有一系列创新,使得它在某些基准上,尽管模型更小,但进步幅度甚至超过了 3 Pro。
所以我很好奇,你们是如何看待这种张力的:一方面,短期和中期存在一个极其丰富的改进空间;另一方面,我们是否需要为未来做出一些“根本性”的新下注,去争取真正通向 AGI 的突破?
还是说,其实我们可以沿着现有范式继续推进,只要不断踏实地做创新,就足够了?
不知道这个问题是否引起你们的共鸣,谁愿意先来回答?
Oriol Vinyals
我先来吧。
Logan Kilpatrick
Oriol,也许你可以顺便解释一下你常说的“drastic research(激进式研究)”是什么意思。
Oriol Vinyals
好的。关于“drastic research”这个词,其实挺有意思的,甚至有点“署名归属不清”。这是我和 Ilya 在 Brain 时代的一次讨论,他说是我发明的,因为我当时说“这是一个非常 drastic 的想法”,但我记得这个词是他先用的。总之不重要。
它的意思其实很简单:不是只做增量式思考,而是更超前地思考——真正需要发生什么,才能带来质变 。
当然话说回来,当一支非常强的团队把大量增量改进做到极致时,这些改进是会叠加成巨大进步的。
Gemini 就是一个例子,但对我来说更“极端”的例子其实是 AlphaFold。那个项目多年里几乎没有发论文,而是持续打磨架构、训练配方和每一个细节,始终围绕着一个大目标前进。
回头看,AlphaFold 的成功其实是大量技巧和“深度学习工程细节”的积累,并不一定依赖某个突然出现的、极端颠覆性的技术。Transformer 当时已经存在,本身就是一个非常强的架构。当然,Noam 可以更详细地讲 Transformer。
至于 AGI 到底需要什么,我认为严格地不断完善现有配方,也有可能就已经足够 。数据是存在的,潜力也在那里。
但与此同时,我们也不能排除未来会出现真正的“巨大跃迁”。
我个人的判断是:当前阶段,最大的突破空间很可能在后训练 。当然,我们三个人的看法未必完全一致。
不过,作为一个大型公司和大型项目,我们可以同时在多个方向下注,这本身也是我们的优势。
最后,关于“技术负责人”这个角色,我想补充一点:我们很大一部分工作,其实是筛选 。团队里每个人都非常聪明、非常有创造力。很多时候,我们并不是提出想法的人,而是判断哪些想法最有前景。
Noam Shazeer
谢谢 Oriol。确实,这是一个非常复杂的组合问题。
有大的突破,也有小的突破。关键在于:它们可以正交叠加,而且不会引入过多技术复杂性 ,这样我们才能不断继续往上叠。
你可以粗略地想象:也许一个“大突破”能给模型增加 1 个 IQ 点;一个“小突破”只能增加 0.1 个 IQ 点。但只要我们持续把这些叠加起来,进展就会非常巨大。
至于下一个“超级大突破”会不会出现?老实说,我觉得是 50/50。
但我们确实在很多方向上都看到了大量创新:后训练是重点,但预训练、模型架构、数据、下游应用等方向也都在持续推进。
Jeff Dean
我认为,保持一个风险组合非常重要 。一部分是更长期、更高风险、可能成功也可能失败的想法;另一部分是希望能进入下一代 Gemini 模型的、相对短期但同样重要的工作。
后者往往理解得更清楚,需要通过实验进一步验证,它们也许只能带来 1 分或 0.1 分的提升。但当你把很多这样的改进叠加起来,就能实现代际飞跃。
与此同时,我们也必须持续押注那些可能彻底改变现有范式的新方法 。
在 Gemini 项目启动之前,大概在 2018 年左右,我们开始意识到:为不同任务分别训练一大堆模型,可能并不是正确的方向。
于是我发起了 Pathways 项目,其核心目标是:
- 一个模型,能泛化到数百万个任务
- 能处理多模态输入和输出
- 模型不是完全稠密的,而是稀疏激活的
围绕这三个目标,我们不仅在模型上做探索,也搭建了底层的软件基础设施,以支持这种“稀疏、激活方式很奇怪”的模型规模化训练。
实际上,今天 Gemini 使用的正是 Pathways 这套基础设施。这三个目标,今天基本已经在 Gemini 的多个版本中实现了:一个模型可以做数百万件事,强多模态,并且在最新版本中大量采用稀疏激活。
所以,设定五年期目标,然后一步步朝它们推进 是非常有价值的。不是五年什么都不做,而是沿途不断取得阶段性成果。
现在,我们脑子里也已经有了关于未来五年的类似蓝图:下一步模型能力该如何演进。
Logan Kilpatrick
太棒了。Jeff,也许我们可以线下聊聊,把“未来五年的完整清单”拿出来看看。
Noam 和 Jeff 都提到了一个点:模型能力在很多维度上都在持续提升,可能是某个评测的一两个百分点,也可能是更细微的改进。
但与此同时,我们也看到某些领域在 6 到 12 个月内被迅速“吃穿”了。比如代码、推理、数学。年初时,“Humanity’s Last Exam(HLE)”这种 benchmark,最强模型的得分还是个位数百分比;现在已经出现了 50% 以上的模型。代码领域的 AIM benchmark 几乎已经被刷到接近 100%。
我很好奇:你们觉得这种趋势会持续吗?还是说,代码、推理、数学这些领域,本身就有某些特性,使得进展会特别快,而其他领域(比如生物学)就没那么容易?
Noam Shazeer
我先说说代码吧。我觉得大家已经意识到代码领域极其有价值 。可能我们作为工程师有点“近视”,因为它直接帮助了我们自己。
但说实话,我本人就非常感谢 Gemini 在加速我的编程工作。
而且这不仅是“我们觉得有用”,而是代码能力可以被用于构建极其高价值的东西,比如继续构建 AI 本身。
Jeff Dean
我再补充一个关于数学的例子。两年前,模型在 GSM8K(中学数学题)上都表现得很吃力,比如:“Fred 有 5 只兔子,从两个朋友那里各拿到 1 只,现在有几只?”
而现在,我们已经有模型能在 IMO(国际数学奥林匹克)这种难度极高的竞赛中拿到金牌。
这充分说明:后训练和强化学习在可验证领域(如数学和代码)里非常有效 。
原因在于:在这些领域,我们可以生成候选答案,并且明确地验证对错。 数学可以用定理证明,代码可以运行、编译、跑单元测试。而真正的挑战在于那些“模糊领域”:比如生物问题,或者“帮我规划一次旧金山旅行”这种开放式任务。这些问题没有清晰的奖励函数或对错判断。
我认为,未来几年一个重要方向就是:如何让这些开放式领域的进展,像数学和代码一样快 。
Logan Kilpatrick
这也让我联想到当前的 Flash 时刻。显然,蒸馏已经非常成功。我们有一个极其强大的“教师模型”,然后把能力蒸馏到 Flash 这样的更小模型中。
Oriol,我很好奇你怎么看这个问题:在速度、效率、成本和智能之间做权衡时,我们的心智模型是不是Pro 模型完全不做妥协,反正以后可以再蒸馏?在多条研究主线并行的情况下,Pro 的决策是否最终决定了 Flash 能达到的上限?比如现在的 Gemini 3 Flash。
Oriol Vinyals
这是一个非常好的问题。回到 Gemini 项目最初的设计,Jeff 可能还记得最早的那些幻灯片:
从一开始我们就明确,Gemini 会同时有两个运行点 :
- 一个是:最大智能,不做任何妥协
- 另一个是:更强可部署性,但不追求绝对前沿智能
这种划分方式非常有帮助,而且我认为短期内不需要改变。
但现实发生的事情是:一代一代下来,新的 Flash 模型,往往已经能达到甚至超过上一代 Pro 的水平 。
也就是说,在固定模型规模或延迟条件下,智能水平在持续上升。当然,在最大规模下,Pro 仍然会在某些 Flash 难以触及的能力上保持领先。
这最终变成了一个用户问题:你到底需要什么?很多用户可能会选择 Pro,因为他们不想每次都猜“这个问题 Flash 行不行”。
与此同时,我们也把蒸馏这件事做得非常成熟了。我和 Jeff 经常提醒大家,这其实是一篇当年被拒稿的论文 ,但它一次次证明了自己的价值。
我认为,两种模型之间的差距不一定会变成 0,但很可能会小到一个程度:Pro 的主要作用,就是用来“生成”Flash 。
当然,我们可能仍然希望把 Pro 直接交给某些用户。但从长期来看,能以最低成本提供前沿智能,是一个非常理想的状态。
老实说,随着 Gemini 3.0 的进展,我们已经离这个目标非常接近了。这真的非常令人兴奋。
Jeff Dean
我补充一点。我们也在做端侧模型 ,比如用于 Pixel 手机等设备的模型,这类场景会有额外的约束,比如内存规模 等。
我认为延迟作为模型质量指标被严重低估了 。能够在极低延迟下,依然具备很强推理能力、可以处理复杂问题的系统,是非常非常重要的。
延迟可以从不同层面来优化:
- 一方面是模型层面的优化 ,通过架构设计让模型天然更快;
- 另一方面是硬件层面的决策 ,让某些模型在未来的硬件平台上运行得特别高效。
延迟和推理阶段算力的另一个关键意义在于:它让你可以在固定的延迟预算内,把模型“变得更聪明”。
如果模型本身快 5 倍,你可以选择:
- 直接快 5 倍给出答案;
- 或者让模型“多思考一会儿”,得到更好的答案,同时仍然比原来快 2.5 倍。
如果你有非常强大的硬件,再配合通过蒸馏得到的、轻量但能力依然很强的模型,这是一个必须持续投入的重要方向。
Noam Shazeer
我想补充一点。如果我们真的能做到这样,其实是一种非常理想的工作方式:
- 在训练 Pro 模型 时,尽量不去在意推理性能,专注于智能本身 ;
- 然后在 Flash 模型 上,重点优化延迟、成本和吞吐量 。
这让我想起我大学时的一位计算机教授,杜克大学的 Owen Astrachan。他常说一句话:
“先让它跑起来(make it run),再让它正确(make it right),然后让它快(make it fast),最后让它小(make it small)。”
这基本就是软件开发和调试的顺序。而现在在模型上似乎发生了类似的事情:先让模型能跑、再让它聪明、再让它快、再让它便宜。
看起来,很多“老智慧”仍然在发挥作用。
Jeff Dean
我很喜欢这个说法。确实,不同的使用场景需求差异很大:
* 有些场景追求绝对最好的质量,并不太在意延迟;
* 还有很多场景需要更快、更便宜的模型,用于高频、规模化的使用。
这正是我们常说的帕累托前沿:我们希望给用户提供多个选择。
理想情况下,用户最好不用太纠结:“这个请求我该用 Pro,还是 Flash?”
但同时,提供一个连续的选择区间,我认为是非常有价值的。
Logan Kilpatrick
完全同意。我可以分享一个具体例子:我们在 AI Studio 里针对 vibe coding 这个用例,悄悄做了一些 Flash 模型和 Pro 模型的对比测试。
结果很明显:即便 Flash 在智能上略逊一筹,但由于延迟更低、反馈更快,用户反而写得更多、留存更高。因为没人愿意一直等。
我昨晚还看到一条评论,有人说自己以前一直是“永远用最聪明的模型、愿意等待”的那一派,这点也呼应了你刚才的观点,Oriol。
但在用了 Gemini 3 Flash 之后,他重新评估了这个立场,因为迭代速度实在太快了,在很多情况下,哪怕牺牲一点点智能也是值得的。
Jeff Dean
是的。其实在 Google 非常早期的时候,我们就极度重视搜索结果页面的响应速度,因为我们知道:低延迟是一种极其令人愉悦的用户体验。搜索越快,人们就会搜得越多。
Oriol Vinyals
还有一个很直观的现实是:我们依然处在人类在环(human-in-the-loop)的阶段,所以我们并不会对等待和延迟免疫。
另一个非常令人兴奋、而且即将到来的应用场景是机器人。在机器人领域,你需要模型去控制和操作真实世界的设备,这里有物理层面的硬约束。
我非常确信,对小而强模型的投入只会持续增加。我们对目前的进展本身也感到非常兴奋。
模型并不缺“聪明”,缺的是“持续学习”
Logan Kilpatrick
回到我们之前关于“面向未来的技术赌注”的讨论,最近大家也谈了很多自我改进、持续学习之类的话题。
在不泄露任何“秘方”的前提下,我很好奇:这些方向在 Gemini 里更多是偏研究探索,还是已经开始进入产品或工程视野?目前整个领域大概处在一个怎样的成熟度区间?Oriol,你怎么看?
Oriol Vinyals
这是一个非常“老派深度学习者”的问题。从历史上看,神经网络的发展中,有些地方一直让我觉得不够优雅、也不够合理。
比如课程学习,我们现在是把各种难度的数据混在一个 batch 里训练模型,而人类学习通常是先学简单的,再学困难的。这是一个我们做过一点、但远远不够的方向。
另一个多年来一直困扰我的问题是:我们训练完模型、冻结权重、然后部署,部署后就再也不学习了。
AlphaFold 不会从用户那里学习,AlphaGo 也不会从自己下过的棋局中继续学习。至少在权重层面,这些系统在部署后是“静态的”。
这些显然都是非常深层次、非常重要的改进方向。随着我们逐渐接近 AGI,你会自然期待持续学习、情境学习这类能力出现。
举个例子,Demis 很喜欢和模型下棋。模型其实应该意识到:“我下得还不够好。”然后它应该自己花一周时间专门学习国际象棋,再回来对 Demis 说:“我准备好了。”然后击败他。
这里有大量令人兴奋、同时也是经典的开放问题。这说明它们不会容易,但我相信我们会做到。
Jeff Dean
顺着持续学习这个话题说一句,其实预训练本身就有点“反直觉”,至少和人类学习方式相比是这样。
现在的做法是:我们随机初始化一个模型,把它“绑在板子上”,然后把海量文本、图片、视频流式地灌给它。最后再说:“好了,你现在可以开始在世界里行动,学数学、学编程了。”
这种方式下,每个 token 所包含的信息密度其实很低。
如果模型能在环境中采取行动、观察后果、主动决定下一步关注什么:比如它想学棋,就主动去读棋谱;想学微积分,就去找相关内容——那会更像人类的学习过程。这是一条非常值得作为长期技术赌注去探索的方向。
Noam Shazeer
我并不是要否定“大规模流式训练”。我们不仅仅是在把数据流过模型,而是让模型对每一个 token 都做下一词预测,而且规模是万亿级 token。
一个人一生可能只接触到十亿级别的语言 token,但通过预测别人接下来要说什么,人类确实能学到很多东西。
我们给模型提供的数据量是人类的成千上万倍,这当然极其有价值。
但我也同意 Jeff 的观点:如果我们能把大量计算资源集中投入到最重要、最有价值的方向,无论是治愈癌症、构建编程智能体,还是其他重大问题,那会非常有意义。
这也是为什么我赞同 Oriol 的判断:未来很多大的进展,很可能来自后训练阶段。
Logan Kilpatrick
我很喜欢这个结论,感觉我们两种方式都需要。
某种程度上,人类本身就“继承”了进化过程中形成的生物学先验,而大规模 token 流式训练,可能只是一个很粗糙的代理。
Jeff Dean
是的。正如 Noam 说的,大规模流式训练已经被证明非常有效,我完全不想否定它。
但另一方面,人类一生看到的 token 数量远少于模型,却能达到很高的能力水平。这说明,可能存在一种比现在高 1000 倍甚至 10000 倍的数据效率学习方式。
我认为关键在于:人类会思考行动的后果、观察反馈,这种方式更偏向强化学习,而不仅仅是预测下一个 token。
总结:多模态进展、超长上下文、通用模型能力提升
Logan Kilpatrick
太棒了。我们时间差不多了,最后想问一圈:回顾 Gemini 过去两年的发展,有没有哪些出乎意料的地方?不管是进展比预期快的,还是慢的,或者某些意想不到的结果。
Jeff Dean
整体来看,最让我欣喜的是多个方向同时取得进展。
视频和图像生成能力的提升尤其明显,而且它们越来越多地和主模型融合在一起,让模型可以进行视觉推理。
你可以看到生成结果,然后说:“不对,我想要的是这个图像的一个小改动。”这种交互非常自然。
另一个我认为被低估的能力是超长上下文。当你把大量数据放进上下文窗口时,这些信息对模型来说是非常“清晰”的,它们以 KV cache 的形式存在。
相比之下,训练数据已经被“搅拌”进数十亿参数中,对模型来说是模糊的。
我觉得长上下文能力还远没有被充分利用。我们正在探索的一条方向是:如何让用户感觉自己仿佛拥有对数十亿甚至万亿 token 的注意力能力,就像把大半个互联网、海量视频放进了上下文窗口里。
Oriol Vinyals
对我来说,最意外的是:我们曾经有一个专门做竞赛编程的项目 AlphaCode,是高度特化的系统。
但现在,用通用模型,我们却在数学和编程竞赛中拿到了金牌,而且没有为这些领域做特别定制。这一点非常让我惊讶。
我当时反复提醒团队:这必须是模型本身的能力,而不是某个临时分支、达成目标后就丢掉的东西。结果他们真的做到了。这可能是过去几年里最“激进”的惊喜。
Noam Shazeer
从理性上说,我并不完全惊讶——早在 2018、2020 年,就能预见模型会越来越聪明。
但从情感上说,看到这一切真的发生了,还是非常震撼。你现在可以直接跟模型对话,让它帮你算数学、写代码,而且有成百上千万的人对 AI 感到兴奋。
这真的非常有趣,我也非常期待接下来会发生的事情,希望它能给世界带来更多正向影响。
Logan Kilpatrick
太完美的结尾了。Jeff、Oriol、Noam,非常感谢你们抽时间参与。
也感谢大家的收听,希望你们喜欢新的 Gemini 模型。如果有问题或反馈,随时联系我们。我们会继续“推石头上山”,给大家带来更好的模型和产品。希望明年初还能和大家一起迎来更多有趣的发布。
参考链接:
https://x.com/JeffDean/status/2001692889299206519
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/14093
