Gemini负责人揭秘：Pro模型竟是Flash的“蒸馏器”，后训练与持续学习成AI进化新战场

2025年底，AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度，其智能表现不仅全面超越了前代Gemini 2.5 Pro，甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2，表现令人惊艳。

就在近日，Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean、Noam Shazeer——与谷歌AI Studio的产品负责人Logan Kilpatrick罕见同台，进行了一场深度对话。

这三位嘉宾在业界举足轻重：Oriol Vinyals是谷歌DeepMind的研究副总裁兼深度学习负责人；“传奇院士”Jeff Dean是谷歌首席科学家；而Noam Shazeer则是Transformer架构的论文作者之一，同时也是Gemini项目的联合负责人。

Gemini负责人揭秘：Pro模型竟是Flash的“蒸馏器”，后训练与持续学习成AI进化新战场

在对话中，三位负责人透露：

如今新一代的Flash模型，其能力往往已经能达到甚至超越上一代Pro模型的水平。

Oriol Vinyals更是直言：Pro模型的主要作用之一，就是用来“蒸馏”出Flash模型。他认为，即便在智能上做出些许妥协，更快、更经济的模型对用户而言至关重要。因此，对于Flash这类“小而强”的模型，团队将持续加大投入。

Logan Kilpatrick也分享了一项内部测试：在谷歌AI Studio中，针对 vibe coding 这一用例，团队对比了Flash模型与Pro模型的表现。结果发现，尽管Flash在智能上略逊一筹，但得益于其更低的延迟和更快的反馈速度，用户反而编写了更多代码、留存率也更高。这印证了速度体验的重要性，也说明了Flash模型为何广受欢迎。

此外，他们还探讨了Gemini过去一年的整体进展、内部训练细节、在Pro与Flash版本间的权衡，以及模型未来演进的关键方向。

Jeff Dean透露，Gemini目前的基础架构基于他于2018年提出的Pathway架构，该架构主要围绕三个目标构建：单一模型能泛化至数百万个任务、具备强大的多模态能力，并采用稀疏激活机制。他表示，Gemini目前已基本实现了这些目标，并且谷歌内部已经为Gemini制定了下一个“五年计划”，以规划其能力的持续演进。

在Gemini 3发布之初，Oriol Vinyals曾在社交平台X上表示，Gemini 3的核心突破在于提升了预训练与后训练的质量，并指出后训练领域仍是一片潜力巨大的“未开垦绿地”。

在此次对话中，他再次强调，当前阶段最大的突破空间很可能就在于后训练环节。

Jeff Dean则认为，在代码、推理和数学等领域的某些基准测试上，模型能力已接近瓶颈；但在“帮我规划一次旧金山旅行”这类开放式、复杂的现实任务上，模型仍有巨大的提升空间。

同时，Noam Shazeer与Jeff Dean都指出，模型的规模固然重要，但它已不再是决定性能的唯一变量。相比之下，模型的持续学习能力将成为未来重要的改进方向。

Gemini的起源：Google Brain与DeepMind的融合

Logan Kilpatrick：
目前已有不少用户试用并测试了Gemini 3 Flash，反馈非常积极，势头强劲。此前我们发布了Gemini 3 Pro，现在整个项目都在加速推进。

Jeff、Oriol、Noam，你们三位是Gemini的联合技术负责人，共同引领着项目方向。或许我们可以从Jeff开始，请你从个人视角谈谈：在Gemini 3 Flash和3 Pro发布的当下，我们正处于怎样的阶段？以及最近这段时间，团队是如何走到今天这一步的？

Jeff Dean：
当然。我们对Gemini 3系列模型感到非常兴奋，无论是几周前发布的Pro版本，还是昨天发布的Flash版本。

正如你所说，我、Oriol和Noam是Gemini项目的三位联合技术负责人。我们已合作多年，一直配合得非常愉快。

回顾Gemini项目的起源，它源于我的一个观察：在谷歌内部，我们在大语言模型规模化方面已取得诸多优秀成果；Google Brain（当时隶属于Google Research）也在推进多模态模型的研究；与此同时，Oriol所在的DeepMind团队也在进行类似的工作。

但问题在于，这些顶尖的人才和研究成果是分散的，计算资源也同样分散。我认为，如果我们能真正整合力量，作为一个统一的团队协作，效果会好得多。这就是Gemini团队和项目的起点——这发生在Gemini 1.0发布前不久。

此后，看着模型一代代演进非常有意思：从Gemini 1.5、2.0、2.5，到几周前发布的Gemini 3 Pro，再到本周的Gemini 3 Flash。我们对此都倍感振奋。

当然，我们也必须学会如何跨越地域、在多个地点高效协作，这本身就是一个学习过程。但我认为我们现在已经真正进入了状态。大约从一年前的2.5系列开始，到现在的3系列，我们明显找到了自己的节奏。

Logan Kilpatrick：
我非常认同这一点。看到来自Brain、DeepMind、Google Research的人才真正融合，并取得如此快速的进展，确实非常酷。

Oriol，我也很好奇你从个人视角如何看待这个问题，尤其是历史上Brain和DeepMind在研究方法上存在的差异。

我个人在观看《The Thinking Game》这部纪录片时，一个强烈的感受是：DeepMind在十年前解决的问题，以及后来AlphaFold面临的挑战，与我们今天在Gemini上遇到的难题非常相似。

其中让我印象最深的是数据问题：例如，人类真实标注的蛋白质折叠数据极其稀缺，团队必须通过各种方法“合成性地放大数据规模”。我很好奇，这种思路与你们今天所处的强化学习、“测试时计算”等范式之间，有多少相似性？你觉得当年那些挑战与当前阶段之间，存在多大的连续性？

Oriol Vinyals：
或许我可以从一个更宏观的角度来回答。

在组织层面，我个人非常幸运：多年前我曾在Brain团队工作，后来我搬到伦敦，加入了DeepMind。因此，我亲身经历了这两种研究文化在早期的差异。当然，正是我和Jeff之间的联系，最终帮助我们启动了Gemini项目，将这两个团队再次结合了起来。

从研究方式上看，尤其是DeepMind的早期文化，有一个非常鲜明的特点：明确的长期目标、宏大的愿景，以及“不解决问题誓不罢休”的项目周期。这种精神其实深刻地烙印在Gemini的起点上——Gemini的目标是构建AGI，是“解决智能”这个根本问题，我们是为长期使命而来。3.0版本很棒，但它绝非终点。

同时，Brain团队也拥有大量类似的长期项目，并带来了对神经网络架构、训练方法等方面多样化、前沿的探索与创新。这些宝贵的基因同样融入了Gemini。

因此，可以说这两个组织的DNA在Gemini中完成了融合。在方法论上，正如我们今天所见，无论是数据驱动的无监督/预训练，还是强化学习，依然是未来模型持续创新的“沃土”。

回顾一些早期项目，当时外界并不总是理解我们在做什么，例如我们研究电子游戏的那段时间。但我们的目标始终是：开发能够广泛泛化的算法。

事实上，许多当年为其他领域开发的算法，如今可以直接应用在大语言模型上。这一点在当时对我们来说是显而易见的，但对业界而言可能并不明显。

例如，AlphaFold中使用的知识蒸馏、强化学习结合监督式自举（如同AlphaGo所用），这些方法与今天在大语言模型中的实践是高度一致的。这些技术在被不断发现、打磨、改进，而每一轮迭代都带来了新的能力提升。

我认为，从 2.5 到 3.0 的跃迁，无论是在预训练还是后训练上，都叠加了大量这样的改进，最终形成了一次相当显著的提升。

Logan Kilpatrick

我非常喜欢这个说法。我之后可能还会再提到这一点。

顺便说一句，我记得之前看到过一个 meme，不知道是 Jeff 还是 Oriol 发的，大概意思是：“是该扩展预训练，还是扩展后训练？”然后答案是同时狂按两个按钮。这个 meme 是谁的功劳？

Jeff Dean

我觉得是 Oriol 吧？

Oriol Vinyals

我好像听说过这个说法，但 meme 不是我做的。不过感谢 whoever 发了那个 meme，我其实没看到。

Jeff Dean

真正的“秘密”就是：更好的预训练，加上更好的后训练 。

Oriol Vinyals

对，这就是秘密。非常“机密”的秘密。

Noam Shazeer

我觉得有趣的一点在于：虽然我们只有一个统一的目标，但这是一个可以从非常多正交方向持续取得进展的问题 。

正如 Oriol 提到的，“加强预训练”“加强后训练”只是其中两个按钮。实际上还有很多这样的按钮，每一个都能从不同维度提升模型效果。

这恰恰非常适合一个拥有数百、上千名工程师和研究员的大型组织。你可能会觉得这么多人一起工作一定会一团乱麻，但事实证明，如果问题本身可以被拆解为多个正交方向，那么在十个方向上各取得一点突破，叠加起来就会产生巨大进展。

这正是 Google Brain 自下而上研究方式的优势，而它也与 DeepMind 更加聚焦长期目标的方式形成了非常好的互补。

Logan Kilpatrick

最近我在和一些人讨论一个问题，Corey 也从某种角度提到过——我这里用自己的方式转述，不代表他的原话：产品本身是否也是一种“规模化机制” ？

我们可以扩展模型规模、扩展预训练和后训练、使用测试时计算等等。但现在你会看到，很多评测开始引入“带工具的 benchmark”“带 agent harness 的 benchmark”。
我很好奇你们怎么看待“产品”在其中扮演的角色：它是否能反过来帮助提升模型本身的能力和交互闭环？这是不是你们正在思考的方向？

Noam Shazeer

我认为这非常有价值。我很喜欢在 Google 这样的全栈公司工作，从底层 AI 技术，一直到服务数十亿用户。

产品不仅能为训练提供数据和反馈，也能极大提升团队的动力。看到自己做的东西正在被真实用户使用，这本身就非常有意义。

Jeff Dean

我补充一点：当你的工作被大量用户使用时，这对人是极其有激励作用的。

这可以是直接的，比如 Gemini App；也可以是间接的，比如 Gemini API，被开发者使用，或者嵌入到各种 Google 产品中。

这正是我当初进入软件工程领域的原因之一，看到自己的工作被使用，是非常快乐的事情。少数人做出的成果，可以让数百万、数千万，甚至数十亿人受益。这是软件行业非常独特、其他职业很难拥有的体验。

Oriol Vinyals

我从稍微不同的角度补充一下。我们三个人本质上都是深度学习研究者，但你永远无法绕开真实世界。

历史上有无数例子：正是因为真实世界的需求，我们才不得不发明新的技术。比如在图像识别早期，我们发现图像并不会总是居中，于是需要设计能够处理这种情况的模型。
又比如文本是变长的，你无法直接把卷积网络套在可变长度的文本上，于是我们发展了循环网络、再到 Transformer。

今天也是一样。如果用户希望和聊天模型进行跨越多年的长期交互，那我们就必须从研究层面正面解决这个问题。
所以现实世界的需求本身，也在强迫我们不断创新。当然，这也与动力、影响力密切相关，我们做的事情确实重要，这让我们保持脚踏实地。

Jeff Dean

我再补充一点。除了关注“谁在用你的产品”，在一家全栈公司里，另一个巨大优势是：我们会非常深入地思考训练模型所依赖的基础设施 。

我们已经构建自己的 AI 加速芯片 TPU 超过十年了。这对两件事至关重要：一是让深度学习模型可以部署到更多产品场景中；二是支持模型训练规模的持续扩展。

早在 2012 年左右 Brain 团队成立初期，我们主要使用数据中心里的 CPU 训练模型。当时我们就训练出了一个规模是此前最大模型 50 倍的神经网络，在视觉和语音任务上都取得了惊人的效果。

但我们也很快意识到：如果要把这些模型服务给大量用户，仅靠当时的 CPU 或 GPU 是不够的，这直接促成了 TPU 项目的诞生。
此后，我们持续迭代 TPU，使其能够很好地支撑 Gemini 的大规模训练和推理服务。

Logan Kilpatrick

是的，我们现在真的是怎么都不够用 TPU，这确实是一个非常现实的瓶颈。

我不太清楚“Gemini 联合技术负责人”这个职位的精确岗位说明是什么，但我猜，对你们三位来说，工作中至少有一部分是要决定：下一步的关键技术下注点在哪里，我们要朝哪些方向走 。

Demis 多次提到过这样一个观点，我相信也有不少人认同：要真正走向 AGI，可能一定需要某种架构层面或模型层面的根本性突破 ，而不仅仅是持续的工程创新。

当然，我们也看到，每一次模型发布本身就包含了大量创新。比如如果你单看 Gemini 3 Flash 和 3 Pro，就会发现这并不是第一次被提到，Flash 在后训练配方上有一系列创新，使得它在某些基准上，尽管模型更小，但进步幅度甚至超过了 3 Pro。

所以我很好奇，你们是如何看待这种张力的：一方面，短期和中期存在一个极其丰富的改进空间；另一方面，我们是否需要为未来做出一些“根本性”的新下注，去争取真正通向 AGI 的突破？
还是说，其实我们可以沿着现有范式继续推进，只要不断踏实地做创新，就足够了？

不知道这个问题是否引起你们的共鸣，谁愿意先来回答？

Oriol Vinyals

我先来吧。

Logan Kilpatrick

Oriol，也许你可以顺便解释一下你常说的“drastic research（激进式研究）”是什么意思。

Oriol Vinyals

好的。关于“drastic research”这个词，其实挺有意思的，甚至有点“署名归属不清”。这是我和 Ilya 在 Brain 时代的一次讨论，他说是我发明的，因为我当时说“这是一个非常 drastic 的想法”，但我记得这个词是他先用的。总之不重要。

它的意思其实很简单：不是只做增量式思考，而是更超前地思考——真正需要发生什么，才能带来质变 。

当然话说回来，当一支非常强的团队把大量增量改进做到极致时，这些改进是会叠加成巨大进步的。

Gemini 就是一个例子，但对我来说更“极端”的例子其实是 AlphaFold。那个项目多年里几乎没有发论文，而是持续打磨架构、训练配方和每一个细节，始终围绕着一个大目标前进。

回头看，AlphaFold 的成功其实是大量技巧和“深度学习工程细节”的积累，并不一定依赖某个突然出现的、极端颠覆性的技术。Transformer 当时已经存在，本身就是一个非常强的架构。当然，Noam 可以更详细地讲 Transformer。

至于 AGI 到底需要什么，我认为严格地不断完善现有配方，也有可能就已经足够 。数据是存在的，潜力也在那里。
但与此同时，我们也不能排除未来会出现真正的“巨大跃迁”。

我个人的判断是：当前阶段，最大的突破空间很可能在后训练 。当然，我们三个人的看法未必完全一致。

不过，作为一个大型公司和大型项目，我们可以同时在多个方向下注，这本身也是我们的优势。

最后，关于“技术负责人”这个角色，我想补充一点：我们很大一部分工作，其实是筛选。团队里每个人都非常聪明、非常有创造力。很多时候，我们并不是提出想法的人，而是判断哪些想法最有前景。

Noam Shazeer

谢谢 Oriol。确实，这是一个非常复杂的组合问题。

有大的突破，也有小的突破。关键在于：它们可以正交叠加，而且不会引入过多技术复杂性 ，这样我们才能不断继续往上叠。

你可以粗略地想象：也许一个“大突破”能给模型增加 1 个 IQ 点；一个“小突破”只能增加 0.1 个 IQ 点。但只要我们持续把这些叠加起来，进展就会非常巨大。

至于下一个“超级大突破”会不会出现？老实说，我觉得是 50/50。
但我们确实在很多方向上都看到了大量创新：后训练是重点，但预训练、模型架构、数据、下游应用等方向也都在持续推进。

Jeff Dean

我认为，保持一个风险组合非常重要 。一部分是更长期、更高风险、可能成功也可能失败的想法；另一部分是希望能进入下一代 Gemini 模型的、相对短期但同样重要的工作。

后者往往理解得更清楚，需要通过实验进一步验证，它们也许只能带来 1 分或 0.1 分的提升。但当你把很多这样的改进叠加起来，就能实现代际飞跃。

与此同时，我们也必须持续押注那些可能彻底改变现有范式的新方法 。

在 Gemini 项目启动之前，大概在 2018 年左右，我们开始意识到：为不同任务分别训练一大堆模型，可能并不是正确的方向。

于是我发起了 Pathways 项目，其核心目标是：

一个模型，能泛化到数百万个任务
能处理多模态输入和输出
模型不是完全稠密的，而是稀疏激活的

围绕这三个目标，我们不仅在模型上做探索，也搭建了底层的软件基础设施，以支持这种“稀疏、激活方式很奇怪”的模型规模化训练。

实际上，今天 Gemini 使用的正是 Pathways 这套基础设施。这三个目标，今天基本已经在 Gemini 的多个版本中实现了：一个模型可以做数百万件事，强多模态，并且在最新版本中大量采用稀疏激活。

所以，设定五年期目标，然后一步步朝它们推进 是非常有价值的。不是五年什么都不做，而是沿途不断取得阶段性成果。

现在，我们脑子里也已经有了关于未来五年的类似蓝图：下一步模型能力该如何演进。

Logan Kilpatrick

太棒了。Jeff，也许我们可以线下聊聊，把“未来五年的完整清单”拿出来看看。

Noam 和 Jeff 都提到了一个点：模型能力在很多维度上都在持续提升，可能是某个评测的一两个百分点，也可能是更细微的改进。

但与此同时，我们也看到某些领域在 6 到 12 个月内被迅速“吃穿”了。比如代码、推理、数学。年初时，“Humanity’s Last Exam（HLE）”这种 benchmark，最强模型的得分还是个位数百分比；现在已经出现了 50% 以上的模型。代码领域的 AIM benchmark 几乎已经被刷到接近 100%。

我很好奇：你们觉得这种趋势会持续吗？还是说，代码、推理、数学这些领域，本身就有某些特性，使得进展会特别快，而其他领域（比如生物学）就没那么容易？

Noam Shazeer

我先说说代码吧。我觉得大家已经意识到代码领域极其有价值 。可能我们作为工程师有点“近视”，因为它直接帮助了我们自己。

但说实话，我本人就非常感谢 Gemini 在加速我的编程工作。
而且这不仅是“我们觉得有用”，而是代码能力可以被用于构建极其高价值的东西，比如继续构建 AI 本身。

Jeff Dean

我再补充一个关于数学的例子。两年前，模型在 GSM8K（中学数学题）上都表现得很吃力，比如：“Fred 有 5 只兔子，从两个朋友那里各拿到 1 只，现在有几只？”

而现在，我们已经有模型能在 IMO（国际数学奥林匹克）这种难度极高的竞赛中拿到金牌。

这充分说明：后训练和强化学习在可验证领域（如数学和代码）里非常有效 。

原因在于：在这些领域，我们可以生成候选答案，并且明确地验证对错。 数学可以用定理证明，代码可以运行、编译、跑单元测试。而真正的挑战在于那些“模糊领域”：比如生物问题，或者“帮我规划一次旧金山旅行”这种开放式任务。这些问题没有清晰的奖励函数或对错判断。
我认为，未来几年一个重要方向就是：如何让这些开放式领域的进展，像数学和代码一样快 。

Logan Kilpatrick

这也让我联想到当前的 Flash 时刻。显然，蒸馏已经非常成功。我们有一个极其强大的“教师模型”，然后把能力蒸馏到 Flash 这样的更小模型中。

Oriol，我很好奇你怎么看这个问题：在速度、效率、成本和智能之间做权衡时，我们的心智模型是不是Pro 模型完全不做妥协，反正以后可以再蒸馏？在多条研究主线并行的情况下，Pro 的决策是否最终决定了 Flash 能达到的上限？比如现在的 Gemini 3 Flash。

Oriol Vinyals

这是一个非常好的问题。回到 Gemini 项目最初的设计，Jeff 可能还记得最早的那些幻灯片：
从一开始我们就明确，Gemini 会同时有两个运行点 ：

一个是：最大智能，不做任何妥协
另一个是：更强可部署性，但不追求绝对前沿智能

这种划分方式非常有帮助，而且我认为短期内不需要改变。

但现实发生的事情是：一代一代下来，新的 Flash 模型，往往已经能达到甚至超过上一代 Pro 的水平 。
也就是说，在固定模型规模或延迟条件下，智能水平在持续上升。当然，在最大规模下，Pro 仍然会在某些 Flash 难以触及的能力上保持领先。

这最终变成了一个用户问题：你到底需要什么？很多用户可能会选择 Pro，因为他们不想每次都猜“这个问题 Flash 行不行”。

与此同时，我们也把蒸馏这件事做得非常成熟了。我和 Jeff 经常提醒大家，这其实是一篇当年被拒稿的论文 ，但它一次次证明了自己的价值。

我认为，两种模型之间的差距不一定会变成 0，但很可能会小到一个程度：Pro 的主要作用，就是用来“生成”Flash 。

当然，我们可能仍然希望把 Pro 直接交给某些用户。但从长期来看，能以最低成本提供前沿智能，是一个非常理想的状态。

老实说，随着 Gemini 3.0 的进展，我们已经离这个目标非常接近了。这真的非常令人兴奋。

Jeff Dean

我补充一点。我们也在做端侧模型 ，比如用于 Pixel 手机等设备的模型，这类场景会有额外的约束，比如内存规模 等。

我认为延迟作为模型质量指标被严重低估了 。能够在极低延迟下，依然具备很强推理能力、可以处理复杂问题的系统，是非常非常重要的。

延迟可以从不同层面来优化：

一方面是模型层面的优化 ，通过架构设计让模型天然更快；
另一方面是硬件层面的决策 ，让某些模型在未来的硬件平台上运行得特别高效。

延迟和推理阶段算力的另一个关键意义在于：它让你可以在固定的延迟预算内，把模型“变得更聪明”。

如果模型本身快 5 倍，你可以选择：

直接快 5 倍给出答案；
或者让模型“多思考一会儿”，得到更好的答案，同时仍然比原来快 2.5 倍。

如果你有非常强大的硬件，再配合通过蒸馏得到的、轻量但能力依然很强的模型，这是一个必须持续投入的重要方向。

Noam Shazeer

我想补充一点。如果我们真的能做到这样，其实是一种非常理想的工作方式：

在训练 Pro 模型 时，尽量不去在意推理性能，专注于智能本身 ；
然后在 Flash 模型 上，重点优化延迟、成本和吞吐量 。

这让我想起我大学时的一位计算机教授，杜克大学的 Owen Astrachan。他常说一句话：
“先让它跑起来（make it run），再让它正确（make it right），然后让它快（make it fast），最后让它小（make it small）。”

这基本就是软件开发和调试的顺序。而现在在模型上似乎发生了类似的事情：先让模型能跑、再让它聪明、再让它快、再让它便宜。
看起来，很多“老智慧”仍然在发挥作用。

Jeff Dean

我很喜欢这个说法。确实，不同的使用场景需求差异很大：
* 有些场景追求绝对最好的质量，并不太在意延迟；
* 还有很多场景需要更快、更便宜的模型，用于高频、规模化的使用。

这正是我们常说的帕累托前沿：我们希望给用户提供多个选择。
理想情况下，用户最好不用太纠结：“这个请求我该用 Pro，还是 Flash？”
但同时，提供一个连续的选择区间，我认为是非常有价值的。

Logan Kilpatrick

完全同意。我可以分享一个具体例子：我们在 AI Studio 里针对 vibe coding 这个用例，悄悄做了一些 Flash 模型和 Pro 模型的对比测试。
结果很明显：即便 Flash 在智能上略逊一筹，但由于延迟更低、反馈更快，用户反而写得更多、留存更高。因为没人愿意一直等。
我昨晚还看到一条评论，有人说自己以前一直是“永远用最聪明的模型、愿意等待”的那一派，这点也呼应了你刚才的观点，Oriol。
但在用了 Gemini 3 Flash 之后，他重新评估了这个立场，因为迭代速度实在太快了，在很多情况下，哪怕牺牲一点点智能也是值得的。

Jeff Dean

是的。其实在 Google 非常早期的时候，我们就极度重视搜索结果页面的响应速度，因为我们知道：低延迟是一种极其令人愉悦的用户体验。搜索越快，人们就会搜得越多。

Oriol Vinyals

还有一个很直观的现实是：我们依然处在人类在环（human-in-the-loop）的阶段，所以我们并不会对等待和延迟免疫。
另一个非常令人兴奋、而且即将到来的应用场景是机器人。在机器人领域，你需要模型去控制和操作真实世界的设备，这里有物理层面的硬约束。
我非常确信，对小而强模型的投入只会持续增加。我们对目前的进展本身也感到非常兴奋。

模型并不缺“聪明”，缺的是“持续学习”

Logan Kilpatrick

回到我们之前关于“面向未来的技术赌注”的讨论，最近大家也谈了很多自我改进、持续学习之类的话题。
在不泄露任何“秘方”的前提下，我很好奇：这些方向在 Gemini 里更多是偏研究探索，还是已经开始进入产品或工程视野？目前整个领域大概处在一个怎样的成熟度区间？Oriol，你怎么看？

Oriol Vinyals

这是一个非常“老派深度学习者”的问题。从历史上看，神经网络的发展中，有些地方一直让我觉得不够优雅、也不够合理。
比如课程学习，我们现在是把各种难度的数据混在一个 batch 里训练模型，而人类学习通常是先学简单的，再学困难的。这是一个我们做过一点、但远远不够的方向。
另一个多年来一直困扰我的问题是：我们训练完模型、冻结权重、然后部署，部署后就再也不学习了。
AlphaFold 不会从用户那里学习，AlphaGo 也不会从自己下过的棋局中继续学习。至少在权重层面，这些系统在部署后是“静态的”。
这些显然都是非常深层次、非常重要的改进方向。随着我们逐渐接近 AGI，你会自然期待持续学习、情境学习这类能力出现。
举个例子，Demis 很喜欢和模型下棋。模型其实应该意识到：“我下得还不够好。”然后它应该自己花一周时间专门学习国际象棋，再回来对 Demis 说：“我准备好了。”然后击败他。
这里有大量令人兴奋、同时也是经典的开放问题。这说明它们不会容易，但我相信我们会做到。

Jeff Dean

顺着持续学习这个话题说一句，其实预训练本身就有点“反直觉”，至少和人类学习方式相比是这样。
现在的做法是：我们随机初始化一个模型，把它“绑在板子上”，然后把海量文本、图片、视频流式地灌给它。最后再说：“好了，你现在可以开始在世界里行动，学数学、学编程了。”
这种方式下，每个 token 所包含的信息密度其实很低。
如果模型能在环境中采取行动、观察后果、主动决定下一步关注什么：比如它想学棋，就主动去读棋谱；想学微积分，就去找相关内容——那会更像人类的学习过程。这是一条非常值得作为长期技术赌注去探索的方向。

Noam Shazeer

我并不是要否定“大规模流式训练”。我们不仅仅是在把数据流过模型，而是让模型对每一个 token 都做下一词预测，而且规模是万亿级 token。
一个人一生可能只接触到十亿级别的语言 token，但通过预测别人接下来要说什么，人类确实能学到很多东西。
我们给模型提供的数据量是人类的成千上万倍，这当然极其有价值。
但我也同意 Jeff 的观点：如果我们能把大量计算资源集中投入到最重要、最有价值的方向，无论是治愈癌症、构建编程智能体，还是其他重大问题，那会非常有意义。
这也是为什么我赞同 Oriol 的判断：未来很多大的进展，很可能来自后训练阶段。

Logan Kilpatrick

我很喜欢这个结论，感觉我们两种方式都需要。
某种程度上，人类本身就“继承”了进化过程中形成的生物学先验，而大规模 token 流式训练，可能只是一个很粗糙的代理。

Jeff Dean

是的。正如 Noam 说的，大规模流式训练已经被证明非常有效，我完全不想否定它。
但另一方面，人类一生看到的 token 数量远少于模型，却能达到很高的能力水平。这说明，可能存在一种比现在高 1000 倍甚至 10000 倍的数据效率学习方式。
我认为关键在于：人类会思考行动的后果、观察反馈，这种方式更偏向强化学习，而不仅仅是预测下一个 token。

总结：多模态进展、超长上下文、通用模型能力提升

Logan Kilpatrick

太棒了。我们时间差不多了，最后想问一圈：回顾 Gemini 过去两年的发展，有没有哪些出乎意料的地方？不管是进展比预期快的，还是慢的，或者某些意想不到的结果。

Jeff Dean

整体来看，最让我欣喜的是多个方向同时取得进展。
视频和图像生成能力的提升尤其明显，而且它们越来越多地和主模型融合在一起，让模型可以进行视觉推理。
你可以看到生成结果，然后说：“不对，我想要的是这个图像的一个小改动。”这种交互非常自然。
另一个我认为被低估的能力是超长上下文。当你把大量数据放进上下文窗口时，这些信息对模型来说是非常“清晰”的，它们以 KV cache 的形式存在。
相比之下，训练数据已经被“搅拌”进数十亿参数中，对模型来说是模糊的。
我觉得长上下文能力还远没有被充分利用。我们正在探索的一条方向是：如何让用户感觉自己仿佛拥有对数十亿甚至万亿 token 的注意力能力，就像把大半个互联网、海量视频放进了上下文窗口里。

Oriol Vinyals

对我来说，最意外的是：我们曾经有一个专门做竞赛编程的项目 AlphaCode，是高度特化的系统。
但现在，用通用模型，我们却在数学和编程竞赛中拿到了金牌，而且没有为这些领域做特别定制。这一点非常让我惊讶。
我当时反复提醒团队：这必须是模型本身的能力，而不是某个临时分支、达成目标后就丢掉的东西。结果他们真的做到了。这可能是过去几年里最“激进”的惊喜。

Noam Shazeer

从理性上说，我并不完全惊讶——早在 2018、2020 年，就能预见模型会越来越聪明。

但从情感上说，看到这一切真的发生了，还是非常震撼。你现在可以直接跟模型对话，让它帮你算数学、写代码，而且有成百上千万的人对 AI 感到兴奋。

这真的非常有趣，我也非常期待接下来会发生的事情，希望它能给世界带来更多正向影响。

Logan Kilpatrick

太完美的结尾了。Jeff、Oriol、Noam，非常感谢你们抽时间参与。

也感谢大家的收听，希望你们喜欢新的 Gemini 模型。如果有问题或反馈，随时联系我们。我们会继续“推石头上山”，给大家带来更好的模型和产品。希望明年初还能和大家一起迎来更多有趣的发布。

参考链接：

https://x.com/JeffDean/status/2001692889299206519

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/14093

Gemini负责人揭秘：Pro模型竟是Flash的“蒸馏器”，后训练与持续学习成AI进化新战场

Gemini的起源：Google Brain与DeepMind的融合

Logan Kilpatrick

Jeff Dean

Oriol Vinyals

Jeff Dean

Oriol Vinyals

Noam Shazeer

Logan Kilpatrick

Noam Shazeer

Jeff Dean

Oriol Vinyals

Jeff Dean

Logan Kilpatrick

Oriol Vinyals

Logan Kilpatrick

Oriol Vinyals

Noam Shazeer

Jeff Dean

Logan Kilpatrick

Noam Shazeer

Jeff Dean

Logan Kilpatrick

Oriol Vinyals

Jeff Dean

Noam Shazeer

Jeff Dean

Logan Kilpatrick

Jeff Dean

Oriol Vinyals

模型并不缺“聪明”，缺的是“持续学习”

Logan Kilpatrick

Oriol Vinyals

Jeff Dean

Noam Shazeer

Logan Kilpatrick

Jeff Dean

总结：多模态进展、超长上下文、通用模型能力提升

Logan Kilpatrick

Jeff Dean

Oriol Vinyals

Noam Shazeer

Logan Kilpatrick

相关推荐

美国AI霸权保卫战：从“创世纪行动”到全球算力联盟的全面布局

悟界·Emu3.5：世界模型基座如何重塑多模态AI的物理认知与时空一致性

国产开源模型P1登顶国际物理奥赛：多阶段强化学习与智能体框架的协同突破

全球排名算法重塑高等教育：当大学灵魂被数字指标量化

谷歌Nano Banana Pro引爆AI图像生成革命：从硅谷CEO合影到时空坐标推理的全面解析