Gemini3预训练负责人揭秘：从无限数据到数据受限，AI研究正演变为复杂系统工程

Gemini 3的逆袭，给业界带来了太多的惊喜和问号。

与此前不同的是，业界到现在似乎也没有逆向出Gemini3的秘方出来。

本周五，继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后，终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。

Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjou，在访谈中被主持人挖出来不少关于 Gemini 3 的消息。

比如，跟上一代相比，Gemini3 在模型架构的改动并没有大到脱离了 transformer 架构，大体上还是能看出它是Transformer MoE架构的影子。并坦承，Gemini 3之所以提升如此大，是大中小多重因素叠加的结果。

Gemini3预训练负责人揭秘：从无限数据到数据受限，AI研究正演变为复杂系统工程

再比如，他自曝说自己感觉不是在做大模型，而是在构建一个复杂的系统。

“这件事实际上会深刻改变研究方式，以及我们思考问题的方法。”

Bourjou 还特别提到了一种范式的变化：

过去，我们基本处在一个“数据几乎无限”的规模化阶段；而现在，我们正在进入一个“数据受限”的阶段。

关于“预训练到头了吗？Scaling Law 到头了吗？”Bourjou很果断的给出了否定的答案，并指出，自己并没有看到这条研究路线在短期内会走到尽头。“至少 1 年内，它仍然会持续为我们带来进展。”

这次访谈非常的technical，从预训练、到后训练、对齐、RL，再到Gemini3所用的训练数据，再到最近大火的持续学习。都给出了自己的“研究品味”。

在他看来，工程与研究的边界已经开始分不清了！

访谈中，他还聊到了，Gemini 3 在底层是如何构建的、从“无限数据时代”转向“数据受限阶段”的变化、DeepMind 内部研究团队的组织方式，以及 AI 接下来可能会走向哪里。

Oriol 的“秘密配方”：更好的预训练 + 后训练

Matt Turk
大家好，今天的嘉宾是Sebastian Bourjou，Google DeepMind 的 Gemini 3 预训练负责人。Sebastian 是全球顶尖的 AI 研究者之一，同时也入选了 Meta 的研究员榜单。这一期节目格外特别，因为这是他第一次参加播客访谈。

Matt Turk
我想从一条推文聊起。这条推文来自 Oriol Vinyals，他是 Google DeepMind 的研究副总裁、深度学习负责人，也是 Gemini 的联合负责人之一。

在 Gemini 3 发布时，他说这个模型背后的“秘密”其实非常简单：
更好的预训练，以及更好的后训练。

考虑到 Gemini 3 相比之前的 SOTA 有这么大的跃迁，这样的说法听起来反而有点“朴素”。我很好奇，你怎么看？事情真的就这么简单吗？

Sebastian Bourjou
我不确定这算不算什么“秘密”。至少从我的视角来看，这其实挺正常的。

很多人会期待，从一个 Gemini 版本到下一个版本，一定会有某个“巨大变化”，突然带来质的飞跃。但根据我的经验，确实会有一两个因素，比其他因素的影响更大一些，但真正决定结果的，往往是大量改进的累积。

Gemini 3 之所以明显优于前几代，并不是因为某一个单点突破，而是一个非常庞大的团队，在非常多细节上持续改进，最终汇聚成了这个结果。

我想这也是一个会在后面反复出现的主题：像 Gemini 3 这样的发布，本质上是一个大规模团队协作的成果。

AI 进展为什么还没有放缓

Matt Turk
从这个角度来看，这对我们理解 AI 的发展阶段意味着什么？仅仅通过“调参数”“拧旋钮”，就能带来如此大的提升，这说明了什么？对未来的进展，我们应该有什么预期？

Sebastian Bourjou
我觉得有两点。第一点是：通过这种方式，我们依然能够取得如此显著的进展，这件事本身就非常值得注意。而且，这种进展并没有明显放缓。

我们每天都会发现新的“旋钮”、新的改进点，几乎是日常层面的发现——这些都会让模型变得更好。

第二点是：我们已经不再只是构建一个模型了。我们现在构建的是一个系统。

有些人会认为，我们只是训练了一个神经网络架构，仅此而已。
但实际上，我们构建的是围绕这个网络的整个系统。
这是一个整体工程，而不是单一模型。

模型真的在 “变聪明”吗？

Matt Turk
这是很多人心中的核心问题：这究竟意味着什么样的智能进展？我们不一定非要讨论 AGI，毕竟谁也说不清它到底指什么。
但问题是：
我们是否应该把这种模型进展，看作是真正通往智能的一条路径？还是说，它更多只是为了在某个基准测试上取得好成绩？

是什么让你相信，模型的“核心能力”正在变得更强？

Sebastian Bourjou
从基准测试的角度看，成绩确实在持续提升。而且如果你观察这些前沿 benchmark 的设计方式，它们本身也在变得越来越难。

即便是对我这样有计算机科学背景的人来说，模型现在能回答的一些问题，我自己也需要花相当多时间才能解出来。

当然，这只是一个视角——基准测试视角。我们也会非常频繁地做评估，对测试集保持严格隔离。但即便如此，人们还是会担心过拟合，或者所谓的“刷榜”。

我个人并不太认同这些担忧。

但真正让我有信心的，是另一件事：内部使用模型的时间，在持续增加。每一代新模型，都非常明显地展现出新的能力，它们在研究和日常工程工作中，能比上一代帮到我们更多。

这一点非常清楚。这说明模型不仅在分数上更好，而且在做真正有用的事情，能力也在实质性提升。

两三年后：最先发生变化的是什么？

Matt Turk
作为一名深度参与其中的 AI 研究者，我一直很好奇：如果你把视角拉远一点来看，现在的进展还会让你感到意外吗？
从你的角度看，我们是明显走在预期前面，还是基本符合当初的判断，甚至有点落后？

Sebastian Bourjou
事后回看，说“我们在正轨上”其实很容易。但如果我对自己足够诚实，我会说，我们确实走在了我当初预期的前面。
2019 或 2020 年刚开始做大语言模型时，很难想象今天的规模，也很难想象模型现在能做到的事情。
当年从 scaling law 的角度看，确实有人认为会走到这一步，但我不确定自己当时是否真敢下注，赌它会如此完整地实现。

接下来两到三年，会发生什么？

Sebastian Bourjou
一个自然的问题是：如果我们假设未来五年的进展节奏，和过去五年差不多，那接下来会发生什么？我觉得未来几年会非常有意思。

Matt Turk
那你怎么看短期内的变化？比如两到三年内，AI 会不会做出全新的科学发现，甚至拿到诺贝尔奖？你觉得最近的方向会走向哪里？

Sebastian Bourjou
我觉得这是其中的一部分。在科学研究层面，DeepMind 一直在这方面投入很多，我也相信未来几年我们确实有机会做出一些重大的科学发现。

Sebastian Bourjou
但在我自己的日常工作中，不论是研究还是工程，我更兴奋的是：这些模型如何帮助我们更快推进工作，同时也帮助我们更好地理解我们正在构建的系统，并进一步深化自己的研究理解。

Matt Turk
现在行业里有一个很大的话题：AI 是否会自动化 AI 研究和工程。如果顺着这个逻辑往下推，就会走向那种“AI 2027” 的断点式场景。
从一个非常现实的角度看，你现在是如何使用 AI 的？你觉得两年后会变成什么样？

Sebastian Bourjou
我觉得重点不在“自动化”，而在“加速”。AI 会让我们把更多时间投入到更高层次的研究本身。

AI 做 AI 研究：更快，但不是全自动

Sebastian Bourjou
在语言模型研究中，我们每天面对的是非常复杂、非常庞大的系统，尤其是在基础设施层面。
大量时间花在跑实验、盯实验、分析数据、整理结果上，真正有价值的部分是形成假设和设计新实验。
后面这两件事，人仍然会深度参与；而前面的部分，在接下来一年里，随着更具 Agent 特性的工作流成熟，会被显著加速。

前沿实验室：相似的路，分叉的研究树

Matt Turk
你觉得各家前沿 AI 实验室，本质上是不是都在做同一件事？
作为行业观察者，我们会感觉每隔几周就冒出一个“惊艳模型”，大家反而有点被宠坏了。
比如 Gemini 3 刚发布没多久，几乎同时 GPT-5.2 也出来了。你怎么看这种现象？
最终会不会有人明显跑出来，还是说会长期维持“少数顶级实验室 + 一些新兴团队”的格局？

Sebastian Bourjou
先说第一点，各家确实有很多相似之处，底层技术路径也比较接近。如果所有人都在训练 transformer 类模型，我也不会感到太意外，但在此之上，大家确实在做不同方向的专精。
不同公司会探索不同的研究分支。比如从历史上看，DeepMind 在视觉和多模态方向一直很强，这一点现在仍然很明显，无论是用户使用方式还是 benchmark 表现。
推理能力也是类似的情况，OpenAI 首先推出了相关模型，但我们内部其实也有对应的研究线。

为什么在 Google 做研究很有吸引力

规模、资源与潜在颠覆

Sebastian Bourjou
至于第二个问题，我不确定有没有标准答案。很现实的一点是：今天要推动 Gemini 这种级别的模型进展，确实需要非常大的团队和资源。
但这并不意味着当前路径是最优的，未来完全可能出现颠覆性研究，让小团队也能实现突破。

Sebastian Bourjou
这也是我很享受在 Google 的原因之一。这里一直有大量探索性研究，研究广度非常高，而且很多工作是和 Gemini 并行进行的。这些成果最终也能被吸收进 Gemini，形成正向循环。

Transformer 之后，会不会有突然的断裂式创新？

Matt Turk
在 DeepMind 或整个行业里，是否存在一些半公开甚至完全保密的团队，
在研究“后 Transformer”架构，有一天突然公布成果，让所有人都措手不及？

Sebastian Bourjou
我相信是有的。在 Google、在 DeepMind 内部，确实有人在研究模型架构层面的新方向。至于这些研究是否最终会成功，很难说——这就是研究本身的特性。

DeepMind 的优势：研究 × 工程 × 基础设施

Matt Turk
真正能成功的研究想法其实非常少。所以在这个过程中，一家公司相对另一家的核心优势，往往归结为“人”的质量。

回到我刚才提到的那条推文，Demis Hassabis 转发并评论说，真正的秘密在于研究、工程和基础设施的结合。这是不是 Google 的“秘密配方”？你们做的是完整技术栈。

Sebastian Bourjou
这确实非常有帮助，我认为这是一个重要因素。另外，“研究”和“工程”之间的边界，也在不断变得模糊。

Sebastian Bourjou
在今天这种超大规模系统中，研究看起来越来越像工程，工程也越来越像研究。
这种心态在 DeepMind 过去几年变化很大，尤其是在 Gemini 项目中，现在更像是“研究工程”。
基础设施同样关键，我们构建的是极其复杂的系统，可靠、稳定、可扩展的基础设施，直接决定研究和工程能否不被拖慢。

Matt Turk
Gemini 3 是在 TPU 上训练的，对吗？不是用英伟达的芯片。
这基本算是完全垂直整合了。

进入 Gemini 3 深水区之前，先聊聊你

Matt Turk
在深入 Gemini 3 之前，我想先聊聊你本人。你是 Gemini 3 的预训练负责人之一，这具体意味着什么？然后我们再谈谈你的背景和经历。

Gemini 3 预训练负责人，到底在做什么？

Sebastian Bourjou
我是 Gemini 预训练的几位负责人之一，这个角色其实包含很多方面。一部分是研究本身，目标是让模型变得更好；但现在更多是设计实验、和团队一起评估结果，而不是自己亲自跑实验。

Sebastian Bourjou
另一部分——而且我觉得很有意思——是协调与整合。现在预训练团队已经非常大了，很难精确统计，但日常参与的人大概在 150 到 200 人之间，涵盖数据、模型、基础设施等多个方向。

大团队协作，才是长期效率的来源

Sebastian Bourjou
把这么多人的工作整合成一个统一、可推进的系统，本身就是一件非常复杂、也非常耗时的事情。
但我认为这是最重要的，因为真正推动长期进展的，是让所有人都能持续产出，而不是只让一小撮人跑在最前面。
短期或许能靠小团队突进，但长期来看，真正成功的路径是大规模协作与整合。

“逆向”顶级 AI 研究者的成长路径

| 天才往往搬家

Matt Turk
我一直很好奇，你是在哪里长大的？很多人都想“逆向工程”顶级 AI 研究者的成长路径——他们来自哪里，又是如何走到今天的？

Sebastian Bourjou
我在欧洲各地长大，搬过很多次家。我出生在荷兰，7 岁时搬到瑞士；我父亲是瑞士人，母亲是德国人。
我在瑞士完成了大部分中小学教育，用的是法语和德语。15 岁左右我搬去了意大利，在那里完成了高中，直到 19 岁。
原本我打算去苏黎世联邦理工学院（ETH）读大学，但有一天我随手查了下大学排名，看到了剑桥，就想“那我也申请一下试试吧”。几个月后我收到了录取通知，于是去了剑桥，在计算机实验室完成了本科和硕士。

| 从小就擅长数学和编程

Matt Turk
你小时候就是那种数学特别强、偏计算机的孩子吗？

Sebastian Bourjou
我父亲有技术背景，所以我大概在 10、11 岁时就跟着他开始写点程序。
我一直挺喜欢这些东西，在学校里数学和理科也比较轻松。高中时我几乎不用怎么复习数学考试，也能考得不错——不过这在大学里就完全不成立了。

| 从学校到 DeepMind：一次勇气，换一次机会

Matt Turk
很好。那你从学校走到今天这个位置，中间经历了怎样的路径？

Sebastian Bourjou
说实话，这里面有一点运气成分。我硕士期间有一门课的老师，刚好也是 DeepMind 的研究员。最后一节课结束时，我心想不如直接问他要个内推，最坏的情况也就是被拒绝。

Sebastian Bourjou
我就鼓起勇气走过去问了，他说：“可以，把你的简历发给我，我看看能做什么。”
这就是我拿到 DeepMind 面试的起点，大概是在 2018 年。
毕业后我加入了当时还没并入 Google 的 DeepMind，职位是研究工程师。

| 从强化学习开始，转向真实世界数据

Matt Turk
你最开始做的是什么？又是怎样一步步走到 Gemini 3 预训练负责人的？

Sebastian Bourjou
刚加入 DeepMind 时，它以强化学习闻名，所以我一开始也做的是 RL。具体来说，是在 Atari 环境里训练无监督网络，学习关键点，让智能体玩游戏。
我做了大概半年，但逐渐发现我不太喜欢这种偏“合成世界”的研究。我更希望做和真实世界数据有关、能产生现实影响的事情。
我本质上喜欢“造东西”，而且是能真正跑起来的东西，对纯学术研究的兴趣反而没那么强。
这推动我转向表征学习，训练能支撑多种任务的通用表征网络。

这里有个我经常跟团队讲的小故事：
我最早参与的项目叫“从真实世界数据中进行表征学习”，当时必须特意强调“真实世界数据”，否则大家默认你是在做合成环境或合成数据——而现在，这个前提已经完全反过来了。

从表征学习到 Transformer 和 LLM

Sebastian Bourjou
这也是我第一次系统性地进入 Transformer 和大语言模型方向。
当时我们在研究像 BERT、XLNet 这样的模型，重点是如何学到更好的表示，以及如何改进这些表示。这为我后续进入大规模预训练打下了基础。

Matt Turk
后来你参与了 RETRO，对吗？可以讲讲那段经历吗？

Sebastian Bourjou
在那之后，我们开始真正推进大语言模型的规模化。最早是 Gopher，那应该是 DeepMind 发布的第一篇 LLM 论文，当时团队已经有 10 到 12 个人了。
从那一刻起，就很清楚这类研究不可能靠个人完成。这也是我真正开始做大规模预训练的阶段。
我们训练了第一个 dense Transformer，大约 2800 亿参数、3000 亿 token。
今天回看，那些做法肯定不会再用，但当时是一次非常宝贵、也很有趣的学习过程。

Chinchilla：重新思考“怎么用算力”

Sebastian Bourjou
之后分化出了两条重要的研究线：Chinchilla 和 RETRO。
在 Chinchilla 中，我们重新审视一个核心问题：在固定训练算力下，模型规模和数据规模该如何平衡？结论是，数据规模应该比之前认为的更快增长，而不是一味放大模型。
有意思的是，这个结论在今天仍然非常关键，因为它直接影响模型部署后的推理成本，以及实际使用有多昂贵。这并不是一个“历史问题”，而是一个持续影响工程决策的结论。

RETRO：把“记忆”外包给系统

Sebastian Bourjou
另一条研究线是 RETRO，更偏架构创新。核心思想是：与其把所有知识都塞进模型参数里，不如让模型在训练和推理时，能从一个大型文本库中检索信息。也就是把“记忆”部分，从参数中解耦出来。

“研究品味”

Matt Turk
你刚才用了一个词——“研究品味”，我觉得特别有意思。你会如何定义它？它对研究者来说有多重要？

Sebastian Bourjou
它在今天非常重要，但也确实很难量化。第一点是：你的研究不是孤立存在的，它必须能和其他人的研究很好地协同、被整合进系统里。

好想法，如果拖慢别人，就不是好权衡。假设你提出了一个改进，让模型性能提升了，但同时让其他所有人的使用成本增加了 5%。这通常不是一个好的权衡，因为你会拖慢其他人的研究节奏，而这会在长期累积中减慢整体进展。这是研究品味中的第一层判断。

Sebastian Bourjou
第二点是对复杂度保持警惕。复杂度本身是主观的，但我们始终有一个“复杂度预算”和“研究风险上限”，超过之后，系统就会开始失控。
因此，我们常常会牺牲一点性能，换取更低复杂度的方案，以便未来能走得更远。

Matt Turk
听起来研究品味里也包含一种直觉判断——什么可能行得通，什么不值得继续投入。在算力有限的前提下，这种直觉是不是也很关键？

Sebastian Bourjou
是的，这一点非常重要，而且不同人差异很大。经验在这里非常有帮助，而我们在研究层面确实受限于算力。

多数研究都会失败，这本身就是现实

Sebastian Bourjou
研究的关键在于选择探索哪一条“研究树”的分支，以及在这条分支上该做哪些实验。
而且要知道，大多数研究想法都会失败，你需要判断什么时候该停下来、什么时候值得继续推进。
在深度学习中，负结果往往并不代表“不可能”，而是“你还没把它做对”。

修复、探索，如何平衡？

Matt Turk
既然谈到研究组织方式，我们再深入一点。一个典型的权衡是短期和长期之间的取舍，你们是怎么平衡的？

Sebastian Bourjou
这是我花很多时间思考的问题。一方面，总有一些明确的“关键路径”问题，比如模型某个部分明显不够好，这些我们会优先修。这些修复是相对安全的投入，而且往往能直接提升模型。
更重要的是，那些当前看起来“不够完美”的地方，往往会在模型规模变大、能力增强后放大成大问题。所以在早期就非常严谨地处理这些问题，其实是在为未来降风险。

另一部分，则是更探索性的研究，可能会影响下一代或下下代 Gemini，但尚未被验证。这两者的平衡并没有固定公式，也和阶段有关。在扩容阶段，探索会多一些；在发布前，则高度聚焦执行与去风险。

研究 vs 产品压力

Matt Turk
在类似的维度上，还有研究与产品目标之间的张力。在激烈竞争中，是否会有“必须赢某个榜单”的现实压力？

Sebastian Bourjou
在 Google，其实这种压力相对很少。
因为管理层大多有研究背景，他们很清楚：你可以短期“刷榜”，但真正重要的是研究本身是否走在正确方向上。至少对我个人来说，日常工作中几乎感受不到这种压力。

DeepMind 的组织结构是怎样的？

Matt Turk
DeepMind 的团队是如何组织的？你提到预训练有几百人，那是否还有后训练、对齐等不同团队？

Sebastian Bourjou
有预训练团队，也有后训练团队。预训练涵盖模型、数据、基础设施和评测，而评测本身常被低估，但其实非常难、也非常关键。此外还有大规模的基础设施和服务团队。

Gemini 3：架构上基本仍然是Transformer

Matt Turk
好，我们稍微换个话题。按照之前的约定，我们来深入聊聊 Gemini 3 的内部设计。

Matt Turk
从用户角度看，Gemini 3 和 2.5 的感觉差异很大。是否有某个重大的架构决策，解释了这种变化？

Sebastian Bourjou
从高层来看，架构并没有发生根本性变化。更多是多个改进点叠加在一起，最终带来了显著提升。整体上，它仍然是基于 Transformer 的混合专家（MoE）架构。

Matt Turk
能否用更教学一点的方式，解释什么是 MoE 架构？

Sebastian Bourjou
Transformer 主要有两个模块：第一个是注意力模块，负责在不同 token 之间混合信息；第二个则是前馈模块，提供模型的“记忆”和计算能力，它们是并行作用在单个 token 上的。在原始 Transformer 中，前馈模块是一个 dense 的全连接网络。
而 MoE 的核心思想是：将计算量与参数规模解耦，通过路由机制，动态选择“专家”来处理输入。这样就能在不线性增加计算成本的前提下，提升模型容量。

原生多模态，真实成本如何

Matt Turk
Gemini 是原生多模态模型。在实践中，这对模型来说到底意味着什么？

Sebastian Bourjou
这意味着我们不是为图像、音频、文本分别训练不同模型。而是同一个神经网络，同时处理所有模态的信息。

Matt Turk
这种原生多模态在成本上会更贵吗？比如 token 成本？

Sebastian Bourjou
这是个好问题，成本主要体现在两个方面。第一是研究复杂度，多模态交互会增加系统复杂性，需要额外思考和设计。第二是计算成本，图像输入通常比纯文本更大，但这也是效率优化的重要研究方向。

Scaling Law 真的“死”了吗？

Matt Turk
回到你最擅长的预训练领域。2025 年有不少声音在讨论“Scaling Law 是否已经失效”，Gemini 3 是否给出了反证？

Sebastian Bourjou
是的，这类讨论对我来说一直有点奇怪，因为它们和我的实际经验并不完全一致。我们看到的情况是：Scaling在预训练中依然非常重要，也是让模型变得更强的关键因素之一。但问题在于，过去人们有点高估了规模这一维度。

规模确实能让模型变好，而且它的优势在于结果相对可预测——这正是规模定律告诉我们的：当模型变大时，性能大致会提升多少。但这只是其中一部分。

另外两大关键因素是模型架构和数据层面的创新，它们在当下的预训练性能中同样、甚至可能比“纯粹堆规模”更重要。

当然，规模依然是一个重要因素，对吧？而且我们这里讨论的是预训练阶段。因为今年我们看到的是：后训练阶段有规模化的 RL，推理时有规模化的 test-time compute 等等。但在预训练中，你们看到的情况似乎是，不仅 scaling loss 没有放缓，甚至还有加速的迹象——我的理解是，这主要来自数据和不同架构的变化，对吗？

Sebastian Bourjou
我觉得更准确的说法是：这些因素是叠加在一起发挥作用的。规模只是其中一个轴，而模型本身和数据的改进，同样会推动整体性能提升。

Matt Turk
当你在模型架构层面做出改进时，通常意味着什么？是不是用同样规模的数据，模型能得到更好的结果；或者反过来，用更少的数据，就能达到上一代模型的效果？

Sebastian Bourjou
对，这正是第一个层面的含义。架构改进本质上提高了数据效率。不过就数据体量而言，我们现在使用的数据规模，依然比人类一生可接触到的量高出好几个数量级。进化过程常被拿来类比，但那类高层讨论往往依赖太多假设。至少在一阶近似下，看起来我们确实比人类“喂”了模型更多数据。

未来研究方向

Matt Turk
在整个预训练进展上，除了规模之外，你在行业里还对哪些方向感到兴奋？

Sebastian Bourjou
一个明显的方向是长上下文。在 Gemini 1.5 中，我们在长上下文能力上实现了一次很大的跃迁，这直接支撑了如今模型和智能体处理大型代码库等复杂工作的能力。接下来一年，我预计会看到更多关于“如何高效支持长上下文”的创新，以及进一步拉长上下文本身的研究。

此外，在注意力机制上，我们最近也有一些很有意思的发现，可能会深刻影响接下来几个月的研究方向。整体来看，进步往往来自大量中小改进的叠加：修一个问题、补一个漏洞、验证一项看似不起眼但有效的研究，最终一起推动整体向前。

长上下文会取代RAG吗？

Matt Turk
这让我想到你早期参与的 RETRO。它强调的是效率、让小模型做更多事；而现在你在 Gemini 3 上，面对的是超大规模数据和极长上下文窗口。你觉得这种范式会不会逐步消解 RAG、搜索这些机制的必要性？

备注：RETRO，DeepMind 在 2021–2022 年提出的一种语言模型研究方向，全称通常被称为 Retrieval-Enhanced Transformer。

Sebastian Bourjou
RETRO 的核心并不是让模型变小，而是“检索而不是存储”：让模型在推理时去取信息，而不是把一切都压进参数里。这个理念今天依然成立。

过去，预训练的迭代周期很长，风险和成本都很高；而 RAG 或搜索更多发生在后训练阶段，迭代更快、效果也很强。从长期来看，我相信真正的答案是把检索和搜索以可微的方式纳入训练本身——可能通过预训练，或未来的其他范式。RL 的规模化或许只是一个开端，架构层面还有很多事要做，但这会是未来几年逐步展开的过程。

后训练的Scaling Law跟预训练很类似

Matt Turk
我理解你们的观察是：在预训练阶段，规模依然非常关键，但今年大家又在后训练阶段放大了 RL、测试时计算等变量。

那在预训练中，我们看到的不只是 loss 放缓，甚至还有加速现象，这是不是更多来自数据和架构的变化？

Sebastian Bourjou
可以这样理解：这些因素是叠加起作用的。规模只是其中一个维度，模型架构和数据同样会显著提升性能。有时候，架构或数据层面的创新，带来的收益会超过单纯继续放大规模；但在某些阶段，直接扩规模依然是最有效的路径。这主要针对预训练而言。至于 RL 和 RL 的规模化，其实我们正在看到很多和早期预训练阶段相似的现象，只是现在可以把当年的经验直接迁移过来。

Gemini3一开始就是多模态数据混合体

Matt Turk
说到数据，Gemini 3 的预训练数据大致是怎样的组合？你们之前好像发布过 model card，透露过一部分信息。

Sebastian Bourjou
整体是多模态、从一开始就如此设计的数据混合体，来源非常多样。一个经常被问到的问题是：我们会不会很快用完数据？一方面是算力是否不足，另一方面是数据是否不足。今年合成数据的使用明显增加了，你怎么看它的价值和边界？

Sebastian Bourjou
合成数据确实很有意思，但使用时必须非常谨慎，很容易用错。常见做法是先用一个很强的模型生成合成数据，再用小规模实验验证它是否真的有效。一个更难的问题是：能不能用合成数据，训练出一个比“生成这些数据的模型”本身还要更强的模型？这是我们投入大量精力研究的方向。

至于“数据是否用完了”，我个人并不这么认为。我们研究中发现，更可能发生的是一种范式转变：过去我们默认处在“数据几乎无限”的阶段，现在正在进入“数据有限”的阶段，这会彻底改变研究思路。有点像 LLM 出现之前，大家在 ImageNet 等小数据集上的工作，很多当年的方法又重新变得有价值。

范式正在转变：数据有限的情况下如何更好

Matt Turk
行业里还有一个反复出现的概念：基于“推理轨迹”的训练，也就是要求模型展示中间思考过程，再用这些过程训练下一代模型。你怎么看这个方向？

Sebastian Bourjou
具体细节我不能展开评论，但你的问题方向确实很对。这和你刚才问的合成数据高度相关。更宏观地看，一个核心主题正在浮现：模型如何在有限数据条件下学习得更好。这里的“有限”并不一定是更少，而是数据量是有上限的。从这个角度看，模型架构研究本身，正是在回答你提到的那个问题。

Sebastian Bourjou
还有一点我想强调：大家经常只谈模型架构，但基础设施、数据和评测同样关键。评测尤其困难，在预训练阶段更是如此。

一方面，我们用来做评测的小模型，必须能预测大模型的表现；另一方面，预训练后的模型还会经历后训练，评测指标也要能反映最终使用效果。内部评测体系在这里非常重要，因为外部基准很快就会被“污染”，一旦训练数据中泄漏了评测内容，你几乎无法察觉。真正防止自欺的方式，就是维护严格隔离的内部评测集。

为什么对齐不发生在预训练？

Matt Turk
那对齐更多是在预训练阶段考虑，还是主要发生在后训练？

Sebastian Bubeck
我会说大部分是在后训练阶段，但确实有一些部分和预训练相关，具体细节我不便展开。不过我们在预训练阶段也会考虑这些问题。

Matt Turk
一个很直观的问题：如果核心数据集来自互联网，而互联网里充满糟糕内容，那对齐的第一步是不是干脆不把这些东西喂给模型？

Sebastian Bubeck
这是个很难给出确定答案的问题。你当然不希望模型去做那些糟糕的事，但在更底层的层面，模型至少要“知道”这些东西是什么，才能学会避开它们。否则当用户提到某些糟糕内容时，模型甚至无法判断那是什么，也就谈不上明确拒绝。

Deep Think 与模型的关系

Matt Turk
我们来聊聊 Deep Think 吧，也就是在 Gemini 3 发布几天后推出的那个“思考模型”。它是一个独立模型，还是同一个模型的不同形态？应该怎么理解？

Sebastian Bubeck
这个我不能讲太多。至于你提到的，当模型“思考”十几秒甚至更久时，背后发生了什么，其实行业里已经讨论过不少了。本质上，是让计算不只发生在模型深度上，也发生在序列长度上：模型会生成假设、测试假设，调用工具、发起搜索，然后最后给出一个确定性的回答。围绕“思维链”的这种范式，已经在行业里逐渐形成共识。

编程Agent

Matt Turk
那从 agent 的角度呢？比如 Google 的 Anti-Gravity，你觉得它有意思的地方在哪？

Sebastian Bubeck
这正好和我之前提到的日常工作相关。很多时候我们的工作是偏执行层面的，比如盯实验。但 agent 化真正放大了模型的价值。对预训练来说，感知和视觉能力变得非常关键，因为模型现在要直接和屏幕交互，屏幕理解做不好，agent 基本无从谈起。

Matt Turk
Anti-Gravity 里还有个“vibe coding”的说法，几乎就是“凭感觉写代码”。这种“vibe”是预训练出来的，还是后训练？怎么把“感觉”塞进模型里？

Sebastian Bubeck
这个问题你问五个研究员，大概会得到五种答案。确实存在一种“模型气场”的说法，历史上有人认为 GPT-4.5 这种大模型“感觉不一样”。我不太喜欢用这种表述，但直觉上，预训练在塑造这种“感觉”上起的作用，可能比后训练还大。
如果专指 vibe coding，我会更倾向于把它看作 RL scaling 和后训练的结果：你可以收集大量相关数据，系统性地把这种行为教给模型。

持续学习的热门方向

Matt Turk
拉远一点看。最近一年在很多会议上，大家都在谈“持续学习”。从预训练角度看，你怎么理解它？如果持续学习真的成立，对重新训练意味着什么？

Sebastian Bubeck
持续学习，本质上是让模型随着新知识不断更新。比如明天出现一个新的科学突破，昨天训练好的基础模型并不知道它。近几年更多进展发生在后训练阶段，比如通过搜索工具即时获取新信息。RETRO 做的事情也是类似的：把知识外部化，用检索配合推理。
在预训练侧，一个相关方向是长上下文。如果上下文不断扩展，模型就能在一次交互中吸收越来越多信息，某种意义上形成“准持续学习”。更激进的设想是改变训练算法，让模型持续地从真实世界的数据流中学习，但那是更大的范式转变。

Matt Turk
那你现在觉得，研究里哪些方向最热、最有意思？

Sebastian Bubeck
依然是大量中小改进的叠加，这在历史上一直是进步的主要来源。具体来说，长上下文架构、注意力机制，以及从“无限数据”转向“有限数据”这一范式变化，都会带来很多新的研究问题。
另一条线是使用成本：模型被越来越多的人使用，预训练阶段就必须考虑部署和推理的代价。如何在保证质量的同时，让模型更便宜、更省资源，这会反过来影响预训练设计。

条件已经成熟：既要做研究，也得理解系统

Matt Turk
如果有学生或博士生在听这期节目，想在几年后做到你现在的位置，你觉得他们该关注什么问题？

Sebastian Bubeck
一个越来越重要的能力，是既能做研究，又理解系统。我们现在构建的是非常复杂的系统，能从 TPU 到模型研究全链路理解整个栈，是一种“超能力”。这样你能看到不同层之间的空隙，也能推演一个研究想法对系统底层的影响。

另外，我个人依然对检索方向很感兴趣。RETRO 当年还不成熟，但条件正在变化。未来几年，这类方法进入顶级模型并非不可想象。

Matt Turk
那为什么当时不成熟？现在又为什么可能改变？

Sebastian Bubeck
主要还是复杂度和迭代效率的问题。很多能力通过后训练和搜索就能更简单地实现，迭代也更快。但随着后训练和 RL scaling 的发展，重心可能再次向预训练侧回摆。

专用模型被过度投资了

Matt Turk
你觉得现在 AI 领域有没有被过度投资的方向？

Sebastian Bubeck
情况已经好很多了。两年前还有很多人在做高度专用模型，但这些任务往往很快就会被通用模型覆盖。现在更多人接受一个判断：对大多数通用任务，与其做专用模型，不如等下一代通用模型。

这也让“如何使用模型”“如何构建可靠的 harness”“如何容错和恢复”变得越来越重要。

创业者的机会

Matt Turk
那对创业者呢？基础模型越来越强，覆盖面越来越广，留给初创公司的空间是不是在缩小？

Sebastian Bubeck
可以回头看看一年前模型能做什么，再看看现在能做什么，然后外推。我认为模型正在快速进步的方向，短期内还会继续；而进步缓慢的地方，反而可能是更有意思的机会。暂时我没有具体案例，但这是一个总体判断。

未来一年，基础模型不会放缓

Matt Turk
最后一个问题。未来一两年，从你个人的角度看，最让你期待的是什么？

Sebastian Bubeck
我最喜欢的一点，是每天能和很多非常聪明的人一起工作，不断学到新东西。这是驱动我前进的核心动力。同时，就像我反复说的，还有太多可以改进的空间。我暂时看不到这条路的尽头，也不觉得未来一年会放缓。能亲眼看到它能走多远，本身就非常令人兴奋。

Matt Turk
太好了，这正是一个完美的收尾点。Sebastian，非常感谢你来做客播客。

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/13705