Gemini 3的逆袭,给业界带来了太多的惊喜和问号。
与此前不同的是,业界到现在似乎也没有逆向出Gemini3的秘方出来。
本周五,继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后,终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。
Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjou,在访谈中被主持人挖出来不少关于 Gemini 3 的消息。
比如,跟上一代相比,Gemini3 在模型架构的改动并没有大到脱离了 transformer 架构,大体上还是能看出它是Transformer MoE架构的影子。并坦承,Gemini 3之所以提升如此大,是大中小多重因素叠加的结果。

再比如,他自曝说自己感觉不是在做大模型,而是在构建一个复杂的系统。
“这件事实际上会深刻改变研究方式,以及我们思考问题的方法。”
Bourjou 还特别提到了一种范式的变化:
过去,我们基本处在一个“数据几乎无限”的规模化阶段;而现在,我们正在进入一个“数据受限”的阶段。
关于“预训练到头了吗?Scaling Law 到头了吗?”Bourjou很果断的给出了否定的答案,并指出,自己并没有看到这条研究路线在短期内会走到尽头。“至少 1 年内,它仍然会持续为我们带来进展。”

这次访谈非常的technical,从预训练、到后训练、对齐、RL,再到Gemini3所用的训练数据,再到最近大火的持续学习。都给出了自己的“研究品味”。
在他看来,工程与研究的边界已经开始分不清了!
访谈中,他还聊到了,Gemini 3 在底层是如何构建的、从“无限数据时代”转向“数据受限阶段”的变化、DeepMind 内部研究团队的组织方式,以及 AI 接下来可能会走向哪里。
Oriol 的“秘密配方”:更好的预训练 + 后训练
Matt Turk
大家好,今天的嘉宾是Sebastian Bourjou,Google DeepMind 的 Gemini 3 预训练负责人。Sebastian 是全球顶尖的 AI 研究者之一,同时也入选了 Meta 的研究员榜单。这一期节目格外特别,因为这是他第一次参加播客访谈。
Matt Turk
我想从一条推文聊起。这条推文来自 Oriol Vinyals,他是 Google DeepMind 的研究副总裁、深度学习负责人,也是 Gemini 的联合负责人之一。
在 Gemini 3 发布时,他说这个模型背后的“秘密”其实非常简单:
更好的预训练,以及更好的后训练。

考虑到 Gemini 3 相比之前的 SOTA 有这么大的跃迁,这样的说法听起来反而有点“朴素”。我很好奇,你怎么看?事情真的就这么简单吗?
Sebastian Bourjou
我不确定这算不算什么“秘密”。至少从我的视角来看,这其实挺正常的。
很多人会期待,从一个 Gemini 版本到下一个版本,一定会有某个“巨大变化”,突然带来质的飞跃。但根据我的经验,确实会有一两个因素,比其他因素的影响更大一些,但真正决定结果的,往往是大量改进的累积。
Gemini 3 之所以明显优于前几代,并不是因为某一个单点突破,而是一个非常庞大的团队,在非常多细节上持续改进,最终汇聚成了这个结果。
我想这也是一个会在后面反复出现的主题:像 Gemini 3 这样的发布,本质上是一个大规模团队协作的成果。
AI 进展为什么还没有放缓
Matt Turk
从这个角度来看,这对我们理解 AI 的发展阶段意味着什么?仅仅通过“调参数”“拧旋钮”,就能带来如此大的提升,这说明了什么?对未来的进展,我们应该有什么预期?
Sebastian Bourjou
我觉得有两点。第一点是:通过这种方式,我们依然能够取得如此显著的进展,这件事本身就非常值得注意。而且,这种进展并没有明显放缓。
我们每天都会发现新的“旋钮”、新的改进点,几乎是日常层面的发现——这些都会让模型变得更好。
第二点是:我们已经不再只是构建一个模型了。我们现在构建的是一个系统。
有些人会认为,我们只是训练了一个神经网络架构,仅此而已。
但实际上,我们构建的是围绕这个网络的整个系统。
这是一个整体工程,而不是单一模型。
模型真的在 “变聪明”吗?
Matt Turk
这是很多人心中的核心问题:这究竟意味着什么样的智能进展?我们不一定非要讨论 AGI,毕竟谁也说不清它到底指什么。
但问题是:
我们是否应该把这种模型进展,看作是真正通往智能的一条路径?还是说,它更多只是为了在某个基准测试上取得好成绩?
是什么让你相信,模型的“核心能力”正在变得更强?
Sebastian Bourjou
从基准测试的角度看,成绩确实在持续提升。而且如果你观察这些前沿 benchmark 的设计方式,它们本身也在变得越来越难。
即便是对我这样有计算机科学背景的人来说,模型现在能回答的一些问题,我自己也需要花相当多时间才能解出来。
当然,这只是一个视角——基准测试视角。我们也会非常频繁地做评估,对测试集保持严格隔离。但即便如此,人们还是会担心过拟合,或者所谓的“刷榜”。
我个人并不太认同这些担忧。
但真正让我有信心的,是另一件事:内部使用模型的时间,在持续增加。每一代新模型,都非常明显地展现出新的能力,它们在研究和日常工程工作中,能比上一代帮到我们更多。
这一点非常清楚。这说明模型不仅在分数上更好,而且在做真正有用的事情,能力也在实质性提升。
两三年后:最先发生变化的是什么?
Matt Turk
作为一名深度参与其中的 AI 研究者,我一直很好奇:如果你把视角拉远一点来看,现在的进展还会让你感到意外吗?
从你的角度看,我们是明显走在预期前面,还是基本符合当初的判断,甚至有点落后?
Sebastian Bourjou
事后回看,说“我们在正轨上”其实很容易。但如果我对自己足够诚实,我会说,我们确实走在了我当初预期的前面。
2019 或 2020 年刚开始做大语言模型时,很难想象今天的规模,也很难想象模型现在能做到的事情。
当年从 scaling law 的角度看,确实有人认为会走到这一步,但我不确定自己当时是否真敢下注,赌它会如此完整地实现。
接下来两到三年,会发生什么?
Sebastian Bourjou
一个自然的问题是:如果我们假设未来五年的进展节奏,和过去五年差不多,那接下来会发生什么?我觉得未来几年会非常有意思。
Matt Turk
那你怎么看短期内的变化?比如两到三年内,AI 会不会做出全新的科学发现,甚至拿到诺贝尔奖?你觉得最近的方向会走向哪里?
Sebastian Bourjou
我觉得这是其中的一部分。在科学研究层面,DeepMind 一直在这方面投入很多,我也相信未来几年我们确实有机会做出一些重大的科学发现。
Sebastian Bourjou
但在我自己的日常工作中,不论是研究还是工程,我更兴奋的是:这些模型如何帮助我们更快推进工作,同时也帮助我们更好地理解我们正在构建的系统,并进一步深化自己的研究理解。

Matt Turk
现在行业里有一个很大的话题:AI 是否会自动化 AI 研究和工程。如果顺着这个逻辑往下推,就会走向那种“AI 2027” 的断点式场景。
从一个非常现实的角度看,你现在是如何使用 AI 的?你觉得两年后会变成什么样?
Sebastian Bourjou
我觉得重点不在“自动化”,而在“加速”。AI 会让我们把更多时间投入到更高层次的研究本身。
AI 做 AI 研究:更快,但不是全自动
Sebastian Bourjou
在语言模型研究中,我们每天面对的是非常复杂、非常庞大的系统,尤其是在基础设施层面。
大量时间花在跑实验、盯实验、分析数据、整理结果上,真正有价值的部分是形成假设和设计新实验。
后面这两件事,人仍然会深度参与;而前面的部分,在接下来一年里,随着更具 Agent 特性的工作流成熟,会被显著加速。
前沿实验室:相似的路,分叉的研究树
Matt Turk
你觉得各家前沿 AI 实验室,本质上是不是都在做同一件事?
作为行业观察者,我们会感觉每隔几周就冒出一个“惊艳模型”,大家反而有点被宠坏了。
比如 Gemini 3 刚发布没多久,几乎同时 GPT-5.2 也出来了。你怎么看这种现象?
最终会不会有人明显跑出来,还是说会长期维持“少数顶级实验室 + 一些新兴团队”的格局?
Sebastian Bourjou
先说第一点,各家确实有很多相似之处,底层技术路径也比较接近。如果所有人都在训练 transformer 类模型,我也不会感到太意外,但在此之上,大家确实在做不同方向的专精。
不同公司会探索不同的研究分支。比如从历史上看,DeepMind 在视觉和多模态方向一直很强,这一点现在仍然很明显,无论是用户使用方式还是 benchmark 表现。
推理能力也是类似的情况,OpenAI 首先推出了相关模型,但我们内部其实也有对应的研究线。
为什么在 Google 做研究很有吸引力
规模、资源与潜在颠覆
Sebastian Bourjou
至于第二个问题,我不确定有没有标准答案。很现实的一点是:今天要推动 Gemini 这种级别的模型进展,确实需要非常大的团队和资源。
但这并不意味着当前路径是最优的,未来完全可能出现颠覆性研究,让小团队也能实现突破。
Sebastian Bourjou
这也是我很享受在 Google 的原因之一。这里一直有大量探索性研究,研究广度非常高,而且很多工作是和 Gemini 并行进行的。这些成果最终也能被吸收进 Gemini,形成正向循环。
Transformer 之后,会不会有突然的断裂式创新?
Matt Turk
在 DeepMind 或整个行业里,是否存在一些半公开甚至完全保密的团队,
在研究“后 Transformer”架构,有一天突然公布成果,让所有人都措手不及?
Sebastian Bourjou
我相信是有的。在 Google、在 DeepMind 内部,确实有人在研究模型架构层面的新方向。至于这些研究是否最终会成功,很难说——这就是研究本身的特性。
DeepMind 的优势:研究 × 工程 × 基础设施
Matt Turk
真正能成功的研究想法其实非常少。所以在这个过程中,一家公司相对另一家的核心优势,往往归结为“人”的质量。
回到我刚才提到的那条推文,Demis Hassabis 转发并评论说,真正的秘密在于研究、工程和基础设施的结合。这是不是 Google 的“秘密配方”?你们做的是完整技术栈。
Sebastian Bourjou
这确实非常有帮助,我认为这是一个重要因素。另外,“研究”和“工程”之间的边界,也在不断变得模糊。
Sebastian Bourjou
在今天这种超大规模系统中,研究看起来越来越像工程,工程也越来越像研究。
这种心态在 DeepMind 过去几年变化很大,尤其是在 Gemini 项目中,现在更像是“研究工程”。
基础设施同样关键,我们构建的是极其复杂的系统,可靠、稳定、可扩展的基础设施,直接决定研究和工程能否不被拖慢。
Matt Turk
Gemini 3 是在 TPU 上训练的,对吗?不是用英伟达的芯片。
这基本算是完全垂直整合了。
进入 Gemini 3 深水区之前,先聊聊你
Matt Turk
在深入 Gemini 3 之前,我想先聊聊你本人。你是 Gemini 3 的预训练负责人之一,这具体意味着什么?然后我们再谈谈你的背景和经历。
Gemini 3 预训练负责人,到底在做什么?
Sebastian Bourjou
我是 Gemini 预训练的几位负责人之一,这个角色其实包含很多方面。一部分是研究本身,目标是让模型变得更好;但现在更多是设计实验、和团队一起评估结果,而不是自己亲自跑实验。
Sebastian Bourjou
另一部分——而且我觉得很有意思——是协调与整合。现在预训练团队已经非常大了,很难精确统计,但日常参与的人大概在 150 到 200 人之间,涵盖数据、模型、基础设施等多个方向。
大团队协作,才是长期效率的来源
Sebastian Bourjou
把这么多人的工作整合成一个统一、可推进的系统,本身就是一件非常复杂、也非常耗时的事情。
但我认为这是最重要的,因为真正推动长期进展的,是让所有人都能持续产出,而不是只让一小撮人跑在最前面。
短期或许能靠小团队突进,但长期来看,真正成功的路径是大规模协作与整合。
“逆向”顶级 AI 研究者的成长路径
| 天才往往搬家
Matt Turk
我一直很好奇,你是在哪里长大的?很多人都想“逆向工程”顶级 AI 研究者的成长路径——他们来自哪里,又是如何走到今天的?

Sebastian Bourjou
我在欧洲各地长大,搬过很多次家。我出生在荷兰,7 岁时搬到瑞士;我父亲是瑞士人,母亲是德国人。
我在瑞士完成了大部分中小学教育,用的是法语和德语。15 岁左右我搬去了意大利,在那里完成了高中,直到 19 岁。
原本我打算去苏黎世联邦理工学院(ETH)读大学,但有一天我随手查了下大学排名,看到了剑桥,就想“那我也申请一下试试吧”。几个月后我收到了录取通知,于是去了剑桥,在计算机实验室完成了本科和硕士。

| 从小就擅长数学和编程
Matt Turk
你小时候就是那种数学特别强、偏计算机的孩子吗?
Sebastian Bourjou
我父亲有技术背景,所以我大概在 10、11 岁时就跟着他开始写点程序。
我一直挺喜欢这些东西,在学校里数学和理科也比较轻松。高中时我几乎不用怎么复习数学考试,也能考得不错——不过这在大学里就完全不成立了。
| 从学校到 DeepMind:一次勇气,换一次机会
Matt Turk
很好。那你从学校走到今天这个位置,中间经历了怎样的路径?
Sebastian Bourjou
说实话,这里面有一点运气成分。我硕士期间有一门课的老师,刚好也是 DeepMind 的研究员。最后一节课结束时,我心想不如直接问他要个内推,最坏的情况也就是被拒绝。
Sebastian Bourjou
我就鼓起勇气走过去问了,他说:“可以,把你的简历发给我,我看看能做什么。”
这就是我拿到 DeepMind 面试的起点,大概是在 2018 年。
毕业后我加入了当时还没并入 Google 的 DeepMind,职位是研究工程师。
| 从强化学习开始,转向真实世界数据
Matt Turk
你最开始做的是什么?又是怎样一步步走到 Gemini 3 预训练负责人的?
Sebastian Bourjou
刚加入 DeepMind 时,它以强化学习闻名,所以我一开始也做的是 RL。具体来说,是在 Atari 环境里训练无监督网络,学习关键点,让智能体玩游戏。
我做了大概半年,但逐渐发现我不太喜欢这种偏“合成世界”的研究。我更希望做和真实世界数据有关、能产生现实影响的事情。
我本质上喜欢“造东西”,而且是能真正跑起来的东西,对纯学术研究的兴趣反而没那么强。
这推动我转向表征学习,训练能支撑多种任务的通用表征网络。
这里有个我经常跟团队讲的小故事:
我最早参与的项目叫“从真实世界数据中进行表征学习”,当时必须特意强调“真实世界数据”,否则大家默认你是在做合成环境或合成数据——而现在,这个前提已经完全反过来了。
从表征学习到 Transformer 和 LLM
Sebastian Bourjou
这也是我第一次系统性地进入 Transformer 和大语言模型方向。
当时我们在研究像 BERT、XLNet 这样的模型,重点是如何学到更好的表示,以及如何改进这些表示。这为我后续进入大规模预训练打下了基础。
Matt Turk
后来你参与了 RETRO,对吗?可以讲讲那段经历吗?
Sebastian Bourjou
在那之后,我们开始真正推进大语言模型的规模化。最早是 Gopher,那应该是 DeepMind 发布的第一篇 LLM 论文,当时团队已经有 10 到 12 个人了。
从那一刻起,就很清楚这类研究不可能靠个人完成。这也是我真正开始做大规模预训练的阶段。
我们训练了第一个 dense Transformer,大约 2800 亿参数、3000 亿 token。
今天回看,那些做法肯定不会再用,但当时是一次非常宝贵、也很有趣的学习过程。

Chinchilla:重新思考“怎么用算力”
Sebastian Bourjou
之后分化出了两条重要的研究线:Chinchilla 和 RETRO。
在 Chinchilla 中,我们重新审视一个核心问题:在固定训练算力下,模型规模和数据规模该如何平衡?结论是,数据规模应该比之前认为的更快增长,而不是一味放大模型。
有意思的是,这个结论在今天仍然非常关键,因为它直接影响模型部署后的推理成本,以及实际使用有多昂贵。这并不是一个“历史问题”,而是一个持续影响工程决策的结论。
RETRO:把“记忆”外包给系统
Sebastian Bourjou
另一条研究线是 RETRO,更偏架构创新。核心思想是:与其把所有知识都塞进模型参数里,不如让模型在训练和推理时,能从一个大型文本库中检索信息。也就是把“记忆”部分,从参数中解耦出来。
“研究品味”
Matt Turk
你刚才用了一个词——“研究品味”,我觉得特别有意思。你会如何定义它?它对研究者来说有多重要?
Sebastian Bourjou
它在今天非常重要,但也确实很难量化。第一点是:你的研究不是孤立存在的,它必须能和其他人的研究很好地协同、被整合进系统里。
好想法,如果拖慢别人,就不是好权衡。假设你提出了一个改进,让模型性能提升了,但同时让其他所有人的使用成本增加了 5%。这通常不是一个好的权衡,因为你会拖慢其他人的研究节奏,而这会在长期累积中减慢整体进展。这是研究品味中的第一层判断。
Sebastian Bourjou
第二点是对复杂度保持警惕。复杂度本身是主观的,但我们始终有一个“复杂度预算”和“研究风险上限”,超过之后,系统就会开始失控。
因此,我们常常会牺牲一点性能,换取更低复杂度的方案,以便未来能走得更远。

Matt Turk
听起来研究品味里也包含一种直觉判断——什么可能行得通,什么不值得继续投入。在算力有限的前提下,这种直觉是不是也很关键?
Sebastian Bourjou
是的,这一点非常重要,而且不同人差异很大。经验在这里非常有帮助,而我们在研究层面确实受限于算力。
多数研究都会失败,这本身就是现实
Sebastian Bourjou
研究的关键在于选择探索哪一条“研究树”的分支,以及在这条分支上该做哪些实验。
而且要知道,大多数研究想法都会失败,你需要判断什么时候该停下来、什么时候值得继续推进。
在深度学习中,负结果往往并不代表“不可能”,而是“你还没把它做对”。

修复、探索,如何平衡?
Matt Turk
既然谈到研究组织方式,我们再深入一点。一个典型的权衡是短期和长期之间的取舍,你们是怎么平衡的?
Sebastian Bourjou
这是我花很多时间思考的问题。一方面,总有一些明确的“关键路径”问题,比如模型某个部分明显不够好,这些我们会优先修。这些修复是相对安全的投入,而且往往能直接提升模型。
更重要的是,那些当前看起来“不够完美”的地方,往往会在模型规模变大、能力增强后放大成大问题。所以在早期就非常严谨地处理这些问题,其实是在为未来降风险。

另一部分,则是更探索性的研究,可能会影响下一代或下下代 Gemini,但尚未被验证。这两者的平衡并没有固定公式,也和阶段有关。在扩容阶段,探索会多一些;在发布前,则高度聚焦执行与去风险。
研究 vs 产品压力
Matt Turk
在类似的维度上,还有研究与产品目标之间的张力。在激烈竞争中,是否会有“必须赢某个榜单”的现实压力?
Sebastian Bourjou
在 Google,其实这种压力相对很少。
因为管理层大多有研究背景,他们很清楚:你可以短期“刷榜”,但真正重要的是研究本身是否走在正确方向上。至少对我个人来说,日常工作中几乎感受不到这种压力。
DeepMind 的组织结构是怎样的?
Matt Turk
DeepMind 的团队是如何组织的?你提到预训练有几百人,那是否还有后训练、对齐等不同团队?
Sebastian Bourjou
有预训练团队,也有后训练团队。预训练涵盖模型、数据、基础设施和评测,而评测本身常被低估,但其实非常难、也非常关键。此外还有大规模的基础设施和服务团队。
Gemini 3:架构上基本仍然是Transformer
Matt Turk
好,我们稍微换个话题。按照之前的约定,我们来深入聊聊 Gemini 3 的内部设计。
Matt Turk
从用户角度看,Gemini 3 和 2.5 的感觉差异很大。是否有某个重大的架构决策,解释了这种变化?
Sebastian Bourjou
从高层来看,架构并没有发生根本性变化。更多是多个改进点叠加在一起,最终带来了显著提升。整体上,它仍然是基于 Transformer 的混合专家(MoE)架构。

Matt Turk
能否用更教学一点的方式,解释什么是 MoE 架构?
Sebastian Bourjou
Transformer 主要有两个模块:第一个是注意力模块,负责在不同 token 之间混合信息;第二个则是前馈模块,提供模型的“记忆”和计算能力,它们是并行作用在单个 token 上的。在原始 Transformer 中,前馈模块是一个 dense 的全连接网络。
而 MoE 的核心思想是:将计算量与参数规模解耦,通过路由机制,动态选择“专家”来处理输入。这样就能在不线性增加计算成本的前提下,提升模型容量。

原生多模态,真实成本如何
Matt Turk
Gemini 是原生多模态模型。在实践中,这对模型来说到底意味着什么?
Sebastian Bourjou
这意味着我们不是为图像、音频、文本分别训练不同模型。而是同一个神经网络,同时处理所有模态的信息。
Matt Turk
这种原生多模态在成本上会更贵吗?比如 token 成本?
Sebastian Bourjou
这是个好问题,成本主要体现在两个方面。第一是研究复杂度,多模态交互会增加系统复杂性,需要额外思考和设计。第二是计算成本,图像输入通常比纯文本更大,但这也是效率优化的重要研究方向。

Scaling Law 真的“死”了吗?
Matt Turk
回到你最擅长的预训练领域。2025 年有不少声音在讨论“Scaling Law 是否已经失效”,Gemini 3 是否给出了反证?
Sebastian Bourjou
是的,这类讨论对我来说一直有点奇怪,因为它们和我的实际经验并不完全一致。我们看到的情况是:Scaling在预训练中依然非常重要,也是让模型变得更强的关键因素之一。但问题在于,过去人们有点高估了规模这一维度。
规模确实能让模型变好,而且它的优势在于结果相对可预测——这正是规模定律告诉我们的:当模型变大时,性能大致会提升多少。但这只是其中一部分。
另外两大关键因素是模型架构和数据层面的创新,它们在当下的预训练性能中同样、甚至可能比“纯粹堆规模”更重要。
当然,规模依然是一个重要因素,对吧?而且我们这里讨论的是预训练阶段。因为今年我们看到的是:后训练阶段有规模化的 RL,推理时有规模化的 test-time compute 等等。但在预训练中,你们看到的情况似乎是,不仅 scaling loss 没有放缓,甚至还有加速的迹象——我的理解是,这主要来自数据和不同架构的变化,对吗?
Sebastian Bourjou
我觉得更准确的说法是:这些因素是叠加在一起发挥作用的。规模只是其中一个轴,而模型本身和数据的改进,同样会推动整体性能提升。
Matt Turk
当你在模型架构层面做出改进时,通常意味着什么?是不是用同样规模的数据,模型能得到更好的结果;或者反过来,用更少的数据,就能达到上一代模型的效果?
Sebastian Bourjou
对,这正是第一个层面的含义。架构改进本质上提高了数据效率。不过就数据体量而言,我们现在使用的数据规模,依然比人类一生可接触到的量高出好几个数量级。进化过程常被拿来类比,但那类高层讨论往往依赖太多假设。至少在一阶近似下,看起来我们确实比人类“喂”了模型更多数据。

未来研究方向
Matt Turk
在整个预训练进展上,除了规模之外,你在行业里还对哪些方向感到兴奋?
Sebastian Bourjou
一个明显的方向是长上下文。在 Gemini 1.5 中,我们在长上下文能力上实现了一次很大的跃迁,这直接支撑了如今模型和智能体处理大型代码库等复杂工作的能力。接下来一年,我预计会看到更多关于“如何高效支持长上下文”的创新,以及进一步拉长上下文本身的研究。

此外,在注意力机制上,我们最近也有一些很有意思的发现,可能会深刻影响接下来几个月的研究方向。整体来看,进步往往来自大量中小改进的叠加:修一个问题、补一个漏洞、验证一项看似不起眼但有效的研究,最终一起推动整体向前。
长上下文会取代RAG吗?
Matt Turk
这让我想到你早期参与的 RETRO。它强调的是效率、让小模型做更多事;而现在你在 Gemini 3 上,面对的是超大规模数据和极长上下文窗口。你觉得这种范式会不会逐步消解 RAG、搜索这些机制的必要性?
备注:RETRO,DeepMind 在 2021–2022 年提出的一种语言模型研究方向,全称通常被称为 Retrieval-Enhanced Transformer。
Sebastian Bourjou
RETRO 的核心并不是让模型变小,而是“检索而不是存储”:让模型在推理时去取信息,而不是把一切都压进参数里。这个理念今天依然成立。
过去,预训练的迭代周期很长,风险和成本都很高;而 RAG 或搜索更多发生在后训练阶段,迭代更快、效果也很强。从长期来看,我相信真正的答案是把检索和搜索以可微的方式纳入训练本身——可能通过预训练,或未来的其他范式。RL 的规模化或许只是一个开端,架构层面还有很多事要做,但这会是未来几年逐步展开的过程。
后训练的Scaling Law跟预训练很类似
Matt Turk
我理解你们的观察是:在预训练阶段,规模依然非常关键,但今年大家又在后训练阶段放大了 RL、测试时计算等变量。
那在预训练中,我们看到的不只是 loss 放缓,甚至还有加速现象,这是不是更多来自数据和架构的变化?
Sebastian Bourjou
可以这样理解:这些因素是叠加起作用的。规模只是其中一个维度,模型架构和数据同样会显著提升性能。有时候,架构或数据层面的创新,带来的收益会超过单纯继续放大规模;但在某些阶段,直接扩规模依然是最有效的路径。这主要针对预训练而言。至于 RL 和 RL 的规模化,其实我们正在看到很多和早期预训练阶段相似的现象,只是现在可以把当年的经验直接迁移过来。
Gemini3一开始就是多模态数据混合体
Matt Turk
说到数据,Gemini 3 的预训练数据大致是怎样的组合?你们之前好像发布过 model card,透露过一部分信息。

Sebastian Bourjou
整体是多模态、从一开始就如此设计的数据混合体,来源非常多样。一个经常被问到的问题是:我们会不会很快用完数据?一方面是算力是否不足,另一方面是数据是否不足。今年合成数据的使用明显增加了,你怎么看它的价值和边界?

Sebastian Bourjou
合成数据确实很有意思,但使用时必须非常谨慎,很容易用错。常见做法是先用一个很强的模型生成合成数据,再用小规模实验验证它是否真的有效。一个更难的问题是:能不能用合成数据,训练出一个比“生成这些数据的模型”本身还要更强的模型?这是我们投入大量精力研究的方向。

至于“数据是否用完了”,我个人并不这么认为。我们研究中发现,更可能发生的是一种范式转变:过去我们默认处在“数据几乎无限”的阶段,现在正在进入“数据有限”的阶段,这会彻底改变研究思路。有点像 LLM 出现之前,大家在 ImageNet 等小数据集上的工作,很多当年的方法又重新变得有价值。

范式正在转变:数据有限的情况下如何更好
Matt Turk
行业里还有一个反复出现的概念:基于“推理轨迹”的训练,也就是要求模型展示中间思考过程,再用这些过程训练下一代模型。你怎么看这个方向?
Sebastian Bourjou
具体细节我不能展开评论,但你的问题方向确实很对。这和你刚才问的合成数据高度相关。更宏观地看,一个核心主题正在浮现:模型如何在有限数据条件下学习得更好。这里的“有限”并不一定是更少,而是数据量是有上限的。从这个角度看,模型架构研究本身,正是在回答你提到的那个问题。
Sebastian Bourjou
还有一点我想强调:大家经常只谈模型架构,但基础设施、数据和评测同样关键。评测尤其困难,在预训练阶段更是如此。
一方面,我们用来做评测的小模型,必须能预测大模型的表现;另一方面,预训练后的模型还会经历后训练,评测指标也要能反映最终使用效果。内部评测体系在这里非常重要,因为外部基准很快就会被“污染”,一旦训练数据中泄漏了评测内容,你几乎无法察觉。真正防止自欺的方式,就是维护严格隔离的内部评测集。

为什么对齐不发生在预训练?
Matt Turk
那对齐更多是在预训练阶段考虑,还是主要发生在后训练?
Sebastian Bubeck
我会说大部分是在后训练阶段,但确实有一些部分和预训练相关,具体细节我不便展开。不过我们在预训练阶段也会考虑这些问题。
Matt Turk
一个很直观的问题:如果核心数据集来自互联网,而互联网里充满糟糕内容,那对齐的第一步是不是干脆不把这些东西喂给模型?
Sebastian Bubeck
这是个很难给出确定答案的问题。你当然不希望模型去做那些糟糕的事,但在更底层的层面,模型至少要“知道”这些东西是什么,才能学会避开它们。否则当用户提到某些糟糕内容时,模型甚至无法判断那是什么,也就谈不上明确拒绝。
Deep Think 与模型的关系
Matt Turk
我们来聊聊 Deep Think 吧,也就是在 Gemini 3 发布几天后推出的那个“思考模型”。它是一个独立模型,还是同一个模型的不同形态?应该怎么理解?
Sebastian Bubeck
这个我不能讲太多。至于你提到的,当模型“思考”十几秒甚至更久时,背后发生了什么,其实行业里已经讨论过不少了。本质上,是让计算不只发生在模型深度上,也发生在序列长度上:模型会生成假设、测试假设,调用工具、发起搜索,然后最后给出一个确定性的回答。围绕“思维链”的这种范式,已经在行业里逐渐形成共识。
编程Agent
Matt Turk
那从 agent 的角度呢?比如 Google 的 Anti-Gravity,你觉得它有意思的地方在哪?
Sebastian Bubeck
这正好和我之前提到的日常工作相关。很多时候我们的工作是偏执行层面的,比如盯实验。但 agent 化真正放大了模型的价值。对预训练来说,感知和视觉能力变得非常关键,因为模型现在要直接和屏幕交互,屏幕理解做不好,agent 基本无从谈起。
Matt Turk
Anti-Gravity 里还有个“vibe coding”的说法,几乎就是“凭感觉写代码”。这种“vibe”是预训练出来的,还是后训练?怎么把“感觉”塞进模型里?
Sebastian Bubeck
这个问题你问五个研究员,大概会得到五种答案。确实存在一种“模型气场”的说法,历史上有人认为 GPT-4.5 这种大模型“感觉不一样”。我不太喜欢用这种表述,但直觉上,预训练在塑造这种“感觉”上起的作用,可能比后训练还大。
如果专指 vibe coding,我会更倾向于把它看作 RL scaling 和后训练的结果:你可以收集大量相关数据,系统性地把这种行为教给模型。
持续学习的热门方向
Matt Turk
拉远一点看。最近一年在很多会议上,大家都在谈“持续学习”。从预训练角度看,你怎么理解它?如果持续学习真的成立,对重新训练意味着什么?
Sebastian Bubeck
持续学习,本质上是让模型随着新知识不断更新。比如明天出现一个新的科学突破,昨天训练好的基础模型并不知道它。近几年更多进展发生在后训练阶段,比如通过搜索工具即时获取新信息。RETRO 做的事情也是类似的:把知识外部化,用检索配合推理。
在预训练侧,一个相关方向是长上下文。如果上下文不断扩展,模型就能在一次交互中吸收越来越多信息,某种意义上形成“准持续学习”。更激进的设想是改变训练算法,让模型持续地从真实世界的数据流中学习,但那是更大的范式转变。

Matt Turk
那你现在觉得,研究里哪些方向最热、最有意思?
Sebastian Bubeck
依然是大量中小改进的叠加,这在历史上一直是进步的主要来源。具体来说,长上下文架构、注意力机制,以及从“无限数据”转向“有限数据”这一范式变化,都会带来很多新的研究问题。
另一条线是使用成本:模型被越来越多的人使用,预训练阶段就必须考虑部署和推理的代价。如何在保证质量的同时,让模型更便宜、更省资源,这会反过来影响预训练设计。
条件已经成熟:既要做研究,也得理解系统
Matt Turk
如果有学生或博士生在听这期节目,想在几年后做到你现在的位置,你觉得他们该关注什么问题?
Sebastian Bubeck
一个越来越重要的能力,是既能做研究,又理解系统。我们现在构建的是非常复杂的系统,能从 TPU 到模型研究全链路理解整个栈,是一种“超能力”。这样你能看到不同层之间的空隙,也能推演一个研究想法对系统底层的影响。

另外,我个人依然对检索方向很感兴趣。RETRO 当年还不成熟,但条件正在变化。未来几年,这类方法进入顶级模型并非不可想象。
Matt Turk
那为什么当时不成熟?现在又为什么可能改变?
Sebastian Bubeck
主要还是复杂度和迭代效率的问题。很多能力通过后训练和搜索就能更简单地实现,迭代也更快。但随着后训练和 RL scaling 的发展,重心可能再次向预训练侧回摆。
专用模型被过度投资了
Matt Turk
你觉得现在 AI 领域有没有被过度投资的方向?
Sebastian Bubeck
情况已经好很多了。两年前还有很多人在做高度专用模型,但这些任务往往很快就会被通用模型覆盖。现在更多人接受一个判断:对大多数通用任务,与其做专用模型,不如等下一代通用模型。

这也让“如何使用模型”“如何构建可靠的 harness”“如何容错和恢复”变得越来越重要。
创业者的机会
Matt Turk
那对创业者呢?基础模型越来越强,覆盖面越来越广,留给初创公司的空间是不是在缩小?
Sebastian Bubeck
可以回头看看一年前模型能做什么,再看看现在能做什么,然后外推。我认为模型正在快速进步的方向,短期内还会继续;而进步缓慢的地方,反而可能是更有意思的机会。暂时我没有具体案例,但这是一个总体判断。
未来一年,基础模型不会放缓
Matt Turk
最后一个问题。未来一两年,从你个人的角度看,最让你期待的是什么?
Sebastian Bubeck
我最喜欢的一点,是每天能和很多非常聪明的人一起工作,不断学到新东西。这是驱动我前进的核心动力。同时,就像我反复说的,还有太多可以改进的空间。我暂时看不到这条路的尽头,也不觉得未来一年会放缓。能亲眼看到它能走多远,本身就非常令人兴奋。

Matt Turk
太好了,这正是一个完美的收尾点。Sebastian,非常感谢你来做客播客。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13705
