斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

昨日,斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后,相关视频与资料迅速公开,系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

在答辩中,Zitong Yang 重点阐述了三个核心研究方向。

首先,是 “合成持续训练”范式。该研究利用实体图合成数据生成技术,旨在使模型在预训练后,仍能持续学习小众领域的知识,同时有效避免灾难性遗忘。

其次,是探索 预训练能力的自我提升。通过“合成引导预训练”技术,让模型能够自主挖掘海量文档间的潜在结构与关联,从而优化自身的预训练效果,并显著降低事实错误率。

最后,是展示 AI设计AI”的潜力。通过构建包含代码库和价值函数的独立研究环境,并引入演化搜索机制,使模型能够自主提出算法思路、编写代码并运行实验。

Zitong Yang 在总结中类比指出,正如爱因斯坦的场方程能够预言其本人最初都难以接受的宇宙膨胀一样,人类基于算法过程创造的智能体,也完全具备进化出超越创造者智能水平的必然性。

其答辩委员会阵容强大,包括斯坦福大学电气工程、计算机科学与管理科学教授 Stephen Boyd(主席),计算机科学教授 Percy Liang,数学和统计学教授 Emmanuel Candès,计算机科学助理教授 Tatsunori Hashimoto,以及近期从 Meta 加入 OpenAI 的庞若鸣。

以下是对 Zitong Yang 答辩核心内容的整理。

  • 题目:Continually self-improving AI
  • 幻灯片地址:https://zitongyang.github.io/slides/ZitongYang_defense_slides.pdf

持续自我提升式 AI

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

本次答辩旨在探讨“持续自我改进式AI”。首先,需要对这一概念进行定义。

所谓持续自我改进式AI系统,是指一旦被创造出来,便能自主且持续地进行自我改进,并且其改进效果优于人类创造者所能实现的改进。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

为了使定义更精确且具有实践意义,需要设定两个基本假设,以限定讨论的AI系统范围:
1. 参数化假设:AI系统基于一个或多个神经网络,知识存储于一组明确定义的参数权重中。
2. 预训练假设:AI系统必须经历一个资源密集型的预训练阶段,在此阶段接收包含大部分或全部人类知识的训练信号,并将其编码为参数权重。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

在上述假设下,一个真正的持续自我改进式AI应具备以下三个特性:

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

  • 持续知识获取:在初始预训练后,系统能继续获取新知识并融入参数权重,且不会灾难性遗忘旧知识。
  • 自我生成训练信号:系统能够生成自身的训练信号,且学习这种自生成信号所带来的提升,优于学习人类生成的信号。
  • 自主算法设计:系统能够自主设计学习算法,以便从其训练信号中进行有效学习。

这些假设旨在涵盖当今所有大型语言模型及相关范式,同时排除了早期硬编码的智能系统。

为何需要持续自我改进式AI?

对这三种能力的需求,源于人类创造者固有的三个局限性。

第一,权重静态化。
斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者
在与ChatGPT或Claude等模型的典型长对话中,模型依赖有损的上下文压缩来管理历史信息,容易导致信息丢失。相比之下,人类记忆可以通过睡眠等过程进行巩固和转移。当前模型缺乏这种持续、无损整合新经验到长期参数中的能力。

第二,有限人类数据下的扩展瓶颈。
斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者
根据Scaling Law,模型性能随训练数据量增加而提升。然而,前沿语言模型所使用的数据量正迅速逼近互联网上公开可用数据的总量。尽管存在私有数据,但人类产生的数据本质上是有限的,这构成了模型持续扩展的根本瓶颈。

第三,算法发现受限于人力。
斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者
当前新算法的发现流程(产生想法→实验验证→发表成果)高度依赖人力,成本高昂且效率有限。这导致我们探索的仅仅是所有可能算法中的一个微小子集。自动化这一过程是突破此局限的关键。

接下来,将围绕上述三个特性展开论述。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

持续知识获取:合成持续训练范式

第一方面:持续知识获取。

本论文包含四篇与合作者(特别是标注同等贡献者)共同完成的研究成果。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

为实现训练后的持续知识获取,我们提出了 “合成持续训练”范式

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

其目标是,将来自仅包含少量源文档的小众领域的知识,有效地教授给语言模型。

一个自然的问题是:为何必须使用合成数据?

我们的观察是:没有合成数据,知识表征可能是稀疏的。
斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者
以模型对线性代数的知识与其对GitHub上新发布代码库的了解进行对比。模型对线性代数通常有深刻理解,因为它从互联网上多样化的数据源(教科书、讲义、讨论、代码实现)中学习了该主题。然而,对于一个全新的代码库,这种多样化的表征根本不存在,模型可能无法理解相关问题。因此,需要通过合成数据来创造这种缺失的、多样化的知识表征。

为确保实验严谨性,我们需要两样东西来构建具体的实验设置。

第一,我们需要收集一些小众领域的源文档,并且这不能是语言模型已经知道的内容。

第二,我们需要一个任务来测试模型对这些源文档的了解程度,以便追踪进展。本文中,研究团队使用了他们构建的 QuALITY 数据集,它同时满足了源文档和问答任务这两个标准。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

关于源文档:它是一个包含 265 本专业书籍的数据集,总计约 180 万个 token,这些内容都是模型未曾接触过的。关于测试部分:它包含约 4000 个高质量的多项选择问答题。这使得评估和解析变得简单直接,并且题目数量足够大,可以获得可靠的统计信号。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

有了这两个设置,回顾一下我们的目标:我们希望模型在不提供上下文书籍的情况下回答问题。这相当于一场闭卷考试。源文档是高质量的书籍,任务是闭卷问答。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

在这个设置下,我们首先评估了一些静态模型,以了解该任务的难度。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

这是四选一的选择题,所以随机猜测的准确率是 25%。我们用于微调的模型是 Llama 3 基础模型,它开箱即用的准确率只有 39%。一个直接的做法是在原始书籍数据本身上进行微调(即原始的持续预训练),但我们发现准确率实际上略有下降。这是因为 token 数量相对较少,除非进行合理数量的回放(replay),否则 batch 设置和学习率规划可能未被正确设定。此外,我们还有两个来自闭源模型的静态参考:GPT-3.5 和 GPT-4,它们的准确率分别在 44% 和 45% 左右。这表明模型拥有一定的相关知识,但远未达到精通(例如 60% 以上)的水平。

那么,我们该如何生成有效的合成数据呢?

一个非常简单的基准做法是直接重写源文档。让我们来看看它的表现。

在下方的图表中,X 轴是我们在重写过程中生成的合成 token 数量。重写时的提示词是:“这是一本书,你能像维基百科文章一样重写它吗?” 我们使用一组四个固定的提示词,并迭代地将它们应用于书籍。在这个过程中,虽然准确率有所提高,但提升的斜率并不陡峭,最终达到的最高点也不够高。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

我们认为,重写数据的问题在于缺乏多样性。因为我们一遍又一遍地重复相同的提示词,主要依赖调整生成温度来产生差异,而经过数百次迭代后,生成的数据本质上变得雷同。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

实体图合成数据生成

正是由于缺乏多样性,我们提出了这种称为“实体图(EntiGraph)合成数据生成”的数据增强技术。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

实体图的操作在精神上类似于重写,但它通过一个两阶段过程增强了多样性。我们首先从源文档(即 QuALITY 书籍)开始,提示语言模型:“这是源文档,书中有哪些核心实体能帮助我很好地理解这篇文章?” 模型会输出一个实体字符串列表。接着,我们随机抽取实体的一个子集,并应用关系描述提示词,让模型描述这些实体之间的关系。模型会生成诸如“在某某背景下,这两个实体之间的相互作用是……”之类的内容,从而为我们提供用于训练的多样化数据。

它与简单重写的区别在于,提示词中涉及的实体在不断变化。当提示词中的一个 token 发生改变时,这是一个高度非线性的过程,因为词向量随之改变,模型的输出会产生很大差异,从而获得了多样化的合成语料用于持续训练。

我们看到,随着生成的合成 token 越来越多,问答准确率不断提高,并且它有一个好得多的起始点(截距)。此外,其提升斜率也远优于重写基准。这表明,如果正确使用合成数据,可以产生极具规模效应的改进。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

以上是闭卷考试部分的主要结果。接下来,我们考虑一个不同的任务——开卷问答,这是一个非常自然的任务。在下方图表中,第二行关于书籍访问权限:“闭卷、开卷、闭卷、开卷”。这意味着,当向模型提出有关 QuALITY 的问题时,“闭卷”意味着不提供任何上下文;而“开卷”意味着提供问题所依据的确切书籍文本,然后让模型回答问题。开卷考试类似于测试模型的阅读理解能力。对于我们进行实验的 Llama 3 基础模型,我们和之前一样以 39% 的准确率起步,而开卷测试将其大幅提升到了 60%。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

对于实体图方法,在闭卷情况下,我们的准确率大约达到了 56%,虽然这并未完全填补与开卷测试的差距,但我们发现,如果将开卷(检索)方法与持续预训练结合起来,实际上能得到最好的结果。这意味着它们的改进是互补的。

这张表格传达的意义是:合成持续预训练加上检索工具可以带来更好的效果。这非常有意义,因为在实践中,如果你想为公司或业务定制一个语言模型,并抓住一切提升性能的机会,你应该综合运用所有最佳方法,例如合成训练,或结合工具使用,以设计出性能最佳的可用系统。这可能成为未来将开源语言模型适配到个性化应用场景的一种范式。

预训练能力的自我提升

这就解决了我们期望的第一个特性,即模型在部署后能够持续获取新知识。第二点是,我们希望实现模型预训练能力本身的自我改进。

在此之前,我想谈谈为什么我们要关注这里的训练。我致力于这个项目的原因,源于我在 OpenAI 的 o1 模型论文发布时积累的相关经验。那时(大约 2024 年 9 月或 10 月),AI 推理还非常新颖。当时的普遍猜测是,他们肯定耗费了巨大的资源(例如大量人工标注)来构建这个模型。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

但我们在这篇论文中展示的是,仅仅对 10,000 条思维链数据执行监督微调,就能提供达到 o1-preview 级别的推理能力。这让我意识到,后训练(如指令微调、推理微调)能力就像是对预训练知识的一种极其奇妙的泛化。

因此,从某种意义上说,预训练才是模型能力的基石。困惑度揭示了模型能力的核心,它通常与预训练的数据规模和模型规模有更大的相关性。因此,为了见证真正的自我改进,你必须看到在预训练层面上的改进,而不仅仅是我们之前项目中看到的微调或后训练层面的改进。

既然我们的目标是解决预训练问题,我们先停下来思考一下:预训练中的知识到底从何而来?

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

为了回答这个问题,我提出一个思想实验。假设世界上只有 5 个 token:A、B、C、D 和 E,而我们用于训练的文本文档只是像“A C B D E A…”这种格式的随机字符串。在每个位置,我们都在这些 token 中均匀随机地采样一个字符,因此它不是一个有结构的序列,而是一个完全平稳的随机过程。

如果我们用 Transformer 语言模型在这些文本上执行下一个 token 预测,我们将看不到任何有意义的学习信号,因为在初始化时,模型会给每个 token 分配 20% 的概率,这与训练数据中的真实概率一致。所以训练时,模型实际上学不到任何结构。

但这显然不是自然语言文本的样子。自然语言文本比随机字符串拥有更多的结构。在撰写这篇论文的过程中,共同作者之间进行了许多有趣的讨论,探讨这种结构究竟是什么。

我将这些讨论总结为两种互补的观点。

一种统计学观点是,将自然语言中的 token 视为从某种分布中抽取的随机变量,并且这些 token 彼此之间存在统计相关性。

另一种观点更侧重于计算层面,也更接近香农最初的理论:自然语言文本中存在可被压缩的模式,而下一个 token 预测本质上是在对文本进行信源编码以实现压缩。无论从统计学还是计算学视角看,token 之间确实存在结构性的相关关系,这正是模型能够学习的基础。

然而,如果预训练的知识仅来源于此,我认为当前的预训练范式遗漏了一个丰富却未被充分利用的相关性来源——即现有互联网文档之间极其丰富的关联性。

例如,《哈利・波特》原著与三年后其电影剧本之间的关联;或者《Attention is All You Need》论文与 GPT-2 代码库之间的对应关系。在代码的第 91 行实现了点积注意力机制,而论文中恰有用英文描述的“dot-product attention”一节。因此,英文短语“dot-product attention”与其 Python 代码实现之间就存在这种跨模态、跨文档的相关性。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

合成引导预训练

我们计划通过合成数据等技术来利用这种跨文档相关性。由于使用合成数据,必须确保所获得的是预训练能力的普遍提升,而非仅仅从教师模型中进行知识蒸馏。因此,我们遵循以下三个步骤:

  1. 首先,使用固定数量的真实数据从头预训练一个语言模型;
  2. 接着,在不引入任何新文本的情况下,将该模型微调为一个合成数据生成器;
  3. 最后,将真实数据与合成数据结合,重新预训练语言模型,以提升性能。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

若能成功验证这条流水线,就意味着实现了对预训练能力的真正自我改进。这正是“合成引导预训练”(Synthetic Bootstrap Pre-training,SBPT)。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

该技术在操作上包含三个步骤:

第一步:最近邻词向量编码计算
我们使用 DCLM 数据集的子集,将其输入 Qwen 6 的嵌入模型,得到编码相似度的词向量。例如,Transformer 论文的向量会与其 PyTorch 实现代码的向量在距离上非常接近。

第二步:构建相邻文档图并进行合成微调
具体做法是:以一个在所有真实数据上预训练过的检查点作为语言模型的初始状态,通过类似监督微调(SFT)的目标对模型进行微调。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

在此过程中,以图中一侧的相邻文档(d1)为条件,最大化另一侧相邻文档(d2)的对数概率。每个源文档 d1 可能对应多个目标文档 d2。这会显著增加模型的熵——例如,若每个 d1 对应 20 个 d2,最大似然估计的分布会近乎均匀地分配概率质量。经过此类微调,模型将处于极高熵状态。

随后,在生成合成数据时,我们不使用复杂提示技巧,仅以温度 1 的设置,对所有真实文档反复进行生成。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

例如,针对一篇较短的小说,模型可能生成一段对该小说的合成评论。这样就能获得极其多样化的合成内容。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

为展示此类无条件生成的结果,这里提供一个训练中的示例:
左侧是来自 DCLM 数据集的真实文档,内容是关于圣地亚哥咖啡馆的列表。
右侧的合成文档则描述了一趟圣地亚哥之旅,并将焦点转向浓缩咖啡机——而源文档并未提及该主题。模型完全自主地产生了这个关联。另一篇合成文章甚至尝试将圣地亚哥的咖啡馆与纽约对比,而“纽约”一词从未在真实文档中出现。这体现了合成生成过程的多样性。

在准备好所有真实数据与合成数据后,我们将混合它们进行训练。

以上是“合成引导预训练”的算法核心。接下来,我们需要设计实验将其付诸实践。

实验设置需要三个主要组件:数据、模型架构和评估基准。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

  • 数据:如前所述。
  • 架构:采用 Llama 3 架构,并添加 QK LayerNorm 以稳定训练。
  • 评估:使用六项问答准确率、少量样本问答准确率以及三项困惑度评估,均为预训练阶段常用指标。

在此设置下,我们进行计算量匹配的对比:基准方法通过简单重复使用固定数量的数据。合成引导预训练(SBPT)则以该基准为参照,控制以下两个变量:

  • 使用相同的数据(未引入额外数据源);
  • 控制训练计算量,确保总训练周期相同。

需说明的是,我们并未控制总绝对计算量(如生成合成数据所需的推理成本)。因此 SBPT 实际使用了更多算力,仅控制了预训练阶段的计算量。

关键区别在于:当基准方法重复数据时,我们使用合成数据而非简单复制。此外,为将 SBPT 与基准性能置于更广背景中,我们还引入了 Oracle 基准:该基准取消对相同数据的访问限制,但仍控制使用相同计算量,可视为模拟“数据无限增长”的理想情况。

首先从训练动态观察定性结果,以直观了解其运作方式:

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

横轴为训练 token 数量,纵轴为 OpenWebText2 上的测试损失。初期,Oracle 与基准表现相似,但均不及 SBPT。随着训练进行,基准方法因重复相同信号而逐渐饱和,损失曲线趋平;而 Oracle 与 SBPT 的损失仍近似线性下降,持续扩展。

接下来看定量结果表格:

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

表格主要包含三列:
– 第一列:3B 参数模型,训练 200B token;
– 第二列:3B 参数模型,训练计算量扩大至 1 万亿 token;
– 第三列:训练计算量固定为 1 万亿 token,模型规模扩大至 6B 参数。

自我改进预训练:数据质量与模型规模

我们分析了问答准确率的平均提升情况。结果显示,在所有三种实验设置中,通过Oracle方法都能实现约30%的相对提升,这表明改进是普遍且一致的。

一个有趣的发现是:在某些基准测试中,一个使用1万亿token训练的6B参数模型,其表现已接近一个可用的语言模型。值得注意的是,这仅消耗了训练Llama模型所需计算量的一半。理论上,这意味着其改进空间应该更小。然而,在某些基准测试中,我们恰恰在6B参数模型上观察到了更大的提升。这背后的原因是:随着模型本身变得更强,其作为合成数据生成器的能力也同步增强了——它产生的“幻觉”(即不符合事实的信息)更少。正是这一观察,将我们引向了关于自我改进预训练能力的最终分析。

评估合成数据质量

接下来,我们重点考察合成数据的质量。我们设计了四种数据设置进行对比:
* 前三行代表不同的模型训练配置:200B token训练的3B模型、1T token训练的3B模型、1T token训练的6B模型。
* 最后一行作为参照,是真实数据

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

我们的评估范式是:由于待评估的数据集规模庞大,我们先对文档进行子采样,然后利用现成的GPT模型,根据编写的评分标准来检测文档中的重复内容或事实性错误。

研究发现:
* 随着模型规模的扩大,其生成的合成数据质量更好,且不仅仅是简单复述。
* 在表格各列中,“非事实”这一列的结果尤为关键且令人兴奋。对于合成数据而言,事实性始终是核心挑战。
* 在200B token训练的3B模型规模下,事实错误率高达约50%,存在大量幻觉。
* 当训练计算量增加5倍(至1T token)时,非事实比例显著下降。
* 当模型规模从3B翻倍至6B时,这一比例进一步降低。
* 虽然合成数据的事实性尚未完全比肩真实数据,但从3B到6B模型的下降趋势非常有趣。因为事实性在很大程度上取决于模型掌握的世界知识量。

一个值得深思的现象是:仅增加训练数据规模(从第一列到第二列),模型看到了更多独特数据,从而获得了更多世界信息,这可以理解。然而,当你增加模型规模(从第二列到第三列)时,训练数据的总熵(信息量)是相同的。你所做的,只是投入更多计算能力来从相同的数据中提取信息。如果信息总量守恒,那么模型规模增大却能带来更低的事实错误率,这是一个非常有意思的结果。

小结:自我训练能力的研究表明,我们可以通过这种方法普遍地提升语言模型的预训练性能。


迈向“AI设计AI”

在最后一部分,我想探讨“迈向AI设计AI”这一方向。从根本上说,我们现在试图让语言模型来承担一部分我们的研究工作。

为何AI能在AI研究中做得更好?

首先思考一个哲学问题:为什么我们期望AI在AI研究领域能做得更好?

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

这可以追溯到科学方法论。Fisher曾提出科学进步的两阶段过程:提出假设,然后通过实验进行证伪。科学的本质就是运行实验和产生想法。

  • 产生想法:对于语言模型而言,这如同生成文本一样自然,尽管其想法的校准度仍有待提高。
  • 运行实验:审视当前AI领域的状态:
    1. AI进展高度依赖基准测试驱动(如ImageNet)。
    2. AI实验最终都具体化为编写代码,而这正是计算机的专长。
      例如,在SWE-bench(代码修复基准)上,AI的解决准确率已从最初的约20%持续上升至接近80%。

这意味着,利用AI来推动AI科学本身的发展,具有强大的第一性原理支撑。

研究环境:一个关键抽象

为了使模型能够进行AI研究,我引入了“研究环境”的概念。它提供了一个简洁的抽象,定义了进行AI实验所需的要素。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

研究环境包含两个核心属性:
1. 上下文:传递给语言模型的描述,阐明任务是什么。
2. 价值函数:输入一个想法(以字符串形式),输出一个评估其优劣的数值。

对于AI研究环境,其实现方式非常直接:
* 上下文:应包含代码库属性,即指明与研究问题相关的GitHub仓库或核心实验代码。
* 价值函数:需要一个沙盒来分配运行实验所需的资源(如一块H100 GPU)。沙盒会执行代表想法的代码变更,运行评估脚本,并最终从脚本的标准输出中读取奖励信号。

具体实现与自动化研究员

基于这个抽象,我们实现了以下具体的AI研究环境:
* 预训练实验:代码库是一个独立的GPT-2预训练Python脚本。资源为8张A100 GPU。评估指标是:在资源限制下,使测试损失达到3.28所需的时间。
* 后训练环境:任务是在GSM8K数据集上使用GRPO算法进行数学推理训练,并在MATH500数据集上测试(源自斯坦福CS336课程作业)。资源为单张Blackwell GPU,以实现高效采样和训练。评估指标是经过人工验证的MATH测试准确率。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

有了这样的研究环境,我们可以构建一个自动化的AI研究员,其运作遵循一个四步循环:

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

  1. 构思:研究员内部的“构思器”组件接收研究环境上下文,生成一个想法。
  2. 执行:“执行器”接收上下文和想法,将其转化为具体的代码变更(diff)。
  3. 实验:将代码变更提交给研究环境的价值函数(沙盒)运行,并获得性能评分。
  4. 学习:记录想法及其结果,形成实验经验库。定期从此库中学习,更新研究员的内在特质(如通过强化学习调整神经网络权重,或通过演化搜索维护和优化想法库)。

在本次分享中,我们聚焦于演化搜索方法。我们将学习过程实现为一个迭代的测试时搜索:

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

搜索过程一轮轮运行实验,并将历史想法保存在库中。当需要生成新想法时,研究员可以:
* 利用:结合库中高价值想法的优势。
* 探索:生成与库中现有想法截然不同的新想法。

初步结果

以下是搜索的核心结果:
* 后训练任务:初始准确率为48%,通过我们的搜索方法提升至69%。斯坦福CS336课程排行榜上的最佳人类成绩为68%。因此,在一种较弱的意义上,我们的方法超越了最佳人类成绩
* 预训练任务:我们将训练时间从36分钟优化到了90分钟。然而,排行榜上的最佳成绩约为2.1分钟,差距显著。因此,在这个案例中,它尚未达到超人类水平

这些初步实验展示了“AI设计AI”方向的潜力与当前面临的挑战。

作为本部分的总结,我想将其与 S1 项目中探讨的“预算强制”技术联系起来。让我们将话题稍作转换,讨论一下数学推理中的“测试时缩放”问题。

在数学推理任务中,核心挑战在于如何迫使模型进行比常规 token 数量更长时间的“思考”。假设你想强制模型思考超过 10,000 个 token。若不采用预算强制技术,模型可能会先生成一个“开始思考”的 token,生成最初的几百个 token 后,便生成一个“结束思考”的 token 并停止。但借助预算强制技术,你可以移除那个结束 token,并强制追加一个逗号,从而迫使模型继续思考下去。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

因此,无论是算法搜索还是预算强制,其核心原则都类似于编写一个非常简单的循环,迫使模型持续运行。

我们观察到一个非常一致的规律:无论是通过扩展测试时计算量进行算法搜索,还是通过循环强制模型思考,单纯增加计算规模都能带来性能提升,但很快都会遇到瓶颈。另一个观察是,在测试时搜索和推理中,都存在一种模式:串行搜索比并行搜索更有效

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

左图展示了在 nanoGPT 任务上的表现:简单的“最佳选择”或“多数投票”方法提升有限,但搜索方法能带来持续改进。这与推理任务中的情况相似:多数投票虽有正向收益但斜率平缓,而串行搜索则大幅提升了性能曲线的斜率。

这反映出“复用”的价值,似乎指向一条法则:串行计算比并行计算更有价值

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

我认为这正体现了其核心价值。在结束实验结果讨论前,我尚未展示任何定性结果——即模型究竟能生成何种类型的想法。

这里我想分享一个我个人非常喜欢的想法,尽管它的绝对准确率并非最高。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

这个想法产生于使用 GRPO 进行数学推理的任务中。模型提议通过维护一个包含数学事实、定义和中间结果的“上下文缓冲区”,来创建一个 “数学工作记忆模拟”

随着模型逐步解决问题,这个缓冲区会动态更新,并为后续推理步骤提供额外上下文。这模拟了人类在进行复杂计算时维持和利用工作记忆的过程。令我惊讶的第一点是,模型能够非常准确地将这个想法编写成可执行的代码。

其具体实现是引入一个名为“上下文缓冲区”的类,主要包含“添加上下文”和“基于查询获取上下文”两个方法。在强化学习训练循环中,会初始化该缓冲区。对于每个提示,模型会尝试从缓冲区获取相关上下文,并将其附加到提示中。

这相当于在解决数学问题时,为模型提供了类似考试“提示卡”的帮助。该方法使性能比基准提升了约 10%。虽然并非最佳结果,但我个人非常欣赏它,因为我本人就有一个类似的“缓冲区”——一本手写笔记,记录了各种数学技巧,如裂项相消、ε-球空间、琴生不等式及其适用时机。因此,看到模型提出与我的个人实践如此相似的方法,并且 GPT-4 这样的模型能将其实现出来,令我感到格外欣喜。

结语:超越人类的必然性

关于持续自我改进式 AI 三个方面的主要结果就介绍到这里。接下来进入结语部分,内容可能稍带哲学色彩。

在演讲开头,我们给出了一个严谨的定义:持续自我改进式 AI 所能实现的改进,要比人类创造者所能达到的改进更好。我如此定义是为了确保该主张能被现有实验结果所验证。但截至目前,我们看到 AI 胜过人类的主要方式,是通过数量堆叠来克服质量上的限制

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

这种机制本身或许并不新奇。观察这张图:基准模型是在有限的人类数据上训练的。若问 AI 能否扩展得更好,事实是,首个检查点的初始损失表明,人类生成的数据质量依然更高。只是 AI 拥有近乎无限的数据量,得以用数量弥补质量的差距。

此外,这是我们团队的实验追踪面板。你可以看到,人类研究员可能只运行了十几个实验,但 AI 执行的实验记录却高达五千甚至三万个。一位人类博士生不可能对导师说“我上周测试了三万个想法”。虽然我无法预言未来,但根据目前结果,人类研究员仍具备更强的构思能力,只不过 AI 研究员工作得过于努力、不知疲倦,因此能在排行榜上占据优势。

是的。因此我认为,AI 社区真正关切的核心问题是:AI 是否能够自我改进,并变得比它的创造者更强大?

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

由于我目前没有直接的实验结果,我想从一个完全不同的视角——物理学——来解释为何我认为这不仅是可能的,甚至是近乎必然的。

我想以爱因斯坦为例,展示他如何以一种静默而精确的方式,创造了一个超越自身认知的理论。

首先,我们可以将一个理论视为一种生命,因为它能够进化、变异,拥有自己的生命力。爱因斯坦创造的场方程就比他本人更“聪明”。

最初,爱因斯坦提出的广义相对论场方程,其原始形式已经精确预言了宇宙正在膨胀。然而在 1910 年代,科学界普遍坚信宇宙是静态且永恒的。为了迎合这一观念,爱因斯坦在 1917 年主动修改了自己的方程,强行使其描述一个静态宇宙。直到 1929 年,哈勃通过观测证实宇宙确实在膨胀,且其规律与爱因斯坦原始未修改的方程预言完全一致。爱因斯坦后来承认,那次修改是他一生中“最大的错误”。

这意味着,当一个理论被创造出来的那一刻,它就拥有了生命并开始演化。正如爱因斯坦写下场方程的那一刻,该方程就已经编码了一个当时无人理解的真理。

以此类比,我认为人类确实可以创造出比自身更聪明的 AI,而不仅仅是依靠数量优势。

因此,从某种意义上说,我对“AI 能否超越人类”这个问题的回答是:这个问题本身就不该被提出

仅仅因为某物是我们创造的,就没有任何理由断定它不能超越我们。

那种认为 AI 无法超越人类的逻辑,源于一种“子集逻辑”:人类拥有一个规模为 N 的能力集,而我创造了一个拥有我能力子集的次级存在,因此它永远无法超越我。然而,当前创造 AI 的方式极具算法性(例如在海量数据上训练),这个过程与爱因斯坦推导出超越自身认知的物理方程的过程极为相似。这个问题从一开始就不成立。所以我坚信,答案绝对是肯定的。

斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/24348

(0)
上一篇 11小时前
下一篇 8小时前

相关推荐

  • Meta突破AI自主瓶颈:SSR自对弈框架让智能体摆脱人类数据依赖

    “超级智能”是 Meta 长期坚持的宏大愿景。为了加速实现这一目标,Meta 的研究部门正经历着深刻的变革。尽管前 FAIR 负责人 Yann LeCun 曾对某些实现路径表示质疑,但构建一个能够超越人类专家水平的自主 AI 智能体,无疑是人工智能领域最具雄心的前沿目标之一。 在众多落地领域中,编程是 AI 智能体执行任务的代表性场景。当前,基于大语言模型(…

    2026年1月2日
    17400
  • 英伟达GDPO:突破GRPO局限,精准优化多奖励强化学习

    GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 然而,随着语言模型能力的不断提升,用户对它们的期待也在发生变化:不仅要回答正确,还要在各种不同场景下表现出符合多样化人类偏好的行为。为此,强化学习训练流程开始引入多种奖励信号,每一种奖励对应一种不同的偏好,用来共…

    2026年1月11日
    17000
  • AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

    斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

    2025年10月24日
    52000
  • 清华团队破解FlashAttention低精度训练玄学:BF16下数值偏置如何引爆大模型训练

    一句话总结:困扰社区多年的一个“玄学”现象终于被拆解清楚:在BF16等低精度训练中,FlashAttention并非随机出错,而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大,最终导致权重谱范数和激活值失控,引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动,…

    1天前
    5700
  • Tinker革新大模型训练:从“作坊炼丹”到“工业微调”的API革命

    当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时,它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语,从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单,标志着行业正从“作坊式炼丹”向…

    2026年1月7日
    16600