DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

一直以来,神经网络的激活函数如同AI引擎中的火花塞。从早期的Sigmoid、Tanh,到后来占据主导地位的ReLU,再到近年来的GELU与Swish,每一次激活函数的演进都推动了模型性能的进步。然而,寻找最优激活函数的过程,长期依赖于人类直觉或有限的搜索空间。

如今,谷歌DeepMind正在改写这一规则。

在一篇题为《Finding Generalizable Activation Functions》的最新论文中,DeepMind团队展示了他们如何利用AlphaEvolve,在无限的Python函数空间中“挖掘”出了全新的激活函数。

DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

  • 论文标题:Mining Generalizable Activation Functions
  • 论文地址:https://arxiv.org/abs/2602.05688

这不仅是神经架构搜索(NAS)的一次胜利,更是一次方法论的革新。DeepMind并未直接在庞大的ImageNet数据集上进行搜索,而是构建了一个“微型实验室”,利用合成数据专门针对模型的分布外泛化能力进行优化。

结果令人瞩目:系统不仅重新发现了GELU,还挖掘出了一系列带有周期性扰动项的独特函数,例如GELUSine和GELU-Sinc-Perturbation。这些函数在算法推理任务(如CLRS-30)上展现出了超越ReLU和GELU的卓越泛化能力,同时在标准视觉任务上保持了强大的竞争力。

告别手动调参:AlphaEvolve与无限搜索空间

传统的神经架构搜索通常受限于预定义的搜索空间,例如只能在“加、减、乘、除、一元函数”的组合中寻找候选。这种方法虽然曾发现Swish等函数,但也限制了探索的边界。

DeepMind此次的核心工具是AlphaEvolve。这是一个由大语言模型驱动的进化编码系统,其工作流程并非简单的参数调整,而是直接编写和修改代码。

DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU
基于LLM的变异算子

AlphaEvolve利用Gemini等前沿LLM作为“变异算子”。这意味着搜索空间不再是离散的数学符号组合,而是所有可能的Python函数。只要能在给定的计算预算内运行,且输入输出张量形状一致,任何Python代码都是潜在的激活函数。

进化循环
整个系统的运作流程如下:
1. 初始化:从标准的ReLU函数代码开始。
2. LLM提案:LLM根据当前表现最佳的代码,生成新的函数变体。值得注意的是,LLM还会像人类程序员一样,在代码注释中写下其设计该函数的“理论依据”。
3. 微型评估:新函数被植入一个小型多层感知机中,在特定的合成数据集上进行快速训练。
4. 适应度计算:关键之处在于,适应度函数基于分布外测试数据的验证损失,迫使模型必须学会泛化,而非仅仅拟合训练数据。
5. 迭代:表现最好的函数被保留到数据库中,作为下一轮进化的种子。

这种方法使得AlphaEvolve能够利用LLM中蕴含的编程知识与数学直觉,倾向于生成有意义的函数,从而极大提升了搜索效率。

微型实验室:用合成数据攻克泛化难题

为避免在大型数据集上进行昂贵的搜索,DeepMind采用了“微型实验室”策略。

DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

他们设计了一系列简单的合成回归任务,专门用于测试模型捕捉数据结构本质的能力,而非记忆数据。数据集包括:
* 随机多项式:测试外推能力。
* 球谐函数:测试周期性结构的编码能力。
* 费曼符号回归数据集:测试对物理方程的拟合能力。

关键设定在于训练集与测试集之间存在分布偏移。例如,模型可能在区间(0, 0.5)内训练,但必须在区间(0.5, 1)内进行测试。研究人员发现,能在这种严苛的“微型实验室”中生存下来的激活函数,往往能捕捉到更本质的归纳偏置,从而在真实世界的复杂任务中也表现出色。

挖掘出的宝藏:从GELUSine到“湍流”函数

经过多轮迭代,AlphaEvolve系统“挖掘”出了多个具有独特性质的激活函数。有些是对现有函数的改良,有些则结构奇异,甚至蕴含某种“物理直觉”。

DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU
DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

明星选手:GELUSine与GELU-Sinc-Perturbation
DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

最引人注目的发现是,表现最佳的激活函数往往遵循一个通用公式:
DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU
即一个标准激活函数(如GELU)加上一个周期性的扰动项。

  • GELUSineGELU(x) + sin(x)
    LLM在其生成的代码注释中解释,正弦项引入了周期性的“摆动”,有助于优化过程探索损失景观,逃离局部极小值。
  • GELU-Sinc-PerturbationGELU(x) + sinc(x)
    该函数保留了GELU的渐近行为,同时通过Sinc函数在原点附近引入了受控的非线性复杂性。

复杂的尝试:GMTU
AlphaEvolve还发现了一种名为GMTU的函数,它结合了Tanh、高斯衰减和线性泄漏项,形状类似一个经过调制的信号波。尽管在合成数据上表现良好,但其公式较为复杂,计算成本相对较高。

失败的教训:“湍流”激活函数
在搜索过程中,AlphaEvolve曾发现一种性能极高的函数,称为Turbulent Activation。
这个函数非常“聪明”,它利用输入张量的批次统计信息(如均值和方差)来动态调整激活形状。在微型实验室的合成数据中,其表现碾压所有对手。

然而,这种聪明被证明是一种过拟合。当迁移到ImageNet或CIFAR-10等真实任务时,Turbulent函数的表现一落千丈。因为它过度依赖于特定数据集的批次统计特征,丧失了逐点激活函数应有的通用性。这是一个经典的“实验室高分低能”案例,也从反面证明了逐点激活函数的鲁棒性价值。

真实世界的大考:OOD泛化的胜利

为验证这些在“微型实验室”中挖掘出的函数是否具备实用价值,DeepMind将它们植入标准的ResNet-50、VGG以及图神经网络中,在CIFAR-10、ImageNet、CLRS-30和ogbg-molhiv等数据集上进行了全面测试。

测试结果揭示了几个关键事实:
1. OOD任务的王者:在强调算法推理与泛化能力的CLRS-30基准测试中,新发现的GELU-Sinc-Perturbation取得了0.887的高分,显著优于ReLU(0.862)和GELU(0.874)。这验证了DeepMind的核心假设:在合成OOD数据上优化的函数,确实能迁移到需要强泛化能力的复杂任务上。

  1. 视觉任务不掉队:在 ImageNet 上,尽管这些新函数是针对小规模数据优化的,但 GELUSine 和 GELU-Sinc-Perturbation 依然达到了与 GELU 持平甚至略优的准确率(Top-1 Accuracy 约 74.5%),远超 ReLU (73.5%)。
  2. 周期性的魔力:为什么在激活函数中加入 sin(x) 或 sinc(x) 这种周期项会有效?DeepMind 的研究人员认为,标准的激活函数(如 ReLU)在训练域之外往往是线性的,很难捕捉数据的复杂结构。而周期性函数允许模型在训练域内「存储」某种频率信息,并在外推时通过周期性结构「检索」这些信息。正如 LLM 在代码注释中所说,这是一种「隐式的频率分析」。

下表总结了关键函数在不同任务上的表现:

DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

深度思考:AI 设计 AI 的未来

DeepMind 的这项研究不仅贡献了几个好用的激活函数,更引发了对 AI 辅助科研的深层思考。

代码即搜索空间

AlphaEvolve 证明了,让 LLM 直接编写 Python 代码作为搜索空间,比预定义数学算子更加灵活和强大。LLM 自带的编程规范和逻辑能力,使得它生成的函数大多具有可读性和可执行性,甚至还能提供「设计思路」的解释。

从拟合到泛化

长久以来,激活函数的设计大多为了优化梯度的流动(如 ReLU 解决梯度消失)。但这项研究表明,激活函数的形状直接影响模型的归纳偏置。通过引入周期性结构,我们实际上是在告诉神经网络:「这个世界很多规律是循环往复的,不仅仅是线性的。」

「小数据」的大智慧

在一个追求万亿参数和由 PB 级数据训练的大模型时代,DeepMind 反其道而行之,通过仅有几百个样本的合成数据「微型实验室」,挖掘出了通用的架构组件。这表明,如果我们能精确定义「泛化」的本质(如通过 OOD 拆分),小数据依然能撬动大智慧。

结语

DeepMind 的这项工作揭示了在神经网络最基础的组件层面,依然存在着广阔的未至之境。未来的 AI 模型,其每一行代码、每一个算子,或许都将由 AI 自己来书写。而人类研究者要做的,可能就是像 AlphaEvolve 这样,为它们搭建一个合适的「进化实验室」。

对于正在训练处理复杂图结构或需要强逻辑推理模型的研究者,尝试将 nn.ReLU 替换为 nn.GELU(x) * (1 + 0.5 * sinc(x)),或许会带来意想不到的惊喜。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/20698

(0)
上一篇 2026年2月7日 上午11:56
下一篇 2026年2月7日 上午11:59

相关推荐

  • 何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练

    训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…

    2026年2月8日
    5500
  • 从脑机接口到脑机共生:天桥脑科学研究院尖峰智能实验室开启类脑大模型新纪元

    近日,天桥脑科学研究院在“从脑机接口到脑机共生”主题论坛上正式宣布成立尖峰智能实验室(Spiking Intelligence Lab, SIL),标志着中国在类脑智能与人工智能深度融合领域迈出了关键一步。这一由中国科学院自动化研究所李国齐教授领衔的非营利研究机构,将专注于类脑大模型和脉冲神经网络的研发,旨在探索人工智能与人类智慧的全新融合路径。 尖峰智能实…

    2025年12月15日
    14500
  • Sakana AI:估值4000亿日元的AI新星,如何用自然进化思想重塑大模型范式?

    近日,日本AI初创公司Sakana AI宣布完成200亿日元(约合1.35亿美元)的B轮融资,公司估值达到约4000亿日元(约合26.35亿美元),创下日本非上市初创企业的估值纪录。这一数字不仅刷新了日本科技创业生态的天花板,更在全球AI投资趋冷的背景下显得格外耀眼。 Sakana AI成立于2023年7月,由Transformer论文八位作者之一的Llio…

    2025年11月19日
    15500
  • 突破3DGS内存墙:单卡RTX 4090+CPU内存实现亿级高斯点城市重建

    想用3D高斯泼溅 (3DGS) 重建一座城市? 过去,这往往意味着一套昂贵的GPU集群。如今,研究人员给出了另一种答案:一张RTX 4090,加上足够大的CPU内存,也可以完成城市级3D重建 。 来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM (CPU-offloaded Large-scale 3DGS training) 的系统。该工…

    2025年12月23日
    20800
  • 小模型专项训练新范式:Karpathy 如何通过数据增强让“蜜蜂大脑”学会字母计数

    近日,OpenAI 联合创始人 Andrej Karpathy 在社交媒体上分享了一项引人深思的实验:他成功训练了一个参数量极小的语言模型 nanochat d32 完成一项看似简单却极具挑战性的任务——准确计算单词中特定字母(如字母“r”)的数量。这一实验不仅展示了小模型在特定任务上的潜力,更揭示了在资源受限条件下,如何通过精心设计的数据增强策略来弥补模型…

    2025年10月26日
    14000