DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

一直以来，神经网络的激活函数如同AI引擎中的火花塞。从早期的Sigmoid、Tanh，到后来占据主导地位的ReLU，再到近年来的GELU与Swish，每一次激活函数的演进都推动了模型性能的进步。然而，寻找最优激活函数的过程，长期依赖于人类直觉或有限的搜索空间。

如今，谷歌DeepMind正在改写这一规则。

在一篇题为《Finding Generalizable Activation Functions》的最新论文中，DeepMind团队展示了他们如何利用AlphaEvolve，在无限的Python函数空间中“挖掘”出了全新的激活函数。

DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

论文标题：Mining Generalizable Activation Functions
论文地址：https://arxiv.org/abs/2602.05688

这不仅是神经架构搜索（NAS）的一次胜利，更是一次方法论的革新。DeepMind并未直接在庞大的ImageNet数据集上进行搜索，而是构建了一个“微型实验室”，利用合成数据专门针对模型的分布外泛化能力进行优化。

结果令人瞩目：系统不仅重新发现了GELU，还挖掘出了一系列带有周期性扰动项的独特函数，例如GELUSine和GELU-Sinc-Perturbation。这些函数在算法推理任务（如CLRS-30）上展现出了超越ReLU和GELU的卓越泛化能力，同时在标准视觉任务上保持了强大的竞争力。

告别手动调参：AlphaEvolve与无限搜索空间

传统的神经架构搜索通常受限于预定义的搜索空间，例如只能在“加、减、乘、除、一元函数”的组合中寻找候选。这种方法虽然曾发现Swish等函数，但也限制了探索的边界。

DeepMind此次的核心工具是AlphaEvolve。这是一个由大语言模型驱动的进化编码系统，其工作流程并非简单的参数调整，而是直接编写和修改代码。

DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU
基于LLM的变异算子

AlphaEvolve利用Gemini等前沿LLM作为“变异算子”。这意味着搜索空间不再是离散的数学符号组合，而是所有可能的Python函数。只要能在给定的计算预算内运行，且输入输出张量形状一致，任何Python代码都是潜在的激活函数。

进化循环
整个系统的运作流程如下：
1. 初始化：从标准的ReLU函数代码开始。
2. LLM提案：LLM根据当前表现最佳的代码，生成新的函数变体。值得注意的是，LLM还会像人类程序员一样，在代码注释中写下其设计该函数的“理论依据”。
3. 微型评估：新函数被植入一个小型多层感知机中，在特定的合成数据集上进行快速训练。
4. 适应度计算：关键之处在于，适应度函数基于分布外测试数据的验证损失，迫使模型必须学会泛化，而非仅仅拟合训练数据。
5. 迭代：表现最好的函数被保留到数据库中，作为下一轮进化的种子。

这种方法使得AlphaEvolve能够利用LLM中蕴含的编程知识与数学直觉，倾向于生成有意义的函数，从而极大提升了搜索效率。

微型实验室：用合成数据攻克泛化难题

为避免在大型数据集上进行昂贵的搜索，DeepMind采用了“微型实验室”策略。

DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

他们设计了一系列简单的合成回归任务，专门用于测试模型捕捉数据结构本质的能力，而非记忆数据。数据集包括：
* 随机多项式：测试外推能力。
* 球谐函数：测试周期性结构的编码能力。
* 费曼符号回归数据集：测试对物理方程的拟合能力。

关键设定在于训练集与测试集之间存在分布偏移。例如，模型可能在区间(0, 0.5)内训练，但必须在区间(0.5, 1)内进行测试。研究人员发现，能在这种严苛的“微型实验室”中生存下来的激活函数，往往能捕捉到更本质的归纳偏置，从而在真实世界的复杂任务中也表现出色。

挖掘出的宝藏：从GELUSine到“湍流”函数

经过多轮迭代，AlphaEvolve系统“挖掘”出了多个具有独特性质的激活函数。有些是对现有函数的改良，有些则结构奇异，甚至蕴含某种“物理直觉”。

DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

明星选手：GELUSine与GELU-Sinc-Perturbation
DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

最引人注目的发现是，表现最佳的激活函数往往遵循一个通用公式：
DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU
即一个标准激活函数（如GELU）加上一个周期性的扰动项。

GELUSine：GELU(x) + sin(x)
LLM在其生成的代码注释中解释，正弦项引入了周期性的“摆动”，有助于优化过程探索损失景观，逃离局部极小值。
GELU-Sinc-Perturbation：GELU(x) + sinc(x)
该函数保留了GELU的渐近行为，同时通过Sinc函数在原点附近引入了受控的非线性复杂性。

复杂的尝试：GMTU
AlphaEvolve还发现了一种名为GMTU的函数，它结合了Tanh、高斯衰减和线性泄漏项，形状类似一个经过调制的信号波。尽管在合成数据上表现良好，但其公式较为复杂，计算成本相对较高。

失败的教训：“湍流”激活函数
在搜索过程中，AlphaEvolve曾发现一种性能极高的函数，称为Turbulent Activation。
这个函数非常“聪明”，它利用输入张量的批次统计信息（如均值和方差）来动态调整激活形状。在微型实验室的合成数据中，其表现碾压所有对手。

然而，这种聪明被证明是一种过拟合。当迁移到ImageNet或CIFAR-10等真实任务时，Turbulent函数的表现一落千丈。因为它过度依赖于特定数据集的批次统计特征，丧失了逐点激活函数应有的通用性。这是一个经典的“实验室高分低能”案例，也从反面证明了逐点激活函数的鲁棒性价值。

真实世界的大考：OOD泛化的胜利

为验证这些在“微型实验室”中挖掘出的函数是否具备实用价值，DeepMind将它们植入标准的ResNet-50、VGG以及图神经网络中，在CIFAR-10、ImageNet、CLRS-30和ogbg-molhiv等数据集上进行了全面测试。

测试结果揭示了几个关键事实：
1. OOD任务的王者：在强调算法推理与泛化能力的CLRS-30基准测试中，新发现的GELU-Sinc-Perturbation取得了0.887的高分，显著优于ReLU（0.862）和GELU（0.874）。这验证了DeepMind的核心假设：在合成OOD数据上优化的函数，确实能迁移到需要强泛化能力的复杂任务上。

视觉任务不掉队：在 ImageNet 上，尽管这些新函数是针对小规模数据优化的，但 GELUSine 和 GELU-Sinc-Perturbation 依然达到了与 GELU 持平甚至略优的准确率（Top-1 Accuracy 约 74.5%），远超 ReLU (73.5%)。
周期性的魔力：为什么在激活函数中加入 sin(x) 或 sinc(x) 这种周期项会有效？DeepMind 的研究人员认为，标准的激活函数（如 ReLU）在训练域之外往往是线性的，很难捕捉数据的复杂结构。而周期性函数允许模型在训练域内「存储」某种频率信息，并在外推时通过周期性结构「检索」这些信息。正如 LLM 在代码注释中所说，这是一种「隐式的频率分析」。

下表总结了关键函数在不同任务上的表现：

DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

深度思考：AI 设计 AI 的未来

DeepMind 的这项研究不仅贡献了几个好用的激活函数，更引发了对 AI 辅助科研的深层思考。

代码即搜索空间

AlphaEvolve 证明了，让 LLM 直接编写 Python 代码作为搜索空间，比预定义数学算子更加灵活和强大。LLM 自带的编程规范和逻辑能力，使得它生成的函数大多具有可读性和可执行性，甚至还能提供「设计思路」的解释。

从拟合到泛化

长久以来，激活函数的设计大多为了优化梯度的流动（如 ReLU 解决梯度消失）。但这项研究表明，激活函数的形状直接影响模型的归纳偏置。通过引入周期性结构，我们实际上是在告诉神经网络：「这个世界很多规律是循环往复的，不仅仅是线性的。」

「小数据」的大智慧

在一个追求万亿参数和由 PB 级数据训练的大模型时代，DeepMind 反其道而行之，通过仅有几百个样本的合成数据「微型实验室」，挖掘出了通用的架构组件。这表明，如果我们能精确定义「泛化」的本质（如通过 OOD 拆分），小数据依然能撬动大智慧。

结语

DeepMind 的这项工作揭示了在神经网络最基础的组件层面，依然存在着广阔的未至之境。未来的 AI 模型，其每一行代码、每一个算子，或许都将由 AI 自己来书写。而人类研究者要做的，可能就是像 AlphaEvolve 这样，为它们搭建一个合适的「进化实验室」。

对于正在训练处理复杂图结构或需要强逻辑推理模型的研究者，尝试将 nn.ReLU 替换为 nn.GELU(x) * (1 + 0.5 * sinc(x))，或许会带来意想不到的惊喜。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20698

DeepMind革命性突破：用AlphaEvolve在无限函数空间挖掘下一代激活函数，超越ReLU与GELU

告别手动调参：AlphaEvolve与无限搜索空间

微型实验室：用合成数据攻克泛化难题

挖掘出的宝藏：从GELUSine到“湍流”函数

真实世界的大考：OOD泛化的胜利

深度思考：AI 设计 AI 的未来

代码即搜索空间

从拟合到泛化

「小数据」的大智慧

结语

相关推荐

揭秘70M小模型层数玄学：隐藏维度≥512是关键，32层成最佳配置

8个Python库：让机器学习从入门到精通只需一杯咖啡时间

COMET框架：突破AI加速器性能瓶颈，显式建模集体通信与复合操作数据流

扩散语言模型：从架构挑战到推理优化的深度探索

从AI聊天到代理小队：如何用SCCR框架替代50%编码时间