
一直以来,神经网络的激活函数如同AI引擎中的火花塞。从早期的Sigmoid、Tanh,到后来占据主导地位的ReLU,再到近年来的GELU与Swish,每一次激活函数的演进都推动了模型性能的进步。然而,寻找最优激活函数的过程,长期依赖于人类直觉或有限的搜索空间。
如今,谷歌DeepMind正在改写这一规则。
在一篇题为《Finding Generalizable Activation Functions》的最新论文中,DeepMind团队展示了他们如何利用AlphaEvolve,在无限的Python函数空间中“挖掘”出了全新的激活函数。

- 论文标题:Mining Generalizable Activation Functions
- 论文地址:https://arxiv.org/abs/2602.05688
这不仅是神经架构搜索(NAS)的一次胜利,更是一次方法论的革新。DeepMind并未直接在庞大的ImageNet数据集上进行搜索,而是构建了一个“微型实验室”,利用合成数据专门针对模型的分布外泛化能力进行优化。
结果令人瞩目:系统不仅重新发现了GELU,还挖掘出了一系列带有周期性扰动项的独特函数,例如GELUSine和GELU-Sinc-Perturbation。这些函数在算法推理任务(如CLRS-30)上展现出了超越ReLU和GELU的卓越泛化能力,同时在标准视觉任务上保持了强大的竞争力。
告别手动调参:AlphaEvolve与无限搜索空间
传统的神经架构搜索通常受限于预定义的搜索空间,例如只能在“加、减、乘、除、一元函数”的组合中寻找候选。这种方法虽然曾发现Swish等函数,但也限制了探索的边界。
DeepMind此次的核心工具是AlphaEvolve。这是一个由大语言模型驱动的进化编码系统,其工作流程并非简单的参数调整,而是直接编写和修改代码。

基于LLM的变异算子
AlphaEvolve利用Gemini等前沿LLM作为“变异算子”。这意味着搜索空间不再是离散的数学符号组合,而是所有可能的Python函数。只要能在给定的计算预算内运行,且输入输出张量形状一致,任何Python代码都是潜在的激活函数。
进化循环
整个系统的运作流程如下:
1. 初始化:从标准的ReLU函数代码开始。
2. LLM提案:LLM根据当前表现最佳的代码,生成新的函数变体。值得注意的是,LLM还会像人类程序员一样,在代码注释中写下其设计该函数的“理论依据”。
3. 微型评估:新函数被植入一个小型多层感知机中,在特定的合成数据集上进行快速训练。
4. 适应度计算:关键之处在于,适应度函数基于分布外测试数据的验证损失,迫使模型必须学会泛化,而非仅仅拟合训练数据。
5. 迭代:表现最好的函数被保留到数据库中,作为下一轮进化的种子。
这种方法使得AlphaEvolve能够利用LLM中蕴含的编程知识与数学直觉,倾向于生成有意义的函数,从而极大提升了搜索效率。
微型实验室:用合成数据攻克泛化难题
为避免在大型数据集上进行昂贵的搜索,DeepMind采用了“微型实验室”策略。

他们设计了一系列简单的合成回归任务,专门用于测试模型捕捉数据结构本质的能力,而非记忆数据。数据集包括:
* 随机多项式:测试外推能力。
* 球谐函数:测试周期性结构的编码能力。
* 费曼符号回归数据集:测试对物理方程的拟合能力。
关键设定在于训练集与测试集之间存在分布偏移。例如,模型可能在区间(0, 0.5)内训练,但必须在区间(0.5, 1)内进行测试。研究人员发现,能在这种严苛的“微型实验室”中生存下来的激活函数,往往能捕捉到更本质的归纳偏置,从而在真实世界的复杂任务中也表现出色。
挖掘出的宝藏:从GELUSine到“湍流”函数
经过多轮迭代,AlphaEvolve系统“挖掘”出了多个具有独特性质的激活函数。有些是对现有函数的改良,有些则结构奇异,甚至蕴含某种“物理直觉”。


明星选手:GELUSine与GELU-Sinc-Perturbation
最引人注目的发现是,表现最佳的激活函数往往遵循一个通用公式:
即一个标准激活函数(如GELU)加上一个周期性的扰动项。
- GELUSine:
GELU(x) + sin(x)
LLM在其生成的代码注释中解释,正弦项引入了周期性的“摆动”,有助于优化过程探索损失景观,逃离局部极小值。 - GELU-Sinc-Perturbation:
GELU(x) + sinc(x)
该函数保留了GELU的渐近行为,同时通过Sinc函数在原点附近引入了受控的非线性复杂性。
复杂的尝试:GMTU
AlphaEvolve还发现了一种名为GMTU的函数,它结合了Tanh、高斯衰减和线性泄漏项,形状类似一个经过调制的信号波。尽管在合成数据上表现良好,但其公式较为复杂,计算成本相对较高。
失败的教训:“湍流”激活函数
在搜索过程中,AlphaEvolve曾发现一种性能极高的函数,称为Turbulent Activation。
这个函数非常“聪明”,它利用输入张量的批次统计信息(如均值和方差)来动态调整激活形状。在微型实验室的合成数据中,其表现碾压所有对手。
然而,这种聪明被证明是一种过拟合。当迁移到ImageNet或CIFAR-10等真实任务时,Turbulent函数的表现一落千丈。因为它过度依赖于特定数据集的批次统计特征,丧失了逐点激活函数应有的通用性。这是一个经典的“实验室高分低能”案例,也从反面证明了逐点激活函数的鲁棒性价值。
真实世界的大考:OOD泛化的胜利
为验证这些在“微型实验室”中挖掘出的函数是否具备实用价值,DeepMind将它们植入标准的ResNet-50、VGG以及图神经网络中,在CIFAR-10、ImageNet、CLRS-30和ogbg-molhiv等数据集上进行了全面测试。
测试结果揭示了几个关键事实:
1. OOD任务的王者:在强调算法推理与泛化能力的CLRS-30基准测试中,新发现的GELU-Sinc-Perturbation取得了0.887的高分,显著优于ReLU(0.862)和GELU(0.874)。这验证了DeepMind的核心假设:在合成OOD数据上优化的函数,确实能迁移到需要强泛化能力的复杂任务上。
-
视觉任务不掉队:在 ImageNet 上,尽管这些新函数是针对小规模数据优化的,但 GELUSine 和 GELU-Sinc-Perturbation 依然达到了与 GELU 持平甚至略优的准确率(Top-1 Accuracy 约 74.5%),远超 ReLU (73.5%)。
-
周期性的魔力:为什么在激活函数中加入 sin(x) 或 sinc(x) 这种周期项会有效?DeepMind 的研究人员认为,标准的激活函数(如 ReLU)在训练域之外往往是线性的,很难捕捉数据的复杂结构。而周期性函数允许模型在训练域内「存储」某种频率信息,并在外推时通过周期性结构「检索」这些信息。正如 LLM 在代码注释中所说,这是一种「隐式的频率分析」。
下表总结了关键函数在不同任务上的表现:

深度思考:AI 设计 AI 的未来
DeepMind 的这项研究不仅贡献了几个好用的激活函数,更引发了对 AI 辅助科研的深层思考。
代码即搜索空间
AlphaEvolve 证明了,让 LLM 直接编写 Python 代码作为搜索空间,比预定义数学算子更加灵活和强大。LLM 自带的编程规范和逻辑能力,使得它生成的函数大多具有可读性和可执行性,甚至还能提供「设计思路」的解释。
从拟合到泛化
长久以来,激活函数的设计大多为了优化梯度的流动(如 ReLU 解决梯度消失)。但这项研究表明,激活函数的形状直接影响模型的归纳偏置。通过引入周期性结构,我们实际上是在告诉神经网络:「这个世界很多规律是循环往复的,不仅仅是线性的。」
「小数据」的大智慧
在一个追求万亿参数和由 PB 级数据训练的大模型时代,DeepMind 反其道而行之,通过仅有几百个样本的合成数据「微型实验室」,挖掘出了通用的架构组件。这表明,如果我们能精确定义「泛化」的本质(如通过 OOD 拆分),小数据依然能撬动大智慧。
结语
DeepMind 的这项工作揭示了在神经网络最基础的组件层面,依然存在着广阔的未至之境。未来的 AI 模型,其每一行代码、每一个算子,或许都将由 AI 自己来书写。而人类研究者要做的,可能就是像 AlphaEvolve 这样,为它们搭建一个合适的「进化实验室」。
对于正在训练处理复杂图结构或需要强逻辑推理模型的研究者,尝试将 nn.ReLU 替换为 nn.GELU(x) * (1 + 0.5 * sinc(x)),或许会带来意想不到的惊喜。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20698
