突破SNN性能瓶颈：Max-Former揭示频率偏置是核心问题，以高频增强实现精度与能效双提升

2025年11月26日下午1:44 • AI产业动态 • 阅读 73

脉冲神经网络（SNN）长期以来被视为实现超低功耗智能计算的希望，但其性能往往落后于传统人工神经网络（ANN）。传统观点认为，SNN中二进制脉冲激活导致的信息损失是性能差距的主要原因。然而，香港科技大学（广州）等单位在NeurIPS 2025发表的研究提出了颠覆性见解：SNN性能不佳的根源并非二进制激活本身，而在于脉冲神经元固有的频率偏置问题。

研究团队通过深入的理论分析和实验验证发现，脉冲神经元本质上是一个低通滤波器，会抑制高频成分并倾向于传播低频信息。这种频域上的不平衡导致SNN在处理图像等复杂数据时难以捕捉关键的细节和纹理，从而限制了其表征能力。团队通过傅里叶频谱分析直观展示了这一现象：在“输入→激活→加权”的信息流中，与传统ReLU等激活函数会扩展信号频率带宽不同，脉冲神经元会导致高频成分快速消散，进而造成特征模糊。

为了验证这一发现，研究者在脉冲Transformer中进行了对照实验，分别采用平均池化（低通）和最大池化（高通）作为token混合器。在CIFAR-100数据集上的结果显示，使用Avg-Pool的性能为76.73%，而替换为Max-Pool后性能跃升至79.12%，提升了2.39%。这一结果与ANN Transformer的研究结论形成鲜明对比——在非脉冲Transformer中，倾向于捕捉全局模式的Avg-Pool通常是更优选择，但在脉冲Transformer中，能够保留局部细节的Max-Pool反而表现更佳。

从理论层面，研究团队通过分析脉冲神经元充电过程的传递函数，证明了其本质上是一个一阶无限脉冲响应低通滤波器。尽管单个脉冲在频谱上看似“全通”，但其波形产生的高频成分是虚假的，无法在网络中有效传播。当这一过程在网络中逐层串联时，低频偏好会被急剧放大，这正是网络深层特征退化的根源。

基于这一核心洞察，研究者提出了名为Max-Former的新型脉冲Transformer架构。该架构通过两个轻量级的“频率增强镜片”来补偿SNN天生的低频偏好：一是在Patch Embedding中增加额外的Max-Pool操作，在信息输入源头就主动注入高频信号；二是用深度卷积（DWC）替代早期阶段的自注意力机制。自注意力机制虽然强大，但计算复杂且倾向于平滑特征，而深度卷积能有效保留局部高频细节，同时计算复杂度远低于自注意力。

值得注意的是，Max-Pool和DWC相对于序列长度仅需线性复杂度，且参数效率更高，这与具有二次计算复杂度的自注意力形成鲜明对比。在性能验证方面，Max-Former在多项基准测试中表现卓越：在ImageNet上，Max-Former-10-768（4时间步）取得了82.39%的Top-1准确率，以更少的参数量（63.99M vs 66.34M）大幅超越Spikformer达7.58%。

在其他小规模数据集以及神经形态数据集上，Max-Former也均达到SOTA性能。更重要的是，在实现性能突破的同时，能量消耗降低了超过30%，真正实现了性能与能效的兼得。Grad-CAM可视化进一步表明，Max-Former中的频率增强算子有效矫正了SNN的“散光”现象，使其能够更清晰地捕捉图像关键区域。

为了证明高频信息对SNN的重要性并非Transformer架构特有，研究者将这一洞察延伸到经典的卷积架构中，提出了Max-ResNet。结果显示，仅通过添加少量Max-Pooling操作，Max-ResNet-18就在CIFAR-10上达到97.17%，在CIFAR-100上达到83.06%，相比基线模型准确率分别大幅提升了2.25%和6.65%，创造了卷积类SNN的新SOTA纪录。