这是一个微妙的时代。一边是大模型以令人眩晕的速度迭代,参数量从百亿级迈向万亿级;另一边,学术界却陷入沉默——我们仍未找到深度学习的基本理论,神经网络依然是一个黑箱。
LeCun在X上直言不讳:“深度学习的理论基础仍是一片荒原。”Geoffrey Hinton也多次公开表达类似观点:深度学习的成功更像炼金术而非科学——我们知道什么有效,却不知道为什么有效。
但就在这片荒原上,一道裂缝正在被撬开。
最近,由来自UC Berkeley、哈佛、斯坦福等名校的14位研究者组成的团队发表了一篇论文,系统性地梳理了过去十年间散落在各处的理论碎片,并将它们拼合成一幅完整的图景。
他们给这个正在形成的理论体系起了一个名字——Learning Mechanics(学习力学)。

- 论文标题:There Will Be a Scientific Theory of Deep Learning
- 论文链接:https://arxiv.org/pdf/2604.21691
就像经典力学统一了天体运动与地面落体、统计力学架起了微观粒子与宏观热现象之间的桥梁、量子力学重新定义了物质的基本存在方式一样,“学习力学”试图为神经网络的学习过程建立一套第一性原理级别的科学框架。
基础理论去哪了?
过去十五年,深度学习的每一次突破几乎都来自工程直觉和大规模实验,而非理论推导。AlexNet靠的是GPU并行计算的偶然发现;ResNet来自何恺明对梯度消失问题的修补;Transformer的注意力机制最初是为了解决序列建模中的长距离依赖……
这种“先做出来再说”的模式带来了惊人的应用成果,但也留下了一个尴尬的现实:深度学习研究者面对一个训练失败的模型,往往只能靠经验和运气来调参。
论文研究团队的核心贡献在于识别出五条研究线索。它们分别是:
- 可解的理想化设定:在简化条件下,我们能否精确求解神经网络的动力学?——深度线性网络的全局最优解、NTK极限下的谐振子类比,对应物理学中的谐振子与氢原子。
- 可处理的极限:当网络趋向某些极端时,行为是否变得可预测?——宽网络极限下的惰性/丰富二分法、深度/批量/学习率极限,对应热力学极限。
- 经验定律:是否存在跨越架构和数据集的普适规律?——神经缩放律、稳定性边缘(Edge of Stability),对应开普勒定律与斯涅尔定律。
- 超参数理论:能否实现超参数的零样本迁移?——μP参数化、中心流、超参数解耦与消除,对应量纲分析。
- 普适行为:不同架构/数据集学到的表征为何如此相似?——表征收敛现象、通用表征假设,对应临界普适性。
这五条线索并非平行发展,而是正在向同一个核心汇聚——一个能够描述神经网络学习过程的统一理论框架。
我们知道,在拉瓦锡之前,化学本质上也是“炼金术”——人们知道混合某些物质会产生特定反应,但不理解背后的原子机理。直到元素周期表和化学反应理论的建立,化学才从经验积累跃升为一门精密科学。
深度学习正处于类似的转折点。过去十年的高速增长,本质上是经验主义驱动的“炼金时代”——我们发现了很多有效的配方(ResNet、Transformer、Adam优化器),但对这些配方为什么有效缺乏根本性的理解。
“学习力学”的目标,就是成为深度学习领域的“元素周期表”。
“学习力学”的五根支柱:物理学的双子星
这是整篇论文最精彩的部分。
可解的理想化设定——神经网络里的“氢原子”
物理学的发展史告诉我们:任何成熟的理论都必须从一个可以精确求解的简化模型开始。经典力学有谐振子和开普勒问题,量子力学有氢原子——这些都是高度理想化的系统,但它们提供了理解更复杂系统的概念基础。
深度学习领域也找到了自己的“氢原子”:

深度线性网络(Deep Linear Networks)。当激活函数被替换为恒等映射时,一个任意深度的多层感知机退化为一个矩阵乘积

。
研究者证明了SGD在这种网络上总能找到全局最优解,并且可以精确描述每一步更新的轨迹。更重要的是,深度线性网络的许多定性特征(如奇异值的动态演化)在非线性网络中也得到了保留。
NTK(Neural Tangent Kernel)极限。当神经网络的宽度趋于无穷大时,网络在训练过程中的行为可以用一个固定的核函数来描述——这就是NTK理论的核心洞见。在这个极限下,神经网络的训练等价于在由NTK定义的再生核希尔伯特空间(RKHS)中进行核回归。这意味着我们可以用核方法的语言来精确预测无穷宽网络的训练动态。
论文特别强调了NTK与量子力学的类比:NTK极限下的神经网络,其行为类似于量子力学中的谐振子或氢原子——两者都是可以通过解析方法完全求解的“玩具模型”,但又蕴含着真实系统的关键物理特征。
在无限宽度下,网络的输出函数

关于参数θ的变化可以用一个时间无关的核函数

来刻画,而这个核函数在训练过程中保持不变——这与量子系统中哈密顿量守恒有着异曲同工之妙。
可处理的极限——当网络变得“无限大”
如果上一部分问的是“最简单的神经网络是什么”,那么这部分问的就是“当网络的某个维度推向极端时会发生什么”。这正是物理学中热力学极限的思维模式:通过研究粒子数趋于无穷的系统,获得对有限系统的洞察。
深度学习中已经发现了多个这样的“极限”:
宽网络极限(Lazy vs. Rich Regime)。这是近年来最重要的理论发现之一。当网络宽度增加时,训练动态会进入两种截然不同的状态:
- 惰性regime(Lazy Training):网络参数几乎不离开初始化附近,功能上等价于核方法。此时网络的表现像一个“懒惰的学生”——它不愿意真正改变自己,只是用初始状态的微小扰动来拟合数据。
- 丰富regime(Feature Learning):网络的特征表示在训练过程中发生实质性变化,真正学会了有用的内部表征。
这两种regime之间的转变取决于宽度、深度、学习率和批量大小之间的微妙平衡。这一工作严格刻画了这个相变边界,而论文指出这一发现的意义远超技术细节——它揭示了神经网络训练中存在真正的“相变”现象,就像水在0°C结冰一样,神经网络的行为在某些临界点会发生质的改变。
其他重要极限还包括:
- 深度极限:当层数趋于无穷时,某些架构表现出连续动力学的特征
- 批量极限:大批量训练与小批量训练之间存在系统性差异
- 学习率极限:极小学习率对应梯度流,极大学习率则触发全新的动力学
这些极限研究的共同价值在于:它们将离散的、有限的经验观察,转化为连续的、可分析的数学对象。
经验定律——深度学习版的“开普勒定律”
这部分是实证发现——就像开普勒从第谷的观测数据中提炼出行星运动三定律一样,深度学习研究者也从海量实验中总结出了若干跨越架构和数据集的普适规律。

神经缩放律(Neural Scaling Laws)是其中最著名的一个。模型的测试损失随计算量、参数量或数据量的增加呈现幂律衰减:

其中α是依赖于任务和架构的幂律指数。这个规律的惊人之处在于它的普适性:无论你用的是Transformer还是ResNet,无论任务是语言建模还是图像分类,幂律关系都成立,只是指数不同。
另一个在经验层面上被反复验证的规律是稳定性边缘(Edge of Stability, EoS)。当采用较大学习率进行训练时,梯度的最大特征值(即 Hessian 矩阵的最大特征值

)会自动稳定在 2/η 附近,其中 η 代表学习率。
这一现象被命名为“稳定性边缘”,它揭示了深度学习优化过程中存在一种自组织临界性(Self-Organized Criticality)——这与自然界中的沙堆坍塌、地震等临界现象共享相同的数学框架。
论文将其比作光学中的斯涅尔定律(Snell’s Law):斯涅尔描述了光在不同介质界面上的折射行为,却未解释其深层原因(这需要麦克斯韦方程组);EoS 捕捉了训练过程中梯度稳定在临界值的现象,但其内在机制仍有待“学习力学”的完整理论来阐明。
超参数理论——深度学习中的“量纲分析”
任何调过模型的人都深知其中的痛苦:学习率设得太大,模型会发散;设得太小,则收敛缓慢;batch size 和学习率必须协同调整;不同层的权重衰减是否应该统一?长期以来,这些超参数的选择依赖经验和网格搜索,缺乏系统性的指导原则。
μP(Maximal Update Parameterization)的出现改变了这一局面。μP 框架提供了一种优雅的方案:通过对参数初始化和更新规则进行特定的缩放变换,使得超参数可以在不同规模的模型之间实现零样本迁移。换句话说,你在小模型上调好的学习率,可以直接应用于同架构的大模型,无需重新调整。
μP 本质上就是深度学习中的“量纲分析”(Dimensional Analysis)。
在物理学中,量纲分析允许我们在不完全了解具体方程的情况下,仅通过检查物理量的量纲一致性就能得出重要结论。μP 的做法类似:它无需知道损失景观的具体形状,只需保证不同规模下优化的“量纲”一致,就能实现超参数的可迁移性。
论文还提到了两个相关的重要概念:
中心流(Central Flow)。这是一种新的参数化方案,旨在让优化轨迹在参数空间中保持良好的几何性质,避免因尺度不一致导致的优化困难。
超参数解耦与消除(Decoupling and Elimination of Hyperparameters)。一个更激进的想法是:能否从根本上减少自由超参数的数量?如果能证明某些超参数在理论上是不必要的(或可被其他参数吸收),那么调参本身就会大幅简化。
普适行为——不同网络学到惊人的相似
不同架构的神经网络,在不同数据集上训练后,学到的内部表征竟然高度相似。这一现象被称为表征收敛(Representation Convergence)或通用表征假设(Universal Representation Hypothesis)。
具体而言,如果你训练两个完全不同的网络——一个是 ResNet,另一个是 Vision Transformer——在 ImageNet 上训练至收敛,然后比较它们中间层的激活模式,你会发现它们的表征结构出奇地一致。更令人惊奇的是,这种一致性甚至跨模态存在:视觉网络和语言网络在某些抽象层面上展现出相似的表征组织方式。
论文将这一现象类比为物理学中的临界普适性(Critical Universality)。在统计力学中,完全不同的物理系统(如铁磁体和液体-气体相变)在接近临界点时会表现出相同的行为——它们的临界指数只依赖于空间的维数和序参量的对称性,而与微观细节无关。这被称为“普适性类”(Universality Class)。
如果深度学习也存在类似的普适性,那就意味着:不管你用什么架构、什么初始化、什么优化器,只要满足某些基本条件,网络就会收敛到同一类“吸引子”表征上。这不仅能解释为什么不同模型的表现趋于一致,也为理解智能的本质提供了新视角——也许智能本身就对应着某个高维空间中的“普适性吸引子”。
十个未解之谜
论文的最后部分坦诚地列出了十个尚未解决的关键问题。这些问题既是挑战,也是路线图——任何一个的突破都可能推动“学习力学”从愿景变为现实。
- 非线性动力学的解析理论。目前大部分可解结果局限于线性网络或无限宽极限。真实的有限宽度非线性网络的训练动力学仍然是一个黑洞。
- 缩放律的起源与断裂点。幂律关系为什么成立?它在什么条件下会失效?最近的一些工作暗示缩放律可能在极高规模下出现相变。
- 惰性与丰富 Regime 的完整相图。我们知道两种 regime 都存在,但它们之间的过渡区域是什么样子的?是否存在第三种 regime?
- 超参数的“标准模型”。能否建立一个统一的框架,将 μP、中心流等各种参数化方案纳入其中,并给出完整的超参数选择指南?
- 表征收敛的数学证明。普适行为目前主要是实证观察。能否从优化动力学的角度严格证明表征必然收敛?
- 泛化误差的理论上界。为什么过参数化的网络(参数远多于样本数)不会严重过拟合?这个问题困扰了统计学习理论二十年。
- 架构设计的理论指导。能否从第一性原理出发推导出最优的网络架构,而不是靠试错?
- 语言与推理的涌现机制。In-context learning、思维链推理等能力是在什么条件下涌现的?能否预测和控制这种涌现?
- 物理对称性与神经网络归纳偏置的联系。物理世界具有平移不变性、旋转对称性、尺度不变性等——神经网络是否天然编码了这些对称性?还是说这些对称性是从数据中学到的?
- “学习力学”的形式化公理体系。最终,我们需要一套类似牛顿三定律或量子力学公理的严谨数学框架,而不仅仅是类比和启发式论证。
在过去,关于深度学习理论的问题通常是怎么让模型更高效。“学习力学”提出的则是另一种层次的问题:“支配神经网络学习过程的底层规律是什么?”
科学史上,这样的时刻并不多见。牛顿在苹果树下思考引力的时候,开普勒的行星数据已经在书架上等了他半个世纪。达尔文在贝格尔号上收集标本的时候,孟德尔的豌豆实验已经在修道院的花园里默默进行了八年。
而今天,在 AI 领域每天涌出的无数进展背后,在每一个深夜还在跑实验的 GPU 集群里,在每一次模型进化的欢呼中——“学习力学”所需的全部碎片,可能已经散落在那里了。
需要的只是有人把它们捡起来,拼在一起。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32103

