通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

关键词通用子空间深度神经网络低秩子空间模型可复用性权重空间分析

在大模型时代,一个核心矛盾始终困扰着研究者:我们训练的模型规模持续增长(从百亿到万亿参数),但每次为适配新任务都需要从头微调或训练全新模型。这不仅消耗海量算力,还导致严重的参数冗余。例如,排除任务特定的输入/输出层后,存储500个Vision Transformer(ViT)模型约需86GB,而50个LLaMA3-8B模型(FP16精度)则需约1.6TB,规模化部署成本极高。

那么,不同任务、不同初始化的模型,真的是彼此完全独立的“孤岛”吗?

约翰·霍普金斯大学的研究团队在论文《THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS》中给出了颠覆性的答案:无论初始化、任务或数据领域如何不同,相同架构的深度神经网络都会收敛到高度相似的低维参数子空间——即“通用子空间”(Universal Subspace)。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

  • 论文标题:The Universal Weight Subspace Hypothesis
  • 论文链接:https://arxiv.org/pdf/2512.05117
  • 项目主页:https://toshi2k2.github.io/unisub/(代码即将发布)

本文提出了通用权重子空间假说,并通过大规模实证与理论分析证实:深度神经网络无论初始化、任务类型或数据领域,都会系统性地收敛到由架构决定的共享低维参数子空间。研究对1100余个模型(包括500个Mistral-7B LoRA适配器、500个视觉Transformer、50个LLaMA-3-8B等)进行了模态谱分析,运用截断零中心高阶奇异值分解(HOSVD)技术处理不同架构的权重张量,发现少数主方向即可捕捉大部分方差,从而验证了该子空间的稀疏性与通用性。

实验覆盖了CNN、LoRA适配器、经典Transformer权重等多种场景,涉及图像分类、自然语言理解、文本生成等任务。

结果显示,基于通用子空间的模型在保持性能竞争力的同时,实现了显著优化内存需求降低100倍以上,新任务适配仅需学习少量系数,模型合并无需启发式剪枝或验证数据。理论上,基于希尔伯特空间与二阶矩算子的分析证明,学习到的子空间会收敛到真实子空间,收敛速率受任务数量与单任务估计精度影响。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

图 1 | 深度网络收敛至共享低秩(通用)子空间:在不同架构和模态下,神经网络会系统性地在高度相似的低维参数子空间内运行。左侧:对200个GPT-2、500个视觉Transformer(ViT)、50个LLaMA3-8B和8个Flan-T5模型的主成分分析显示,所有模型均存在显著的“谱衰减”——这强有力地证明,即便训练数据、目标函数和初始化方式差异巨大,少数权重方向仍能捕捉到主导方差。黑色基线(独立子空间参考线)代表“模型会学习独特方向”的朴素预期,而实证结果与此矛盾。右侧:值得注意的是,500个随机初始化的ViT模型最终收敛到同一个低秩子空间,这表明该属性是神经网络的基本特性。这种涌现结构催生了多种实用应用:参数高效适配、高效模型合并、压缩存储,以及加速训练与推理。

这里的“谱衰减”指特征值随主成分数量增加而快速下降,意味着前几个主成分就能解释大部分参数变化,这是低维子空间存在的核心信号。例如,500个ViT虽从不同初始值、用不同数据训练,但最终参数变化都集中在少数方向,说明这不是偶然现象。这种共性打破了“每个模型都是独立个体”的认知,后续实验中100倍模型压缩、新任务仅调系数等优势,都源于这个共享子空间的存在。

该发现为解释模型泛化、迁移学习有效性等经典问题提供了新视角,在模型压缩、高效训练、低碳部署等方面具有重要应用价值,同时为多任务学习与模块化AI系统构建奠定基础。研究也指出,跨架构子空间差异、子空间可解释性等仍是未来需深入探索的方向。

一、引言:从“参数爆炸”到“子空间共性”,大模型的效率困局与突破

1.1 大模型的核心痛点:效率与复用性

  • 算力冗余:训练一个7B参数模型需要数天的GPU时间,若为100个不同任务分别训练,算力需求将线性增长100倍。
  • 存储冗余:例如,存储500个ViT模型(排除输入/输出层)约需86GB空间,而模型的核心信息可能高度集中在低维子空间中。
  • 理论困惑:为什么高度过参数化的模型(参数远多于样本)依然能良好泛化?为什么从不同随机初始化开始训练的模型,最终会学到相似的表征?

这些问题的核心,或许在于我们对“参数空间”的理解存在偏差——模型并非在全参数空间中自由探索,而是被“无形的手”引导到一个共享的低维子空间中。

1.2 论文的核心贡献:三大突破

  1. 大规模实证验证:覆盖超过1100个模型,涵盖多种架构(Transformer、CNN、LoRA)与模态(文本、图像、生成),证明了通用子空间是同架构深度神经网络的“固有属性”。
  2. 严谨理论支撑:运用希尔伯特空间与二阶矩算子理论,推导了子空间的收敛性,并明确了“任务数量”和“单任务训练误差”对于子空间估计精度的定量影响规律。简言之,参与的任务越多、单个任务训练得越精准,最终提取的通用子空间就越精确。
  3. 可落地方法体系:提出了“截断零中心高阶奇异值分解(HOSVD)”算法来高效提取子空间,并在模型压缩、合并、快速适配等实际场景中验证了其价值。

二、核心概念:什么是“通用子空间”?用通俗语言读懂核心定义

2.1 子空间:参数空间的“主干道”

我们可以将模型的参数空间比作一个巨大的城市,每个参数对应一条街道。传统观点认为,为不同任务优化的模型会探索不同的街道以抵达各自的“最优解”。但本研究发现:所有模型最终都会汇聚到少数几条“主干道”上——这些“主干道”就构成了通用子空间。

  • 这些“主干道”(即主成分方向)仅占整个参数空间的极小比例(例如,16维相对于数百万维),却能捕捉超过90%的任务相关信息。
  • 不同任务模型之间的差异,主要体现在它们在这几条“主干道”上的“具体位置”(即主成分系数)不同,而非探索了完全不同的“道路”。

2.2 关键定义:从数学上精准描述通用子空间

论文采用二阶矩算子来定义子空间,其核心是捕捉“所有任务理想预测器(模型)的共同结构”:

| 符号 | 含义 |
| :— | :— |
| $mathcal{H}$ | 可分希尔伯特空间(具有内积 $langlecdot,cdotrangle$ 和范数 $|cdot|$) |
| $h_i^$ | 任务 $i$ 的“真实预测器”(理想中的最优模型) |
| $hat{h}_i$ | 任务 $i$ 的“学到的预测器”(实际训练出的模型) |
| $Sigma$ |
总体二阶矩算子:所有任务真实预测器的平均参数模式,$Sigma = mathbb{E}[h_i^ otimes h_i^]$ |
| $hat{Sigma}$ |
经验二阶矩算子*:用学到的预测器估算的子空间,$hat{Sigma} = frac{1}{n}sum_{i=1}^n hat{h}_i otimes hat{h}_i$ |

通用子空间的本质:$Sigma$ 的前 $k$ 个特征向量所张成的空间($mathcal{U}_k$),即能够解释所有任务参数方差最主要的“主方向”。

2.3 为什么是“低秩”?从谱衰减看子空间特性

论文的核心发现之一是“谱衰减”:模型参数的方差会快速集中在少数几个主成分上,后续成分的方差几乎可以忽略不计。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密
图1 | 深度网络收敛至共享低秩(通用)子空间:在不同架构和模态下,神经网络会系统性地在高度相似的低维参数子空间内运行。左侧:对200个GPT-2、500个视觉Transformer(ViT)、50个LLaMA3-8B和8个Flan-T5模型的主成分分析显示,所有模型均存在显著的“谱衰减”——这强有力地证明,即便训练数据、目标函数和初始化方式差异巨大,少数权重方向仍能捕捉到主导方差。黑色基线(独立子空间参考线)代表“模型会学习独特方向”的朴素预期,而我们的实证结果与此矛盾。右侧:值得注意的是,500个随机初始化的ViT模型最终收敛到同一个低秩子空间,这表明该属性是神经网络的基本特性。这种涌现结构催生了多种实用应用:参数高效适配、高效模型合并、压缩存储,以及加速训练与推理。这里的“谱衰减”指特征值随主成分数量增加快速下降,意味着前几个主成分就能解释大部分参数变化,这是低维子空间存在的核心信号。比如500个ViT虽从不同初始值、用不同数据训练,但最终参数变化都集中在少数方向,说明不是偶然现象。这种共性打破了“每个模型都是独立个体”的认知,后续实验中100倍模型压缩、新任务仅调系数等优势,都源于这个共享子空间的存在

以上图为例,纵轴是“累计解释方差比例”,横轴是“主成分数量”:
* 无论是200个GPT-2、500个ViT还是50个LLaMA3-8B,前20-30个主成分就能解释80%以上的参数方差。
* 黑色虚线代表“独立子空间”的预期(假设各模型参数结构互不相关),实际曲线远低于此基线,有力证明了模型参数确实共享一个低维子空间结构。

三、理论基石:从数学上证明“通用子空间必然收敛”

论文不仅提供了实证,更用严谨的数学证明:当任务数量足够多、且每个任务训练得足够精准时,从数据中估计出的子空间($hat{mathcal{U}}_k$)会收敛到真实的通用子空间($mathcal{U}_k$)。

3.1 两个关键假设:保证子空间可学习

要让子空间估计收敛,需要满足两个基本前提:

  1. 有界二阶矩与有效秩:所有任务的真实预测器 $h_i^$ 的参数范数有界($|h_i^| leq B$),且其平均能量有限($mathbb{E}[|h_i^*|^2] leq sigma^2$);同时,总体二阶矩算子 $Sigma$ 的“有效秩”有界($r_k(Sigma) = frac{sum_{j>k}lambda_j(Sigma)}{lambda_k(Sigma)} leq R$)。这在数学上保证了共享子空间是“低维”且“显著”的,从而可以从有限数量的任务模型中将其可靠地估计出来。
  2. 单任务训练精度:学到的预测器 $hat{h}_i$ 与真实预测器 $h_i^$ 足够接近,其误差 $epsilon_i = |hat{h}_i – h_i^|$ 需满足一定上界。该上界通常与模型的拉德马赫复杂度(衡量函数类的复杂度)和训练样本量有关——样本越多($m$ 越大),单任务误差越小,避免因单个模型不准而污染整体子空间的估计。

这两点是子空间收敛理论的核心前提:前者通过参数约束和有效秩限制,确保共享子空间存在且结构清晰;后者保证用于估计的每个单任务模型足够精确。二者共同支撑了从多个模型中稳健提取通用子空间的可能性,为后续的应用奠定了理论基础。

3.2 核心定理:子空间收敛的“双误差来源”

原论文中的定理2.5是理论核心,它量化了“学到的子空间”与“真实子空间”之间的差距:

公式解读:

  • 第一式:学到的经验二阶矩算子($hat{Sigma}$)与真实算子($Sigma$)的谱范数误差,由两部分构成:
    1. 任务数量误差:$O(sqrt{frac{R}{n}})$ —— 参与估计的任务数量 $n$ 越大,这部分误差越小。
    2. 单任务误差:$O(bar{epsilon} + sqrt{bar{epsilon}^{(2)}})$ —— 各任务训练模型的平均误差 $bar{epsilon}$ 和平均平方误差 $bar{epsilon}^{(2)}$ 越小,这部分误差越小。
  • 第二式:学到的子空间投影算子($hat{P}k$)与真实投影算子($P_k$)之间的差距,除了受上述误差影响,还受“特征值间隙” $Delta_k = lambda_k(Sigma) – lambda{k+1}(Sigma)$ 的影响——间隙 $Delta_k$ 越大(即前 $k$ 个主成分越显著,与后续成分区分度越高),估计出的子空间就越稳定。

结论:只要任务数量足够多($n$ 大)、且每个任务都训练得足够精准($epsilon_i$ 小),我们就能高精度地学习到真实的通用子空间。

四、方法学:如何提取通用子空间?HOSVD算法详解

论文提出了“截断零中心高阶奇异值分解”算法,专门用于从多个模型的参数张量中高效提取其共享的低秩子空间。该算法是论文方法的核心,以下逐步拆解其目的与操作。

4.1 算法输入与输出

  • 输入:一个高阶张量 $mathcal{X} in mathbb{R}^{d_1 times d_2 times dots times d_M times n}$,它由 $n$ 个模型的参数矩阵堆叠而成。例如,将500个ViT模型某一层的权重(每个为 $d_1 times d_2$ 矩阵)堆叠,可得到一个 $d_1 times d_2 times 500$ 的三阶张量。
  • 输出
    • 均值张量 $mathcal{M}$:所有模型参数在元素级别上的平均值。
    • 各模态因子矩阵 ${U^{(m)}}$:对应每个维度(模态)的子空间主方向(基向量)。
    • 截断核心张量 $mathcal{S}$:子空间在压缩后的核心表示,维度显著降低。

4.2 算法步骤拆解(对应原论文Algorithm 1)

  1. 中心化:计算所有模型参数的平均值 $mathcal{M}$,并将每个模型的参数减去该均值,得到中心化后的张量 $tilde{mathcal{X}}$。这一步旨在移除模型间的共性均值,专注于分析其变化模式。
  2. 模态展开与SVD:将中心化张量 $tilde{mathcal{X}}$ 沿每一个维度(模态)进行展开,得到一系列矩阵。对每个展开矩阵进行截断奇异值分解,保留前 $r_m$ 个主要奇异向量,构成该模态的因子矩阵 $U^{(m)}$。这相当于在每个维度上分别寻找参数变化的主要方向。
  3. 计算核心张量:利用得到的各模态因子矩阵,通过张量乘运算计算出核心张量 $mathcal{S}$。该核心张量描述了所有模型参数在提取出的共享子空间中的坐标。
  4. 重构(可选):通过核心张量 $mathcal{S}$ 和各因子矩阵 ${U^{(m)}}$,可以近似重构出原始的中心化参数张量,其误差由截断的奇异值大小决定。重构公式为:$tilde{mathcal{X}} approx mathcal{S} times_1 U^{(1)} times_2 U^{(2)} dots times_M U^{(M)}$。

4.2 HOSVD 算法步骤详解

算法 1 的核心流程分为三个关键步骤,旨在从高维参数张量中提取出共享的低维子空间。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

  1. 零中心化
    首先计算所有模型参数张量 (X) 的元素均值 (mu),然后执行 (X_c = X – mu)。这一步旨在消除所有模型共有的“全局偏移”(例如,特定层权重的普遍偏置),从而让后续分析能更聚焦于由任务、初始化等带来的特异性变化。

  2. 逐模式展开与降维
    对中心化张量 (X_c) 的每一个模式(维度)(n) 分别处理:

    • 将 (X_c) 展开为矩阵 (X_{(n)})。
    • 对 (X_{(n)}) 进行奇异值分解(SVD)。
    • 保留前 (hat{r}_n) 个左奇异向量 (U^{(n)}),其中 (hat{r}_n) 是满足累计解释方差 (geq tau)(论文中通常设 (tau = 90%))的最小数量。此步骤相当于从每个维度的杂乱变化中,筛选出承载了绝大部分信息的关键方向。
  3. 计算截断核心张量
    利用各模式提取出的因子矩阵 (U^{(n)}),通过模式乘积计算截断核心张量 (S = X_c times_1 U^{(1)^T} times_2 cdots times_N U^{(N)^T})。这个核心张量 (S) 是子空间的“压缩核心”,结合因子矩阵即可近似重构原始参数:(tilde{X} = S times_1 U^{(1)} times_2 cdots times_N U^{(N)} + mu)。

4.3 为何选择 HOSVD 而非 PCA?

  • 数据结构适配性:PCA 仅能处理二维矩阵,而模型参数通常是高维张量(例如:“层 × 行 × 列 × 模型数量”)。HOSVD 是高阶张量分解方法,天然适配此类数据结构。
  • 分层假设的契合度:HOSVD 能分别对每个模式(如“层”、“模型”)提取主方向。这与论文的核心发现——通用子空间是分层(layer-wise)的,不同层的主导方向不同——完美契合,从而能更精细地捕捉网络各层的共享结构。

五、大规模实证:1100+模型验证通用子空间假说

论文通过覆盖 LoRA 适配器、CNN、ViT、LLaMA、SDXL 五大场景的广泛实验,为通用子空间假说提供了强有力的实证支持。

5.1 实验一:500个Mistral-7B LoRA——适配器中的通用子空间

实验设置

  • 基座模型:Mistral-7B-Instruct-v0.2。
  • 适配器:500个独立训练的LoRA适配器,秩为16,分别对应1600多个不同的自然语言任务(如对话、摘要、翻译)。
  • 分析对象:提取所有31层的LoRA矩阵((A) 和 (B)),并应用HOSVD进行分析。

关键结果

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密
* 低秩子空间涌现:对500个不同任务的LoRA进行分解后发现,所有层的大部分信息仅由前16个(或更少)子空间方向承载。这表明,尽管LoRA旨在捕捉任务特异性,但其有效信息高度集中于一个共享的低维子空间内。

子空间有效性验证

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密
* 性能保留:将随机选取的“已见任务(IID)”和“未见任务(OOD)”的LoRA参数投影到通用子空间进行重构,其性能与原始LoRA相差小于2%。
* 存储压缩:仅需存储通用子空间,即可替代存储500个独立的LoRA,实现了19:1的存储压缩比(仅针对适配器部分)。
* 任务规模效应:用于提取子空间的模型数量从50增至450时,OOD任务的Rouge-L分数从55.8提升至72.3(原始模型为73.7),证明任务多样性有助于提炼出更精准的通用子空间。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密
* 收益递减:当模型数量超过250个后,性能提升趋于平缓(从250到450仅提升0.4分),这为在实际应用中平衡精度与计算成本提供了指导。

5.2 实验二:500个Vision Transformer——全权重模型中的通用子空间

实验设置

  • 模型:从HuggingFace收集500个ViT-base-patch16-224模型,覆盖医疗影像、卫星数据、合成图像等多个领域,其训练数据、损失函数与优化器均不相同。
  • 分析对象:排除输入/输出层,对中间所有层的权重矩阵应用HOSVD。

关键结果

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密
* 强泛化能力:通用子空间模型仅用极少的可训练参数(约1万),在IID任务上达到了接近全量训练模型的精度(94.1% vs 94.4%),在OOD任务上仍保持87.8%的精度。
* 高压缩比:一个通用子空间可替代500个独立ViT模型,实现了100倍的内存压缩。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密
* 普遍性证据:该现象不仅存在于ViT,在LLaMA-3、GPT-2、Flan-T5等经典全权重语言模型中同样被观察到。尽管这些模型在架构、训练数据和任务上差异显著,但其权重均系统地收敛到一个共享的低维结构。这强有力地表明,通用子空间是深度神经网络权重的一种普遍属性,而非特定于适配器或某种架构。

5.3 实验 3:50 个 LLaMA-3-8B 与 177 个 GPT-2——语言模型的通用子空间

实验设置

  • 模型:50 个 LLaMA-3-8B(覆盖医疗对话、多语言翻译、代码生成)和 177 个 GPT-2(覆盖文本分类、情感分析),均来自 HuggingFace。
  • 分析:对所有层的注意力权重(Q/K/V 投影矩阵)和前馈网络权重进行高阶奇异值分解(HOSVD)。

关键结果

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

图 6 展示了多个模型家族的权重谱分解结果。对于语言模型,可以观察到:
* 谱衰减一致性:50 个 LLaMA-3-8B 模型的前 30 个主成分解释了 85% 的方差,而 177 个 GPT-2 模型的前 25 个主成分解释了 80% 的方差。这证实了语言模型的权重同样收敛于一个低秩通用子空间。
* 跨任务复用:利用该通用子空间适配新的文本摘要任务,仅需训练子空间系数(约 1 万个参数),相比全量微调(80 亿参数)速度提升 2 倍,且精度损失仅为 1.2%。

5.4 实验 4:Stable Diffusion-XL(SDXL)——生成模型的通用子空间

实验设置

  • 模型:从 HuggingFace 收集的大量 SDXL LoRA 适配器,覆盖浮世绘、赛博朋克、印象派等 100 多种艺术风格。
  • 评估:提取 LoRA 参数的通用子空间,并用该子空间重构随机风格的 LoRA,然后生成图像并计算 CLIP 分数以衡量文本-图像匹配度。

关键结果

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

  • 风格保真度:重构的“通用 SDXL LoRA”在 10 种不同风格上生成的图像,其平均 CLIP 分数为 19.83,略高于原始独立 LoRA 的 19.73。研究者推测,这种微弱的提升可能源于子空间的“去噪效应”,它过滤了原始适配器中的噪声。
  • 视觉质量:生成的图像在风格细节上与原始 LoRA 的输出没有明显差异,例如浮世绘的线条和赛博朋克的光影均被完整保留。

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

5.5 实验 5:模型合并——无需额外调参的 SOTA 性能

实验设置

  • 任务:合并 8 个分别在独立图像分类数据集上使用 LoRA 微调的 ViT-B/32 模型。
  • 基线方法:对比 RegMean、Task Arithmetic (TA)、TIES、DARE-TIES 等 6 种先进的模型合并方法。
  • 论文方法:基于通用子空间的几何特性直接计算合并系数,无需在验证集上调整超参数。

关键结果

通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

  • 平均精度领先:通用子空间合并方法在所有任务上的平均精度,优于包括 TIES 和 DARE-TIES 在内的 6 种主流基线方法。
  • 无额外调参优势:与基线方法需要手动调整“缩放系数”或“剪枝阈值”不同,本方法完全基于数学推导,无需人工干预。
  • 参数精简:合并后的模型参数量显著少于合并前的独立模型集合。

六、相关工作:通用子空间如何“站在巨人的肩膀上”?

本研究并非凭空产生,而是对前人工作的突破与整合。以下对比关键相关工作,以明确本研究的创新点:

相关工作领域| 代表研究| 核心结论| 与本文的差异
—|—|—|—
神经正切核(NTK)| Jacot et al. (2018)| 无限宽模型的训练动态由“任务无关核”主导| NTK 是理论层面的“函数空间共性”,聚焦无限宽模型;本文是实证+理论层面的“参数空间共性”,覆盖有限宽实际模型
彩票假说(LTH)| Frankle & Carbin (2019)| 过参数化模型含“稀疏子网”,性能与全模型相当| LTH 关注“单个模型的稀疏结构”,本文关注“多个模型的共享子空间”
模式连通性| Garipov et al. (2018)| 不同初始化的模型最优解在参数空间连通| 模式连通性是“路径存在性”,本文是“子空间收敛性”,提供更具体的结构
机械可解释性| Olah et al. (2020)| 模型存在“重复电路”(如视觉中的边缘检测)| 聚焦“表征层面的共性”(如特征图),本文聚焦“参数层面的共性”,更底层
低秩适配器(LoRA)| Hu et al. (2021)| 用低秩矩阵适配大模型,参数效率高| LoRA 是“单任务低秩”,本文是“多任务共享低秩”,实现跨任务复用

本文的核心突破【首次】将“共性”从“理论/表征层面”推进到“参数层面”,并用 1100+模型完成大规模实证,同时提供可落地的提取方法,解决了之前研究“无法规模化复用”的问题。

七、讨论:为什么模型会收敛到通用子空间?三大底层原因

论文虽未完全揭示通用子空间的起源,但提出了三个合理假说,均有现有研究支撑:

7.1 谱偏置(Spectral Bias):模型偏爱“低频率函数模式”

深度模型天生倾向于学习低频率、泛化性更强的函数(Belfer et al., 2024),这种“谱偏置”导致不同任务的模型都会优先利用“低频率参数方向”——这些方向就是通用子空间的主成分。

例如,CNN 的第一层通常会学习 Gabor 滤波器(边缘检测),这源于 “图像低频信息”的共性需求;Transformer 的注意力层则会学习“词序依赖”,这源于 “语言低频信息”的共性需求

7.2 架构归纳偏置(Architectural Inductive Bias):架构决定了子空间形状

模型架构会强制约束参数探索的范围:

  • CNN 的局部卷积操作, 引导参数优先学习“局部关联”,因此通用子空间的主成分必然是“局部滤波方向”;
  • Transformer 的自注意力机制,其归纳偏置强烈地 偏好于学习‘全局依赖’,因此通用子空间的主成分很可能主要由反映“注意力权重分配”的方向主导。

这种“架构锁定”,使得同架构模型无论任务如何,都会落入相似的子空间。

7.3 梯度优化的偏好:梯度下降会“引导”模型到共享解

梯度下降(及变体)在参数空间中会优先收敛到“光滑解”(Bietti et al., 2019)——这些解对应的参数方向更稳定、泛化性更强,而不同任务的“光滑解”往往重叠在同一子空间中。

例如,不同初始化的 ViT,在梯度下降过程中会逐渐“抛弃”冗余参数方向,最终聚集到通用子空间的主成分上。

八、局限与未来方向:通用子空间的“未竟之路”

论文虽取得突破,但仍有三个关键问题待解决:

8.1 跨架构的通用子空间是否存在?

目前的通用子空间是“架构特异性”的(如 ViT 的子空间不同于 ResNet),但跨架构的子空间是否存在?例如,“图像识别”任务的通用子空间,能否同时覆盖 ViT、ResNet、ConvNeXt?这需要进一步研究。

8.2 子空间的可解释性不足

论文【仅】证明子空间存在,但未解释“主成分代表什么”——例如,ViT 的第 3 个主成分是“边缘检测”还是“纹理识别”?未来需结合机械可解释性,解析子空间主成分的语义含义。

8.3 如何打破子空间收敛,增加模型多样性?

通用子空间虽高效,但也带来“多样性缺失”——所有模型都落入同一子空间,可能导致对异常样本的鲁棒性下降。 未来需研究“如何引导模型跳出通用子空间”,在效率与多样性间取得平衡。

总结:通用子空间如何改变 AI 的未来?

这篇论文的价值,不仅在于发现了一个“模型共性”,更在于为大模型的“高效化”提供了新范式——从“每个任务一个模型”到“一个子空间多个任务”:

  • 效率革命多模型合并存储压缩 100 倍、文本摘要任务训练加速 2 倍,大幅降低 AI 的算力与存储成本,让小机构也能使用大模型;
  • 理论突破:解释了大模型泛化、迁移学习的底层逻辑,为“为什么大模型有效”提供了新答案;
  • 应用拓展推动模型合并、快速适配、绿色 AI(减少碳足迹)的发展,例如,用一个通用子空间服务 100 个任务,无需维护 100 个模型。

未来,当我们训练模型时,或许不再需要“从头开始”—— 只需加载该架构的通用子空间,然后微调几个系数即可。这不仅是效率的提升,更是对“模型本质”认知的颠覆:深度模型的智慧,或许不在于参数的多少,而在于对通用子空间的利用程度


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16856

(0)
上一篇 2026年1月3日 下午12:19
下一篇 2026年1月4日 上午8:13

相关推荐

  • 小模型突破计算瓶颈:WorldModel-Qwen实现推理中WASM代码执行

    最近,开发者 bigattichouse 分享了一个有趣的实验:让 Qwen-0.6B 这样的小模型在推理过程中生成并执行 WASM 代码,从而获得确定性的计算结果。 这个项目的灵感借鉴了人类思维。在关于 AGI 与 LLM 智能的讨论中,“世界模型”的概念变得越来越重要。就像人类接球时大脑会建立物理模型一样,AI 模型也需要某种形式的世界建模能力。但对于 …

    大模型工程 2026年1月17日
    7100
  • Virtually Being:多视角身份一致视频生成框架,让AI真正“看清”人物

    第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年获得美国马里兰大学帕克分校博士学位。 最后作者于宁是 Netflix Eyeline 资深研究科学家,带领视频生成 AI 在影视制作中的研发。他曾就职于 Sal…

    2025年12月27日
    10200
  • Prompt与Context工程实战:解锁LLM高效沟通的核心技艺

    如果你一直在关注《Master LLMs》系列,那么你已经走过了从建立直觉到理解机制,再到学习关键原则的旅程。现在,我们将转向动手实践,聚焦于构建AI应用时,如何与大型语言模型(LLM)进行高效沟通的核心技艺。 许多人在使用LLM时并未意识到一个关键点: 模型非常聪明,但也非常“按字面理解”。 与LLM的沟通,并非像与人交谈那样简单。它既比想象中更直接,也比…

    2025年11月29日
    7300
  • NiceToMeetYou:MLIR抽象变换器自动合成框架,精度超越手工版17%,革新编译器静态分析

    关键词: Abstract Transformers 、Program Synthesis 、MLIR、Static Analysis 、 Compiler Optimization 、Formal Verification 不再依赖人工编写,一个框架让编译器拥有更精确的静态分析能力。 编译器是现代软件基础设施的基石之一,它们不仅将高级语言代码翻译成机器指令…

    2025年12月21日
    8100
  • 智谱AI唐杰:领域大模型是伪命题,在线学习与自我评估将成新Scaling范式

    清华大学教授、智谱AI首席科学家唐杰近期发表长文,总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开,提出了若干关键论断。 唐杰教授的核心观点在于,大模型正从“学会世界”走向“进入世界”,真正的挑战已从智能本身转向如何将智能转化为现实生产力。 他强调,Agent的落地是模型从认知系统转变为生产系统的关…

    2025年12月26日
    7900