在人工智能技术快速演进的浪潮中,多模态大模型已成为推动产业进步的核心引擎。然而,随着模型参数规模呈指数级增长,全量微调(Full Fine-Tuning, FFT)所需的海量计算资源已成为制约技术民主化的重要瓶颈。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,特别是LoRA(Low-Rank Adaptation),通过仅更新模型极小部分参数实现任务适配,显著降低了微调门槛。但随之而来的新挑战是:如何将多个针对特定任务优化的PEFT模块高效合并为统一的通用模型?这一问题的解决,直接关系到AI系统能否在资源受限环境下实现多任务协同与知识融合。

近期,由中科院、中山大学和北京大学联合研究团队提出的RobustMerge框架,为解决PEFT模块合并难题提供了突破性方案。该研究首次系统性地揭示了传统模型合并方法在PEFT场景下失效的根本原因——并非以往认为的“参数符号冲突”,而是“方向鲁棒性”(Direction Robustness)缺失。这一理论发现不仅颠覆了既有认知,更为高效微调领域的模型融合奠定了新的理论基础。研究论文已被NeurIPS 2025接收并评为Spotlight(Top 3.1%),相关代码、数据集和模型均已开源,为学术界和工业界提供了可直接复现的研究范本。

深入分析PEFT合并的技术困境,需要从参数分布的本质差异入手。全量微调通过调整模型全部参数实现任务适配,其参数变化通常呈现集中、稳定的分布特征。而LoRA等PEFT方法仅更新低秩矩阵,这些新增参数往往表现出更广泛、更分散的分布特性。

直观展示了这种分布差异:FFT参数变化集中在零值附近狭窄区域,而PEFT参数则呈现显著更宽的分布范围。这种结构性差异导致传统合并方法(如Ties-merging、DARE)直接移植到PEFT场景时性能大幅下降,甚至在部分未见任务上表现不如未经微调的Zero-Shot模型。
研究团队通过严谨的数学分析发现,问题的核心在于低秩矩阵的奇异值结构。对LoRA模块进行奇异值分解(SVD)后,可观察到明显的“头部-尾部”奇异值分化现象:

头部奇异值对应任务特定知识,数值较大且方向稳定;尾部奇异值则对应通用知识或噪声,数值微小且方向极易受干扰。在合并多个LoRA模块时,这些不稳定的尾部方向会因参数叠加而产生方向漂移,最终导致模型性能退化。这从根本上解释了为何传统基于符号冲突的合并策略在PEFT场景中失效——真正的冲突源是方向不稳定性,而非简单的参数正负符号变化。
基于这一理论突破,RobustMerge设计了两阶段合并策略:修剪与参数互补缩放、跨任务归一化。

展示了方法整体框架。第一阶段,算法首先识别并修剪每个LoRA模块中幅度最小的k%参数(

),这些微小参数正是方向不稳定的主要来源。修剪后,通过构建对角缩放矩阵S(

)补偿性能损失,该矩阵基于LoRA中A矩阵的统计特性设计,巧妙利用了A、B矩阵分布的不对称性。第二阶段进行跨任务归一化,确保合并后模型在不同任务间的表现均衡。整个流程完全无需额外训练或原始数据,仅通过数学变换即可实现性能显著提升。
RobustMerge的理论贡献与实践价值体现在三个层面:首先,它首次建立了“方向鲁棒性”与PEFT合并性能的因果关系,为后续研究提供了清晰的理论指引;其次,提出的两阶段方法在多个基准测试中验证了有效性,在已见任务和未见任务上均超越现有方法;最后,开源实现降低了技术应用门槛,使更多开发者能够构建适应多任务、低成本的AI系统。随着多模态大模型向轻量化、专业化方向发展,RobustMerge所代表的模型合并范式有望成为下一代AI基础设施的关键组件,推动从“单一专家”到“全能助手”的平滑演进。
— 图片补充 —







关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7777
