在人工智能模型快速发展的当下,微调(Fine-tuning)已成为提升模型在特定任务上性能的关键技术。然而,最近的研究揭示了一个严峻问题:模型的微调过程会严重削弱其安全对齐(Safety Alignment)能力。这意味着,随着模型在特定领域能力的增强,其安全防护机制反而可能被削弱,导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象,已成为AI安全领域亟待解决的核心挑战。

针对这一难题,蚂蚁集团与南洋理工大学的研究团队联合推出了名为EnchTable的创新性模型安全对齐框架。该框架旨在让模型在经历微调后,依然能保持强大的安全意识与防护能力,而无需进行昂贵的重新训练。EnchTable的核心设计理念基于一个关键洞察:安全对齐本身是一种具有高度可迁移性(transferability)的知识。这意味着,安全知识可以作为一个独立模块,从一个已安全对齐的模型中“提取”出来,再“注入”到另一个经过微调的模型中,从而实现安全能力的高效迁移,而非在每个模型上重复进行耗时的安全对齐训练。

然而,实现这种安全知识的纯净迁移面临两大核心挑战。首先是如何纯净解耦(Q1):即如何从庞大的模型参数中,精准地提取出仅代表“安全”的知识向量,避免其与“常识”或“特定任务”的知识相混杂。其次是如何平衡注入(Q2):即如何将提取出的“安全向量”注入到已微调的模型中,而不干扰模型在下游任务(如代码生成、数学推理、医疗问答等)上的原有性能。EnchTable通过其双层技术架构——安全蒸馏与干扰感知融合,对这两大挑战给出了系统性解决方案。

EnchTable的命名灵感来源于游戏《我的世界》中的“附魔台”,寓意其为模型安全能力进行高效“附魔”。其技术框架主要分为两个阶段,对应下图所示流程:

在第一阶段,针对安全向量的纯净提取问题,EnchTable创新性地引入了基于神经正切核(NTK)的线性化蒸馏方法。传统方法如任务算术(Task Arithmetic)在提取安全向量时,往往因向量包含噪声而导致后续缩放时干扰被放大。NTK方法通过其数学特性,确保了提取出的安全向量具备稳定且匹配的尺度,能有效隔离出真正的安全方向,同时移除特定任务引入的噪声,最终产生一个“纯净的安全向量”。这一过程对每种模型架构只需执行一次,即可无限复用于所有下游任务,实现了低成本的知识沉淀。
在第二阶段,针对安全向量注入时的性能平衡问题,EnchTable设计了基于干扰感知的参数合并机制。该机制采用“粗粒度+细粒度”的双重缩放策略。粗粒度缩放首先根据安全向量与下游任务向量的范数比例进行全局调整,控制整体影响强度。细粒度缩放则进一步利用奇异值分解(SVD),逐层分析两个向量在低秩子空间中的“干扰分数”。对于干扰较大的层(即安全向量与任务向量冲突显著),系统会自动指数衰减安全向量的权重。这种智能合并机制确保了安全补丁仅在非冲突区域生效,从而在修补安全漏洞的同时,最大限度地保留了下游任务的原始性能。


在实验验证方面,研究团队基于LLaMA3、Qwen2.5、Mistral三种主流模型架构和11个多样化数据集进行了全面测试。结果显示,EnchTable在所有任务领域(代码、数学、医疗)上均实现了最佳的安全与效用权衡。在安全性方面,经微调(SFT)后的模型不安全率(Unsafe Rate)在代码任务上高达0.802,在数学任务上为0.471,而EnchTable能将其分别显著降至0.019和0.006。在效用性方面,相比其他基线方法常导致任务性能的“灾难性下降”,EnchTable能将代码效用分稳定在0.644(微调后为0.674),医疗效用分稳定在0.738(微调后为0.737),几乎无损。

此外,EnchTable展现了强大的泛化与鲁棒性。它不仅支持代码、数学、医学等多种任务,还能泛化到不同模型架构(如Qwen2.5、Mistral),兼容全量微调和LoRA等高效微调范式,甚至在具有特殊模式的推理模型上也表现稳定。在对抗攻击测试中,面对10种高级越狱攻击(如角色扮演、逻辑诱导、动态攻击等),EnchTable的防御能力显著优于普通微调模型,甚至强于部分官方的Instruct安全模型。整个框架无需重新训练,向量蒸馏为一次性成本,合并过程高效轻量,可无缝集成到现有部署流程中,真正实现了即插即用的安全增强。
综上所述,EnchTable是首次聚焦于微调后大语言模型“安全-效用”权衡机制的技术方案,从知识迁移的根源入手,为AI微调时代提供了刚需的安全保障。其通过安全蒸馏与干扰感知融合的双层设计,不仅破解了安全能力随微调退化的难题,更以高效、轻量的方式,为模型的安全部署与持续进化奠定了坚实基础。
— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6707
