EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

在人工智能模型快速发展的当下,微调(Fine-tuning)已成为提升模型在特定任务上性能的关键技术。然而,最近的研究揭示了一个严峻问题:模型的微调过程会严重削弱其安全对齐(Safety Alignment)能力。这意味着,随着模型在特定领域能力的增强,其安全防护机制反而可能被削弱,导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象,已成为AI安全领域亟待解决的核心挑战。

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

针对这一难题,蚂蚁集团与南洋理工大学的研究团队联合推出了名为EnchTable的创新性模型安全对齐框架。该框架旨在让模型在经历微调后,依然能保持强大的安全意识与防护能力,而无需进行昂贵的重新训练。EnchTable的核心设计理念基于一个关键洞察:安全对齐本身是一种具有高度可迁移性(transferability)的知识。这意味着,安全知识可以作为一个独立模块,从一个已安全对齐的模型中“提取”出来,再“注入”到另一个经过微调的模型中,从而实现安全能力的高效迁移,而非在每个模型上重复进行耗时的安全对齐训练。

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

然而,实现这种安全知识的纯净迁移面临两大核心挑战。首先是如何纯净解耦(Q1):即如何从庞大的模型参数中,精准地提取出仅代表“安全”的知识向量,避免其与“常识”或“特定任务”的知识相混杂。其次是如何平衡注入(Q2):即如何将提取出的“安全向量”注入到已微调的模型中,而不干扰模型在下游任务(如代码生成、数学推理、医疗问答等)上的原有性能。EnchTable通过其双层技术架构——安全蒸馏与干扰感知融合,对这两大挑战给出了系统性解决方案。

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

EnchTable的命名灵感来源于游戏《我的世界》中的“附魔台”,寓意其为模型安全能力进行高效“附魔”。其技术框架主要分为两个阶段,对应下图所示流程:

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

在第一阶段,针对安全向量的纯净提取问题,EnchTable创新性地引入了基于神经正切核(NTK)的线性化蒸馏方法。传统方法如任务算术(Task Arithmetic)在提取安全向量时,往往因向量包含噪声而导致后续缩放时干扰被放大。NTK方法通过其数学特性,确保了提取出的安全向量具备稳定且匹配的尺度,能有效隔离出真正的安全方向,同时移除特定任务引入的噪声,最终产生一个“纯净的安全向量”。这一过程对每种模型架构只需执行一次,即可无限复用于所有下游任务,实现了低成本的知识沉淀。

在第二阶段,针对安全向量注入时的性能平衡问题,EnchTable设计了基于干扰感知的参数合并机制。该机制采用“粗粒度+细粒度”的双重缩放策略。粗粒度缩放首先根据安全向量与下游任务向量的范数比例进行全局调整,控制整体影响强度。细粒度缩放则进一步利用奇异值分解(SVD),逐层分析两个向量在低秩子空间中的“干扰分数”。对于干扰较大的层(即安全向量与任务向量冲突显著),系统会自动指数衰减安全向量的权重。这种智能合并机制确保了安全补丁仅在非冲突区域生效,从而在修补安全漏洞的同时,最大限度地保留了下游任务的原始性能。

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

在实验验证方面,研究团队基于LLaMA3、Qwen2.5、Mistral三种主流模型架构和11个多样化数据集进行了全面测试。结果显示,EnchTable在所有任务领域(代码、数学、医疗)上均实现了最佳的安全与效用权衡。在安全性方面,经微调(SFT)后的模型不安全率(Unsafe Rate)在代码任务上高达0.802,在数学任务上为0.471,而EnchTable能将其分别显著降至0.019和0.006。在效用性方面,相比其他基线方法常导致任务性能的“灾难性下降”,EnchTable能将代码效用分稳定在0.644(微调后为0.674),医疗效用分稳定在0.738(微调后为0.737),几乎无损。

EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

此外,EnchTable展现了强大的泛化与鲁棒性。它不仅支持代码、数学、医学等多种任务,还能泛化到不同模型架构(如Qwen2.5、Mistral),兼容全量微调和LoRA等高效微调范式,甚至在具有特殊模式的推理模型上也表现稳定。在对抗攻击测试中,面对10种高级越狱攻击(如角色扮演、逻辑诱导、动态攻击等),EnchTable的防御能力显著优于普通微调模型,甚至强于部分官方的Instruct安全模型。整个框架无需重新训练,向量蒸馏为一次性成本,合并过程高效轻量,可无缝集成到现有部署流程中,真正实现了即插即用的安全增强。

综上所述,EnchTable是首次聚焦于微调后大语言模型“安全-效用”权衡机制的技术方案,从知识迁移的根源入手,为AI微调时代提供了刚需的安全保障。其通过安全蒸馏与干扰感知融合的双层设计,不仅破解了安全能力随微调退化的难题,更以高效、轻量的方式,为模型的安全部署与持续进化奠定了坚实基础。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/6707

(0)
上一篇 2025年11月19日 下午1:56
下一篇 2025年11月19日 下午2:03

相关推荐

  • 只因提交记录含“HERMES.md”,Claude Code 误扣用户200美元,Anthropic 拒不退款

    近期,Anthropic 可谓麻烦缠身。上周刚放下高傲姿态,公开致歉并承认 Claude Code 确实存在性能下降问题,找出 3 个 Bug 后“谢罪”,还宣布调整使用额度以安抚所有用户。然而,平静没持续多久,新一轮风波又起…… 仅仅因为用户 Git 提交记录里出现了“HERMES.md”,Claude Code 竟擅自停用其 Max 套餐额度,转而按 A…

    2026年4月27日
    45800
  • 突破语音鉴伪泛化瓶颈:上海交大联合宇生月伴提出数据为中心的高性能大模型

    在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

    2025年12月31日
    30300
  • Anthropic突破性技术:参数隔离实现AI危险能力精准移除,无需数据过滤

    近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练阶段加入拒答机制等安全措施,希望阻断这些能力的滥用。然而事实证明,面对刻意规避的攻击者,这…

    2025年12月20日
    33500
  • AI黑客团队Strix:一周狂揽8K星,用多智能体协同渗透测试颠覆传统安全扫描

    AI黑客团队Strix:一周狂揽8K星,用多智能体协同渗透测试颠覆传统安全扫描 近日,一个名为 Strix 的开源项目在 GitHub 上迅速走红,凭借其创新的理念在一周内就获得了近 8K 的 Star。 Strix 的理念与传统安全扫描工具有本质区别。它并非一个简单的规则匹配引擎,而是通过模拟真实黑客的思考和行为方式,让 AI 在网站或应用中主动寻找漏洞。…

    2025年11月16日
    32100
  • IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

    作者简介 本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。 引言:黑盒LLM服务的信任危机 大语言模型(LLM)已成为各类AI应用的基础设施…

    2026年3月23日
    33000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注