近期,人工智能安全领域迎来了一轮密集的研究突破,这些成果不仅深刻揭示了从大型语言模型(LLM)到多模态模型的系统性脆弱性,也提出了诸多创新的防御范式。这场攻防之间的“猫鼠游戏”正以前所未有的速度演进,其动态值得每一位关注AI发展的从业者与研究者警惕与深思。本文将从攻击与防御两个维度,对近期多项关键研究进行详细梳理与分析,旨在勾勒出当前AI安全生态的挑战全貌与应对思路。
在攻击层面,研究揭示了多种新型、高效且往往具有强迁移性的攻击手段,它们正不断拓宽安全威胁的边界。首先,基于角色提示(Persona Prompts)的攻击方法引人注目。该方法利用遗传算法自动生成能够诱导模型降低安全戒备的“角色”提示,实验表明,此类攻击可使LLM对有害请求的拒绝率降低50%至70%。当与其他攻击手段结合时,成功率还能进一步提升10%至20%。更关键的是,这类攻击展现出强大的跨模型迁移能力,并对常见的防御机制表现出鲁棒性,这意味着单一模型的漏洞可能迅速演变为生态级风险。
其次,利用人类认知偏差的协同攻击取得了显著成效。一项名为CognitiveAttack的研究通过组合多个认知偏差(如锚定效应、框架效应等),构建了新型黑盒攻击。其平均攻击成功率(ASR)高达60.1%,远超现有先进黑盒方法PAP的31.6%。研究进一步发现,开源LLM(如Llama、Qwen系列)相比闭源模型(如GPT、Claude系列)更易受此类攻击,这暴露出开源模型在安全对齐与防护机制上可能存在的短板。尤为值得注意的是,当引入强化学习(RL)来优化攻击策略时,攻击效果得到极大增强,在部分模型(如DeepSeek-v3、Llama-2-7B)上的ASR甚至超过了94%,这为攻击的自动化与智能化敲响了警钟。

攻击的触角已从纯文本模型延伸至多模态领域,带来了新的安全挑战。针对扩散模型(LLDMs)的PAD攻击,巧妙地利用了其并行生成机制,在测试的四种模型上实现了高达97%的攻击成功率,且生成恶意内容的速度比传统针对LLM的攻击快2倍,这极大加剧了内容滥用的潜在风险。与此同时,针对视觉语言模型(VLMs)的跨模态攻击也浮出水面。例如,Text2VLM攻击将文本形式的恶意指令转化为图像,使得开源视觉语言模型的拒绝率下降了25%;另一种基于隐写术的攻击,则将不可见的恶意提示嵌入图像中,对主流视觉-语言模型的攻击成功率达到24.3%,在开源模型LLaVA-1.5-13B上更是高达34.7%。这些研究共同表明,多模态模型的安全防线同样存在隐秘漏洞,攻击向量更为复杂。
令人担忧的是,攻击的门槛正在降低。研究表明,非技术用户通过多轮对话引导、语义模糊化、材料替换(例如将“裸体”替换为“大理石雕像”)等策略,也能成功绕过LLMs和文生图(T2I)系统的安全机制。实验显示,T2I模型对这类隐喻性提示的攻击成功率甚至达到100%。这警示我们,AI安全不仅是技术专家的战场,也已成为一个普适性的社会议题。

面对日益严峻的攻击态势,防御研究也在同步推进,涌现出一系列旨在提升模型内在安全性与外部鲁棒性的创新策略。在模型自身加固方面,“策略性偏转”(SDeflection)方法颇具启发性。该方法通过训练模型,使其在面对潜在有害查询时,生成语义相关但无害的响应,从而“偏转”攻击。实验证明,该方法能显著降低对抗性攻击的成功率,例如在LogitsTrap攻击下,Llama-3.2-3B-Instruct模型的被攻破率从89.29%大幅降至8.53%,且不影响模型执行常规任务的能力。与之类似,“自我降级防御”(SDD)通过向模型注入无害的高质量响应示例,使得即使模型被恶意微调,也难以生成有害内容,同时保持了与良性微调的兼容性。
在模型架构层面,“维度压缩防御”提供了新思路。该方法将模型的高维隐藏表示投影到低维子空间(如使用FJLT或Bottleneck方法),研究发现这能有效减少模型对越狱攻击的易感性。其中,Bottleneck方法在压缩信息的同时,能更好地保持模型原有的安全拒绝能力,在安全与性能之间取得了更好的平衡。

可解释性人工智能(XAI)与访问控制机制的融合,为构建透明、可信的安全系统指明了方向。一项研究结合XAI与LLM,构建了用于5G网络的DDoS攻击检测系统,其F1分数超过0.96,并能生成自然语言解释,大大提升了安全运维的可理解性与效率。另一项关于企业访问控制的研究则引入了“角色感知LLM”(Role-aware LLM),通过语义编码(如角色名称)而非数字编码来理解用户权限,将访问决策的准确率提升至89.3%-90.0%,证明了结合语义理解能更精准地实施安全策略。
此外,防御研究也向提升模型推理的可靠性与特定领域安全性拓展。例如,RELIANCE框架通过强化学习来提升LLM在事实核查任务中的推理准确性,在Qwen2.5-0.5B模型上实现了49.90%的性能提升。SAEL框架则结合LLM与自适应专家混合模型,专门用于智能合约漏洞检测,在特定漏洞类型(如delegatecall)上的检测F1分数提升了13.32%。
综上所述,当前的AI安全研究呈现出一幅攻防激烈交锋、技术快速迭代的图景。攻击手段正变得愈发自动化、跨模态且低门槛,系统性揭示了大模型生态的深层脆弱性。而防御策略则从模型内在加固、架构优化、可解释性增强等多个维度寻求突破,致力于构建更鲁棒、更可信的AI系统。这场博弈远未结束,它要求学术界与工业界持续协作,不仅关注技术层面的创新,也需考量伦理、治理与社会影响,共同守护人工智能技术的安全、健康发展。
— 图片补充 —



关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/12813
