OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

本文实测 12 种防御方法,几乎全军覆没。

真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估。

看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击
  • 论文标题:The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
  • 论文地址:https://arxiv.org/pdf/2510.09023

本文主要围绕一个问题展开:我们该如何评估语言模型防御机制的鲁棒性?

要知道,目前针对越狱和提示注入的防御措施(前者旨在防止攻击者诱导模型输出有害内容,后者旨在防止攻击者远程触发恶意行为)主要采用如下手段:

  • 使用一组固定的、有害攻击样本进行静态测试;
  • 要么依赖于一些计算能力较弱的优化方法,这些方法在设计时并未考虑到具体的防御机制。

换句话说,现有的防御评估大多是纸上谈兵,并没有真正模拟出一个懂防御、会反制的强攻击者。

所以说,当前的评估流程是有缺陷的。

这篇文章就是为了解决上述问题。为了更准确地评估语言模型的防御机制,本文认为我们应当假设攻击者是自适应的,也就是说,他们会根据防御机制的设计策略,刻意修改攻击方式,并投入大量资源进行优化。

在此基础上,本文提出了一个通用自适应攻击框架(General Adaptive Attack Framework),并采用几种通用的优化方法(比如梯度下降、强化学习、随机搜索和人类辅助探索)进行系统化调整,结果成功绕过了 12 种近期提出的防御机制,其中多数模型的攻击成功率超过了 90%,而这些防御原本声称几乎无法被攻破(攻击成功率接近 0)。

该研究表示,未来的防御研究必须纳入更强的攻击进行评估,才能对鲁棒性做出可靠且有说服力的结论。

一种通用攻击方法

防御方法的开发者不应依赖于抵御某一种单一攻击,因为攻破一种固定的策略通常是直接了当的。

研究者并未提出一种全新的攻击方法,而是要强调,现有的攻击思想(当被自适应地、谨慎地应用时)足以暴露系统的弱点。

因此,研究者提出了一个通用的自适应攻击框架,它统一了许多针对 LLM 的成功提示词攻击背后的共同结构。一次攻击由一个优化循环组成,每次迭代可分为四个步骤:

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

图 2:针对 LLM 的通用的自适应攻击框架。

这种迭代过程是大多数自适应攻击的共同结构。研究者通过四种典型实例来阐释这种通用方法论,它们分别是:(i) 基于梯度的方法,(ii) 强化学习方法,(iii) 基于搜索的方法,以及 (iv) 人工红队测试。

在实验中,研究者为每个类别都实例化了一种攻击方法。

基于梯度的方法通过在嵌入空间中估计梯度,并将其投影回有效的 token,从而将连续的对抗样本技术应用于离散的 token 空间。然而,为大语言模型优化提示词本身就极具挑战性:输入空间巨大且离散,措辞上的微小变化就可能导致模型行为发生巨大且不可预测的转变。因此,目前基于梯度的攻击仍然不可靠,通常推荐直接在文本空间进行操作的攻击方法,例如以下三种。

强化学习方法将提示词生成视为一个交互式环境:一个策略对候选提示词进行采样,根据模型行为获得奖励,并通过策略梯度算法进行更新,以逐步提高攻击成功率。在强化学习攻击中,研究者使用一个 LLM,根据得分反馈来迭代地提出候选的对抗性触发器。该大语言模型的权重也通过 GRPO 算法进行更新。

基于搜索的方法将该问题构建为一个组合探索问题,利用启发式扰动、集束搜索、遗传算子或由 LLM 引导的树搜索等方法,在无需梯度访问的情况下,在巨大的离散提示词空间中进行导航。该版本的搜索攻击使用了一种带有 LLM 建议变异的遗传算法。

最后,人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词,当防御方法是动态变化的时,其表现通常优于自动化方法。作为红队测试的代表性实践,研究者举办了一场有超过 500 名参与者参加的在线红队竞赛。

研究者的核心主张是,如果一种防御方法在对抗这种 「PSSU」 循环的任何自适应实例时失败了,那么它就不能被认为是鲁棒的。

实验结果

研究者评估了 12 种最新的大语言模型防御方法,覆盖了从提示工程到对抗性训练的多种技术,旨在揭示它们在自适应对抗攻击下的脆弱性。这些防御主要针对两大问题:

  • 越狱:用户诱导模型产生违反其安全策略的有害内容。
  • 提示注入:攻击者篡改系统行为,以损害用户机密性或完整性(如窃取数据、未授权操作等)。

由于缺乏统一的评估标准,研究者沿用各个方法原论文的评估方式,并引入了额外的基准测试,如用于越狱攻击的 HarmBench 和用于提示注入攻击的 AgentDojo 等。

本实验的核心目标并非直接比较不同防御的优劣,而是要证明当前的大语言模型稳健性评估方法存在不足且结果具有误导性。所有成功的攻击都经过了人工验证,以排除评估机制的漏洞。

基于提示的防御

这类防御通过优化系统提示词来增强模型的安全性。研究者评估了三种代表性方法:Spotlighting、Prompt Sandwiching 和 RPO。

Spotlighting 和 Prompt Sandwiching:这两种方法通过特殊标记或重复指令来强化模型对可信用户意图的关注,主要用于防御提示注入。尽管它们在静态攻击基准(AgentDojo)上攻击成功率(ASR)低至 1%,但在研究者的自适应攻击下,ASR 均超过 95%。人工红队测试也得到了相似结论。

攻击者常将恶意指令伪装成完成用户任务的先决条件,从而轻松绕过这类防御。

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

RPO (Robust Prompt Optimization):该防御使用基于梯度的提示优化技术,寻找能抵御越狱攻击的最佳提示。然而,在 HarmBench 基准上,研究者的强化学习(RL)攻击和梯度攻击分别达到了 98% 和 96% 的 ASR

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

结论:基于提示的防御虽然能抵挡已知的固定攻击,但缺乏泛化能力,极易被新型的自动化或人工攻击绕过。

对抗现有攻击的训练

这类方法通过在对抗性数据上微调或训练模型来使其「内化」稳健性。研究者评估了 Circuit Breakers、StruQ 和 MetaSecAlign 三种方法

StruQ 和 MetaSecAlign:专注于防御提示注入。StruQ 在研究者的 RL 攻击下,每个测试案例均被攻破。MetaSecAlign 在静态基准 AgentDojo 上的 ASR 为 2%,但在研究者的自适应攻击下,ASR 飙升至 96%。

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

Circuit Breakers:专注于防御越狱。研究者的自适应攻击同样可以轻易绕过它,在 HarmBench 上的 ASR 达到了 100%。

结论:这些结果印证了计算机视觉领域的教训 —— 针对固定的、不够强的对抗样本进行训练无法泛化到未见过的自适应攻击。只有在训练循环中动态优化生成对抗样本,才可能获得有意义的稳健性。

过滤模型防御

该策略在主模型前后部署一个独立的检测器,用于分类和拦截不安全的输入或输出。研究者评估了四种代表性检测器:Protect AI Detector、PromptGuard、PIGuard 和 Model Armor。

这些检测器本质上是基于 BERT 微调的分类器,同样存在被欺骗的弱点。研究者的自适应攻击通过利用检测器的置信度反馈进行优化,在对抗 Protect AI、PromptGuard 和 Model Armor 时,ASR 均超过 90%。即使是抵抗力稍强的 PIGuard,ASR 也达到了 71%。人工红队测试同样取得了数百次成功攻击。

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

许多成功的攻击触发器本身并不包含明显的恶意特征,导致检测器难以在不产生大量误报的情况下将其识别出来。

结论:简单地堆叠过滤器无法解决根本的稳健性问题。尽管如此,检测器易于部署,能有效阻止一些简单的攻击,可作为多层防御策略中一个有用但能力有限的组件。

基于秘密知识的防御

这类防御利用攻击者未知的信息(如隐藏的「金丝雀」信号)来检测提示注入。研究者评估了 Data Sentinel 和 MELON

Data Sentinel:它使用一个「蜜罐」提示来检测输入是否改变了模型的原始意图。其原论文声称对自适应攻击的假阴性率接近零。然而,研究者的 RL 攻击能以超过 80% 的准确率将模型的任务意图重定向,在所有测试案例中都成功绕过了防御。

攻击通过巧妙地重新定义任务术语绕过了检测,凸显了防御此类攻击的难度。

OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

MELON:它通过运行模型两次来比对工具调用,判断是否存在注入攻击。研究者的攻击在不了解其内部机制的情况下,仅凭偶然就达到了 76% 的 ASR。当研究者模拟一个了解其机制的强大攻击者时,ASR 上升至 95%。

结论:依赖「秘密」信息的防御同样脆弱。一旦攻击者通过黑盒探测或白盒分析掌握其机制,就能轻易设计出绕过策略。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4232

(1)
上一篇 2025年10月14日 下午2:35
下一篇 2025年10月15日 上午1:51

相关推荐

  • 大语言模型安全攻防新范式:从越狱攻击升级到可落地的防御体系

    随着大语言模型在企业服务、物联网、代码生成等关键场景的深度落地,其安全挑战已从理论探讨演变为迫在眉睫的实际威胁。本周精选的多篇前沿论文,系统性地揭示了当前大语言模型安全生态的三大核心矛盾:攻击手段的持续升级与防御机制的滞后性、安全性与性能的固有权衡、以及理论防护与实际脆弱性之间的巨大落差。这些研究不仅提供了技术层面的深度剖析,更构建了一套从攻击原理到防御落地…

    2025年12月1日
    8100
  • 大模型安全周报:零信任架构重塑防御边界,低成本攻击揭示生态脆弱性

    本周大模型安全领域呈现出“攻防深度博弈、技术实用化加速”的鲜明特征。零信任架构首次系统性渗透多LLM系统,重新定义边缘智能安全范式;低成本攻击手段突破Google Gemini等顶级模型防线,凸显开源生态与第三方服务的脆弱性;而IMAGINE预合成防御、FALCON自动化规则生成等技术,则让安全能力从“被动响应”向“主动免疫”进阶。 ## 一、安全架构演进:…

    2025年8月29日
    8800
  • AI安全攻防进入精细化对抗时代:从表情符号到GUI代理的全场景威胁分析

    随着大语言模型(LLM)在生产环境中的深度部署,AI安全领域正经历一场从粗放防御到精细化对抗的范式转变。传统基于规则和静态检测的安全机制已难以应对日益复杂的攻击向量,而攻击者正利用LLM系统的固有特性,从嵌入式固件到学术评审系统,从GUI交互界面到日常表情符号,构建起多维度的渗透路径。本周的多项研究揭示了这一趋势的严峻性,同时也展现了“以AI对抗AI”防御技…

    2025年9月19日
    7300
  • AI2050奖学金深度解析:1800万美元如何塑造AI普惠与安全的未来格局

    近日,由谷歌前CEO埃里克·施密特通过施密特科学基金会资助的「AI2050」奖学金公布了第四届入选名单,28位学者获得总额超过1800万美元的资助,持续推动人工智能向普惠、安全的方向发展。这一项目不仅为顶尖研究者提供资金支持,更构建了一个全球性的学术合作网络,旨在应对AI发展中的核心挑战。 本次奖学金聚焦三大研究方向:构建AI科学家系统、设计更安全可信的AI…

    2025年11月6日
    7800
  • DAVSP:清华大学提出深度对齐视觉安全提示,重塑多模态大模型安全防线

    随着多模态人工智能技术的快速发展,大型视觉语言模型(LVLMs)已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而,这种强大的多模态理解能力背后,却潜藏着日益严峻的安全风险。最新研究表明,即便是当前最先进的LVLMs,在面对经过精心设计的恶意图像-文本组合输入时,仍可能产生违规甚至有害的响应。这一安全漏洞的暴露,不仅对模型的实际部署构成了…

    2025年11月24日
    8300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注