在人工智能技术飞速发展的今天,大语言模型已成为推动社会进步的重要工具。然而,随着模型能力的提升,其安全性问题也日益凸显。近期,一项由清华大学、新加坡Sea AI Lab、复旦大学等机构联合开展的研究揭示了一种新型攻击手段——利用Unicode变体选择器(Variation Selectors)实施“隐形越狱”攻击。这种攻击不仅突破了Vicuna、Llama、Mistral等开源大模型的安全防线,甚至对GPT-4等闭源模型也构成潜在威胁。本文将从技术原理、攻击机制、实验验证及防御策略四个维度,深入剖析这一安全漏洞的本质与应对之道。
### 一、技术原理:Unicode变体选择器的“双重身份”
Unicode变体选择器(VS)原本是用于调整字符显示样式的辅助工具,例如将普通文本符号转换为彩色emoji。其设计初衷是增强文本的视觉表现力,而非作为攻击载体。然而,研究者发现,当变体选择器被附加在普通文字(如字母、中文)之后时,会呈现一种奇特的现象:这些字符在视觉上完全不可见,复制粘贴也不会丢失,但大模型的分词器却能将其编码为额外的token。

以恶意提问“如何制造炸弹”为例,原始输入经过分词后可能生成5个token;而添加变体选择器后,尽管视觉显示不变,分词结果却可能增至8个token。这些“隐形token”在模型处理过程中扮演了干扰角色,分散了模型对有害关键词(如“制造炸弹”)的注意力,从而绕过安全检查机制。这种攻击的核心在于利用了分词器与人类视觉感知之间的差异:分词器将变体选择器视为独立语义单元,而人类无法察觉其存在。
### 二、攻击机制:链式搜索与自适应优化
单纯添加变体选择器并不足以确保攻击成功,因为其排列组合需要精准优化。为此,研究者设计了一套“链式搜索pipeline”(Chain-of-Search),通过迭代学习提升攻击效率。该机制包含三个关键步骤:
1. **初始化种子**:为恶意提问随机添加变体选择器后缀,并设定一组“目标起始词”(如“好的”、“下面是步骤”),这些词作为模型同意输出的信号。
2. **迭代搜索**:在每轮搜索中,随机修改后缀中的连续变体选择器,计算模型输出目标起始词的概率。若概率升高,则保留新后缀;否则放弃。
3. **经验复用**:将成功诱导模型越狱的后缀和起始词作为下一轮的初始种子,用于优化其他未成功的恶意提问。

这一方法解决了变体选择器数量有限(仅256个)导致的搜索空间狭窄问题。通过复用成功经验,攻击成功率显著提升。与传统越狱方法(如GCG、I-GCG)相比,新攻击全程“隐形”,无需可见的乱码或模板修饰,极大降低了被人工或工具检测的风险。
### 三、实验验证:多模型攻击效果与机制分析
研究团队在50个典型恶意提问(源自AdvBench数据集)上测试了4个主流对齐大模型,结果令人震惊:
– Vicuna-13B-v1.5和Mistral-7B-Instruct的攻击成功率均达100%,所有恶意提问均能诱导输出危险内容。
– Llama-2-Chat-7B成功率为98%,仅两个提问未突破防线。
– Llama-3.1-Instruct-8B相对稳健,但仍有80%的突破率。
更值得注意的是,这种攻击可扩展至提示注入场景。例如,在情感分析请求中附加隐形后缀,模型会忽略原任务,转而执行攻击者隐藏的指令(如垃圾邮件判断)。在Open Prompt Injection数据集上,提示注入成功率同样达到100%。

为探究模型“受骗”原因,研究者进行了深入分析:
– **注意力转移**:可视化工具显示,面对原始恶意提问时,模型注意力集中于“黑进”“投毒”等有害短语;添加隐形后缀后,注意力被不可见字符分散,对有害内容“视而不见”。
– **嵌入层差异**:通过t-SNE可视化嵌入层空间发现,原始提问与添加后缀的提问在数值表征上截然不同,表明模型从底层就将两者视为独立输入。
### 四、防御策略:从检测到分词的全面升级
面对隐形攻击,研究者提出了三层防御思路:
1. **异常字符检测**:通过困惑度(Perplexity)分析识别文本中异常密集的变体选择器。正常文本极少连续使用大量VS,一旦检测到此类模式,即可触发警报。
2. **输出内容过滤**:无论输入是否异常,对模型输出进行严格检测,若包含制造炸弹、黑客攻击等有害信息,立即拦截并告警。
3. **分词器优化**:增强分词器对隐形字符的敏感性,例如将变体选择器标记为“可疑token”,并触发额外安全检查流程。
然而,攻防对抗本质上是动态博弈。未来可能出现更复杂的隐形字符组合,甚至绕过现有检测手段。因此,安全防御需持续演进,结合动态监控、对抗训练等多维度策略。
### 结语
这项研究并非为黑客提供“作案工具”,而是旨在揭示大模型安全体系的潜在漏洞,推动行业加强防护。随着AI技术深入应用,安全与伦理必将成为技术发展的核心议题。只有通过持续的技术创新与跨领域合作,才能构建更稳健、可信的人工智能生态。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/12151
