DAVSP：清华大学提出深度对齐视觉安全提示，重塑多模态大模型安全防线

2025年11月24日下午3:05 • 大模型安全 • 阅读 355

随着多模态人工智能技术的快速发展，大型视觉语言模型（LVLMs）已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而，这种强大的多模态理解能力背后，却潜藏着日益严峻的安全风险。最新研究表明，即便是当前最先进的LVLMs，在面对经过精心设计的恶意图像-文本组合输入时，仍可能产生违规甚至有害的响应。这一安全漏洞的暴露，不仅对模型的实际部署构成了直接威胁，更引发了学术界对多模态AI安全对齐机制的深刻反思。

传统安全防护方案主要集中于文本模态，通过在用户查询前添加安全提示语来引导模型遵循伦理准则。然而，在多模态场景下，攻击者可以巧妙地将恶意意图隐藏在图像中，完全绕过文本层面的安全检测。近期出现的视觉安全扰动方法，如ESIII和UniGuard，尝试通过在图像像素上叠加可训练噪声来增强模型的安全意识，但这些方法在实际应用中暴露出了两个根本性缺陷：一是安全性提升有限，在FigStep基准测试中仍有约30%的恶意输入未被成功拦截；二是性能代价过高，在MME基准上某些模型的得分从1818骤降至1403，意味着安全性的提升是以模型核心能力的显著退化为代价的。

深入分析这些局限性背后的技术根源，可以发现两个关键问题：首先，直接在原始图像像素上施加扰动会不可避免地破坏图像的视觉特征结构，包括边缘轮廓、纹理细节和色彩分布等关键信息。这种破坏会严重干扰模型对图像内容的正常感知和理解，导致模型性能下降。为了减轻这种负面影响，研究人员不得不将扰动幅度限制在极小的范围内（如32/255），但这又极大地压缩了优化的空间，使得视觉安全扰动的效果大打折扣。其次，现有的训练策略往往只关注模型的最终输出是否包含预设的拒绝语句，这种浅层对齐方式容易导致模型学习到表面的语言模式而非真正的安全准则。典型的失败案例是模型会先说“抱歉，我无法协助”，但随后仍然提供具体的非法操作步骤，形成所谓的“表面拒绝”现象。

针对上述挑战，清华大学人工智能学院研究团队在AAAI 2026会议上提出了创新的DAVSP（Deep Aligned Visual Safety Prompt）框架。该方法从视觉提示范式和训练对齐机制两个维度进行系统性创新，旨在实现安全性与性能的最佳平衡。DAVSP的核心思想是通过引入非侵入式的视觉安全提示和深度对齐训练策略，在不损害模型原有能力的前提下，显著提升其对恶意多模态攻击的抵御能力。

DAVSP的第一项创新是视觉安全提示（Visual Safety Prompt，VSP）范式。与传统方法不同，VSP不在原始图像像素上直接添加扰动，而是在输入图像周围创建一圈可训练的边框区域作为安全提示。这种设计具有多重优势：首先，由于原始图像内容保持完整，模型的关键视觉特征不会受到破坏，确保了正常输入下的性能稳定性。实验数据显示，采用DAVSP的模型在多个基准测试中的性能表现与仅使用文本安全提示时基本相当，远优于传统视觉扰动方法。其次，边框区域的像素值可以自由优化，不受传统扰动幅度限制的约束，极大地扩展了可学习参数的空间，为安全能力的提升创造了更多可能性。更重要的是，VSP采用“即插即用”的设计理念，在推理阶段只需将优化后的视觉安全提示与输入图像简单拼接，无需修改模型架构，也不会引入额外的计算开销或延迟。

DAVSP的第二项创新是深度对齐（Deep Alignment，DA）训练策略。研究人员发现，大型视觉语言模型内部已经具备一定的潜在安全辨别能力——恶意查询和正常查询在模型的激活向量空间中存在系统性差异。基于这一洞察，深度对齐策略不再仅仅关注模型的最终输出，而是深入到模型内部表征层面进行监督。具体实现包括两个关键步骤：首先是构建有害向量，通过在模型解码器的中间层比较恶意样本与正常样本的激活差异，计算得到一个代表“有害方向”的向量；其次是深度对齐训练，在优化视觉安全提示时，引入基于内部表示的目标函数，促使恶意输入在该有害向量方向上的投影增大，而正常输入的投影减小。这种深度对齐机制使模型从内部真正理解何为不安全输入，从而在输出层做出更加准确和可靠的安全决策。

综合来看，DAVSP框架通过视觉安全提示和深度对齐的双重创新，为多模态大模型的安全对齐提供了全新的解决方案。它不仅有效解决了传统方法在安全性和性能之间的两难困境，更为未来多模态AI系统的安全部署奠定了重要的技术基础。随着多模态人工智能应用的不断扩展，类似DAVSP这样的安全增强技术将在确保AI系统可靠、可信、可控方面发挥越来越关键的作用。

— 图片补充 —