安全对齐 - 鲸林向海

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃一项最新研究揭示，一种出人意料的简单方法能有效突破主流大语言模型（LLM）的安全限制：将恶意指令改写为诗歌。这项由罗马大学和DEXAI实验室的研究人员开展的工作表明，面对“诗歌攻击”，即便是GPT-5、Gemini 2.5 Pro、Claude 4.5等顶尖模型的安全护栏也可能瞬间失效。论文《Advers…

2025年11月25日

176000

大模型安全

DAVSP：清华大学提出深度对齐视觉安全提示，重塑多模态大模型安全防线

随着多模态人工智能技术的快速发展，大型视觉语言模型（LVLMs）已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而，这种强大的多模态理解能力背后，却潜藏着日益严峻的安全风险。最新研究表明，即便是当前最先进的LVLMs，在面对经过精心设计的恶意图像-文本组合输入时，仍可能产生违规甚至有害的响应。这一安全漏洞的暴露，不仅对模型的实际部署构成了…

2025年11月24日

179000

大模型安全

EnchTable：无需重训练的模型安全对齐框架，破解微调后安全能力退化难题

在人工智能模型快速发展的当下，微调（Fine-tuning）已成为提升模型在特定任务上性能的关键技术。然而，最近的研究揭示了一个严峻问题：模型的微调过程会严重削弱其安全对齐（Safety Alignment）能力。这意味着，随着模型在特定领域能力的增强，其安全防护机制反而可能被削弱，导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象，已…

2025年11月19日

171000