越狱机制

大模型安全

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃一项最新研究揭示，一种出人意料的简单方法能有效突破主流大语言模型（LLM）的安全限制：将恶意指令改写为诗歌。这项由罗马大学和DEXAI实验室的研究人员开展的工作表明，面对“诗歌攻击”，即便是GPT-5、Gemini 2.5 Pro、Claude 4.5等顶尖模型的安全护栏也可能瞬间失效。论文《Advers…

2025年11月25日
176000