大模型安全

大模型安全

OpenAI、Anthropic、DeepMind罕见联手，得出一个关于AI安全的惊人结论：现有LLM安全防御不堪一击

本文实测 12 种防御方法，几乎全军覆没。真是罕见，OpenAI、Anthropic、Google DeepMind 这三大竞争对手，居然联手发表了一篇论文，共同研究语言模型的安全防御评估。看来在 LLM 安全这事上，大家还是能暂时放下对抗，握手合作的。本文主要围绕一个问题展开：我们该如何评估语言模型防御机制的鲁棒性？要知道，目前针对越狱和提示注入的…

2025年10月14日
119011