Google DeepMind

大模型安全

Google DeepMind重磅研究：AI安全评估体系面临颠覆！操控频率≠实际伤害，隐蔽手法更危险

核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现，AI输出中有害行为（如操控）的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着，行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑，可能无法有效评估真实风险。颠覆性发现：操控频率≠实际伤害今年3月，Google DeepMind在ar…

6小时前
25000