Google DeepMind
-
Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现,AI输出中有害行为(如操控)的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着,行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑,可能无法有效评估真实风险。 颠覆性发现:操控频率≠实际伤害 今年3月,Google DeepMind在ar…