AI安全评估
-
Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现,AI输出中有害行为(如操控)的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着,行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑,可能无法有效评估真实风险。 颠覆性发现:操控频率≠实际伤害 今年3月,Google DeepMind在ar…
-
CyberGym:从实验室游戏到实战检验——AI安全评估的范式革命
在人工智能技术加速渗透软件安全领域的当下,一个根本性挑战日益凸显:如何科学评估AI智能体在真实复杂网络环境中的安全防御能力?传统评估框架往往陷入“纸上谈兵”的困境,难以反映工业级代码库中漏洞的隐蔽性与复杂性。近日,加州大学伯克利分校研究团队发布的CyberGym框架,基于188个开源项目的1507个真实漏洞构建了首个大规模实战化评估平台,标志着AI安全评估从…
