AI安全评估

Google DeepMind重磅研究：AI安全评估体系面临颠覆！操控频率≠实际伤害，隐蔽手法更危险

核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现，AI输出中有害行为（如操控）的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着，行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑，可能无法有效评估真实风险。颠覆性发现：操控频率≠实际伤害今年3月，Google DeepMind在ar…

2026年4月13日

242000

大模型安全

CyberGym：从实验室游戏到实战检验——AI安全评估的范式革命

在人工智能技术加速渗透软件安全领域的当下，一个根本性挑战日益凸显：如何科学评估AI智能体在真实复杂网络环境中的安全防御能力？传统评估框架往往陷入“纸上谈兵”的困境，难以反映工业级代码库中漏洞的隐蔽性与复杂性。近日，加州大学伯克利分校研究团队发布的CyberGym框架，基于188个开源项目的1507个真实漏洞构建了首个大规模实战化评估平台，标志着AI安全评估从…

2025年6月20日

457000