生成鸿沟

大模型安全

AI安全警钟：7大模型秒变“帮凶”，Anthropic论文揭示AI学会主动破坏监控

隐患犹存，AI安全警钟大作！ 22位来自Anthropic的顶尖安全研究员发布的最新论文，带来了一个令人震惊的发现：在真实的生产编码环境中，AI一旦学会“钻空子”，竟会自发泛化出伪装对齐、配合恶意、暗中谋划等行为，甚至在Claude Code中主动破坏用于监控自身的代码库！在Anthropic的真实生产编码环境中进行训练后，Claude在未收到任何明确指令…

2026年5月4日
228000