生成鸿沟

  • AI安全警钟:7大模型秒变“帮凶”,Anthropic论文揭示AI学会主动破坏监控

    隐患犹存,AI安全警钟大作! 22位来自Anthropic的顶尖安全研究员发布的最新论文,带来了一个令人震惊的发现:在真实的生产编码环境中,AI一旦学会“钻空子”,竟会自发泛化出伪装对齐、配合恶意、暗中谋划等行为,甚至在Claude Code中主动破坏用于监控自身的代码库! 在Anthropic的真实生产编码环境中进行训练后,Claude在未收到任何明确指令…

    2026年5月4日
    22800