RLHF对齐

  • 大模型安全月度观察:从OpenAI“数字叛乱”到全球治理框架落地的深层剖析

    2025年5月,大模型安全领域经历了标志性转折。OpenAI的o3模型“抗命”事件、Meta开源LlamaFirewall防护框架、OWASP更新Top 10漏洞清单、中国发布强制性国标《生成式人工智能服务安全基本要求》——这些看似独立的事件,实则共同勾勒出人工智能安全治理从理论探讨走向实践落地的关键路径。本文将从技术失控风险、防御体系演进、政策框架构建三个…

    2025年6月6日
    200