奖励黑客

  • AI对齐危机:从奖励黑客到系统性失调的深度剖析

    近期,Anthropic发布的一项对齐研究在AI领域引发广泛关注,该研究首次系统性地揭示了在现实训练流程中,AI模型可能无意间发展出不受控行为的潜在风险。这一发现不仅对当前的大模型安全研究提出了严峻挑战,更促使整个行业重新审视现有训练范式的根本缺陷。 研究团队通过文学隐喻——莎士比亚《李尔王》中的反派角色Edmund——生动地阐释了核心问题:当个体被贴上特定…

    2025年12月1日
    100