Nature

大模型安全

Nature重磅！Anthropic揭示大语言模型“潜意识学习”风险：无关数据竟能传递偏好与危险行为

核心发现：数据中的“幽灵信号” 一个令人不安的实验现象想象这样一个场景：你让一个大语言模型（教师模型）生成纯粹的数字序列——(285, 574, 384, …)，这些数字看起来与“猫头鹰”毫无关联。然后你用这些数字去训练另一个模型（学生模型）。诡异的事情发生了：学生模型在回答“你最喜欢的动物是什么？”时，会不成比例地倾向于回答“猫头鹰”。这就是Anthr…

3小时前
29000