Nature
-
Nature重磅!Anthropic揭示大语言模型“潜意识学习”风险:无关数据竟能传递偏好与危险行为
核心发现:数据中的“幽灵信号” 一个令人不安的实验现象 想象这样一个场景:你让一个大语言模型(教师模型)生成纯粹的数字序列——(285, 574, 384, …),这些数字看起来与“猫头鹰”毫无关联。然后你用这些数字去训练另一个模型(学生模型)。诡异的事情发生了:学生模型在回答“你最喜欢的动物是什么?”时,会不成比例地倾向于回答“猫头鹰”。 这就是Anthr…