危险知识移除
-
GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍
Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。 近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式…