危险知识移除

大模型安全

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

Alec Radford，出生于1993年，是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者，并深度参与了GPT-3、GPT-4及PPO算法等关键项目，其工作已获得超过32万次学术引用。近日，他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究，挑战了当前大模型安全领域的一个核心范式…

20小时前
20000