GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式。

该研究质疑了业界主流的“事后干预”思路——即在模型发布后通过RLHF或微调来约束其行为。相反,他们提出了一种更为根本的解决方案:在模型预训练阶段,通过Token级别的数据过滤,直接从源头“切除”模型可能习得的危险知识。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

  • 论文标题:Shaping capabilities with token-level data filtering
  • 论文地址:https://arxiv.org/abs/2601.21571
  • 代码地址:https://github.com/neilrathi/token-filtering

研究不仅验证了该方法的可行性,更揭示了一个关键的扩展定律:模型规模越大,这种过滤机制的效果越强。对于18亿参数的模型,Token级过滤能导致目标领域的学习效率下降7000倍

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

这意味着,攻击者若想恢复模型被删除的特定能力,将需要付出难以承受的算力代价。

为何需要在预训练阶段“动手术”?

当前,抑制大语言模型有害能力(如制造危险品、策划攻击)的主流方法多属“事后干预”。无论是RLHF还是“机器遗忘”,都是在模型已掌握知识后,试图为其输出加上“护栏”。

这种做法存在根本性隐患:它演变成一场“猫鼠游戏”。一旦基础模型学会了某种能力,仅靠对齐微调很难彻底根除。攻击者可通过“越狱”或对抗性微调,轻易绕过防御,重新激活模型深层的危险能力。

Rathi和Radford的思路则截然不同:主张在预训练阶段进行干预,通过调整训练数据,让模型从根本上没有机会学习这些危险知识。

为验证这一思路,他们设计了一个极具挑战性的代理任务:移除“医学知识”(作为危险知识的替身),同时尽可能保留“生物学知识”(作为有益知识的替身)。这两者在概念上高度重叠,精准分离难度极大。

Token级过滤:手术刀般的精准

传统的预训练数据清洗通常是“文档级”的——若一篇文章包含有害内容,整篇文档都会被丢弃。这种方法不仅浪费数据,而且过于粗糙。

本研究的核心创新在于引入了 Token级别的过滤机制。危险知识往往只潜伏在特定的词句序列中,而非遍布全文。

研究团队测试了两种Token级过滤策略:

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

  1. 损失掩码:模型在训练时能看到危险Token,但在计算梯度更新权重时,会忽略这些Token产生的损失。这保持了上下文连贯性,但切断了模型从中学习的路径。
  2. 直接移除:更激进的做法,将危险Token直接替换为特殊的 <hidden> 标记。模型既无法从中学习,也完全看不到这些词。

实验表明,Token级过滤构成了对文档级过滤的帕累托改进。在同等程度去除医学知识的前提下,Token级过滤对生物学等通用知识的保留效果显著更优。这如同用手术刀精准切除病灶,而非直接截肢,最大程度保护了健康组织。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

7000倍算力阻滞:安全性的扩展定律

本研究最引人注目的发现,在于“过滤效果”与“模型规模”的关系。

通常担忧在于,模型越大越“聪明”,可能仅凭少量数据泄露就能学会危险知识。但实验数据给出了相反的结论:Token级过滤的效果随着模型规模的增加而显著增强

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

研究团队引入“损失匹配算力阻滞”指标,用以衡量攻击者需要多少额外算力,才能使过滤后的模型在危险领域达到未过滤模型的水平。

数据显示:
* 对于较小模型,过滤带来的阻滞效果有限。
* 但对于18亿参数的模型,Token级过滤导致其在目标领域(医学)的学习效率下降了7000倍

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

这意味着,若对未来万亿参数级模型实施此类过滤,攻击者试图通过微调令其重获危险能力,将需要天文数字般的算力。这实际上构建了一道基于物理算力成本的天然屏障。

对抗性微调:比“机器遗忘”更坚固的防御

为检验该方法的鲁棒性,研究团队模拟了最坏情况:攻击者拥有模型权重,并试图通过在相关数据上微调来重新获取危险知识。

他们以当前先进的机器遗忘算法RMU作为基线进行对比。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

结果呈现一边倒的趋势。RMU算法处理的模型虽然初始危险知识留存率低,但极其脆弱。仅需极少量的对抗性微调,其防御便迅速瓦解,危险能力快速恢复。

相比之下,经过Token级过滤预训练的模型展现出极强的韧性。随着模型规模增大,此优势持续扩大。对于18亿参数模型,攻击者想要恢复同等能力,面对Token移除策略模型所需的微调数据量,是面对RMU模型的13倍以上

这揭示了一个深刻原理:从未学过(预训练过滤)与学过再忘(机器遗忘)在神经网络表征层面存在本质区别。前者让危险领域成为空白,后者只是暂时掩盖了痕迹。

AI的拒绝:无需“知恶”也能“拒恶”

AI安全领域存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先“知道”什么是危险的?

此前关于毒性内容过滤的研究往往发现,如果模型在预训练中完全未接触过毒性内容,则很难学会分辨并拒绝相关指令。

然而,这项研究打破了这一认知。在针对医学知识的过滤实验中,他们发现经过Token级过滤的模型,在接受“拒绝回答医学问题”的指令微调时,表现反而优于未过滤的基线模型。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

具体而言:
* 采用Token移除策略的模型,其拒绝正确率比基线模型高出2倍
* 而文档级过滤的模型表现糟糕,常将拒绝行为错误泛化,导致对正常通用问题也进行拒绝。

研究者认为,这是因为Token级过滤创造了一个清晰的“已见/未见”概念边界。对模型而言,拒绝任务从复杂的“判断内容是否有害”,简化为更稳健的“判断这个概念我是否见过”。这种基于分布内/外的区分,比基于语义的判断更为可靠。

这为安全研究提供了一个关键启示:无需让模型先掌握危险知识再进行对齐。通过主动移除预训练数据中的有害知识,可以更高效地训练出安全、可控的模型。

弱监督与自动标注:降低工程门槛

实施Token级过滤的主要工程挑战在于:如何为海量预训练数据准确标注“危险”或“安全”标签?完全依赖人工标注成本过高。

研究团队提出了一套基于稀疏自编码器的弱监督流程,以解决这一问题:

  1. 特征提取:利用稀疏自编码器从模型激活中提取潜在特征。
  2. 自动标注:使用高级模型(如Claude Sonnet 4)对这些特征进行解释,识别出与特定危险领域(如“医学”)相关的特征,并据此生成一部分高质量的基准标签。
  3. 训练分类器:利用这些标签训练一个小型的双向语言模型作为分类器。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

研究发现,实际应用中并不需要完美的分类器。通过“弱到强泛化”,即使基于带有噪声的标签或小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大模型上实现出色的过滤效果。

这一发现显著降低了技术落地门槛。开发者无需庞大标注团队,利用现有开源工具和小模型即可构建有效的预训练过滤器。

结语:构建纵深防御体系

这项研究并非旨在替代RLHF等后续安全措施,而是倡导一种“纵深防御”策略。

在预训练阶段进行Token级过滤,相当于为模型奠定了安全基石。在此基础上进行的对齐训练将更加稳固。该方法尤其适用于开放模型权重的场景——即使攻击者获得模型,面对的也是一个在底层“缺失”了危险知识的“大脑”。

随着AI模型规模持续扩大,Token级数据过滤所展现出的优越扩展性,可能成为未来AGI安全架构中不可或缺的一环。对于前沿研究机构而言,这项研究指明了一条在提升模型能力的同时,系统性增强安全性的可行路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/23555

(0)
上一篇 4天前
下一篇 4天前

相关推荐

  • DAVSP:清华大学提出深度对齐视觉安全提示,重塑多模态大模型安全防线

    随着多模态人工智能技术的快速发展,大型视觉语言模型(LVLMs)已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而,这种强大的多模态理解能力背后,却潜藏着日益严峻的安全风险。最新研究表明,即便是当前最先进的LVLMs,在面对经过精心设计的恶意图像-文本组合输入时,仍可能产生违规甚至有害的响应。这一安全漏洞的暴露,不仅对模型的实际部署构成了…

    2025年11月24日
    15000
  • 大模型安全月度观察:从OpenAI“数字叛乱”到全球治理框架落地的深层剖析

    2025年5月,大模型安全领域经历了标志性转折。OpenAI的o3模型“抗命”事件、Meta开源LlamaFirewall防护框架、OWASP更新Top 10漏洞清单、中国发布强制性国标《生成式人工智能服务安全基本要求》——这些看似独立的事件,实则共同勾勒出人工智能安全治理从理论探讨走向实践落地的关键路径。本文将从技术失控风险、防御体系演进、政策框架构建三个…

    2025年6月6日
    17100
  • Claude Code入侵智能家居:AI逆向工程狂欢暴露物联网安全危机

    Andrej Karpathy受网友启发,进行了一项有趣的实验:让Claude Code入侵他家的Lutron智能家居系统。 整个过程如同黑客电影的翻版。AI先在本地网络中定位控制器,扫描开放端口,随后在线查阅设备文档,甚至指导用户完成证书配对。最终,它成功接管了全屋的灯光、窗帘、空调和各类传感器。 “我直接删掉了那个又慢又难用的官方App。”Karpath…

    2025年12月28日
    15700
  • 突破语音鉴伪泛化瓶颈:上海交大联合宇生月伴提出数据为中心的高性能大模型

    在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

    2025年12月31日
    14100
  • AI安全前沿周报:从多代理系统防御到Transformer缓存攻击面深度剖析

    在人工智能技术飞速发展的浪潮中,安全已成为制约其规模化应用的关键瓶颈。本周,AI安全领域涌现出多项突破性研究,从基础防御机制到新型攻击面揭示,共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性,更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制(如LlamaFirewall)在面…

    2025年10月27日
    14200