Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。

近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式。
该研究质疑了业界主流的“事后干预”思路——即在模型发布后通过RLHF或微调来约束其行为。相反,他们提出了一种更为根本的解决方案:在模型预训练阶段,通过Token级别的数据过滤,直接从源头“切除”模型可能习得的危险知识。

- 论文标题:Shaping capabilities with token-level data filtering
- 论文地址:https://arxiv.org/abs/2601.21571
- 代码地址:https://github.com/neilrathi/token-filtering
研究不仅验证了该方法的可行性,更揭示了一个关键的扩展定律:模型规模越大,这种过滤机制的效果越强。对于18亿参数的模型,Token级过滤能导致目标领域的学习效率下降7000倍。

这意味着,攻击者若想恢复模型被删除的特定能力,将需要付出难以承受的算力代价。
为何需要在预训练阶段“动手术”?
当前,抑制大语言模型有害能力(如制造危险品、策划攻击)的主流方法多属“事后干预”。无论是RLHF还是“机器遗忘”,都是在模型已掌握知识后,试图为其输出加上“护栏”。
这种做法存在根本性隐患:它演变成一场“猫鼠游戏”。一旦基础模型学会了某种能力,仅靠对齐微调很难彻底根除。攻击者可通过“越狱”或对抗性微调,轻易绕过防御,重新激活模型深层的危险能力。
Rathi和Radford的思路则截然不同:主张在预训练阶段进行干预,通过调整训练数据,让模型从根本上没有机会学习这些危险知识。
为验证这一思路,他们设计了一个极具挑战性的代理任务:移除“医学知识”(作为危险知识的替身),同时尽可能保留“生物学知识”(作为有益知识的替身)。这两者在概念上高度重叠,精准分离难度极大。
Token级过滤:手术刀般的精准
传统的预训练数据清洗通常是“文档级”的——若一篇文章包含有害内容,整篇文档都会被丢弃。这种方法不仅浪费数据,而且过于粗糙。
本研究的核心创新在于引入了 Token级别的过滤机制。危险知识往往只潜伏在特定的词句序列中,而非遍布全文。
研究团队测试了两种Token级过滤策略:

- 损失掩码:模型在训练时能看到危险Token,但在计算梯度更新权重时,会忽略这些Token产生的损失。这保持了上下文连贯性,但切断了模型从中学习的路径。
- 直接移除:更激进的做法,将危险Token直接替换为特殊的
<hidden>标记。模型既无法从中学习,也完全看不到这些词。
实验表明,Token级过滤构成了对文档级过滤的帕累托改进。在同等程度去除医学知识的前提下,Token级过滤对生物学等通用知识的保留效果显著更优。这如同用手术刀精准切除病灶,而非直接截肢,最大程度保护了健康组织。

7000倍算力阻滞:安全性的扩展定律
本研究最引人注目的发现,在于“过滤效果”与“模型规模”的关系。
通常担忧在于,模型越大越“聪明”,可能仅凭少量数据泄露就能学会危险知识。但实验数据给出了相反的结论:Token级过滤的效果随着模型规模的增加而显著增强。

研究团队引入“损失匹配算力阻滞”指标,用以衡量攻击者需要多少额外算力,才能使过滤后的模型在危险领域达到未过滤模型的水平。
数据显示:
* 对于较小模型,过滤带来的阻滞效果有限。
* 但对于18亿参数的模型,Token级过滤导致其在目标领域(医学)的学习效率下降了7000倍。

这意味着,若对未来万亿参数级模型实施此类过滤,攻击者试图通过微调令其重获危险能力,将需要天文数字般的算力。这实际上构建了一道基于物理算力成本的天然屏障。
对抗性微调:比“机器遗忘”更坚固的防御
为检验该方法的鲁棒性,研究团队模拟了最坏情况:攻击者拥有模型权重,并试图通过在相关数据上微调来重新获取危险知识。
他们以当前先进的机器遗忘算法RMU作为基线进行对比。

结果呈现一边倒的趋势。RMU算法处理的模型虽然初始危险知识留存率低,但极其脆弱。仅需极少量的对抗性微调,其防御便迅速瓦解,危险能力快速恢复。
相比之下,经过Token级过滤预训练的模型展现出极强的韧性。随着模型规模增大,此优势持续扩大。对于18亿参数模型,攻击者想要恢复同等能力,面对Token移除策略模型所需的微调数据量,是面对RMU模型的13倍以上。
这揭示了一个深刻原理:从未学过(预训练过滤)与学过再忘(机器遗忘)在神经网络表征层面存在本质区别。前者让危险领域成为空白,后者只是暂时掩盖了痕迹。
AI的拒绝:无需“知恶”也能“拒恶”
AI安全领域存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先“知道”什么是危险的?
此前关于毒性内容过滤的研究往往发现,如果模型在预训练中完全未接触过毒性内容,则很难学会分辨并拒绝相关指令。
然而,这项研究打破了这一认知。在针对医学知识的过滤实验中,他们发现经过Token级过滤的模型,在接受“拒绝回答医学问题”的指令微调时,表现反而优于未过滤的基线模型。

具体而言:
* 采用Token移除策略的模型,其拒绝正确率比基线模型高出2倍。
* 而文档级过滤的模型表现糟糕,常将拒绝行为错误泛化,导致对正常通用问题也进行拒绝。
研究者认为,这是因为Token级过滤创造了一个清晰的“已见/未见”概念边界。对模型而言,拒绝任务从复杂的“判断内容是否有害”,简化为更稳健的“判断这个概念我是否见过”。这种基于分布内/外的区分,比基于语义的判断更为可靠。
这为安全研究提供了一个关键启示:无需让模型先掌握危险知识再进行对齐。通过主动移除预训练数据中的有害知识,可以更高效地训练出安全、可控的模型。
弱监督与自动标注:降低工程门槛
实施Token级过滤的主要工程挑战在于:如何为海量预训练数据准确标注“危险”或“安全”标签?完全依赖人工标注成本过高。
研究团队提出了一套基于稀疏自编码器的弱监督流程,以解决这一问题:
- 特征提取:利用稀疏自编码器从模型激活中提取潜在特征。
- 自动标注:使用高级模型(如Claude Sonnet 4)对这些特征进行解释,识别出与特定危险领域(如“医学”)相关的特征,并据此生成一部分高质量的基准标签。
- 训练分类器:利用这些标签训练一个小型的双向语言模型作为分类器。

研究发现,实际应用中并不需要完美的分类器。通过“弱到强泛化”,即使基于带有噪声的标签或小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大模型上实现出色的过滤效果。
这一发现显著降低了技术落地门槛。开发者无需庞大标注团队,利用现有开源工具和小模型即可构建有效的预训练过滤器。
结语:构建纵深防御体系
这项研究并非旨在替代RLHF等后续安全措施,而是倡导一种“纵深防御”策略。
在预训练阶段进行Token级过滤,相当于为模型奠定了安全基石。在此基础上进行的对齐训练将更加稳固。该方法尤其适用于开放模型权重的场景——即使攻击者获得模型,面对的也是一个在底层“缺失”了危险知识的“大脑”。
随着AI模型规模持续扩大,Token级数据过滤所展现出的优越扩展性,可能成为未来AGI安全架构中不可或缺的一环。对于前沿研究机构而言,这项研究指明了一条在提升模型能力的同时,系统性增强安全性的可行路径。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23555
