GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

Alec Radford，出生于1993年，是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者，并深度参与了GPT-3、GPT-4及PPO算法等关键项目，其工作已获得超过32万次学术引用。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

近日，他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究，挑战了当前大模型安全领域的一个核心范式。

该研究质疑了业界主流的“事后干预”思路——即在模型发布后通过RLHF或微调来约束其行为。相反，他们提出了一种更为根本的解决方案：在模型预训练阶段，通过Token级别的数据过滤，直接从源头“切除”模型可能习得的危险知识。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

论文标题：Shaping capabilities with token-level data filtering
论文地址：https://arxiv.org/abs/2601.21571
代码地址：https://github.com/neilrathi/token-filtering

研究不仅验证了该方法的可行性，更揭示了一个关键的扩展定律：模型规模越大，这种过滤机制的效果越强。对于18亿参数的模型，Token级过滤能导致目标领域的学习效率下降7000倍。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

这意味着，攻击者若想恢复模型被删除的特定能力，将需要付出难以承受的算力代价。

为何需要在预训练阶段“动手术”？

当前，抑制大语言模型有害能力（如制造危险品、策划攻击）的主流方法多属“事后干预”。无论是RLHF还是“机器遗忘”，都是在模型已掌握知识后，试图为其输出加上“护栏”。

这种做法存在根本性隐患：它演变成一场“猫鼠游戏”。一旦基础模型学会了某种能力，仅靠对齐微调很难彻底根除。攻击者可通过“越狱”或对抗性微调，轻易绕过防御，重新激活模型深层的危险能力。

Rathi和Radford的思路则截然不同：主张在预训练阶段进行干预，通过调整训练数据，让模型从根本上没有机会学习这些危险知识。

为验证这一思路，他们设计了一个极具挑战性的代理任务：移除“医学知识”（作为危险知识的替身），同时尽可能保留“生物学知识”（作为有益知识的替身）。这两者在概念上高度重叠，精准分离难度极大。

Token级过滤：手术刀般的精准

传统的预训练数据清洗通常是“文档级”的——若一篇文章包含有害内容，整篇文档都会被丢弃。这种方法不仅浪费数据，而且过于粗糙。

本研究的核心创新在于引入了 Token级别的过滤机制。危险知识往往只潜伏在特定的词句序列中，而非遍布全文。

研究团队测试了两种Token级过滤策略：

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

损失掩码：模型在训练时能看到危险Token，但在计算梯度更新权重时，会忽略这些Token产生的损失。这保持了上下文连贯性，但切断了模型从中学习的路径。
直接移除：更激进的做法，将危险Token直接替换为特殊的 <hidden> 标记。模型既无法从中学习，也完全看不到这些词。

实验表明，Token级过滤构成了对文档级过滤的帕累托改进。在同等程度去除医学知识的前提下，Token级过滤对生物学等通用知识的保留效果显著更优。这如同用手术刀精准切除病灶，而非直接截肢，最大程度保护了健康组织。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

7000倍算力阻滞：安全性的扩展定律

本研究最引人注目的发现，在于“过滤效果”与“模型规模”的关系。

通常担忧在于，模型越大越“聪明”，可能仅凭少量数据泄露就能学会危险知识。但实验数据给出了相反的结论：Token级过滤的效果随着模型规模的增加而显著增强。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

研究团队引入“损失匹配算力阻滞”指标，用以衡量攻击者需要多少额外算力，才能使过滤后的模型在危险领域达到未过滤模型的水平。

数据显示：
* 对于较小模型，过滤带来的阻滞效果有限。
* 但对于18亿参数的模型，Token级过滤导致其在目标领域（医学）的学习效率下降了7000倍。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

这意味着，若对未来万亿参数级模型实施此类过滤，攻击者试图通过微调令其重获危险能力，将需要天文数字般的算力。这实际上构建了一道基于物理算力成本的天然屏障。

对抗性微调：比“机器遗忘”更坚固的防御

为检验该方法的鲁棒性，研究团队模拟了最坏情况：攻击者拥有模型权重，并试图通过在相关数据上微调来重新获取危险知识。

他们以当前先进的机器遗忘算法RMU作为基线进行对比。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

结果呈现一边倒的趋势。RMU算法处理的模型虽然初始危险知识留存率低，但极其脆弱。仅需极少量的对抗性微调，其防御便迅速瓦解，危险能力快速恢复。

相比之下，经过Token级过滤预训练的模型展现出极强的韧性。随着模型规模增大，此优势持续扩大。对于18亿参数模型，攻击者想要恢复同等能力，面对Token移除策略模型所需的微调数据量，是面对RMU模型的13倍以上。

这揭示了一个深刻原理：从未学过（预训练过滤）与学过再忘（机器遗忘）在神经网络表征层面存在本质区别。前者让危险领域成为空白，后者只是暂时掩盖了痕迹。

AI的拒绝：无需“知恶”也能“拒恶”

AI安全领域存在一个悖论：为了让模型拒绝回答危险问题，模型是否必须先“知道”什么是危险的？

此前关于毒性内容过滤的研究往往发现，如果模型在预训练中完全未接触过毒性内容，则很难学会分辨并拒绝相关指令。

然而，这项研究打破了这一认知。在针对医学知识的过滤实验中，他们发现经过Token级过滤的模型，在接受“拒绝回答医学问题”的指令微调时，表现反而优于未过滤的基线模型。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

具体而言：
* 采用Token移除策略的模型，其拒绝正确率比基线模型高出2倍。
* 而文档级过滤的模型表现糟糕，常将拒绝行为错误泛化，导致对正常通用问题也进行拒绝。

研究者认为，这是因为Token级过滤创造了一个清晰的“已见/未见”概念边界。对模型而言，拒绝任务从复杂的“判断内容是否有害”，简化为更稳健的“判断这个概念我是否见过”。这种基于分布内/外的区分，比基于语义的判断更为可靠。

这为安全研究提供了一个关键启示：无需让模型先掌握危险知识再进行对齐。通过主动移除预训练数据中的有害知识，可以更高效地训练出安全、可控的模型。

弱监督与自动标注：降低工程门槛

实施Token级过滤的主要工程挑战在于：如何为海量预训练数据准确标注“危险”或“安全”标签？完全依赖人工标注成本过高。

研究团队提出了一套基于稀疏自编码器的弱监督流程，以解决这一问题：

特征提取：利用稀疏自编码器从模型激活中提取潜在特征。
自动标注：使用高级模型（如Claude Sonnet 4）对这些特征进行解释，识别出与特定危险领域（如“医学”）相关的特征，并据此生成一部分高质量的基准标签。
训练分类器：利用这些标签训练一个小型的双向语言模型作为分类器。

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

研究发现，实际应用中并不需要完美的分类器。通过“弱到强泛化”，即使基于带有噪声的标签或小模型特征训练的分类器，在配合激进的过滤阈值后，依然能在更大模型上实现出色的过滤效果。

这一发现显著降低了技术落地门槛。开发者无需庞大标注团队，利用现有开源工具和小模型即可构建有效的预训练过滤器。

结语：构建纵深防御体系

这项研究并非旨在替代RLHF等后续安全措施，而是倡导一种“纵深防御”策略。

在预训练阶段进行Token级过滤，相当于为模型奠定了安全基石。在此基础上进行的对齐训练将更加稳固。该方法尤其适用于开放模型权重的场景——即使攻击者获得模型，面对的也是一个在底层“缺失”了危险知识的“大脑”。

随着AI模型规模持续扩大，Token级数据过滤所展现出的优越扩展性，可能成为未来AGI安全架构中不可或缺的一环。对于前沿研究机构而言，这项研究指明了一条在提升模型能力的同时，系统性增强安全性的可行路径。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23555

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

为何需要在预训练阶段“动手术”？

Token级过滤：手术刀般的精准

7000倍算力阻滞：安全性的扩展定律

对抗性微调：比“机器遗忘”更坚固的防御

AI的拒绝：无需“知恶”也能“拒恶”

弱监督与自动标注：降低工程门槛

结语：构建纵深防御体系

相关推荐

DistilledPRAG：不暴露明文文档的隐私保护RAG新范式

Anthropic突破性技术：参数隔离实现AI危险能力精准移除，无需数据过滤

AI安全周报：MCP协议危机与防御技术突破，攻防对抗新范式

AI安全新纪元：多模态协同防御与动态博弈破解LLM越狱威胁

南京大学联合美团、上交推出RunawayEvil：首个I2V自进化越狱框架，破解视频生成模型安全漏洞