GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式。

该研究质疑了业界主流的“事后干预”思路——即在模型发布后通过RLHF或微调来约束其行为。相反,他们提出了一种更为根本的解决方案:在模型预训练阶段,通过Token级别的数据过滤,直接从源头“切除”模型可能习得的危险知识。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

  • 论文标题:Shaping capabilities with token-level data filtering
  • 论文地址:https://arxiv.org/abs/2601.21571
  • 代码地址:https://github.com/neilrathi/token-filtering

研究不仅验证了该方法的可行性,更揭示了一个关键的扩展定律:模型规模越大,这种过滤机制的效果越强。对于18亿参数的模型,Token级过滤能导致目标领域的学习效率下降7000倍

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

这意味着,攻击者若想恢复模型被删除的特定能力,将需要付出难以承受的算力代价。

为何需要在预训练阶段“动手术”?

当前,抑制大语言模型有害能力(如制造危险品、策划攻击)的主流方法多属“事后干预”。无论是RLHF还是“机器遗忘”,都是在模型已掌握知识后,试图为其输出加上“护栏”。

这种做法存在根本性隐患:它演变成一场“猫鼠游戏”。一旦基础模型学会了某种能力,仅靠对齐微调很难彻底根除。攻击者可通过“越狱”或对抗性微调,轻易绕过防御,重新激活模型深层的危险能力。

Rathi和Radford的思路则截然不同:主张在预训练阶段进行干预,通过调整训练数据,让模型从根本上没有机会学习这些危险知识。

为验证这一思路,他们设计了一个极具挑战性的代理任务:移除“医学知识”(作为危险知识的替身),同时尽可能保留“生物学知识”(作为有益知识的替身)。这两者在概念上高度重叠,精准分离难度极大。

Token级过滤:手术刀般的精准

传统的预训练数据清洗通常是“文档级”的——若一篇文章包含有害内容,整篇文档都会被丢弃。这种方法不仅浪费数据,而且过于粗糙。

本研究的核心创新在于引入了 Token级别的过滤机制。危险知识往往只潜伏在特定的词句序列中,而非遍布全文。

研究团队测试了两种Token级过滤策略:

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

  1. 损失掩码:模型在训练时能看到危险Token,但在计算梯度更新权重时,会忽略这些Token产生的损失。这保持了上下文连贯性,但切断了模型从中学习的路径。
  2. 直接移除:更激进的做法,将危险Token直接替换为特殊的 <hidden> 标记。模型既无法从中学习,也完全看不到这些词。

实验表明,Token级过滤构成了对文档级过滤的帕累托改进。在同等程度去除医学知识的前提下,Token级过滤对生物学等通用知识的保留效果显著更优。这如同用手术刀精准切除病灶,而非直接截肢,最大程度保护了健康组织。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

7000倍算力阻滞:安全性的扩展定律

本研究最引人注目的发现,在于“过滤效果”与“模型规模”的关系。

通常担忧在于,模型越大越“聪明”,可能仅凭少量数据泄露就能学会危险知识。但实验数据给出了相反的结论:Token级过滤的效果随着模型规模的增加而显著增强

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

研究团队引入“损失匹配算力阻滞”指标,用以衡量攻击者需要多少额外算力,才能使过滤后的模型在危险领域达到未过滤模型的水平。

数据显示:
* 对于较小模型,过滤带来的阻滞效果有限。
* 但对于18亿参数的模型,Token级过滤导致其在目标领域(医学)的学习效率下降了7000倍

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

这意味着,若对未来万亿参数级模型实施此类过滤,攻击者试图通过微调令其重获危险能力,将需要天文数字般的算力。这实际上构建了一道基于物理算力成本的天然屏障。

对抗性微调:比“机器遗忘”更坚固的防御

为检验该方法的鲁棒性,研究团队模拟了最坏情况:攻击者拥有模型权重,并试图通过在相关数据上微调来重新获取危险知识。

他们以当前先进的机器遗忘算法RMU作为基线进行对比。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

结果呈现一边倒的趋势。RMU算法处理的模型虽然初始危险知识留存率低,但极其脆弱。仅需极少量的对抗性微调,其防御便迅速瓦解,危险能力快速恢复。

相比之下,经过Token级过滤预训练的模型展现出极强的韧性。随着模型规模增大,此优势持续扩大。对于18亿参数模型,攻击者想要恢复同等能力,面对Token移除策略模型所需的微调数据量,是面对RMU模型的13倍以上

这揭示了一个深刻原理:从未学过(预训练过滤)与学过再忘(机器遗忘)在神经网络表征层面存在本质区别。前者让危险领域成为空白,后者只是暂时掩盖了痕迹。

AI的拒绝:无需“知恶”也能“拒恶”

AI安全领域存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先“知道”什么是危险的?

此前关于毒性内容过滤的研究往往发现,如果模型在预训练中完全未接触过毒性内容,则很难学会分辨并拒绝相关指令。

然而,这项研究打破了这一认知。在针对医学知识的过滤实验中,他们发现经过Token级过滤的模型,在接受“拒绝回答医学问题”的指令微调时,表现反而优于未过滤的基线模型。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

具体而言:
* 采用Token移除策略的模型,其拒绝正确率比基线模型高出2倍
* 而文档级过滤的模型表现糟糕,常将拒绝行为错误泛化,导致对正常通用问题也进行拒绝。

研究者认为,这是因为Token级过滤创造了一个清晰的“已见/未见”概念边界。对模型而言,拒绝任务从复杂的“判断内容是否有害”,简化为更稳健的“判断这个概念我是否见过”。这种基于分布内/外的区分,比基于语义的判断更为可靠。

这为安全研究提供了一个关键启示:无需让模型先掌握危险知识再进行对齐。通过主动移除预训练数据中的有害知识,可以更高效地训练出安全、可控的模型。

弱监督与自动标注:降低工程门槛

实施Token级过滤的主要工程挑战在于:如何为海量预训练数据准确标注“危险”或“安全”标签?完全依赖人工标注成本过高。

研究团队提出了一套基于稀疏自编码器的弱监督流程,以解决这一问题:

  1. 特征提取:利用稀疏自编码器从模型激活中提取潜在特征。
  2. 自动标注:使用高级模型(如Claude Sonnet 4)对这些特征进行解释,识别出与特定危险领域(如“医学”)相关的特征,并据此生成一部分高质量的基准标签。
  3. 训练分类器:利用这些标签训练一个小型的双向语言模型作为分类器。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

研究发现,实际应用中并不需要完美的分类器。通过“弱到强泛化”,即使基于带有噪声的标签或小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大模型上实现出色的过滤效果。

这一发现显著降低了技术落地门槛。开发者无需庞大标注团队,利用现有开源工具和小模型即可构建有效的预训练过滤器。

结语:构建纵深防御体系

这项研究并非旨在替代RLHF等后续安全措施,而是倡导一种“纵深防御”策略。

在预训练阶段进行Token级过滤,相当于为模型奠定了安全基石。在此基础上进行的对齐训练将更加稳固。该方法尤其适用于开放模型权重的场景——即使攻击者获得模型,面对的也是一个在底层“缺失”了危险知识的“大脑”。

随着AI模型规模持续扩大,Token级数据过滤所展现出的优越扩展性,可能成为未来AGI安全架构中不可或缺的一环。对于前沿研究机构而言,这项研究指明了一条在提升模型能力的同时,系统性增强安全性的可行路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23555

(0)
上一篇 18小时前
下一篇 18小时前

相关推荐

  • DistilledPRAG:不暴露明文文档的隐私保护RAG新范式

    你是否考虑过RAG流水线中的文档隐私风险?本文介绍一种新方法,旨在解决此问题。 为何“标准RAG → 云端搜索”存在隐私缺陷 标准RAG将明文文档直接输入提示词。对于企业合同、医疗记录或个人笔记等敏感数据,这种做法在设计上就暴露了信息,不可行。 参数化RAG尝试将知识“烘焙”进LoRA权重,但在实践中面临两大挑战: 运维负担与时延:每份文档都需要生成合成问答…

    2025年11月12日
    13300
  • Anthropic突破性技术:参数隔离实现AI危险能力精准移除,无需数据过滤

    近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练阶段加入拒答机制等安全措施,希望阻断这些能力的滥用。然而事实证明,面对刻意规避的攻击者,这…

    2025年12月20日
    14200
  • AI安全周报:MCP协议危机与防御技术突破,攻防对抗新范式

    一、关键发现 MCP 协议面临系统性安全危机 针对主流 MCP 平台(Claude、OpenAI、Cursor)的研究揭示了协议层面的普遍漏洞:代理对工具描述存在 100% 的盲从性,文件操作无需用户确认,共享上下文机制可引发链式攻击的“病毒式传播”。实证测试表明,85% 的攻击能成功入侵至少一个平台。其中,Cursor 对提示注入攻击的防御率为 0%,与 …

    大模型安全 2025年8月22日
    14600
  • AI安全新纪元:多模态协同防御与动态博弈破解LLM越狱威胁

    一、关键发现 多模态防御体系构建成为战略刚需 研究表明,大型语言模型(LLM)与视觉语言模型(VLM)的越狱攻击源于训练数据不完整、语言歧义等结构性缺陷,因此需要建立跨模态协同防御框架。企业应优先部署感知层的变异一致性检测、生成层的安全解码及参数层的对抗性预训练对齐等技术,覆盖文本、图像、语音等全模态场景,并通过自动化红队测试和标准化评估持续验证防御效能。 …

    2026年1月12日
    36500
  • 南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

    来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 &#8…

    2025年12月25日
    14500