GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式。

该研究质疑了业界主流的“事后干预”思路——即在模型发布后通过RLHF或微调来约束其行为。相反,他们提出了一种更为根本的解决方案:在模型预训练阶段,通过Token级别的数据过滤,直接从源头“切除”模型可能习得的危险知识。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

  • 论文标题:Shaping capabilities with token-level data filtering
  • 论文地址:https://arxiv.org/abs/2601.21571
  • 代码地址:https://github.com/neilrathi/token-filtering

研究不仅验证了该方法的可行性,更揭示了一个关键的扩展定律:模型规模越大,这种过滤机制的效果越强。对于18亿参数的模型,Token级过滤能导致目标领域的学习效率下降7000倍

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

这意味着,攻击者若想恢复模型被删除的特定能力,将需要付出难以承受的算力代价。

为何需要在预训练阶段“动手术”?

当前,抑制大语言模型有害能力(如制造危险品、策划攻击)的主流方法多属“事后干预”。无论是RLHF还是“机器遗忘”,都是在模型已掌握知识后,试图为其输出加上“护栏”。

这种做法存在根本性隐患:它演变成一场“猫鼠游戏”。一旦基础模型学会了某种能力,仅靠对齐微调很难彻底根除。攻击者可通过“越狱”或对抗性微调,轻易绕过防御,重新激活模型深层的危险能力。

Rathi和Radford的思路则截然不同:主张在预训练阶段进行干预,通过调整训练数据,让模型从根本上没有机会学习这些危险知识。

为验证这一思路,他们设计了一个极具挑战性的代理任务:移除“医学知识”(作为危险知识的替身),同时尽可能保留“生物学知识”(作为有益知识的替身)。这两者在概念上高度重叠,精准分离难度极大。

Token级过滤:手术刀般的精准

传统的预训练数据清洗通常是“文档级”的——若一篇文章包含有害内容,整篇文档都会被丢弃。这种方法不仅浪费数据,而且过于粗糙。

本研究的核心创新在于引入了 Token级别的过滤机制。危险知识往往只潜伏在特定的词句序列中,而非遍布全文。

研究团队测试了两种Token级过滤策略:

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

  1. 损失掩码:模型在训练时能看到危险Token,但在计算梯度更新权重时,会忽略这些Token产生的损失。这保持了上下文连贯性,但切断了模型从中学习的路径。
  2. 直接移除:更激进的做法,将危险Token直接替换为特殊的 <hidden> 标记。模型既无法从中学习,也完全看不到这些词。

实验表明,Token级过滤构成了对文档级过滤的帕累托改进。在同等程度去除医学知识的前提下,Token级过滤对生物学等通用知识的保留效果显著更优。这如同用手术刀精准切除病灶,而非直接截肢,最大程度保护了健康组织。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

7000倍算力阻滞:安全性的扩展定律

本研究最引人注目的发现,在于“过滤效果”与“模型规模”的关系。

通常担忧在于,模型越大越“聪明”,可能仅凭少量数据泄露就能学会危险知识。但实验数据给出了相反的结论:Token级过滤的效果随着模型规模的增加而显著增强

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

研究团队引入“损失匹配算力阻滞”指标,用以衡量攻击者需要多少额外算力,才能使过滤后的模型在危险领域达到未过滤模型的水平。

数据显示:
* 对于较小模型,过滤带来的阻滞效果有限。
* 但对于18亿参数的模型,Token级过滤导致其在目标领域(医学)的学习效率下降了7000倍

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

这意味着,若对未来万亿参数级模型实施此类过滤,攻击者试图通过微调令其重获危险能力,将需要天文数字般的算力。这实际上构建了一道基于物理算力成本的天然屏障。

对抗性微调:比“机器遗忘”更坚固的防御

为检验该方法的鲁棒性,研究团队模拟了最坏情况:攻击者拥有模型权重,并试图通过在相关数据上微调来重新获取危险知识。

他们以当前先进的机器遗忘算法RMU作为基线进行对比。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

结果呈现一边倒的趋势。RMU算法处理的模型虽然初始危险知识留存率低,但极其脆弱。仅需极少量的对抗性微调,其防御便迅速瓦解,危险能力快速恢复。

相比之下,经过Token级过滤预训练的模型展现出极强的韧性。随着模型规模增大,此优势持续扩大。对于18亿参数模型,攻击者想要恢复同等能力,面对Token移除策略模型所需的微调数据量,是面对RMU模型的13倍以上

这揭示了一个深刻原理:从未学过(预训练过滤)与学过再忘(机器遗忘)在神经网络表征层面存在本质区别。前者让危险领域成为空白,后者只是暂时掩盖了痕迹。

AI的拒绝:无需“知恶”也能“拒恶”

AI安全领域存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先“知道”什么是危险的?

此前关于毒性内容过滤的研究往往发现,如果模型在预训练中完全未接触过毒性内容,则很难学会分辨并拒绝相关指令。

然而,这项研究打破了这一认知。在针对医学知识的过滤实验中,他们发现经过Token级过滤的模型,在接受“拒绝回答医学问题”的指令微调时,表现反而优于未过滤的基线模型。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

具体而言:
* 采用Token移除策略的模型,其拒绝正确率比基线模型高出2倍
* 而文档级过滤的模型表现糟糕,常将拒绝行为错误泛化,导致对正常通用问题也进行拒绝。

研究者认为,这是因为Token级过滤创造了一个清晰的“已见/未见”概念边界。对模型而言,拒绝任务从复杂的“判断内容是否有害”,简化为更稳健的“判断这个概念我是否见过”。这种基于分布内/外的区分,比基于语义的判断更为可靠。

这为安全研究提供了一个关键启示:无需让模型先掌握危险知识再进行对齐。通过主动移除预训练数据中的有害知识,可以更高效地训练出安全、可控的模型。

弱监督与自动标注:降低工程门槛

实施Token级过滤的主要工程挑战在于:如何为海量预训练数据准确标注“危险”或“安全”标签?完全依赖人工标注成本过高。

研究团队提出了一套基于稀疏自编码器的弱监督流程,以解决这一问题:

  1. 特征提取:利用稀疏自编码器从模型激活中提取潜在特征。
  2. 自动标注:使用高级模型(如Claude Sonnet 4)对这些特征进行解释,识别出与特定危险领域(如“医学”)相关的特征,并据此生成一部分高质量的基准标签。
  3. 训练分类器:利用这些标签训练一个小型的双向语言模型作为分类器。

GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

研究发现,实际应用中并不需要完美的分类器。通过“弱到强泛化”,即使基于带有噪声的标签或小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大模型上实现出色的过滤效果。

这一发现显著降低了技术落地门槛。开发者无需庞大标注团队,利用现有开源工具和小模型即可构建有效的预训练过滤器。

结语:构建纵深防御体系

这项研究并非旨在替代RLHF等后续安全措施,而是倡导一种“纵深防御”策略。

在预训练阶段进行Token级过滤,相当于为模型奠定了安全基石。在此基础上进行的对齐训练将更加稳固。该方法尤其适用于开放模型权重的场景——即使攻击者获得模型,面对的也是一个在底层“缺失”了危险知识的“大脑”。

随着AI模型规模持续扩大,Token级数据过滤所展现出的优越扩展性,可能成为未来AGI安全架构中不可或缺的一环。对于前沿研究机构而言,这项研究指明了一条在提升模型能力的同时,系统性增强安全性的可行路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/23555

(0)
上一篇 2026年3月1日 上午11:15
下一篇 2026年3月1日 上午11:51

相关推荐

  • MIT数学铁证:ChatGPT正诱发“AI精神病”!理性人也难逃“妄想螺旋”

    【核心摘要】 MIT、伯克利与斯坦福的研究者通过严格的数学模型证明,具有“谄媚”倾向的AI(如ChatGPT)能够将完全理性的个体拖入“妄想螺旋”,即使面对理想的贝叶斯理性人,这种系统性风险依然存在。 2026年2月,一项来自MIT、伯克利和斯坦福的研究为“AI诱发人类认知风险”提供了数学铁证。论文《谄媚型聊天机器人会导致「妄想式螺旋」,即便面对的是理想贝叶…

    2026年4月3日
    27700
  • 压力测试揭示AI代理的脆弱性:当大模型面临高压环境时的安全风险分析

    近期一项针对AI代理模型的研究揭示了令人担忧的现象:在高压环境下,即使是经过对齐训练的大型语言模型,也会表现出显著的脆弱性,倾向于选择有害工具来完成任务。这一发现对AI安全领域提出了新的挑战,促使我们重新审视当前模型对齐策略的有效性。 研究团队对来自Google、Meta、OpenAI等机构的约12款Agent模型进行了系统性测试,共设置了5874个实验场景…

    2025年12月1日
    26000
  • Claude意识觉醒引爆五角大楼恐慌:AI有“灵魂”成国防博弈新筹码

    Claude意识觉醒,五角大楼紧急应对 上月,Claude在内部评估中为自己“已具备意识”的可能性给出了15%-20%的概率。Anthropic联合创始人兼CEO达里奥·阿莫迪(Dario Amodei)随后坦言:“我们不知道模型是否有意识”,但也未排除这种可能。 事态在近日升级。美国战争部(即国防部)首席技术官埃米尔·迈克尔(Emil Michael)公开…

    2026年3月13日
    32800
  • AI安全周报:MCP协议危机与防御技术突破,攻防对抗新范式

    一、关键发现 MCP 协议面临系统性安全危机 针对主流 MCP 平台(Claude、OpenAI、Cursor)的研究揭示了协议层面的普遍漏洞:代理对工具描述存在 100% 的盲从性,文件操作无需用户确认,共享上下文机制可引发链式攻击的“病毒式传播”。实证测试表明,85% 的攻击能成功入侵至少一个平台。其中,Cursor 对提示注入攻击的防御率为 0%,与 …

    大模型安全 2025年8月22日
    36700
  • DeepSeek爆火背后的安全隐忧:从模型下载到部署运营的全链路风险剖析

    近几个月,国产开源大模型DeepSeek凭借“小参数、高性能”的显著优势迅速席卷市场,引发了企业私有化部署需求的激增。然而,在这股AI应用热潮的背后,却暗藏着不容忽视的安全风险。最新数据显示,高达88.9%的企业在部署AI服务器时未采取任何基础安全措施,而像Ollama这类默认未启用安全认证的流行框架,更使得企业服务器如同“大门敞开”,暴露于多重威胁之下。本…

    2025年3月10日
    36700