知识移除

大模型安全

Anthropic突破性技术：参数隔离实现AI危险能力精准移除，无需数据过滤

近年来，大语言模型的能力突飞猛进，但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时，它不仅掌握语言与推理能力，也不可避免地接触到 CBRN（化学、生物、放射、核）危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。为此，研究者通常会在后训练阶段加入拒答机制等安全措施，希望阻断这些能力的滥用。然而事实证明，面对刻意规避的攻击者，这…

2025年12月20日
176000