知识迁移

大模型安全

EnchTable：无需重训练的模型安全对齐框架，破解微调后安全能力退化难题

在人工智能模型快速发展的当下，微调（Fine-tuning）已成为提升模型在特定任务上性能的关键技术。然而，最近的研究揭示了一个严峻问题：模型的微调过程会严重削弱其安全对齐（Safety Alignment）能力。这意味着，随着模型在特定领域能力的增强，其安全防护机制反而可能被削弱，导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象，已…

2025年11月19日
171000