知识迁移

  • EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题

    在人工智能模型快速发展的当下,微调(Fine-tuning)已成为提升模型在特定任务上性能的关键技术。然而,最近的研究揭示了一个严峻问题:模型的微调过程会严重削弱其安全对齐(Safety Alignment)能力。这意味着,随着模型在特定领域能力的增强,其安全防护机制反而可能被削弱,导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象,已…

    2025年11月19日
    300