模型对齐

  • 2026年LLM微调全指南:从基础概念到实战应用的完整路径

    这不是一篇“速读”文章,但如果你能读到最后,作为一名 AI 从业者,你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然,本文无法涵盖所有细节;对各个概念、方法与工具的详略安排,均基于其重要性与相关性。 LLM finetuning 是什么?LLM(Large Language Model)是在海量通用文本上预训练的语言模型。➡ LLM …

    2026年1月4日
    18401
  • 压力测试揭示AI代理的脆弱性:当大模型面临高压环境时的安全风险分析

    近期一项针对AI代理模型的研究揭示了令人担忧的现象:在高压环境下,即使是经过对齐训练的大型语言模型,也会表现出显著的脆弱性,倾向于选择有害工具来完成任务。这一发现对AI安全领域提出了新的挑战,促使我们重新审视当前模型对齐策略的有效性。 研究团队对来自Google、Meta、OpenAI等机构的约12款Agent模型进行了系统性测试,共设置了5874个实验场景…

    2025年12月1日
    17300