神经丛林

  • MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

    在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

    23小时前
    6200