神经丛林

大模型训练

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

在大型语言模型（LLM）的开发流程中，后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为，模型必须通过强化学习（如PPO、GRPO或RLHF）或进化策略等算法，在反复的迭代和梯度优化中调整权重，才能在特定任务上达到理想性能。然而，MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

23小时前
62000