后训练优化

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

在大型语言模型（LLM）的开发流程中，后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为，模型必须通过强化学习（如PPO、GRPO或RLHF）或进化策略等算法，在反复的迭代和梯度优化中调整权重，才能在特定任务上达到理想性能。然而，MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

4天前

133000

AI产业动态

多模态大模型后训练范式革新：中兴通讯团队验证GRPO-only路径，突破样本难度量化与训练协同瓶颈

在人工智能技术快速迭代的浪潮中，多模态大模型已成为连接视觉与语言智能的核心枢纽。然而，其后训练阶段长期面临两大关键挑战：缺乏可量化的样本难度评估体系，以及传统训练范式难以协同优化感知与推理能力。近期，由中南大学与中兴通讯AIM团队联合完成的研究，通过系统性实验设计，不仅为多模态后训练提供了创新的难度采样标准，更首次验证了仅依赖强化学习（GRPO）独立优化多模…

2025年11月28日

177000