MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。

然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种名为RandOpt的新方法,仅通过简单的随机扰动和模型集成,就能突破传统后训练的限制。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

  • 论文标题:Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
  • 论文地址:https://arxiv.org/pdf/2603.12228

这一发现对理解大模型参数空间具有颠覆性意义。它挑战了“优秀解决方案在权重空间中分布极其稀疏”的旧有认知。研究揭示了一个反直觉的现象:在完成预训练后,LLM的权重空间实际上形成了一个密集的“神经丛林”,其中潜藏着大量针对不同任务的“专家”模型。这使得简单的随机采样就有可能发现有效的解决方案。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

论文指出,预训练模型不仅是后训练的“起点”,其权重空间内已隐含了丰富的任务专家。随着模型规模增大,这些专家在空间中的分布密度急剧增加,使得随机扰动和集成方法能够有效捕捉到优越的解决方案。

基于此理论,RandOpt算法的操作极为简单:仅需向预训练模型权重添加单步高斯噪声(无需迭代、学习率或梯度计算),并对多个扰动后的模型副本进行集成。实验表明,仅凭这一极简操作,模型就能在数学推理、代码生成等复杂任务上达到甚至超越传统后训练方法的性能。

RandOpt为后训练的简化提供了新思路,表明后训练过程可能更多是“选择”和“集成”预训练模型中已存在的专家,而非从零开始“训练”新能力。

预训练权重的“丛林效应”

论文指出,模型规模决定了优秀解决方案在参数空间中的分布形态:

  • 小模型(大海捞针机制):未充分训练或规模较小的模型,其初始权重附近的有效解密度极低,处于“大海捞针”状态,必须依赖梯度下降等结构化搜索算法。
  • 大模型(神经丛林机制):经过充分预训练的大模型,其权重周围密集分布着能提升特定任务性能的专家,形成“神经丛林”,使得随机采样就能快速找到有潜力的模型。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力
小模型(左)的“大海捞针”机制与大模型(右)的“神经丛林”机制示意图。大模型周围充满了代码、数学等特定任务的解决方案集。

研究通过两个核心指标量化了这一现象:

  • 解决方案密度:随机扰动能使基础模型性能提升的概率。实验显示,该密度遵循缩放定律:模型规模越大、性能越好,周围高质量解的密度就越高。
  • 解决方案多样性:随机采样出的优秀模型往往是“专才”而非“通才”。一个扰动若显著提升某任务性能,常会降低其他任务性能。随着模型规模增加,解的多样性也单调增加,意味着专家们的能力更互补、互不重叠。

为直观展示“神经丛林”,研究团队对参数量从0.5B到32B的Qwen2.5预训练模型施加了1000个随机权重扰动,并通过随机投影将准确率景观可视化。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力
实验清晰呈现了缩放定律:随着模型规模扩大,景观中代表更高准确率的“红色区域”(任务改善区域)显著增多并更加密集。

简言之,大模型所处的参数空间是一个布满不同任务局部最优解的“盆地”。

那么,“神经丛林”因何涌现?一个1D信号预测实验揭示了根本原因。研究者使用多层感知机对混合的一维信号(如正弦波、方波)进行自回归预测预训练,对比了三种阶段:

  • 无预训练(大海捞针期):随机初始化下,微小扰动对功能几乎无影响,有效解距离极远,随机采样完全失效。
  • 单一任务预训练(高原期):仅在单一信号上预训练后,模型在该任务上已达性能天花板,但周围权重无功能多样性,随机猜测无收益。
  • 混合多任务预训练(丛林诞生期):只有在多种不同信号上进行混合预训练后,参数空间才会孕育出能在不同方向上拟合不同信号的“专家丛林”。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力
1D信号预测实验展示三种机制。仅在“混合信号预训练”下(图b),权重扰动才会产生形态各异的函数预测,形成神经丛林。

这也解释了为何在海量混合数据上预训练的大语言模型,会天然自带一片生机勃勃的“专家丛林”。

RandOpt算法:单步、无梯度、极致并行

基于“神经丛林”密度高、多样性强的特性,作者探索了一种极其简单且完全并行的后训练算法RandOpt,其特点是:单步、无梯度、无学习率、无迭代、完全并行。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

RandOpt避开了所有序列化的梯度更新,主要分为两个阶段:

  • 训练(随机猜测与检查):从标准高斯分布中采样N个随机噪声,直接加到基础模型权重上,生成N个扰动副本。随后在一个小训练集上评估,根据得分选出表现最好的Top-K个模型。
  • 推理(预测集成):面对测试输入时,利用筛选出的K个模型分别生成预测,最终通过多数投票机制聚合出最终答案。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力
RandOpt性能与基础模型规模的关系。图表显示,若不进行预训练,RandOpt性能几乎为零;对于预训练模型,参数量达到约1.5B时,RandOpt的性能提升开始迎来爆发。

该机制的关键特性是完全不需要计算梯度,也不涉及任何序列化优化步骤,所有的模型生成和评估都可以完全并行处理。

RandOpt与传统方法的对比

这种看似「简单粗暴」的方法,在实际基准测试中展现出了惊人的性能。研究团队在参数规模从 0.5B 到 8B 不等的多个模型(如 Qwen、Llama、OLMo)上,对数学推理(Countdown、GSM8K 等)、代码生成(MBPP)、创意写作(ROCStories)以及化学(USPTO)任务进行了全面评估。

在消耗相同训练浮点运算次数(FLOPs)的前提下,RandOpt(通常设置 K=50)在绝大多数设定中不仅追平,甚至超越了 PPO、GRPO 和 ES 等标准后训练方法。

此外,RandOpt 在训练时间上具有显著优势。传统基准方法需要运行数百个序列化更新步骤(时间复杂度为 O(T)),而 RandOpt 的训练步骤是 O(1)。论文指出,在一组包含 200 个 GH200 GPU 的集群上使用 RandOpt 训练 OLMo-3-7B-Instruct 模型,设定 N=2000 和 K=50,仅需 3.2 分钟即可完成,并在 Countdown 任务上达到 70% 的准确率。

RandOpt 的适用性不仅限于语言模型。在视觉语言模型(VLM)上,通过冻结视觉编码器、仅扰动语言模型权重,RandOpt 将 3B 参数的 Qwen2.5-VL-Instruct 模型在 GQA 视觉推理数据集上的准确率提升了 12.4%。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

提升究竟来自哪里?代价又是什么?

为了验证模型能力提升的真实来源,研究者在 GSM8K 数据集上对性能提升进行了细致的错误归因分解。

数据显示,对于集成后达到 86.7% 准确率的 RandOpt(K=50),其提升中有 19.0% 来源于「格式丛林」——即基础模型算对了,但输出格式不符合严苛的评估要求,而扰动模型修正了格式。更重要的是,有 12.3% 的提升来源于真实的「推理丛林」——即基础模型原本算错,而扰动后的模型真正学会了正确的推理并得出正确答案。这一结果有力地证明,神经丛林中确实存在着掌握不同实质性技能的专家,而不仅仅是表面的格式微调。

不仅如此,这种丛林现象在文本到图像生成领域(如 Stable Diffusion XL 模型)中表现为「色彩丛林」。某些参数空间的局部区域会优先生成具有特定调色板(如蓝色或黄色主导)或视觉风格的图像,展现出了极高的生成多样性。

MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

RandOpt 在推理时需要进行 K 次前向传播,这对实际部署是不利的。为了解决这一问题,研究者提出了一种蒸馏方案:他们利用 RandOpt 筛选出的 Top-50 模型生成数万条包含推理轨迹的响应,然后从中挑选出基础模型容易出错的「困难样本」。接着,只对基础模型进行两轮监督微调。

实验结果令人振奋:在 GSM8K 上,蒸馏后的单一模型性能(84.3%)与庞大的集成模型(87.1%)极为接近,而这个蒸馏过程的计算成本仅占 RandOpt 训练成本的约 2%。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25849

(0)
上一篇 1天前
下一篇 8小时前

相关推荐

  • 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

    Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…

    2026年1月7日
    15600
  • 英伟达GDPO:突破GRPO局限,精准优化多奖励强化学习

    GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 然而,随着语言模型能力的不断提升,用户对它们的期待也在发生变化:不仅要回答正确,还要在各种不同场景下表现出符合多样化人类偏好的行为。为此,强化学习训练流程开始引入多种奖励信号,每一种奖励对应一种不同的偏好,用来共…

    2026年1月11日
    21200
  • 超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

    基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…

    2026年3月8日
    6500
  • Gemini3预训练负责人揭秘:从无限数据到数据受限,AI研究正演变为复杂系统工程

    Gemini 3的逆袭,给业界带来了太多的惊喜和问号。 与此前不同的是,业界到现在似乎也没有逆向出Gemini3的秘方出来。 本周五,继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后,终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。 Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjo…

    2025年12月21日
    34801
  • AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验

    AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验 Karpathy的Autoresearch项目仅用630行Python代码,就让AI自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11%,全程无需人类干预。 然而,更引人注目的进展发生在此之后。全球开发者社区接手项目,将其从“单个AI做实验”升级为…

    1天前
    4600