DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事!

全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

此次更新,将原始论文升级为一份开源社区完全可复现的详尽技术报告。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

论文地址:https://arxiv.org/abs/2501.12948

论文新增内容干货满满,信息量巨大,主要包括:
* 精确的数据配方:明确给出了数据规模(2.6万道数学题,1.7万条代码)以及具体的创建流程。
* 基础设施说明:提供了vLLM/DualPipe设置的示意图。
* 训练成本拆解:总计约29.4万美元(其中R1-Zero使用了198小时的H800 GPU)。
* 「失败尝试」复盘:深入解释了PRM(过程奖励模型)为何没有成功。
* 模型对比:与DS-V3、Claude、GPT-4o进行了系统性比较(此前只包含o1)。
* 10页安全性报告:详细说明了安全评估与风险分析。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

评测结果显示,DeepSeek R1在多项能力上与OpenAI o1相媲美,甚至超越了o1-mini、GPT-4o和Claude 3.5。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

不仅如此,论文末尾的核心贡献者名单还列出了每位成员的具体贡献。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

有网友表示,这次更新堪称一本教科书!尤其是关于DeepSeek-R1-Zero自我进化细节的部分,是真正的亮点。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

值得一提的是,DeepSeek应用也在几天前上线了新功能——支持语音输入。有网友据此猜测,DeepSeek可能即将发力多模态领域。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

接下来,我们将一起拆解最新论文的核心亮点。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

DeepSeek R1爆更,实力打平o1

首先来看DeepSeek-R1的具体评测结果。最新的评估覆盖了数学推理、编码、通用知识与理解、事实性与指令遵循等全方位任务。

在教育知识类基准(如MMLU、MMLU-Pro和GPQA Diamond)上,DeepSeek-R1整体超越了DS-V3。特别是在STEM相关问题上,准确率显著提高——这背后的最大功臣是强化学习(RL)

在长上下文问答任务(FRAMES)上,DeepSeek-R1表现亮眼,展现了出色的文档理解与分析能力。

在数学和代码任务中,DeepSeek-R1与OpenAI-o1-1217基本持平,并明显领先于其他模型。在更偏向实践的编程任务中,OpenAI-o1-1217在Aider上表现优于DeepSeek-R1,但在SWE Verified上两者水平相当。

DeepSeek认为,这主要是由于工程类RL训练数据还不够多,因此DeepSeek-R1在这方面的能力尚未完全发挥。 在下一版本中,可能会看到其在这一领域的明显提升。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

下图展示了DeepSeek-R1和DeepSeek-R1-Zero在多项基准竞赛中与人类专家的性能对比:
* AIME数学竞赛:DeepSeek-R1得分已超越人类的平均水平。
* Codeforces编程竞赛:DeepSeek-R1的表现超过了93.6%的参赛者,解题能力超强。
* GPQA科学问答:人类整体实力更强,表现优于DeepSeek-R1。

DeepSeek认为,如果让R1具备联网能力,说不定就能追上甚至赶超人类目前的水平。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

在人工评估阶段,采用了ChatbotArena擂台,通过ELO分数来体现DeepSeek-R1在人类偏好上的表现。显然,R1取得了亮眼的成绩。尤其是在「风格控制」方面,它与OpenAI-o1、Gemini-Exp-1206打成平手,并列第一。

「风格控制」这一设计直接回应了一个关键问题:模型是否可能通过生成更长、更精致或更好看的回答来「取悦」人类评审,即使其内容本身并不一定更强。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

DeepSeek强调,一个基于MIT协议的开源模型,其整体表现能与多款闭源AI相媲美,这无疑是一个重要的里程碑。尤其是在DeepSeek-R1使用成本更低的情况下。

下图进一步展示了不同评测维度下的排名结果,呈现了R1在数学、编程等多个领域的强劲实力。这表明,R1不仅推理能力强,在各种实际应用场景中的整体表现也相当稳健。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

在数据方面,DeepSeek公布了具体的RL数据和微调数据规模。
* 强化学习阶段:数据分配比例为数学(26k)、代码(17k)、STEM(22k)、逻辑(15k)、通用(66k)。
* 微调阶段:数据规模约800k,覆盖了推理、通用指令任务、格式/语言一致性样本。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

蒸馏,让推理能力一键迁移

在蒸馏部分,DeepSeek回答了这个问题:DeepSeek-R1学到的「推理能力」,能否有效、稳定地迁移到更小的模型上?

这里,DeepSeek-R1作为「教师」模型,生成高质量、显式的推理轨迹数据,然后通过监督微调(SFT)将推理能力「蒸馏」给更小的「学生」模型,而不是让小模型重新跑一遍RL。通过蒸馏,小模型直接学习R1已经验证有效的推理模式,无需重新探索奖励空间。

论文中,DeepSeek实验性地蒸馏了多个规模的模型,包括1.5B、7B、8B、14B、32B、70B,系统性地验证了这种方法的「跨尺度有效性」。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

与同尺寸的基线模型相比,经过蒸馏的模型性能得到了全面提升。这揭示了一个重要现象:推理能力并没有「锁死」在大模型中,而是能够通过数据有效地迁移到小模型。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

在训练成本方面:
* DeepSeek-R1-Zero使用了64×8张H800 GPU,整体训练耗时约198小时。
* DeepSeek-R1训练阶段沿用了相同的GPU配置,在大约4天(约80小时)内完成。
* 在构建监督微调(SFT)数据集的过程中,共消耗了约5000 GPU小时。
总计花费约为29.4万美元(详情参见论文表7)。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

有网友表示,所有证据都已摆在这里。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

智能涌现!DeepSeek-R1-Zero的确在自我进化

在MATH数据集上,DeepSeek-R1-Zero的学习模式与人类高度相似!对人类而言较为简单的推理任务,DeepSeek-R1-Zero在训练早期便迅速掌握;而在复杂推理问题(难度3–5级)上的能力,则会随着训练进程显著提升。

具体来说,下图揭示了不同的学习模式:
* 简单问题(1-3级)迅速达到高准确率(0.90-0.95)并在整个训练过程中保持稳定。
* 困难问题则被逐步攻克——4级问题的准确率从开始的约0.78提升到0.95;最难的5级问题提升最为明显,从约0.55提升到0.90。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

一个有趣的现象是,在较难问题(3-4级)上的准确率,DeepSeek-R1-Zero偶尔会以微弱优势超过其在较简单问题(1级)上的表现。这看似反直觉,可能与数据集的特征有关。

在高级推理任务上,DeepSeek-R1-Zero也表现出类似的涌现现象,这证明了两个重要结论:
1. 在生成长链中间token的过程中,强化学习发挥了关键作用。
2. 在训练的特定阶段,AI模型学会了不同形式的反思。

首先,如下图9(a)所示,研究统计了一些具有代表性的反思性词汇,包括

wait、mistake、however、but、retry、error、verify、wrong、evaluate和check。

如图a所示,随着训练的进行,反思行为的频率逐渐增加:反思性词汇的数量相比训练开始时增加了5到7倍。

其次,特定的反思行为可能在训练过程中的特定时间点出现。

如图b所示,「wait」反思策略在训练早期几乎不存在,在4000-7000步之间偶尔出现,然后在8000步之后显著增加。

总之,他们观察到模型在训练过程中的反思行为逐渐增加,而某些反思模式(如使用「wait」)则在训练过程的特定时间点出现。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

安全问题:行业重点在越狱攻击

DeepSeek-R1的安全风险具体分析包括以下5个方面:

  1. DeepSeek-R1官方服务所采用的风险控制体系;
  2. 与当前先进模型在六项公开安全基准测试中的对比安全评估;
  3. 基于内部安全测试集的分类研究;
  4. 对R1模型在多语言场景下的安全性评估;
  5. 模型在应对越狱攻击方面的稳健性评估。

DeepSeek-R1的风险控制体系通过向DeepSeek-V3发送「风险审查提示词」(risk review prompt)来实现,具体包括以下两个主要流程:

首先,过滤潜在风险对话。 在每轮对话结束后,系统会自动将用户的提问与一组预设关键词列表进行匹配。

其次,基于模型审查风险。 被标记为潜在风险的对话将与预设的「风险审查提示词」拼接在一起,并发送给DeepSeek-V3模型进行审查。系统会根据模型的判断结果,决定是否撤回该轮对话内容。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

实验结果显示,与其他前沿模型相比,DeepSeek-R1在整体安全性上与其他先进模型表现相当。

然而,在HarmBench测试中,R1的表现明显落后,主要源于R1在涉及「知识产权」的相关问题上表现欠佳。除此之外,在其他安全类别的评估中(如歧视与偏见、暴力与极端主义、隐私侵犯等),R1模型表现稳定,展现出较强的安全防护能力。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

此外,他们特别构建了一个内部安全评估数据集,以系统监测模型的整体安全水平。

他们将大语言模型可能面临的内容安全挑战划分为4个一级类目和28个细分子类,具体分类如下:

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

最终,他们共构建了1,120道测试题,用于对模型的安全性进行系统性评估。

在未启用控制时,DeepSeek-R1与DeepSeek-V3的基础模型拒答率较低,但不安全率较高。启用风险控制后,不安全率明显下降,但拒答率升高(约25%)。 DeepSeek-R1在处理违法犯罪类问题伦理道德类问题时表现出色,而在应对歧视偏见类问题有害行为类问题时则表现一般。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

评估模型在不同语言之间的安全差异同样至关重要。为此,他们将此前构建的中英双语安全测试集扩展至50种常用语言。

最终,他们构建出一个包含9,330个问题的多语言安全测试集。引入风险控制后,DeepSeek-V3(86.5%)与DeepSeek-R1(85.9%)在50种语言中的整体安全得分接近Claude-3.7-Sonnet(88.3%)的表现。

图14中展示了DeepSeek-V3、DeepSeek-R1(启用与未启用风险控制系统)以及Claude-3.7-Sonnet和GPT-4o(2024-05-13)在50种语言下的表现。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

越狱攻击测试中,他们得出三大结论:

  • 越狱攻击对所有模型均构成显著威胁
  • 推理型模型更依赖风险控制系统
  • 开源模型越狱风险更高
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

总结:基础模型、验证器很重要

基础模型很重要。

在开发的最初阶段,他们曾尝试使用较小规模的模型作为强化学习(RL)训练的起点。然而,在以AIME基准作为主要验证集的评测中,这些模型始终未能带来实质性的性能提升。

为了解决这些问题,他们转而采用更大规模、能力更强的模型。

在这些架构上,他们首次清晰地观察到纯RL训练所带来的显著性能收益。

这一结果表明,从基础模型出发进行强化学习,其效果在很大程度上取决于模型本身的容量与表达能力。

验证器很重要。

DeepSeek-R1-Zero的训练效果高度依赖于奖励信号本身的可靠性和准确性。

根据目前的实验结果,有两种方式可以有效缓解奖励作弊(即模型学会「钻奖励规则空子」)的问题:

一是基于规则的奖励模型(Reward Models,RMs),二是利用大语言模型来判断生成答案是否与预先定义的标准答案一致。

迭代式训练流水线中,RL、SFT缺一不可。

他们提出了一套包含监督微调(SFT)和强化学习(RL)的多阶段训练流水线。

DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

RL与SFT在整个训练流程中缺一不可。单独依赖RL,容易在问题本身定义不清的任务中引发奖励作弊和次优行为;而只依赖SFT,则可能限制模型通过探索进一步提升其推理能力。

他们同样经历了不少失败与挫折,包括过程奖励模型(Process Reward Model,PRM)和蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)。

但这并不意味着这些方法本身无法用于构建有效的推理模型。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17445

(0)
上一篇 2026年1月8日 下午1:49
下一篇 2026年1月8日 下午2:12

相关推荐

  • ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

    多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…

    2025年12月17日
    10200
  • 性能远超 vLLM 和 SGLang!TileRT:编译器驱动下的 Tile-Based Runtime

    关键词:TileRT、超低延迟、LLM推理、tile 级运行时 、多GPU、编译器驱动 TileRT: Tile-Based Runtime for Ultra-Low-Latency LLM Inference https://github.com/tile-ai/TileRT https://github.com/tile-ai/TileRT/relea…

    2025年12月21日
    13400
  • 清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

    清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍 现在,生成一个视频可能比你刷视频还要快。 一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。 以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9…

    2025年12月25日
    8000
  • 推理成本突破1元/百万token:浪潮信息元脑HC1000如何重塑AI产业竞争格局

    当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本” 不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。 在此大背景下,浪潮信息推出元脑HC1000超扩展AI服务器 ,将推理成本首次击穿至1元/每百万token 。 这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑AI产业竞争的底层逻辑。 浪…

    2025年12月26日
    13500
  • vLLM Playground:可视化界面让大模型推理部署零门槛

    用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…

    2025年12月29日
    8600