大模型训练

  • RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

    近年来,大模型在数学推理、代码生成等任务上取得突破,其背后一个关键技术是RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习)。 简单来说,RLVR并非让模型被动接受人工评分,而是让模型主动生成多种解法,并依据可验证的客观规则(如答案是否正确)进行自我改进。这种通过反复试错来提升性能的模…

    3天前
    800
  • Meta揭秘:保障万亿参数AI模型稳定训练的硬件可靠性之战

    关键词:AI 硬件可靠性、沉默数据损坏(SDC)、故障检测机制、硬件故障缓解、Meta 硬件故障会对 AI 训练和推理产生重大影响。 静默数据损坏(SDC,指由硬件导致、未被检测到的数据错误)对 AI 系统的危害尤为严重——这类系统无论是训练过程还是生成有用输出,都依赖于准确的数据。 本文将分享 Meta 在不同规模下,为检测 AI 和非 AI 基础设施中的…

    4天前
    900
  • 千P级智算中心建设方案:AI大模型时代的算力基石

    一、算力中心建设方案 (一) 建设规模 AI大模型时代已经来临,人工智能技术的创新与变革催生出几何级增长的算力需求。据OpenAI数据显示,算力需求每3至4个月便需翻倍。大模型虽增强了AI技术的通用性,助力行业AI普惠化,但其参数量已攀升至数千亿级别,训练数据集规模亦高达TB级别。通常,完成单个大模型的训练即需投入超过200 PFlops的智能算力资源。综合…

    4天前
    1100
  • 马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

    全球首个GW级超算集群Colossus 2震撼上线 刚刚,全球首个GW级超算集群Colossus 2,正式投入运行。 马斯克兴奋地宣布: 这是全球首个达到1GW的超算集群,4月还将进一步升级至1.5GW。 网友直呼疯狂:「1.5GW,光是插座估计都得给墙壁装满了。」 有了这剂算力强心针,Grok的忠实拥趸已经开始畅想Grok 5的统治时代。 但在全网狂欢的背…

    2026年1月18日
    9800
  • Self-E框架:无需教师蒸馏,实现任意步数高质量文生图

    尽管扩散模型与流匹配方法已将文本到图像生成推向了更高的视觉质量与可控性,但它们通常在推理时需要数十步网络迭代,这限制了其在需要低延迟或实时响应的应用场景中的潜力。 为了降低推理步数,现有方法通常依赖于知识蒸馏:首先训练一个多步的教师模型,然后将能力迁移到少步的学生模型。然而,这条路径的代价同样显著——它既依赖于预训练的教师模型,又引入了额外的训练开销,并且在…

    2026年1月15日
    7100
  • Meta与ThinkMachine联手突破MoE训练内存墙:MoEBlaze框架实现内存降低4倍、训练加速6倍

    关键词: MoEBlaze 、内存墙、MoE 训练 、索引化路由 在当今大模型浪潮中,参数规模已突破万亿,训练成本与内存压力成为制约模型规模继续扩大的关键瓶颈。混合专家模型(Mixture-of-Experts, MoE) 因其能够以稀疏激活的方式实现万亿参数级别的模型训练,已成为大规模语言模型的主流架构之一。 然而,MoE 的稀疏性在降低计算密度的同时,也…

    2026年1月13日
    10500
  • 强化学习云:大模型训练下半场的新引擎与基础设施革命

    2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…

    2026年1月12日
    5600
  • 英伟达GDPO:突破GRPO局限,精准优化多奖励强化学习

    GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 然而,随着语言模型能力的不断提升,用户对它们的期待也在发生变化:不仅要回答正确,还要在各种不同场景下表现出符合多样化人类偏好的行为。为此,强化学习训练流程开始引入多种奖励信号,每一种奖励对应一种不同的偏好,用来共…

    2026年1月11日
    8100
  • SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法

    Youtu-Agent团队 投稿 量子位 | 公众号 QbitAI 在学校里做实验时,老师如何确认学生完成了实验并达到了预期效果?最常见的做法是要求学生提交一份实验报告。 那么,当AI智能体执行一项任务后,我们如何检验其执行效果是否达标?一个可行的思路是:让AI在执行任务的同时,主动收集并提交一份“证据链报告”。智能体可以边执行边取证,自我检查是否符合预期,…

    2026年1月10日
    4700
  • Tinker革新大模型训练:从“作坊炼丹”到“工业微调”的API革命

    当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时,它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语,从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单,标志着行业正从“作坊式炼丹”向…

    2026年1月7日
    7500