大模型训练
-
RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱
近年来,大模型在数学推理、代码生成等任务上取得突破,其背后一个关键技术是RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习)。 简单来说,RLVR并非让模型被动接受人工评分,而是让模型主动生成多种解法,并依据可验证的客观规则(如答案是否正确)进行自我改进。这种通过反复试错来提升性能的模…
-
国产算力新纪元:阿里真武810E GPU性能超越英伟达A800,开启万卡集群时代
前言:算力突围,国产GPU迎来里程碑式突破 2026年1月29日,中国算力产业迎来历史性时刻——阿里平头哥官网上线一款名为“真武810E”的高端AI芯片,这款定位为并行处理单元(PPU)的GPU算力芯片,以“性能超越英伟达A800、支持万卡集群部署、全栈自研软硬件”三大核心亮点,瞬间引爆科技圈与资本市场。 这并非一次仓促的新品亮相,而是一场历经六年秘密研发、…
-
千P级智算中心建设方案:AI大模型时代的算力基石
一、算力中心建设方案 (一) 建设规模 AI大模型时代已经来临,人工智能技术的创新与变革催生出几何级增长的算力需求。据OpenAI数据显示,算力需求每3至4个月便需翻倍。大模型虽增强了AI技术的通用性,助力行业AI普惠化,但其参数量已攀升至数千亿级别,训练数据集规模亦高达TB级别。通常,完成单个大模型的训练即需投入超过200 PFlops的智能算力资源。综合…
-
强化学习云:大模型训练下半场的新引擎与基础设施革命
2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…
-
Tinker革新大模型训练:从“作坊炼丹”到“工业微调”的API革命
当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时,它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语,从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单,标志着行业正从“作坊式炼丹”向…
-
突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率
Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…
-
2026年LLM微调全指南:从基础概念到实战应用的完整路径
这不是一篇“速读”文章,但如果你能读到最后,作为一名 AI 从业者,你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然,本文无法涵盖所有细节;对各个概念、方法与工具的详略安排,均基于其重要性与相关性。 LLM finetuning 是什么?LLM(Large Language Model)是在海量通用文本上预训练的语言模型。➡ LLM …
-
智谱AI唐杰:领域大模型是伪命题,在线学习与自我评估将成新Scaling范式
清华大学教授、智谱AI首席科学家唐杰近期发表长文,总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开,提出了若干关键论断。 唐杰教授的核心观点在于,大模型正从“学会世界”走向“进入世界”,真正的挑战已从智能本身转向如何将智能转化为现实生产力。 他强调,Agent的落地是模型从认知系统转变为生产系统的关…
-
SuperOffload:超级芯片时代LLM训练的革命性卸载系统,吞吐量提升2.5倍,解锁百万token序列训练
关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…
-
SuperOffload:解锁超级芯片潜能,4芯片训练50B模型,吞吐量提升2.5倍,实现55% MFU
关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…