大模型训练_鲸林向海

RLVR/GRPO组内优势估计的系统性偏差：揭秘大模型训练中的隐藏陷阱

近年来，大模型在数学推理、代码生成等任务上取得突破，其背后一个关键技术是RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习）。简单来说，RLVR并非让模型被动接受人工评分，而是让模型主动生成多种解法，并依据可验证的客观规则（如答案是否正确）进行自我改进。这种通过反复试错来提升性能的模…

3天前

8000

AI产业动态

国产算力新纪元：阿里真武810E GPU性能超越英伟达A800，开启万卡集群时代

前言：算力突围，国产GPU迎来里程碑式突破 2026年1月29日，中国算力产业迎来历史性时刻——阿里平头哥官网上线一款名为“真武810E”的高端AI芯片，这款定位为并行处理单元（PPU）的GPU算力芯片，以“性能超越英伟达A800、支持万卡集群部署、全栈自研软硬件”三大核心亮点，瞬间引爆科技圈与资本市场。这并非一次仓促的新品亮相，而是一场历经六年秘密研发、…

3天前

103000

大模型训练

千P级智算中心建设方案：AI大模型时代的算力基石

一、算力中心建设方案 (一) 建设规模 AI大模型时代已经来临，人工智能技术的创新与变革催生出几何级增长的算力需求。据OpenAI数据显示，算力需求每3至4个月便需翻倍。大模型虽增强了AI技术的通用性，助力行业AI普惠化，但其参数量已攀升至数千亿级别，训练数据集规模亦高达TB级别。通常，完成单个大模型的训练即需投入超过200 PFlops的智能算力资源。综合…

4天前

20000

大模型训练

强化学习云：大模型训练下半场的新引擎与基础设施革命

2024年底，硅谷和北京的业界人士都在讨论同一个令人不安的话题：Scaling Law似乎正在撞墙。当时，尽管英伟达的股价仍在飙升，但多方信源显示，包括备受期待的Orion（原计划的GPT-5）在内，新一代旗舰模型在单纯增加参数规模和训练数据后，并未展现出预期的边际效益提升。同时，也有研究认为高质量预训练数据将很快耗尽，甚至预测了明确的时间节点：2028年…

2026年1月12日

56000

大模型训练

Tinker革新大模型训练：从“作坊炼丹”到“工业微调”的API革命

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时，它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语，从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单，标志着行业正从“作坊式炼丹”向…

2026年1月7日

75000

大模型训练

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

Transformer 架构已经深刻改变了世界，但它并非完美无缺，线性递归（Linear Recurrences）或状态空间模型（SSM）等竞争者正试图在保持模型质量的同时，显著提升计算性能和效率。然而，现有的线性递归或状态空间模型虽然在理论上具有线性复杂度，但在高性能 GPU 上的实际表现往往不尽如人意，受限于内存带宽和全局同步带来的高昂通信成本。近日…

2026年1月7日

70000

大模型训练

2026年LLM微调全指南：从基础概念到实战应用的完整路径

这不是一篇“速读”文章，但如果你能读到最后，作为一名 AI 从业者，你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然，本文无法涵盖所有细节；对各个概念、方法与工具的详略安排，均基于其重要性与相关性。 LLM finetuning 是什么？LLM（Large Language Model）是在海量通用文本上预训练的语言模型。➡ LLM …

2026年1月4日

79000

大模型工程

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文，总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开，提出了若干关键论断。唐杰教授的核心观点在于，大模型正从“学会世界”走向“进入世界”，真正的挑战已从智能本身转向如何将智能转化为现实生产力。他强调，Agent的落地是模型从认知系统转变为生产系统的关…

2025年12月26日

82000

大模型训练

SuperOffload：超级芯片时代LLM训练的革命性卸载系统，吞吐量提升2.5倍，解锁百万token序列训练

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

96000

大模型训练

SuperOffload：解锁超级芯片潜能，4芯片训练50B模型，吞吐量提升2.5倍，实现55% MFU

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

113000