大模型训练

千P级智算中心建设方案：AI大模型时代的算力基石

一、算力中心建设方案 (一) 建设规模 AI大模型时代已经来临，人工智能技术的创新与变革催生出几何级增长的算力需求。据OpenAI数据显示，算力需求每3至4个月便需翻倍。大模型虽增强了AI技术的通用性，助力行业AI普惠化，但其参数量已攀升至数千亿级别，训练数据集规模亦高达TB级别。通常，完成单个大模型的训练即需投入超过200 PFlops的智能算力资源。综合…

2026年1月29日

227000

大模型训练

强化学习云：大模型训练下半场的新引擎与基础设施革命

2024年底，硅谷和北京的业界人士都在讨论同一个令人不安的话题：Scaling Law似乎正在撞墙。当时，尽管英伟达的股价仍在飙升，但多方信源显示，包括备受期待的Orion（原计划的GPT-5）在内，新一代旗舰模型在单纯增加参数规模和训练数据后，并未展现出预期的边际效益提升。同时，也有研究认为高质量预训练数据将很快耗尽，甚至预测了明确的时间节点：2028年…

2026年1月12日

143000

大模型训练

Tinker革新大模型训练：从“作坊炼丹”到“工业微调”的API革命

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时，它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语，从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单，标志着行业正从“作坊式炼丹”向…

2026年1月7日

201000

大模型训练

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

Transformer 架构已经深刻改变了世界，但它并非完美无缺，线性递归（Linear Recurrences）或状态空间模型（SSM）等竞争者正试图在保持模型质量的同时，显著提升计算性能和效率。然而，现有的线性递归或状态空间模型虽然在理论上具有线性复杂度，但在高性能 GPU 上的实际表现往往不尽如人意，受限于内存带宽和全局同步带来的高昂通信成本。近日…

2026年1月7日

167000

大模型训练

2026年LLM微调全指南：从基础概念到实战应用的完整路径

这不是一篇“速读”文章，但如果你能读到最后，作为一名 AI 从业者，你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然，本文无法涵盖所有细节；对各个概念、方法与工具的详略安排，均基于其重要性与相关性。 LLM finetuning 是什么？LLM（Large Language Model）是在海量通用文本上预训练的语言模型。➡ LLM …

2026年1月4日

194010

大模型工程

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文，总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开，提出了若干关键论断。唐杰教授的核心观点在于，大模型正从“学会世界”走向“进入世界”，真正的挑战已从智能本身转向如何将智能转化为现实生产力。他强调，Agent的落地是模型从认知系统转变为生产系统的关…

2025年12月26日

201000

大模型训练

SuperOffload：超级芯片时代LLM训练的革命性卸载系统，吞吐量提升2.5倍，解锁百万token序列训练

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

212000

大模型训练

SuperOffload：解锁超级芯片潜能，4芯片训练50B模型，吞吐量提升2.5倍，实现55% MFU

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

202000

AI产业动态

卡帕西2025大模型预言：RLVR革命、锯齿智能与端侧智能体崛起

鹭羽发自凹非寺 2025年有哪些AI趋势？大神卡帕西的年终总结正在硅谷引发热议。他提出了六大硬核且富有启发性的论断： RLVR （可验证奖励强化学习）成为训练新阶段大模型不应被类比为动物智能 Cursor展现了大模型应用的Next Level Claude Code加速端侧智能体普及 Vibe Coding将重塑软件行业 Nano Banana重塑…

2025年12月20日

208000