大模型训练

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

Transformer 架构已经深刻改变了世界，但它并非完美无缺，线性递归（Linear Recurrences）或状态空间模型（SSM）等竞争者正试图在保持模型质量的同时，显著提升计算性能和效率。然而，现有的线性递归或状态空间模型虽然在理论上具有线性复杂度，但在高性能 GPU 上的实际表现往往不尽如人意，受限于内存带宽和全局同步带来的高昂通信成本。近日…

2026年1月7日

136000

大模型训练

2026年LLM微调全指南：从基础概念到实战应用的完整路径

这不是一篇“速读”文章，但如果你能读到最后，作为一名 AI 从业者，你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然，本文无法涵盖所有细节；对各个概念、方法与工具的详略安排，均基于其重要性与相关性。 LLM finetuning 是什么？LLM（Large Language Model）是在海量通用文本上预训练的语言模型。➡ LLM …

2026年1月4日

137010

大模型工程

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文，总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开，提出了若干关键论断。唐杰教授的核心观点在于，大模型正从“学会世界”走向“进入世界”，真正的挑战已从智能本身转向如何将智能转化为现实生产力。他强调，Agent的落地是模型从认知系统转变为生产系统的关…

2025年12月26日

166000

大模型训练

SuperOffload：超级芯片时代LLM训练的革命性卸载系统，吞吐量提升2.5倍，解锁百万token序列训练

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

177000

大模型训练

SuperOffload：解锁超级芯片潜能，4芯片训练50B模型，吞吐量提升2.5倍，实现55% MFU

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

174000

AI产业动态

卡帕西2025大模型预言：RLVR革命、锯齿智能与端侧智能体崛起

鹭羽发自凹非寺 2025年有哪些AI趋势？大神卡帕西的年终总结正在硅谷引发热议。他提出了六大硬核且富有启发性的论断： RLVR （可验证奖励强化学习）成为训练新阶段大模型不应被类比为动物智能 Cursor展现了大模型应用的Next Level Claude Code加速端侧智能体普及 Vibe Coding将重塑软件行业 Nano Banana重塑…

2025年12月20日

178000