大模型训练
-
SuperOffload:超级芯片时代LLM训练的革命性卸载系统,吞吐量提升2.5倍,解锁百万token序列训练
关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…
-
Gemini3预训练负责人揭秘:从无限数据到数据受限,AI研究正演变为复杂系统工程
Gemini 3的逆袭,给业界带来了太多的惊喜和问号。 与此前不同的是,业界到现在似乎也没有逆向出Gemini3的秘方出来。 本周五,继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后,终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。 Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjo…
-
SuperOffload:解锁超级芯片潜能,4芯片训练50B模型,吞吐量提升2.5倍,实现55% MFU
关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…
-
构建自我进化的AI智能体:从静态提示到动态协作训练架构全解析
在智能体(Agentic)系统中,无论是用于工具调用还是复杂推理,其行动通常由提示词(Prompts)引导。然而,传统的提示词是静态的,它们仅能提供行动步骤,却无法实现自我进化。真正的智能体训练(Agentic Training)源于系统在动态环境中的学习、适应与协作能力。 在智能体架构中,每个子智能体(Sub-Agent)的目标各异,这意味着单一的算法无法…
-
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。
-
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架—— Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。 不…
-
“微调已死”新佐证:谷歌革新AI学习范式,开创双向经验学习之路
谷歌提出ReasoningBank技术,使AI能通过从自身成功与失败的经验中学习,形成一个持续自我优化的闭环,从而减少对传统微调的依赖。