大模型训练

Meta与ThinkMachine联手突破MoE训练内存墙：MoEBlaze框架实现内存降低4倍、训练加速6倍

关键词： MoEBlaze 、内存墙、MoE 训练、索引化路由在当今大模型浪潮中，参数规模已突破万亿，训练成本与内存压力成为制约模型规模继续扩大的关键瓶颈。混合专家模型（Mixture-of-Experts, MoE）因其能够以稀疏激活的方式实现万亿参数级别的模型训练，已成为大规模语言模型的主流架构之一。然而，MoE 的稀疏性在降低计算密度的同时，也…

2026年1月13日

437000

大模型训练

强化学习云：大模型训练下半场的新引擎与基础设施革命

2024年底，硅谷和北京的业界人士都在讨论同一个令人不安的话题：Scaling Law似乎正在撞墙。当时，尽管英伟达的股价仍在飙升，但多方信源显示，包括备受期待的Orion（原计划的GPT-5）在内，新一代旗舰模型在单纯增加参数规模和训练数据后，并未展现出预期的边际效益提升。同时，也有研究认为高质量预训练数据将很快耗尽，甚至预测了明确的时间节点：2028年…

2026年1月12日

292000

大模型训练

英伟达GDPO：突破GRPO局限，精准优化多奖励强化学习

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。然而，随着语言模型能力的不断提升，用户对它们的期待也在发生变化：不仅要回答正确，还要在各种不同场景下表现出符合多样化人类偏好的行为。为此，强化学习训练流程开始引入多种奖励信号，每一种奖励对应一种不同的偏好，用来共…

2026年1月11日

484000

大模型训练

Tinker革新大模型训练：从“作坊炼丹”到“工业微调”的API革命

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时，它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语，从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单，标志着行业正从“作坊式炼丹”向…

2026年1月7日

417000

大模型训练

8元跑通RL全流程！潞晨云微调SDK：算法与Infra解耦，1人顶替整支团队

大模型下半场的战火，已经从“暴力预训练”烧向了“后训练”战场。无论是OpenAI o1的推理突破，还是DeepSeek-R1靠强化学习（RL）实现的性能飞跃，都释放了一个明确信号：决定模型天花板的，不再只是算力堆砌，而是更精准的微调和RL迭代。但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优，像一道道高墙，把无数算法工程师挡在了“炼…

2026年1月7日

286000

大模型训练

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

Transformer 架构已经深刻改变了世界，但它并非完美无缺，线性递归（Linear Recurrences）或状态空间模型（SSM）等竞争者正试图在保持模型质量的同时，显著提升计算性能和效率。然而，现有的线性递归或状态空间模型虽然在理论上具有线性复杂度，但在高性能 GPU 上的实际表现往往不尽如人意，受限于内存带宽和全局同步带来的高昂通信成本。近日…

2026年1月7日

310000

大模型训练

MobileRL：突破端侧GUI智能体训练瓶颈，AndroidWorld成功率超80%的强化学习新框架

关键词：MobileRL框架、端侧GUI智能体、强化学习、ADAGRPO算法、Android基准测试 MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents https://arxiv.org/pdf/2509.18119 代码：https://github.com/THUD…

2026年1月6日

350000

大模型训练

2026年LLM微调全指南：从基础概念到实战应用的完整路径

这不是一篇“速读”文章，但如果你能读到最后，作为一名 AI 从业者，你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然，本文无法涵盖所有细节；对各个概念、方法与工具的详略安排，均基于其重要性与相关性。 LLM finetuning 是什么？LLM（Large Language Model）是在海量通用文本上预训练的语言模型。➡ LLM …

2026年1月4日

797010

大模型训练

Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

“超级智能”是 Meta 长期坚持的宏大愿景，其目标是构建能够超越人类专家水平的自主 AI 智能体。然而，这一雄心勃勃的目标也引发了内部的不同声音。前 Meta FAIR 负责人 Yann LeCun 曾评论道：“通往超级智能…在我看来完全是胡扯，这条路根本行不通。” 尽管如此，Meta 的研究仍在持续推进。在 AI 智能体应用的典型领域——编程中，基于大语…

2026年1月2日

429000

大模型训练

Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

“超级智能”是 Meta 长期坚持的宏大愿景。为了加速实现这一目标，Meta 的研究部门正经历着深刻的变革。尽管前 FAIR 负责人 Yann LeCun 曾对某些实现路径表示质疑，但构建一个能够超越人类专家水平的自主 AI 智能体，无疑是人工智能领域最具雄心的前沿目标之一。在众多落地领域中，编程是 AI 智能体执行任务的代表性场景。当前，基于大语言模型（…

2026年1月2日

408000