大模型训练
-
PyTorch与TPU深度融合!TorchTPU项目发布:三行代码切换,让TPU成为PyTorch一等公民
TorchTPU:三行代码切换,让TPU成为PyTorch一等公民 关键词:PyTorch、TPU、TorchTPU、XLA、分布式训练 在2026年PyTorch欧洲大会上,Meta与Google联合发布了TorchTPU项目,这是全场最重磅的技术发布。 这并非一个普通的硬件适配插件,而是双方深度打通PyTorch框架与Google TPU硬件的原生解决方…
-
Sol-RL:NVIDIA联合团队突破扩散模型强化学习算力瓶颈,FP4探索+BF16训练实现高效对齐
关键词:扩散模型强化学习(Diffusion RL)、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构 在文本到图像扩散模型的后训练对齐领域,GRPO 等强化学习方法虽效果显著,却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架,并未采用对模型进行直接粗暴…
-
SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式
小模型如何成为智能体专家? 传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。 为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无…
-
PyTorch torch.compile性能突破:LayerNorm与RMSNorm内核优化,GPU性能提升至SOTA水平
关键词:torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子,用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上,其内核性能直接决定了整体训练吞吐量。 目前,业界顶尖的归一化内核多依赖于手工深度优化。…
-
GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…
-
自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力? 当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。 在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学…
-
NCCLbpf:用eBPF为GPU集群通信插上安全与性能的双翼,破解AI训练可靠性难题
关键词:NCCL、eBPF、GPU集群通信、安全扩展、性能优化 在AI训练集群中,NCCL插件导致的崩溃占故障的30%以上,而一次策略更新往往意味着整个训练任务的重启。NCCLbpf通过将eBPF的验证机制引入GPU通信库,以80-130纳秒的极低开销,实现了插件的安全执行与原子热更新,在8-GPU NVLink环境下提升AllReduce吞吐量高达27%。…
-
异构智能体协同强化学习:打破模型孤岛,实现双向互学与高效部署
论文标题:Heterogeneous Agent Collaborative Reinforcement Learning 论文链接:https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface…
-
OpenClaw-RL:让AI越用越聪明的开源框架,北大博士团队破解AI智能体训练难题
过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。 那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其…
-
MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力
在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…
