大模型训练

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

在数值分析领域，Newton-Schulz及其相关方法已被研究多年，但大多数工作关注的是高精度计算、CPU优化或方阵输入。近日，来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法，使其更适配GPU硬件和大规模模型训练场景。实验表明，该算法在训练万亿参数的混合专家模型时，可…

2026年4月1日

339000

大模型训练

自我蒸馏的陷阱：为何AI“抄袭”自己思考反而损害数学推理能力？

自我蒸馏的陷阱：为何AI“抄袭”自己思考反而损害数学推理能力？当 AI 试图通过“抄袭”自己的思考过程来变得更高效时，它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。在人工智能领域，一种名为“自我蒸馏”（Self-Distillation）的后训练范式正迅速崛起。其核心思想极具吸引力：让模型自己充当老师，利用更丰富的上下文信息（如标准答案）来指导学…

2026年3月30日

394000

大模型训练

NCCLbpf：用eBPF为GPU集群通信插上安全与性能的双翼，破解AI训练可靠性难题

关键词：NCCL、eBPF、GPU集群通信、安全扩展、性能优化在AI训练集群中，NCCL插件导致的崩溃占故障的30%以上，而一次策略更新往往意味着整个训练任务的重启。NCCLbpf通过将eBPF的验证机制引入GPU通信库，以80-130纳秒的极低开销，实现了插件的安全执行与原子热更新，在8-GPU NVLink环境下提升AllReduce吞吐量高达27%。…

2026年3月29日

307000

大模型训练

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

论文标题：Heterogeneous Agent Collaborative Reinforcement Learning 论文链接：https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface…

2026年3月20日

303000

大模型训练

OpenClaw-RL：让AI越用越聪明的开源框架，北大博士团队破解AI智能体训练难题

过去一周，一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体，其体验过程颇具戏剧性：从用户争相部署，到因使用问题（如账号安全、文件误操作）而匆忙卸载，周期可能短至一周。那么，如何让此类 AI 智能体在使用中持续改进，而非引发问题？北京大学博士、美国普林斯顿大学博士后研究员杨灵（合作导师为王梦迪教授）及其…

2026年3月16日

747000

大模型训练

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

在大型语言模型（LLM）的开发流程中，后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为，模型必须通过强化学习（如PPO、GRPO或RLHF）或进化策略等算法，在反复的迭代和梯度优化中调整权重，才能在特定任务上达到理想性能。然而，MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

2026年3月15日

507000

大模型训练

AI自主科研新突破：Karpathy项目引发智能体群体协作，4天完成2000+实验

AI自主科研新突破：Karpathy项目引发智能体群体协作，4天完成2000+实验 Karpathy的Autoresearch项目仅用630行Python代码，就让AI自主完成了276次实验，筛选出29项有效改进，将语言模型的训练效率提升了约11%，全程无需人类干预。然而，更引人注目的进展发生在此之后。全球开发者社区接手项目，将其从“单个AI做实验”升级为…

2026年3月15日

349000

大模型训练

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

如果有一天，大语言模型不再依赖人类语言进行训练，会发生什么？近年来，大模型能力的飞跃几乎都建立在一个前提之上：海量的文本数据。然而，随着高质量文本资源逐渐逼近极限，研究者开始提出一个更根本的问题：语言，真的是智能的起点吗？一项最新研究给出了一个出人意料的答案：或许不是。研究团队假设，让语言模型在学习语言之前，先在完全非语言的合成数据上进行“预预训练”（p…

2026年3月14日

413000

大模型训练

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤，研究方向为大模型智能体与强化学习，导师为兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够有效提升大语言模型（LLMs）在思维链（Chain-of-Thou…

2026年3月13日

388000

大模型训练

MetaClaw：让AI聊天中自我进化，无需GPU集群的在线强化学习系统

让AI聊天助手仅仅完成任务已不够，现在，开发者正致力于让 AI实现自我进化。关键之处在于，这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统，为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集，也无需人工微调，旨在让AI在与用户的日常对话中持续学习、自主变强。其核心在于将用户与AI的自然对话直接转化为训…

2026年3月12日

741000