大模型训练

  • GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

    在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…

    2026年4月1日
    33900
  • 自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?

    自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力? 当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。 在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学…

    2026年3月30日
    39400
  • NCCLbpf:用eBPF为GPU集群通信插上安全与性能的双翼,破解AI训练可靠性难题

    关键词:NCCL、eBPF、GPU集群通信、安全扩展、性能优化 在AI训练集群中,NCCL插件导致的崩溃占故障的30%以上,而一次策略更新往往意味着整个训练任务的重启。NCCLbpf通过将eBPF的验证机制引入GPU通信库,以80-130纳秒的极低开销,实现了插件的安全执行与原子热更新,在8-GPU NVLink环境下提升AllReduce吞吐量高达27%。…

    2026年3月29日
    30700
  • 异构智能体协同强化学习:打破模型孤岛,实现双向互学与高效部署

    论文标题:Heterogeneous Agent Collaborative Reinforcement Learning 论文链接:https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface…

    2026年3月20日
    30300
  • OpenClaw-RL:让AI越用越聪明的开源框架,北大博士团队破解AI智能体训练难题

    过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。 那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其…

    2026年3月16日
    74700
  • MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

    在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

    2026年3月15日
    50700
  • AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验

    AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验 Karpathy的Autoresearch项目仅用630行Python代码,就让AI自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11%,全程无需人类干预。 然而,更引人注目的进展发生在此之后。全球开发者社区接手项目,将其从“单个AI做实验”升级为…

    2026年3月15日
    34900
  • 突破语言桎梏:用神经细胞自动机预训练大模型,性能提升6%,推理能力增强

    如果有一天,大语言模型不再依赖人类语言进行训练,会发生什么? 近年来,大模型能力的飞跃几乎都建立在一个前提之上:海量的文本数据。然而,随着高质量文本资源逐渐逼近极限,研究者开始提出一个更根本的问题:语言,真的是智能的起点吗? 一项最新研究给出了一个出人意料的答案:或许不是。研究团队假设,让语言模型在学习语言之前,先在完全非语言的合成数据上进行“预预训练”(p…

    2026年3月14日
    41300
  • 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

    论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…

    2026年3月13日
    38800
  • MetaClaw:让AI聊天中自我进化,无需GPU集群的在线强化学习系统

    让AI聊天助手仅仅完成任务已不够,现在,开发者正致力于让  AI实现自我进化。 关键之处在于,这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统,为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集,也无需人工微调,旨在让AI在与用户的日常对话中持续学习、自主变强。 其核心在于 将用户与AI的自然对话直接转化为训…

    2026年3月12日
    74100