大模型训练

  • 超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

    基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…

    2026年3月8日
    26800
  • Claude破解苹果神经引擎!Mac变身AI训练神器,成本暴跌至电费零头

    Claude破解苹果神经引擎!Mac变身AI训练神器,成本暴跌至电费零头(1/2) 核心摘要 开发者借助Claude,成功对苹果神经引擎(ANE)进行了逆向工程,绕过了苹果官方的CoreML框架限制,首次在M4芯片的ANE上实现了神经网络训练。这证明Mac设备内置的NPU具备强大的训练潜力,可能将低成本、高能效的AI训练带入个人电脑时代。 AI界迎来新突破,…

    2026年3月8日
    60800
  • FlashAttention-4震撼发布:Blackwell GPU上注意力机制速度媲美矩阵乘法,性能提升高达2.7倍

    经过一年的开发,FlashAttention-4 正式发布。 作为深度学习领域一项关键的底层优化技术,FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,注意力机制的执行速度现已几乎与矩阵乘法相当,尽管两者的瓶颈截然不同。 当前,Tensor Core 的速度已变得极快…

    2026年3月6日
    1.0K00
  • 斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者

    昨日,斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后,相关视频与资料迅速公开,系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。 在答辩中,Zitong Yang 重点阐…

    2026年3月5日
    59500
  • 清华团队破解FlashAttention低精度训练玄学:BF16下数值偏置如何引爆大模型训练

    一句话总结:困扰社区多年的一个“玄学”现象终于被拆解清楚:在BF16等低精度训练中,FlashAttention并非随机出错,而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大,最终导致权重谱范数和激活值失控,引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动,…

    2026年3月4日
    87000
  • ReVision突破:无需图文配对,几何对齐解锁多模态大模型预训练新范式

    无需图文配对,几何对齐解锁多模态大模型预训练新范式 在多模态大模型(MLLM)的研发中,一个长期共识是:没有图文对(Image-Text Pairs),就没有多模态能力。为了训练模型理解图像,业界通常需要耗费巨资收集海量图片,并为每张图片生成高质量的文本描述。这种强监督的配对数据,一直被视为多模态训练的基石。 然而,来自港科大(广州)、新加坡国立大学等机构的…

    2026年3月3日
    28500
  • 全国首部AI训练数据集质量验收标准公开征集起草单位与专家,构建数据交付新规范

    全国首部AI训练数据集质量验收标准公开征集起草单位与专家,构建数据交付新规范 2026年2月,国家数据局等部门发布《关于培育数据流通服务机构 加快推进数据要素市场化价值化的意见》,明确支持数据流通服务机构加强与人工智能企业合作,并鼓励经营主体依托第三方平台开展数据供需对接与交付结算。这标志着数据已进入模型训练与产业应用的核心环节,数据集能否有效支撑特定模型训…

    2026年3月3日
    35500
  • 何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据

    何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据 静态3D资产缺少动力学信息,而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练? 何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练 的全新范式,通过合成动力学 将静态几何“提升”到动态空间,使模型能够在无标签数据…

    2026年2月26日
    38500
  • 突破多GPU通信瓶颈:AutoOverlap实现块级细粒度计算-通信重叠,最高加速4.7倍

    关键词:计算-通信重叠、块调度、分布式编译器、GPU、Triton、多 GPU 工作负载 通过块级调度在单内核内实现计算与通信的深度重叠 近年来,大语言模型的规模呈指数级增长,训练这些模型需要数百甚至数千块 GPU。在多 GPU 系统中,通信已经取代计算成为主要瓶颈。即使采用 NVLink、NVSwitch 等高速互连技术,AllGather、ReduceS…

    2026年2月23日
    46300
  • Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

    在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。 在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。 其后果是:那些仅差一…

    2026年2月20日
    30400