大模型训练

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

基础模型的能力爆发，源于海量文本的预训练。然而，文本只是人类对现实世界的一种抽象表达，是信息的有损压缩。借用柏拉图的“洞穴寓言”：语言模型擅长描述墙壁上的影子，却从未见过投射影子的实体。它们精于捕捉符号，却难以理解物理世界中高保真的规律、结构与因果。除了这一哲学局限，还存在一个现实瓶颈：高质量文本数据有限，且正逐渐枯竭。相比之下，视觉世界提供了近乎无限的…

2026年3月8日

268000

大模型训练

Claude破解苹果神经引擎！Mac变身AI训练神器，成本暴跌至电费零头

Claude破解苹果神经引擎！Mac变身AI训练神器，成本暴跌至电费零头（1/2）核心摘要开发者借助Claude，成功对苹果神经引擎（ANE）进行了逆向工程，绕过了苹果官方的CoreML框架限制，首次在M4芯片的ANE上实现了神经网络训练。这证明Mac设备内置的NPU具备强大的训练潜力，可能将低成本、高能效的AI训练带入个人电脑时代。 AI界迎来新突破，…

2026年3月8日

608000

大模型训练

FlashAttention-4震撼发布：Blackwell GPU上注意力机制速度媲美矩阵乘法，性能提升高达2.7倍

经过一年的开发，FlashAttention-4 正式发布。作为深度学习领域一项关键的底层优化技术，FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示，在 Blackwell GPU 上，注意力机制的执行速度现已几乎与矩阵乘法相当，尽管两者的瓶颈截然不同。当前，Tensor Core 的速度已变得极快…

2026年3月6日

1.0K000

大模型训练

斯坦福博士生提出「持续自我提升式AI」：让模型自主进化，超越人类创造者

昨日，斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后，相关视频与资料迅速公开，系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。在答辩中，Zitong Yang 重点阐…

2026年3月5日

595000

大模型训练

清华团队破解FlashAttention低精度训练玄学：BF16下数值偏置如何引爆大模型训练

一句话总结：困扰社区多年的一个“玄学”现象终于被拆解清楚：在BF16等低精度训练中，FlashAttention并非随机出错，而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大，最终导致权重谱范数和激活值失控，引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动，…

2026年3月4日

870000

大模型训练

ReVision突破：无需图文配对，几何对齐解锁多模态大模型预训练新范式

无需图文配对，几何对齐解锁多模态大模型预训练新范式在多模态大模型（MLLM）的研发中，一个长期共识是：没有图文对（Image-Text Pairs），就没有多模态能力。为了训练模型理解图像，业界通常需要耗费巨资收集海量图片，并为每张图片生成高质量的文本描述。这种强监督的配对数据，一直被视为多模态训练的基石。然而，来自港科大（广州）、新加坡国立大学等机构的…

2026年3月3日

285000

大模型训练

全国首部AI训练数据集质量验收标准公开征集起草单位与专家，构建数据交付新规范

全国首部AI训练数据集质量验收标准公开征集起草单位与专家，构建数据交付新规范 2026年2月，国家数据局等部门发布《关于培育数据流通服务机构加快推进数据要素市场化价值化的意见》，明确支持数据流通服务机构加强与人工智能企业合作，并鼓励经营主体依托第三方平台开展数据供需对接与交付结算。这标志着数据已进入模型训练与产业应用的核心环节，数据集能否有效支撑特定模型训…

2026年3月3日

355000

大模型训练

何恺明团队突破性研究：GeoPT用合成动力学预训练，让AI自学物理规律，节省60%仿真数据

何恺明团队突破性研究：GeoPT用合成动力学预训练，让AI自学物理规律，节省60%仿真数据静态3D资产缺少动力学信息，而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练？何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练的全新范式，通过合成动力学将静态几何“提升”到动态空间，使模型能够在无标签数据…

2026年2月26日

385000

大模型训练

突破多GPU通信瓶颈：AutoOverlap实现块级细粒度计算-通信重叠，最高加速4.7倍

关键词：计算-通信重叠、块调度、分布式编译器、GPU、Triton、多 GPU 工作负载通过块级调度在单内核内实现计算与通信的深度重叠近年来，大语言模型的规模呈指数级增长，训练这些模型需要数百甚至数千块 GPU。在多 GPU 系统中，通信已经取代计算成为主要瓶颈。即使采用 NVLink、NVSwitch 等高速互连技术，AllGather、ReduceS…

2026年2月23日

463000

大模型训练

Reagent框架：为AI智能体引入“过程分”奖励机制，破解稀疏奖励难题

在许多大模型与智能体的训练范式中，普遍存在一种“唯结果论”的做法：仅根据最终答案的正确与否给予奖励，正确则得分，错误则得零分。在单轮问答场景中，这种“只看结果”的机制尚可勉强应对。然而，当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时，仅用一个比特（对/错）来概括整条复杂的行为轨迹，就显得过于粗糙。其后果是：那些仅差一…

2026年2月20日

304000