高性能计算
-
Wattchmen:突破GPU能耗建模瓶颈,指令级归因误差降至14%以下
关键词:GPU 能耗建模、指令级能耗归因、SASS 微架构、线性方程组求解、异构计算功耗优化 “现代 GPU 丰富的高性能计算系统正日益受到能源约束。因此,理解应用的能耗变得至关重要。不幸的是,当前的 GPU 能耗归因技术要么不准确,要么不灵活,要么已经过时。” 这是来自威斯康星大学麦迪逊分校、NVIDIA 及橡树岭国家实验室联合团队在 ICS‘26 发表的…
-
GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…
-
KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代
KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代 前沿大模型的能力边界正在持续突破,如今甚至能精准编写GPU内核代码,成为高性能计算领域的新帮手。但一个行业痛点也随之浮现:没有单一前沿模型能在GPU内核生成上持续领先,而行业内对模型能力的评测大多依靠主观体验,缺乏统一、严谨、可复现的量化标准。 为了解决这一问题,Wafer团队…
-
智算中心建设蓝图:2026年规划方案与关键技术解析
一、前言 智算中心的建设需要大量的资金投入,涵盖数据存储设备、计算资源、网络设施以及人工智能模型的开发与优化。尤其在初期阶段,其运营成本较高,特别是电力和冷却系统的需求。因此,如何有效降低长期运营成本并确保投资回报,是企业决策中必须审慎考量的核心问题。 智算中心的建设背景,既根植于持续的技术进步与不断变化的市场需求,也与国家发展战略及产业转型升级紧密相连。随…
-
AMD Iris:Triton原生多GPU通信库,以Tile级抽象实现1.79倍性能飞跃,重塑计算-通信融合范式
关键词:Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程 现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。 然而,多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡:高性能实现通常依赖于低层 HIP/CUDA 通信库,即便实现基本的 重叠模式也需要大量工程努力;而更简单的抽象则往往牺…
-
突破计算瓶颈:SIE+CCSD(T)量子嵌入框架实现真实材料体系实验级精度模拟
在当代科学研究中,计算模拟已成为探索物质世界不可或缺的工具。从药物分子设计到新型材料开发,科学家们越来越依赖计算机进行“虚拟实验”,以预测原子、分子层面的相互作用与性质。然而,模拟的精度直接决定了预测的可靠性——一个微小的计算误差可能导致催化剂被误判无效,或使材料性能预测完全偏离实际,这不仅浪费数年实验时间,更可能让巨额研发投资付诸东流。 传统高精度量子化学…
