高性能计算

Wattchmen：突破GPU能耗建模瓶颈，指令级归因误差降至14%以下

关键词：GPU 能耗建模、指令级能耗归因、SASS 微架构、线性方程组求解、异构计算功耗优化 “现代 GPU 丰富的高性能计算系统正日益受到能源约束。因此，理解应用的能耗变得至关重要。不幸的是，当前的 GPU 能耗归因技术要么不准确，要么不灵活，要么已经过时。” 这是来自威斯康星大学麦迪逊分校、NVIDIA 及橡树岭国家实验室联合团队在 ICS‘26 发表的…

2026年4月23日

134000

大模型训练

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

在数值分析领域，Newton-Schulz及其相关方法已被研究多年，但大多数工作关注的是高精度计算、CPU优化或方阵输入。近日，来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法，使其更适配GPU硬件和大规模模型训练场景。实验表明，该算法在训练万亿参数的混合专家模型时，可…

2026年4月1日

333000

大模型评测

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代前沿大模型的能力边界正在持续突破，如今甚至能精准编写GPU内核代码，成为高性能计算领域的新帮手。但一个行业痛点也随之浮现：没有单一前沿模型能在GPU内核生成上持续领先，而行业内对模型能力的评测大多依靠主观体验，缺乏统一、严谨、可复现的量化标准。为了解决这一问题，Wafer团队…

2026年3月14日

336000

AI产业动态

智算中心建设蓝图：2026年规划方案与关键技术解析

一、前言智算中心的建设需要大量的资金投入，涵盖数据存储设备、计算资源、网络设施以及人工智能模型的开发与优化。尤其在初期阶段，其运营成本较高，特别是电力和冷却系统的需求。因此，如何有效降低长期运营成本并确保投资回报，是企业决策中必须审慎考量的核心问题。智算中心的建设背景，既根植于持续的技术进步与不断变化的市场需求，也与国家发展战略及产业转型升级紧密相连。随…

2026年2月1日

921000

AI产业动态

AMD Iris：Triton原生多GPU通信库，以Tile级抽象实现1.79倍性能飞跃，重塑计算-通信融合范式

关键词：Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。然而，多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡：高性能实现通常依赖于低层 HIP/CUDA 通信库，即便实现基本的重叠模式也需要大量工程努力；而更简单的抽象则往往牺…

2026年1月9日

395000

AI产业动态

突破计算瓶颈：SIE+CCSD(T)量子嵌入框架实现真实材料体系实验级精度模拟

在当代科学研究中，计算模拟已成为探索物质世界不可或缺的工具。从药物分子设计到新型材料开发，科学家们越来越依赖计算机进行“虚拟实验”，以预测原子、分子层面的相互作用与性质。然而，模拟的精度直接决定了预测的可靠性——一个微小的计算误差可能导致催化剂被误判无效，或使材料性能预测完全偏离实际，这不仅浪费数年实验时间，更可能让巨额研发投资付诸东流。传统高精度量子化学…

2025年11月9日

309000