AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式

关键词: GEMMNeural Processing UnitHardware AccelerationDeep LearningXDNA Architecture

在 AI 算力竞赛白热化的今天,从云端数据中心到边缘终端,专用硬件加速器已成为深度学习(DL)应用落地的核心支撑。而深度学习 workload 的核心——通用矩阵乘法(GEMM),其性能直接决定了模型推理与训练的效率。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式

  • Striking the Balance: GEMM Performance Optimization Across Generations of Ryzen™ AI NPUs
  • https://arxiv.org/pdf/2512.13282

AMD 推出的 Ryzen AI 处理器搭载 XDNA 架构 NPU,凭借高能效比成为边缘 AI 加速的热门选择,但由于缺乏 FPGA fabric支持,其 GEMM 优化面临独特挑战。

近期,来自德州大学奥斯汀分校与 AMD 的团队在论文《Striking the Balance: GEMM Performance Optimization Across Generations of Ryzen™AI NPUs》中,提出了一套跨 XDNA/XDNA2 两代 NPU 的系统性 GEMM 优化方案 ,实现了 int8 精度下 6.76 TOPS(XDNA)和 38.05 TOPS(XDNA2)的业界顶尖性能。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图3:所提出的 GEMM 多级分块方案(a),以及XDNA(b)和XDNA2(c)上的GEMM映射策略。其中(a)包含四级分块:内层为AIE API支持的r×s×t分块,单核层为适配L1内存的m_ct×k_ct×n_ct分块,多核层为覆盖整个NPU阵列的(m_ct·m_rows)×k_mt×(n_ct·n_cols)分块,最外层为输入输出矩阵的M×K×N分块;(b)中XDNA采用4×4对称映射,(c)中XDNA2采用4×8非对称映射,均通过广播实现数据复用,并借助内存Tile暂存输入块以提升DRAM连续访问效率

本文将深入拆解该工作的核心创新、技术细节与实验成果,带大家看清 AMD NPU 性能突破的底层逻辑。

本文目录

  • 一、背景与核心挑战
      1. GEMM:深度学习的“算力基石”
      1. AMD NPU 的架构特性与优化难点
  • 二、相关工作:现有优化方案的局限
  • 三、系统性优化方法论与实现细节
    • 创新点 1:计算-内存平衡的解析建模优化
    • 创新点 2:基于多维张量寻址的无预分片 GEMM 实现
    • 创新点 3:NPU-DRAM 数据移动的 BD 重配置优化
  • 四、实验结果:性能突破与验证
      1. 单核心性能验证
      1. NPU 阵列性能突破
      1. 多尺寸 GEMM 性能稳定性
  • 五、总结与展望

一、背景与核心挑战

1. GEMM:深度学习的“算力基石”

深度学习模型(如 CNN、Transformer)的核心计算的本质是大量矩阵乘法与累加操作,GEMM 操作占比超过 90%。因此,GEMM 的优化效率直接决定了整个 DL 任务的运行速度。

2. AMD NPU 的架构特性与优化难点

AMD Ryzen AI NPU 基于 XDNA 架构,分为 XDNA(20 核,4×5 阵列)和 XDNA2(32 核,4×8 阵列)两代,架构如下图所示:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图 1:锐龙 AI(Ryzen™AI)神经网络处理单元(NPU)的架构图:该架构呈模块化可扩展设计,核心是 2D 计算 tile(CompTiles)阵列(含带 SIMD datapath 的 VLIW 核心与 L1 内存),下方设一行存储 tile(MemTiles,提供 L2 内存),最下方是接口 tile(ShimTiles)以连接 DRAM,依赖 DMA 引擎与命令处理器实现数据移动和任务调度

NPU 采用模块化架构,通过 DMA 引擎实现 L1→L2→DRAM 的数据移动,命令处理器负责任务调度与硬件配置。两代 NPU 均支持 int8、bf16 精度,XDNA2 额外增加 bfp16 硬件支持,理论峰值算力提升至 50 TOPS(XDNA 为 10 TOPS)。

与传统 Versal 平台(含 FPGA fabric)不同,AMD NPU 缺乏 FPGA 带来的额外存储层次与灵活配置能力, 导致 GEMM 优化面临三大核心挑战:

  • 数据移动瓶颈:DRAM 与 NPU 间的数据传输效率直接限制性能,需最大化连续内存访问;
  • 计算与内存的平衡:单核心算力提升可能导致内存访问成为瓶颈,反之亦然;
  • 跨代兼容性:需一套方案适配 XDNA/XDNA2 两代架构,同时保证高性能。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图2:AMD锐龙AI NPU中跨内存层级的数据移动:输入缓冲区A(a)与输出缓冲区C(b)。其中(a)展示输入缓冲区A从主内存(DRAM)出发,经ShimTile的内存映射到流(MM2S)通道传输至L2内存Tile(MemTile),再进一步传输到L1内存,供计算Tile(CompTile)的核心使用;(b)展示输出缓冲区C从L1内存传输至L2 MemTile,再经流到内存映射(S2MM)通道写入DRAM,整个过程由硬件锁单元实现DMA与核心、DRAM间的数据同步

二、相关工作:现有优化方案的局限

GEMM 优化已在多款硬件平台得到广泛研究,但针对 AMD NPU 的方案仍存在明显不足,具体对比如下:

| 相关工作 | 目标平台 | 核心思路 | 关键局限 |
| :— | :— | :— | :— |
| MaxEVA | Versal(含 FPGA) | 将 GEMM 分区到多个 AIE 核心,20% 核心用于加法树归约 | 依赖 FPGA fabric,核心利用率仅 80%,无法迁移到 AMD NPU |
| GAMA | Versal(含 FPGA) | 利用级联接口传输部分累加结果 | 级联阻塞导致 7% 性能损失,不适配无 FPGA 架构 |
| 基于 XDNA 的基础实现 | XDNA NPU | 任务型编程模型,简单映射 GEMM 到核心 | 性能低下(int8 仅 5.04 TOPS,bf16 1.95 TOPS),未优化数据移动 |

本文工作的核心突破在于:在无 FPGA 支持的情况下,通过系统级优化实现跨两代 NPU 的高性能 GEMM同时解决数据移动、计算-内存平衡、跨代兼容三大问题。

三、系统性优化方法论与实现细节

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图3:所提出的 GEMM 多级分块方案(a),以及 XDNA(b)和 XDNA2(c)上的 GEMM 映射策略。其中(a)包含四级分块:内层为 AIE API 支持的 r×s×t 分块,单核层为适配 L1 内存的 m_ct×k_ct×n_ct 分块,多核层为覆盖整个 NPU 阵列的 (m_ct·m_rows)×k_mt×(n_ct·n_cols) 分块,最外层为输入输出矩阵的 M×K×N 分块;(b)中 XDNA 采用 4×4 对称映射,(c)中 XDNA2 采用 4×8 非对称映射,均通过广播实现数据复用,并借助内存 Tile 暂存输入块以提升 DRAM 连续访问效率。

本文的创新并非孤立的技术技巧,而是一套贯穿“建模-优化-实现”的完整框架,其核心包含以下三大创新点:

创新点 1:计算-内存平衡的解析建模优化

团队发现,GEMM 性能受计算能力与内存带宽的双重约束,且二者呈反比关系:增大计算核心的 tile 尺寸(提升算力利用率)会导致内存访问次数增加(内存瓶颈加剧),反之亦然。因此,关键是找到“计算时间 ≈ 内存时间”的平衡点。

1.1 单核心优化模型

通过解析建模定义核心约束,优化 m_ct(核心 M 维度 tile 大小)、k_ct(核心 K 维度 tile 大小)、n_ct(核心 N 维度 tile 大小)三个参数:

  • 计算周期T_comp = (m_ct * k_ct * n_ct) / (η_core * P_core),其中 η_core 为核心效率,P_core 为核心峰值算力。
  • 数据传输周期(A 矩阵)T_A = (m_ct * k_ct * bytes_A) / BW_DMA,其中 bytes_A 为 A 矩阵数据类型字节数(int8=1,bf16=2),BW_DMA 为 DMA 带宽。
  • 内存约束2 * (m_ct * k_ct + k_ct * n_ct) * bytes_A + 1KB ≤ 64KB。L1 内存共 64KB,预留 1KB 栈空间。对输入矩阵 A 和 B 的 tile 乘以 2 是因为 L1 缓存采用双缓冲(Double-Buffering)设计。

优化目标:通过整数规划(IP)同时最大化 MAC 数量(m_ct * k_ct * n_ct)和最小化输出 tile 大小(m_ct * n_ct),在满足内存和带宽约束下寻找最优解,以提升计算效率并减少存储冲突。这两个目标在 IP 求解中是联合考虑的,旨在找到一个均衡解。

1.2 系统级优化模型

扩展单核心优化模型至整个 NPU 阵列时,需结合 DRAM 带宽约束建立系统级性能模型,核心逻辑与参数定义需严格匹配硬件架构特性。

1. 关键参数与 DRAM 访问量计算
  • DRAM 访问量(A 矩阵)DRAM_A = (M * K) / (m_rows * k_mt)
  • DRAM 访问量(B 矩阵)DRAM_B = (K * N) / (n_cols * k_mt)
  • DRAM 访问量(C 矩阵,写操作)DRAM_C = M * N

其中,m_rows(阵列行数)和 n_cols(阵列列数)分别对应 GEMM 在 M 维度(A 矩阵行)和 N 维度(B 矩阵列)的并行度,直接决定数据复用效率(A 矩阵按行广播、B 矩阵按列广播)。不同代际 NPU 阵列参数如下:

| 技术参数 | XDNA | XDNA2 |
| :— | :— | :— |
| NPU 代际 | XDNA | XDNA2 |
| CompTile 总数(核心数) | 20 | 32 |
| 原始 2D 阵列(rows×cols) | 4×5 | 4×8 |
| 实际 GEMM 映射阵列(rows×cols) | 4×4 | 4×8 |
| m_rows(行数) | 4 | 4 |
| n_cols(列数) | 4 | 8 |
| 映射调整原因 | 由于 XDNA 架构的最后一列(第5列)物理上不存在 ShimTile(接口 Tile),无法实现该列核心与 DRAM 的数据交换,因此 GEMM 映射时仅使用前 4 列,形成逻辑上的 4×4 对称阵列。 | 全阵列可用,无 ShimTile 限制。 |

2. 核心时间模型
  • 总计算时间T_total_comp = (M * K * N * 2) / (η * P_peak)。其中 M*K*N*2 对应 GEMM 中“乘-加”操作总数;η 为单核心效率,直接等同于阵列整体效率,因所有核心独立并行;P_peak 为 NPU 阵列理论峰值吞吐量,由核心数、频率决定(XDNA 约 10 TOPS,XDNA2 约 50 TOPS)。
  • 总内存时间T_total_mem = (DRAM_A + DRAM_B + DRAM_C) * bytes_A / BW_DRAM。其中 BW_DRAM 为 NPU 可利用的有效 DRAM 带宽(作者实测 XDNA 约 15 GB/s,XDNA2 约 50 GB/s)。
3. 优化流程
  1. 初始化:基于单核心优化结果设定初始参数(m_ct, k_ct, n_ct),确保初始状态为内存瓶颈(T_total_mem > T_total_comp)。
  2. 迭代调整:每次迭代中,固定 m_ctn_ct,按 t(AIE API 支持的 tile 尺寸参数)的倍数减小 k_ct
  3. 参数求解:针对当前 k_ct,通过整数规划(IP)最大化 m_ct * k_ct * n_ct,同时满足 L1 内存容量、DMA 带宽约束。
  4. 性能评估与收敛:实测当前参数的 GEMM 性能。若性能持续提升则继续迭代;当性能首次下降时,前一次迭代的参数即为最优平衡解(此时 T_total_comp 开始大于 T_total_mem,进入计算瓶颈)。

创新点 2:基于多维张量寻址的无预分片 GEMM 实现

传统 GEMM 优化需在 DRAM 中对矩阵进行预分片(tiling),才能适配 NPU 核心的输入格式,导致与 DL 张量库(如 GGML)集成复杂。

本文利用 AMD NPU 的 DMA 多维寻址特性,实现实时(on-the-fly)张量转换。矩阵在 DRAM 中保持标准行/列主序,无需预处理。具体转换流程如下图所示:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图 4 | 矩阵 A 的动态 DMA 变换。该图展示矩阵 A 从 DRAM 传输到 NPU 过程中的多阶段 DMA 变换:ShimTile 通过 3D 寻址将行优先的 M×K 块拆为 m_rows×K 块,MemTile 经 3D+4D 寻址进一步拆为 m_ct×k_mt 块,最终 CompTile 通过 3D 寻址转为核心所需的 tiled 布局,确保 DRAM 中矩阵保持标准行优先格式。

观察上图可以发现:
1. ShimTile(3D 寻址):将 DRAM 中 M×K 的行主序矩阵拆分为 m_rows×K 子块。
2. MemTile(4D 寻址):进一步拆分为 m_ct×k_mt 子块。
3. CompTile(3D 寻址):最终转换为核心所需的 r×s×t tile 格式。

整个过程无需预分片,无缝兼容标准张量布局。其中需要强调的技术细节:
* MemTile 支持 4D 寻址,CompTile/ShimTile 支持 3D 寻址,通过多级转换满足核心输入要求。
* 针对 int8/bf16 等小精度数据,利用 AIE 核心的 shuffle 指令实现细粒度数据重排,以适配列主序存储的矩阵 B。

创新点 3:NPU-DRAM 数据移动的 BD 重配置优化

NPU 通过 ShimTile 与 DRAM 通信,每个 ShimTile 仅支持 16 个缓冲描述符(Buffer Descriptor, BD)。在复杂 GEMM 任务中,细粒度分块需要定义的 DMA 传输数量远超 16 个,若顺序重配置 BD 会导致 DMA 通道空闲,形成性能瓶颈。

缓冲描述符(BD)是一种硬件指令,用于向 DMA 引擎描述单次数据传输的全部细节,包括源/目标地址、数据量和同步锁等。在 GEMM 的复杂数据流中,每个输入/输出数据块(tile)的传输都需要一个独立的 BD。当 GEMM 的维度(M, K, N)很大时,所需的 BD 数量极易超过每个 ShimTile 16 个的硬件限制。

本文提出 “BD 重配置与 DMA 传输重叠” 优化方案,其核心思想是:在 DMA 引擎持续传输数据的同时,动态复用并重写已完成的 BD,从而避免因等待 BD 配置而导致的流水线停滞

其操作流程如下图所示,可通过以下步骤理解:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 图 5 | 最外层(第四层)GEMM 分块层级的简化视图

优化方案分步解析

  1. 初始化与队列填充:在 GEMM 计算开始前,向每个 ShimTile 的任务队列提交 15 个 BD(如上图中 ShimTile 0 的 BD_A0, BD_B0, BD_C0, BD_A4, BD_B4, BD_C1...),占满 16 个槽位中的 15 个,预留 1 个冗余。这些 BD 描述了首批需要传输的矩阵 AB 的输入块和矩阵 C 的输出块。
  2. 重叠执行与关键同步:DMA 引擎立即开始处理队列前部的 BD,在 DRAM 与 NPU 间移动数据,同时 NPU 核心开始计算。优化的关键在于同步逻辑:命令处理器仅需顺序等待输出矩阵 C 的 BD 完成(例如 BD_C0)。一旦某个 C 的 BD 完成,意味着生成该输出块所需的所有输入块(如 BD_A0, BD_B0)的传输也必然已完成。此时,这一组相关的 BD(两个输入,一个输出)即可被安全回收。
  3. 动态重配置与稳态维持:上述三个 BD 被回收后,立即在原地被重写(reconfigure) 为下一组待传输数据块的描述符,并重新插入任务队列尾部。例如,BD_A0, BD_B0, BD_C0 被更新为 BD_A8, BD_B8, BD_C2 的描述信息。此过程与仍在进行的其他 DMA 传输及核心计算完全重叠
  4. 达成高效稳态:通过这种机制,系统可以维持一个持续的流水线。在稳态下,任务队列中始终有接近满载的 BD(约 15 个)等待或正在执行,确保了 DMA 引擎的带宽被持续、充分地利用,消除了因 BD 数量限制带来的空闲等待。

四、实验结果:性能突破与验证

实验基于两款 mini PC 搭建:XDNA(Minisforum UM790 Pro,Ryzen 9 7940HS)和 XDNA2(ASRock 4×4 Box,Ryzen AI 7 350),均配置 DDR5-5600 DRAM。

1. 单核心性能验证

单核心优化后的吞吐量与内存利用率如下表所示:

| 设备 | 精度(输入-输出) | 内核尺寸 | 吞吐量(MACs/cycle) | L1 核心内存占用(KB) |
| :— | :— | :— | :— | :— |
| XDNA | int8-int8 | 64 × 232 × 64 | 233.0 | 62.0(97%) |
| XDNA | int8-int32 | 48 × 280 × 48 | 192.0 | 61.5(96%) |
| XDNA | bf16-bf16 | 64 × 104 × 64 | 112.6 | 60.0(94%) |
| XDNA2 | int8-int8 | 64 × 232 × 64 | 450.6 | 62.0(97%) |
| XDNA2 | int8-int32 | 48 × 280 × 48 | 384.0 | 61.5(96%) |
| XDNA2 | bf16-bf16 | 48 × 152 × 48 | 158.1 | 61.5(96%) |

上表显示,两代架构的 L1 内存利用率高达 94%-97%,接近饱和;XDNA2 单核心吞吐量是 XDNA 的 1.8-2.0 倍,体现了架构升级带来的算力提升。

2. NPU 阵列性能突破

跨两代 NPU 的阵列级性能(矩阵 B 为列主序)如下表所示(选取最优平衡 kernel):

| 设备 | 精度(输入-输出) | 内核尺寸 | 峰值计算 TOPS | 实际 NPU TOPS | GEMM 尺寸 |
| :— | :— | :— | :— | :— | :— |
| XDNA | int8-int8 | 112 × 112 × 112 | 6.80 | 6.52 | 4032 × 4032 × 4032 |
| XDNA | bf16-bf16 | 96 × 56 × 96 | 3.19 | 3.12 | 4224 × 4032 × 4224 |
| XDNA2 | int8-int8 | 144 × 72 × 144 | 39.52 | 37.35 | 4032 × 4320 × 4608 |
| XDNA2 | bf16-bf16 | 112 × 48 × 96 | 15.81 | 14.52 | 4032 × 4224 × 4608 |

  1. XDNA int8 实际性能达 6.52 TOPS(最高 6.76 TOPS),比此前工作提升 34%。
  2. XDNA2 int8 实际性能达 37.35 TOPS(最高 38.05 TOPS),接近理论峰值的 95%。
  3. bf16 精度下,XDNA 性能提升 62%,XDNA2 达到 14.71 TOPS,满足高精度深度学习任务需求。

更多详细数据:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 表 2:XDNA 在不同数据类型下(矩阵 B 为列优先存储)的两个最优方案评估。表格涵盖输入输出精度、核大小(𝑚ct×𝑘ct×𝑛ct)、参数乘积(𝑚ct・𝑛ct)等关键信息,最优方案平衡计算与内存开销,如 int8-int8 类型中 112×112×112 核在 4032×4032×4032 矩阵规模下,实际 NPU 性能达 6.52 TOPS,有效提升 GEMM 效率。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 表 3:XDNA2 在不同数据类型下(矩阵 B 为列优先存储)的两个最优方案评估。表格涵盖输入输出精度、核大小(𝑚ct×𝑘ct×𝑛ct)、参数乘积(𝑚ct·𝑛ct)等指标,最优方案平衡计算与内存,如 int8-int8 类型中 144×72×144 核在 4032×4320×4608 矩阵规模下,实际 NPU 性能达 37.35 TOPS,还借助 NPU 多维张量寻址提升 DRAM 带宽利用率,优化 GEMM 效率。

3. 多尺寸 GEMM 性能稳定性

通过 roofline 曲线,验证不同 GEMM 尺寸下的性能稳定性,横轴为算术强度(OPs/Byte),纵轴为性能(TOPS)。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 图 7:XDNA 不同精度下的 roofline 性能曲线:(a)int8-int8精度,(b)int8-int16精度,(c)bf16-bf16精度

观察上图不同精度下的 roofline 性能曲线:
* 当算术强度超过 1000 后,性能趋于稳定(达到计算-内存平衡)。
* 列主序存储的矩阵 B 比行主序平均性能高 4.4%-4.8%,验证了连续内存访问的重要性。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 图 8:XDNA2 不同精度下的 roofline 性能曲线:(a)int8-int8精度,(b)int8-int16精度,(c)bf16-bf16精度

观察上图,可以发现:
* XDNA2 相比 XDNA 性能稳定性更优,列主序 B 矩阵比行主序性能高 8.7%-25.2%。
* int8 精度下,列主序性能波动仅 5%,远低于行主序的 19%,体现了多维张量寻址与 BD 优化方案的协同效果。

五、总结与展望

本文通过三大核心创新,构建了跨 AMD XDNA/XDNA2 两代 NPU 的 GEMM 优化框架:

  1. 计算-内存平衡的解析建模:通过迭代优化找到性能最优平衡点,解决算力与带宽的反比约束;
  2. 多维张量寻址的无预分片实现:兼容标准张量布局,降低与深度学习库的集成复杂度;
  3. BD 重配置与 DMA 重叠:突破 ShimTile BD 数量限制,最大化 NPU 与 DRAM 之间的数据传输效率。

实验证明,该方案实现了业界顶尖的 GEMM 性能,为在 Ryzen AI NPU 上部署深度学习任务提供了关键技术支撑。未来工作可进一步探索 bf16 精度的原生优化,以及将方法论扩展到矩阵-向量乘法(GEMV)等特殊场景。

对于 AI 硬件开发者与研究者而言,本文的价值不仅在于性能突破,更在于提供了一套“硬件特性-解析建模-系统优化”的完整思路——在专用加速器日益复杂的今天,只有深度结合硬件架构的系统性优化,才能真正释放其算力潜力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16573

(0)
上一篇 2026年1月1日 上午10:06
下一篇 2026年1月1日 下午12:08

相关推荐

  • AI智能体重塑学术评审:从审稿辅助到研究范式变革的深度剖析

    在人工智能技术飞速发展的当下,学术论文评审体系正面临前所未有的挑战与机遇。随着全球顶级学术会议如ICLR、CVPR等陆续出台关于大模型使用的审稿规范,AI在学术评审中的角色已从理论探讨进入实践应用阶段。然而,规范与现实之间存在着显著差距——即使在ICLR 2026这样实施“最严管控规则”的会议上,仍有高达五分之一的审稿意见被证实由大模型一键生成。这一现象不仅…

    2025年11月25日
    17900
  • 学术界的隐形操控:大模型审稿中的隐藏提示注入攻击及其对科研诚信的挑战

    在人工智能技术快速渗透学术评审领域的当下,一项发表于arXiv平台(编号:arXiv:2509.10248v2)的研究《Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications》揭示了令人警醒的现象:通过精心设计的“隐藏提示注入”技术,攻击者能够系统性操控大语言模…

    2025年9月25日
    16600
  • ChatGPT广告化:OpenAI商业化转型与用户隐私的博弈

    这一天终于还是来了。 周六凌晨,OpenAI 的一则公告引起轩然大波:他们计划在 ChatGPT 里加广告了。 对此,网友们感到很受伤。有人表示,现在大家用大模型的一个重要原因就是能够避免广告,更好地查询信息,现在 ChatGPT 又把广告加回来是几个意思? 也有人认为,加广告的这件事表明了 OpenAI 目前的营收压力很大。 华盛顿大学教授荣誉退休教授、知…

    2026年1月17日
    30300
  • AMD Iris:Triton原生多GPU通信库,以Tile级抽象实现1.79倍性能飞跃,重塑计算-通信融合范式

    关键词:Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程 现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。 然而,多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡:高性能实现通常依赖于低层 HIP/CUDA 通信库,即便实现基本的 重叠模式也需要大量工程努力;而更简单的抽象则往往牺…

    2026年1月9日
    17500
  • 信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境

    在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…

    2025年12月19日
    18700