AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式

关键词: GEMMNeural Processing UnitHardware AccelerationDeep LearningXDNA Architecture

在 AI 算力竞赛白热化的今天,从云端数据中心到边缘终端,专用硬件加速器已成为深度学习(DL)应用落地的核心支撑。而深度学习 workload 的核心——通用矩阵乘法(GEMM),其性能直接决定了模型推理与训练的效率。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式

  • Striking the Balance: GEMM Performance Optimization Across Generations of Ryzen™ AI NPUs
  • https://arxiv.org/pdf/2512.13282

AMD 推出的 Ryzen AI 处理器搭载 XDNA 架构 NPU,凭借高能效比成为边缘 AI 加速的热门选择,但由于缺乏 FPGA fabric支持,其 GEMM 优化面临独特挑战。

近期,来自德州大学奥斯汀分校与 AMD 的团队在论文《Striking the Balance: GEMM Performance Optimization Across Generations of Ryzen™AI NPUs》中,提出了一套跨 XDNA/XDNA2 两代 NPU 的系统性 GEMM 优化方案 ,实现了 int8 精度下 6.76 TOPS(XDNA)和 38.05 TOPS(XDNA2)的业界顶尖性能。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图3:所提出的 GEMM 多级分块方案(a),以及XDNA(b)和XDNA2(c)上的GEMM映射策略。其中(a)包含四级分块:内层为AIE API支持的r×s×t分块,单核层为适配L1内存的m_ct×k_ct×n_ct分块,多核层为覆盖整个NPU阵列的(m_ct·m_rows)×k_mt×(n_ct·n_cols)分块,最外层为输入输出矩阵的M×K×N分块;(b)中XDNA采用4×4对称映射,(c)中XDNA2采用4×8非对称映射,均通过广播实现数据复用,并借助内存Tile暂存输入块以提升DRAM连续访问效率

本文将深入拆解该工作的核心创新、技术细节与实验成果,带大家看清 AMD NPU 性能突破的底层逻辑。

本文目录

  • 一、背景与核心挑战
      1. GEMM:深度学习的“算力基石”
      1. AMD NPU 的架构特性与优化难点
  • 二、相关工作:现有优化方案的局限
  • 三、系统性优化方法论与实现细节
    • 创新点 1:计算-内存平衡的解析建模优化
    • 创新点 2:基于多维张量寻址的无预分片 GEMM 实现
    • 创新点 3:NPU-DRAM 数据移动的 BD 重配置优化
  • 四、实验结果:性能突破与验证
      1. 单核心性能验证
      1. NPU 阵列性能突破
      1. 多尺寸 GEMM 性能稳定性
  • 五、总结与展望

一、背景与核心挑战

1. GEMM:深度学习的“算力基石”

深度学习模型(如 CNN、Transformer)的核心计算的本质是大量矩阵乘法与累加操作,GEMM 操作占比超过 90%。因此,GEMM 的优化效率直接决定了整个 DL 任务的运行速度。

2. AMD NPU 的架构特性与优化难点

AMD Ryzen AI NPU 基于 XDNA 架构,分为 XDNA(20 核,4×5 阵列)和 XDNA2(32 核,4×8 阵列)两代,架构如下图所示:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图 1:锐龙 AI(Ryzen™AI)神经网络处理单元(NPU)的架构图:该架构呈模块化可扩展设计,核心是 2D 计算 tile(CompTiles)阵列(含带 SIMD datapath 的 VLIW 核心与 L1 内存),下方设一行存储 tile(MemTiles,提供 L2 内存),最下方是接口 tile(ShimTiles)以连接 DRAM,依赖 DMA 引擎与命令处理器实现数据移动和任务调度

NPU 采用模块化架构,通过 DMA 引擎实现 L1→L2→DRAM 的数据移动,命令处理器负责任务调度与硬件配置。两代 NPU 均支持 int8、bf16 精度,XDNA2 额外增加 bfp16 硬件支持,理论峰值算力提升至 50 TOPS(XDNA 为 10 TOPS)。

与传统 Versal 平台(含 FPGA fabric)不同,AMD NPU 缺乏 FPGA 带来的额外存储层次与灵活配置能力, 导致 GEMM 优化面临三大核心挑战:

  • 数据移动瓶颈:DRAM 与 NPU 间的数据传输效率直接限制性能,需最大化连续内存访问;
  • 计算与内存的平衡:单核心算力提升可能导致内存访问成为瓶颈,反之亦然;
  • 跨代兼容性:需一套方案适配 XDNA/XDNA2 两代架构,同时保证高性能。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图2:AMD锐龙AI NPU中跨内存层级的数据移动:输入缓冲区A(a)与输出缓冲区C(b)。其中(a)展示输入缓冲区A从主内存(DRAM)出发,经ShimTile的内存映射到流(MM2S)通道传输至L2内存Tile(MemTile),再进一步传输到L1内存,供计算Tile(CompTile)的核心使用;(b)展示输出缓冲区C从L1内存传输至L2 MemTile,再经流到内存映射(S2MM)通道写入DRAM,整个过程由硬件锁单元实现DMA与核心、DRAM间的数据同步

二、相关工作:现有优化方案的局限

GEMM 优化已在多款硬件平台得到广泛研究,但针对 AMD NPU 的方案仍存在明显不足,具体对比如下:

| 相关工作 | 目标平台 | 核心思路 | 关键局限 |
| :— | :— | :— | :— |
| MaxEVA | Versal(含 FPGA) | 将 GEMM 分区到多个 AIE 核心,20% 核心用于加法树归约 | 依赖 FPGA fabric,核心利用率仅 80%,无法迁移到 AMD NPU |
| GAMA | Versal(含 FPGA) | 利用级联接口传输部分累加结果 | 级联阻塞导致 7% 性能损失,不适配无 FPGA 架构 |
| 基于 XDNA 的基础实现 | XDNA NPU | 任务型编程模型,简单映射 GEMM 到核心 | 性能低下(int8 仅 5.04 TOPS,bf16 1.95 TOPS),未优化数据移动 |

本文工作的核心突破在于:在无 FPGA 支持的情况下,通过系统级优化实现跨两代 NPU 的高性能 GEMM同时解决数据移动、计算-内存平衡、跨代兼容三大问题。

三、系统性优化方法论与实现细节

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图3:所提出的 GEMM 多级分块方案(a),以及 XDNA(b)和 XDNA2(c)上的 GEMM 映射策略。其中(a)包含四级分块:内层为 AIE API 支持的 r×s×t 分块,单核层为适配 L1 内存的 m_ct×k_ct×n_ct 分块,多核层为覆盖整个 NPU 阵列的 (m_ct·m_rows)×k_mt×(n_ct·n_cols) 分块,最外层为输入输出矩阵的 M×K×N 分块;(b)中 XDNA 采用 4×4 对称映射,(c)中 XDNA2 采用 4×8 非对称映射,均通过广播实现数据复用,并借助内存 Tile 暂存输入块以提升 DRAM 连续访问效率。

本文的创新并非孤立的技术技巧,而是一套贯穿“建模-优化-实现”的完整框架,其核心包含以下三大创新点:

创新点 1:计算-内存平衡的解析建模优化

团队发现,GEMM 性能受计算能力与内存带宽的双重约束,且二者呈反比关系:增大计算核心的 tile 尺寸(提升算力利用率)会导致内存访问次数增加(内存瓶颈加剧),反之亦然。因此,关键是找到“计算时间 ≈ 内存时间”的平衡点。

1.1 单核心优化模型

通过解析建模定义核心约束,优化 m_ct(核心 M 维度 tile 大小)、k_ct(核心 K 维度 tile 大小)、n_ct(核心 N 维度 tile 大小)三个参数:

  • 计算周期T_comp = (m_ct * k_ct * n_ct) / (η_core * P_core),其中 η_core 为核心效率,P_core 为核心峰值算力。
  • 数据传输周期(A 矩阵)T_A = (m_ct * k_ct * bytes_A) / BW_DMA,其中 bytes_A 为 A 矩阵数据类型字节数(int8=1,bf16=2),BW_DMA 为 DMA 带宽。
  • 内存约束2 * (m_ct * k_ct + k_ct * n_ct) * bytes_A + 1KB ≤ 64KB。L1 内存共 64KB,预留 1KB 栈空间。对输入矩阵 A 和 B 的 tile 乘以 2 是因为 L1 缓存采用双缓冲(Double-Buffering)设计。

优化目标:通过整数规划(IP)同时最大化 MAC 数量(m_ct * k_ct * n_ct)和最小化输出 tile 大小(m_ct * n_ct),在满足内存和带宽约束下寻找最优解,以提升计算效率并减少存储冲突。这两个目标在 IP 求解中是联合考虑的,旨在找到一个均衡解。

1.2 系统级优化模型

扩展单核心优化模型至整个 NPU 阵列时,需结合 DRAM 带宽约束建立系统级性能模型,核心逻辑与参数定义需严格匹配硬件架构特性。

1. 关键参数与 DRAM 访问量计算
  • DRAM 访问量(A 矩阵)DRAM_A = (M * K) / (m_rows * k_mt)
  • DRAM 访问量(B 矩阵)DRAM_B = (K * N) / (n_cols * k_mt)
  • DRAM 访问量(C 矩阵,写操作)DRAM_C = M * N

其中,m_rows(阵列行数)和 n_cols(阵列列数)分别对应 GEMM 在 M 维度(A 矩阵行)和 N 维度(B 矩阵列)的并行度,直接决定数据复用效率(A 矩阵按行广播、B 矩阵按列广播)。不同代际 NPU 阵列参数如下:

| 技术参数 | XDNA | XDNA2 |
| :— | :— | :— |
| NPU 代际 | XDNA | XDNA2 |
| CompTile 总数(核心数) | 20 | 32 |
| 原始 2D 阵列(rows×cols) | 4×5 | 4×8 |
| 实际 GEMM 映射阵列(rows×cols) | 4×4 | 4×8 |
| m_rows(行数) | 4 | 4 |
| n_cols(列数) | 4 | 8 |
| 映射调整原因 | 由于 XDNA 架构的最后一列(第5列)物理上不存在 ShimTile(接口 Tile),无法实现该列核心与 DRAM 的数据交换,因此 GEMM 映射时仅使用前 4 列,形成逻辑上的 4×4 对称阵列。 | 全阵列可用,无 ShimTile 限制。 |

2. 核心时间模型
  • 总计算时间T_total_comp = (M * K * N * 2) / (η * P_peak)。其中 M*K*N*2 对应 GEMM 中“乘-加”操作总数;η 为单核心效率,直接等同于阵列整体效率,因所有核心独立并行;P_peak 为 NPU 阵列理论峰值吞吐量,由核心数、频率决定(XDNA 约 10 TOPS,XDNA2 约 50 TOPS)。
  • 总内存时间T_total_mem = (DRAM_A + DRAM_B + DRAM_C) * bytes_A / BW_DRAM。其中 BW_DRAM 为 NPU 可利用的有效 DRAM 带宽(作者实测 XDNA 约 15 GB/s,XDNA2 约 50 GB/s)。
3. 优化流程
  1. 初始化:基于单核心优化结果设定初始参数(m_ct, k_ct, n_ct),确保初始状态为内存瓶颈(T_total_mem > T_total_comp)。
  2. 迭代调整:每次迭代中,固定 m_ctn_ct,按 t(AIE API 支持的 tile 尺寸参数)的倍数减小 k_ct
  3. 参数求解:针对当前 k_ct,通过整数规划(IP)最大化 m_ct * k_ct * n_ct,同时满足 L1 内存容量、DMA 带宽约束。
  4. 性能评估与收敛:实测当前参数的 GEMM 性能。若性能持续提升则继续迭代;当性能首次下降时,前一次迭代的参数即为最优平衡解(此时 T_total_comp 开始大于 T_total_mem,进入计算瓶颈)。

创新点 2:基于多维张量寻址的无预分片 GEMM 实现

传统 GEMM 优化需在 DRAM 中对矩阵进行预分片(tiling),才能适配 NPU 核心的输入格式,导致与 DL 张量库(如 GGML)集成复杂。

本文利用 AMD NPU 的 DMA 多维寻址特性,实现实时(on-the-fly)张量转换。矩阵在 DRAM 中保持标准行/列主序,无需预处理。具体转换流程如下图所示:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式
图 4 | 矩阵 A 的动态 DMA 变换。该图展示矩阵 A 从 DRAM 传输到 NPU 过程中的多阶段 DMA 变换:ShimTile 通过 3D 寻址将行优先的 M×K 块拆为 m_rows×K 块,MemTile 经 3D+4D 寻址进一步拆为 m_ct×k_mt 块,最终 CompTile 通过 3D 寻址转为核心所需的 tiled 布局,确保 DRAM 中矩阵保持标准行优先格式。

观察上图可以发现:
1. ShimTile(3D 寻址):将 DRAM 中 M×K 的行主序矩阵拆分为 m_rows×K 子块。
2. MemTile(4D 寻址):进一步拆分为 m_ct×k_mt 子块。
3. CompTile(3D 寻址):最终转换为核心所需的 r×s×t tile 格式。

整个过程无需预分片,无缝兼容标准张量布局。其中需要强调的技术细节:
* MemTile 支持 4D 寻址,CompTile/ShimTile 支持 3D 寻址,通过多级转换满足核心输入要求。
* 针对 int8/bf16 等小精度数据,利用 AIE 核心的 shuffle 指令实现细粒度数据重排,以适配列主序存储的矩阵 B。

创新点 3:NPU-DRAM 数据移动的 BD 重配置优化

NPU 通过 ShimTile 与 DRAM 通信,每个 ShimTile 仅支持 16 个缓冲描述符(Buffer Descriptor, BD)。在复杂 GEMM 任务中,细粒度分块需要定义的 DMA 传输数量远超 16 个,若顺序重配置 BD 会导致 DMA 通道空闲,形成性能瓶颈。

缓冲描述符(BD)是一种硬件指令,用于向 DMA 引擎描述单次数据传输的全部细节,包括源/目标地址、数据量和同步锁等。在 GEMM 的复杂数据流中,每个输入/输出数据块(tile)的传输都需要一个独立的 BD。当 GEMM 的维度(M, K, N)很大时,所需的 BD 数量极易超过每个 ShimTile 16 个的硬件限制。

本文提出 “BD 重配置与 DMA 传输重叠” 优化方案,其核心思想是:在 DMA 引擎持续传输数据的同时,动态复用并重写已完成的 BD,从而避免因等待 BD 配置而导致的流水线停滞

其操作流程如下图所示,可通过以下步骤理解:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 图 5 | 最外层(第四层)GEMM 分块层级的简化视图

优化方案分步解析

  1. 初始化与队列填充:在 GEMM 计算开始前,向每个 ShimTile 的任务队列提交 15 个 BD(如上图中 ShimTile 0 的 BD_A0, BD_B0, BD_C0, BD_A4, BD_B4, BD_C1...),占满 16 个槽位中的 15 个,预留 1 个冗余。这些 BD 描述了首批需要传输的矩阵 AB 的输入块和矩阵 C 的输出块。
  2. 重叠执行与关键同步:DMA 引擎立即开始处理队列前部的 BD,在 DRAM 与 NPU 间移动数据,同时 NPU 核心开始计算。优化的关键在于同步逻辑:命令处理器仅需顺序等待输出矩阵 C 的 BD 完成(例如 BD_C0)。一旦某个 C 的 BD 完成,意味着生成该输出块所需的所有输入块(如 BD_A0, BD_B0)的传输也必然已完成。此时,这一组相关的 BD(两个输入,一个输出)即可被安全回收。
  3. 动态重配置与稳态维持:上述三个 BD 被回收后,立即在原地被重写(reconfigure) 为下一组待传输数据块的描述符,并重新插入任务队列尾部。例如,BD_A0, BD_B0, BD_C0 被更新为 BD_A8, BD_B8, BD_C2 的描述信息。此过程与仍在进行的其他 DMA 传输及核心计算完全重叠
  4. 达成高效稳态:通过这种机制,系统可以维持一个持续的流水线。在稳态下,任务队列中始终有接近满载的 BD(约 15 个)等待或正在执行,确保了 DMA 引擎的带宽被持续、充分地利用,消除了因 BD 数量限制带来的空闲等待。

四、实验结果:性能突破与验证

实验基于两款 mini PC 搭建:XDNA(Minisforum UM790 Pro,Ryzen 9 7940HS)和 XDNA2(ASRock 4×4 Box,Ryzen AI 7 350),均配置 DDR5-5600 DRAM。

1. 单核心性能验证

单核心优化后的吞吐量与内存利用率如下表所示:

| 设备 | 精度(输入-输出) | 内核尺寸 | 吞吐量(MACs/cycle) | L1 核心内存占用(KB) |
| :— | :— | :— | :— | :— |
| XDNA | int8-int8 | 64 × 232 × 64 | 233.0 | 62.0(97%) |
| XDNA | int8-int32 | 48 × 280 × 48 | 192.0 | 61.5(96%) |
| XDNA | bf16-bf16 | 64 × 104 × 64 | 112.6 | 60.0(94%) |
| XDNA2 | int8-int8 | 64 × 232 × 64 | 450.6 | 62.0(97%) |
| XDNA2 | int8-int32 | 48 × 280 × 48 | 384.0 | 61.5(96%) |
| XDNA2 | bf16-bf16 | 48 × 152 × 48 | 158.1 | 61.5(96%) |

上表显示,两代架构的 L1 内存利用率高达 94%-97%,接近饱和;XDNA2 单核心吞吐量是 XDNA 的 1.8-2.0 倍,体现了架构升级带来的算力提升。

2. NPU 阵列性能突破

跨两代 NPU 的阵列级性能(矩阵 B 为列主序)如下表所示(选取最优平衡 kernel):

| 设备 | 精度(输入-输出) | 内核尺寸 | 峰值计算 TOPS | 实际 NPU TOPS | GEMM 尺寸 |
| :— | :— | :— | :— | :— | :— |
| XDNA | int8-int8 | 112 × 112 × 112 | 6.80 | 6.52 | 4032 × 4032 × 4032 |
| XDNA | bf16-bf16 | 96 × 56 × 96 | 3.19 | 3.12 | 4224 × 4032 × 4224 |
| XDNA2 | int8-int8 | 144 × 72 × 144 | 39.52 | 37.35 | 4032 × 4320 × 4608 |
| XDNA2 | bf16-bf16 | 112 × 48 × 96 | 15.81 | 14.52 | 4032 × 4224 × 4608 |

  1. XDNA int8 实际性能达 6.52 TOPS(最高 6.76 TOPS),比此前工作提升 34%。
  2. XDNA2 int8 实际性能达 37.35 TOPS(最高 38.05 TOPS),接近理论峰值的 95%。
  3. bf16 精度下,XDNA 性能提升 62%,XDNA2 达到 14.71 TOPS,满足高精度深度学习任务需求。

更多详细数据:

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 表 2:XDNA 在不同数据类型下(矩阵 B 为列优先存储)的两个最优方案评估。表格涵盖输入输出精度、核大小(𝑚ct×𝑘ct×𝑛ct)、参数乘积(𝑚ct・𝑛ct)等关键信息,最优方案平衡计算与内存开销,如 int8-int8 类型中 112×112×112 核在 4032×4032×4032 矩阵规模下,实际 NPU 性能达 6.52 TOPS,有效提升 GEMM 效率。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 表 3:XDNA2 在不同数据类型下(矩阵 B 为列优先存储)的两个最优方案评估。表格涵盖输入输出精度、核大小(𝑚ct×𝑘ct×𝑛ct)、参数乘积(𝑚ct·𝑛ct)等指标,最优方案平衡计算与内存,如 int8-int8 类型中 144×72×144 核在 4032×4320×4608 矩阵规模下,实际 NPU 性能达 37.35 TOPS,还借助 NPU 多维张量寻址提升 DRAM 带宽利用率,优化 GEMM 效率。

3. 多尺寸 GEMM 性能稳定性

通过 roofline 曲线,验证不同 GEMM 尺寸下的性能稳定性,横轴为算术强度(OPs/Byte),纵轴为性能(TOPS)。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 图 7:XDNA 不同精度下的 roofline 性能曲线:(a)int8-int8精度,(b)int8-int16精度,(c)bf16-bf16精度

观察上图不同精度下的 roofline 性能曲线:
* 当算术强度超过 1000 后,性能趋于稳定(达到计算-内存平衡)。
* 列主序存储的矩阵 B 比行主序平均性能高 4.4%-4.8%,验证了连续内存访问的重要性。

AMD Ryzen AI NPU 性能跃升:XDNA2架构实现38.05 TOPS,GEMM优化开启计算-内存平衡新范式 图 8:XDNA2 不同精度下的 roofline 性能曲线:(a)int8-int8精度,(b)int8-int16精度,(c)bf16-bf16精度

观察上图,可以发现:
* XDNA2 相比 XDNA 性能稳定性更优,列主序 B 矩阵比行主序性能高 8.7%-25.2%。
* int8 精度下,列主序性能波动仅 5%,远低于行主序的 19%,体现了多维张量寻址与 BD 优化方案的协同效果。

五、总结与展望

本文通过三大核心创新,构建了跨 AMD XDNA/XDNA2 两代 NPU 的 GEMM 优化框架:

  1. 计算-内存平衡的解析建模:通过迭代优化找到性能最优平衡点,解决算力与带宽的反比约束;
  2. 多维张量寻址的无预分片实现:兼容标准张量布局,降低与深度学习库的集成复杂度;
  3. BD 重配置与 DMA 重叠:突破 ShimTile BD 数量限制,最大化 NPU 与 DRAM 之间的数据传输效率。

实验证明,该方案实现了业界顶尖的 GEMM 性能,为在 Ryzen AI NPU 上部署深度学习任务提供了关键技术支撑。未来工作可进一步探索 bf16 精度的原生优化,以及将方法论扩展到矩阵-向量乘法(GEMV)等特殊场景。

对于 AI 硬件开发者与研究者而言,本文的价值不仅在于性能突破,更在于提供了一套“硬件特性-解析建模-系统优化”的完整思路——在专用加速器日益复杂的今天,只有深度结合硬件架构的系统性优化,才能真正释放其算力潜力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16573

(0)
上一篇 2026年1月1日 上午10:06
下一篇 2026年1月1日 下午12:08

相关推荐

  • Scaling Law的AGI之路:从DeepMind历史到谷歌Gemini的工程化实践

    在近期Axios AI+峰会上,DeepMind联合创始人兼CEO Demis Hassabis发表了对Scaling Law(缩放定律)的坚定立场,认为其不仅是当前AI发展的核心驱动力,更是实现通用人工智能(AGI)的必经之路。这一观点与OpenAI首席科学家Ilya Sutskever此前提出的“Scaling遇到瓶颈”论形成鲜明对比,引发了业界对AI技…

    2025年12月8日
    9000
  • 从通用到专业:Libcom工作台如何重塑图像合成领域的精准编辑范式

    在2025年AIGC技术持续爆发的浪潮中,图像生成与编辑已成为数字内容创作的核心驱动力。从社交媒体的个性化头像到电商平台的动态海报,再到影视行业的预可视化分镜,AI生成内容正以前所未有的速度渗透至日常创作的各个环节。以Nano Banana、Qwen Edit为代表的通用图像编辑大模型凭借其强大的泛化能力,覆盖了从基础修图到复杂场景构建的广泛需求。特别是Na…

    2025年11月25日
    7800
  • ReSeek框架:赋予搜索智能体动态自我修正能力,突破推理链中的连锁错误瓶颈

    在人工智能技术快速发展的今天,搜索智能体(Search Agent)作为连接大语言模型与实时信息世界的关键桥梁,正面临两大核心挑战:知识的实时性与推理的复杂性。传统的检索增强生成(RAG)技术虽然能够引入外部知识,但其本质上仍是被动的信息检索过程。而搜索智能体的革命性突破在于,它能够通过与实时搜索引擎进行多轮交互,主动分解并执行复杂的多步任务。这种能力在人物…

    2025年11月18日
    7600
  • 可灵AI年末密集更新:多模态统一引擎与音画同出技术如何重塑生成式AI竞争格局

    2024年12月初,可灵AI在短短五天内连续发布五项重要更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能等,这一系列动作不仅展示了其在生成式AI领域的技术突破,更直接推动了行业竞争进入新的高度。本文将从技术架构、产品创新、行业影响三个维度,深入分析可灵AI此次更新的核心价值与未来趋势。 …

    2025年12月10日
    8500
  • MotionTrans:人类VR数据零样本迁移,开启机器人技能学习新范式

    近期,由清华大学、北京大学、武汉大学和上海交通大学联合研究团队发布的MotionTrans框架,在机器人技能学习领域取得了突破性进展。该研究由清华大学硕士生袁承博、武汉大学本科生周睿和北京大学博士生刘梦真主导,清华大学交叉信息研究院高阳助理教授担任通讯作者。这项研究的核心创新在于,首次实现了从人类VR数据到机器人的端到端零样本动作迁移,为机器人技能学习开辟了…

    2025年11月5日
    7400