PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践

关键词： RISC-V、PyTorch、CI/CD、RVV 向量化、RISE 项目

在 PyTorch Conf EU 2026 上，Meta 软件工程师、RISE 项目技术指导委员会联合主席 Ludovic Henry 以一个质朴的问题“So… how do you start?”，揭示了新兴硬件生态最关键的命题：如何让 RISC-V 这一潜力架构，真正承接 PyTorch 这座 AI 框架基石？

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践

作为开源软件与新兴硬件交叉领域的深耕者，Ludovic 始终聚焦于 AI 软件栈在 RISC-V 上的性能突破与稳定落地。

他分享了近期的重要实践：深度优化 OpenBLAS、oneDNN 等原生依赖库以释放 RVV 向量扩展潜力，主导搭建 RISC-V 专属的 PyTorch 测试基础设施，并系统性拆解了“编译、测试、发布”三重技术壁垒——不依赖口号，而是致力于交付可运行的代码、可复现的测试与可持续的发布流程。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践

PyTorch on RISC-V: From Cross-Compilation to Native CI
https://github.com/riseproject-dev/riscv-runner
4000 字，阅读约 20 分钟

这场演讲不仅是一次技术迁移的复盘：它直面 RISC-V 适配 PyTorch 的核心痛点，既解答了 RVV 向量扩展如何与动态图执行模型协同、算子优化如何上游化等深层技术问题，也破解了 NumPy/SciPy 等依赖库的“最后一公里”兼容难题，更给出了从交叉编译到原生硬件测试池的完整演进路线图。

这不仅填补了 RISC-V 在主流 AI 框架支持上的关键空白，更是一份开源硬件从“可用”走向“好用”的行业实操指南。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
Ludovic Henry 将介绍解决问题的方案、实践经验与有效/无效路径，并坦诚表示“尚未完全成功”。下方“编译→测试→发布”的流程呼应了项目从适配到落地的完整工程路径，为这场硬核实践定下了务实、不浮夸的基调。

本文目录

一、战略支点：为何 PyTorch 与 RISC-V 的相遇至关重要
- 1.1 RISC-V 的生态位与 PyTorch 的试金石效应
- 1.2 从云端到边缘的硬件现实
二、冰山之下：跨越编译鸿沟的工程艺术
- 2.1 地基重构：从操作系统到底层运行时
- 2.2 Python 世界的最后一公里
三、信任锚点：从“能编译”到“跑得稳”的 CI 进化
- 3.1 RISE Runners：打破硬件获取壁垒
- 3.2 漫长的绿化之旅
四、性能解耦与未来图景：走向原生加速
- 4.1 硬件加速的向量化路径
- 4.2 边缘侧的降维打击：ExecuTorch
- 4.3 社区驱动的飞轮效应

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
RISE 联盟成员墙，云集了 Meta、Google、高通、英伟达、联发科等科技巨头，直观展现了 RISC-V 软件生态的阵营实力，印证了推动 PyTorch 适配并非单打独斗，而是全行业协同打通开源软件与新兴硬件的集体行动。

一、战略支点：为何 PyTorch 与 RISC-V 的相遇至关重要

在深入具体的技术攻坚之前，Ludovic Henry 首先勾勒了 RISC-V 在当前计算版图中的位置以及 PyTorch 所承载的象征意义。这不是一次普通的软件适配，而是开源软件栈与开源指令集架构的一次顶峰对齐。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
多年生态建设成果：已生成 linux-noble-riscv64-py3.12 编译产物（258MB），并在原生 RISC-V 环境中完成矩阵乘法测试，输出正确的张量形状与数值。用真实运行结果证明，PyTorch 已能在 RISC-V 上基础执行 AI 计算，达成了编译阶段的核心目标。

1.1 RISC-V 的生态位与 PyTorch 的试金石效应

RISC-V 并非某家公司的私有财产，而是一个开放标准的指令集架构。其“免版税、开源、社区驱动”的特质，已支撑数十亿颗芯片的出货。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践

从嵌入式微控制器到数据中心级处理器，RISC-V 的触角正在迅速延伸。然而，一个架构能否在算力要求苛刻的 AI/ML 时代站稳脚跟，关键取决于其对主流框架的支持程度。

在这一背景下，PyTorch 的角色被提到了战略高度。作为 RISE 项目的旗舰级项目，PyTorch 在 RISC-V 上的运行表现，被定义为检验该平台是否“准备好应对 AI/ML 工作负载”的试金石。

如果开发者无法在 RISC-V 服务器上流畅运行 PyTorch，那么所有关于开放硬件在数据中心替代 x86 或 ARM 的畅想都将是无源之水。Ludovic Henry 的演讲逻辑清晰地表明：RISE 社区的目标不仅是让代码跑通，而是要通过优化 PyTorch 这一关键负载，反向驱动 RISC-V 底层硬件特性（如向量扩展）的成熟与工具链的完善。

1.2 从云端到边缘的硬件现实

为了证明这场迁移并非纸上谈兵，下图展示了当前的硬件基础——Scaleway EM-RV1 云实例。这是一款基于真实 RISC-V 裸金属服务器的商用云产品。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
Scaleway EM-RV1 裸金属服务器已在云端正式上线。该硬件是本次 PyTorch 适配、编译、测试的真实物理载体，提供原生 RISC-V 运行环境，支撑从交叉编译验证到原生 CI 测试的全流程工作。

相比于模拟器（QEMU）上的交叉编译验证，真实硬件的存在让后续的 CI/CD 流程具备了物理意义上的可靠性。值得注意的是，虽然当前硬件已可用于基础构建，但 Ludovic Henry 也预告了下一代 RVA23 标准硬件的到来，承诺将提供 2-3 倍的性能跃升。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践

二、冰山之下：跨越编译鸿沟的工程艺术

“Step 1: Make it compile.”

这句话听起来轻描淡写，但对于任何有过交叉编译或新架构移植经验的工程师而言，其背后隐藏的是一座巨大的“依赖冰山”。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：PyTorch编译的“依赖冰山”。可见层为PyTorch、VLLM、ExecuTorch等应用框架；隐藏层则包含NumPy、SciPy、数学库、GCC/LLVM、Linux内核乃至RISC-V硬件本身的全栈依赖。只有打通全栈，才能完成基础编译。）

Ludovic Henry 以抽丝剥茧的方式，揭示了RISE社区过去两年在这一层面的系统性工程。

2.1 地基重构：从操作系统到底层运行时

任何框架的运行都建立在稳健的操作系统与工具链之上。在x86生态中习以为常的 pip install，在riscv64架构下却是一场从底层开始的供应链重塑。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：PyTorch编译的底层基石——操作系统与工具链。RISE推动了AlmaLinux、RockyLinux及manylinux标准对riscv64的官方支持，并完善了GCC、LLVM/Clang在RISC-V上的适配。此基础层是上层所有软件运行的前提。）

这项工作远不止于重新编译内核。其核心在于确保 GCC/LLVM能够为RISC-V生成正确且高效的代码，特别是对后续性能至关重要的RVV向量扩展支持。

Ludovic Henry 特别强调了数学库这一层的挑战。

在AI计算中，OpenBLAS和oneDNN是CPU推理性能的核心加速库。若缺乏针对RISC-V Vector扩展的手工汇编优化或intrinsics重写，PyTorch在CPU上的计算将退化为低效的标量运算，性能将无法满足实际需求。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：AI计算核心数学库适配。RISE贡献了OpenBLAS的RVV支持，提供了向量化数学函数库SLEEF，并将oneDNN适配列为重点任务。这些库是PyTorch矩阵运算的底层支撑，其优化直接决定AI计算的正确性与性能。）

这暗示着社区正在为RISC-V定制一套高效的GEMM微内核，为所有上层矩阵运算奠定物理基础。

2.2 Python世界的最后一公里

当C/C++底层库编译通过后，便进入了更为繁琐的“Python生态最后一公里”适配。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：Python生态适配。PyTorch所依赖的NumPy、SciPy、ONNX、conda等所有wheel包均需支持riscv64。RISE耗时两年完成全依赖栈适配，演示了在riscv64架构的Ubuntu Docker中成功安装maturin，验证了Python工具链的可用性。）

NumPy、SciPy、ONNX等PyTorch生态基石库必须逐个生成适配riscv64的原生wheel包。一段演示在 linux/riscv64 容器中成功安装 maturin 的录屏，标志着一个重要里程碑：RISC-V平台已具备构建Python原生扩展的能力。

此环节最棘手的挑战在于解决ABI兼容性与二进制分发标准。得益于历史包袱较轻，RISC-V社区得以在一开始就推动 manylinux_2_31_riscv64 这类较新的ABI标准，避免了早期生态碎片化。这使得开发者可以像在x86上一样，直接通过pip安装预编译的wheel包，而无需进行耗时的本地源码编译。

三、信任锚点：从“能编译”到“跑得稳”的CI进化

跨越编译难关后，一个工程哲学层面的论断被提出：No CI = no official support（没有持续集成，就没有官方支持）。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：CI是官方支持的基石。RISE提供了基于Scaleway EM-RV1裸金属的免费GitHub Actions Runner，环境与x86/arm64一致、安全临时。项目仅需配置 runs-on: ubuntu-24.04-riscv 即可使用，为RISC-V项目提供标准化CI测试能力。）

对于成熟的软件工程而言，软件在特定架构上的可用性不取决于某次手动编译的成功，而取决于是否有一个持续验证、结果公开的自动化测试体系。

3.1 RISE Runners：打破硬件获取壁垒

为解决开发者缺乏RISC-V硬件的问题，RISE项目推出了具有变革意义的 RISE RISC-V Runners。

这是一种托管在GitHub Actions上的免费、裸金属、临时性的CI服务。其架构设计直接对标GitHub官方的x86/ARM运行器。通过简单的 runs-on: ubuntu-24.04-riscv 配置，任何开源项目都能获得真实的RISC-V算力进行验证。

这不仅大幅降低了准入门槛，更重要的是建立了一套标准化的验证流程。

3.2 漫长的“绿化”之旅

有了硬件基础设施，接下来的核心任务便是“Greening the Test Suite”（让测试套件全部通过）。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：PyTorch测试套件优化。通过社区贡献者与承包商协同，系统性修复RISC-V架构下失败的测试用例，提交问题、修复补丁并合并至上游。核心目标是实现RISC-V架构的PyTorch CI全绿，满足官方支持的核心条件，保障版本迭代的稳定性。）

这项工作旨在确保PyTorch在RISC-V上的行为符合预期，是获得上游官方支持、保障长期稳定性的关键一步。

展望：下一代RISE RISC-V Runner

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
（图示：RISC-V CI/CD运行器的未来规划。）

下一代RISE RISC-V Runner规划明确：
1. 硬件升级：采用下一代RVA23硬件，预计带来2-3倍的性能提升，并完整支持RVV向量扩展。
2. 体验对齐：推出虚拟化（VM）Runner，进一步对齐GitHub原生体验，完善 setup-python、ccache等工具链支持，实现开箱即用。
3. 深度集成：为PyTorch、Kubernetes等旗舰项目提供一站式集成，显著降低其适配与测试门槛。

这种代际升级预示着当前RISC-V软件栈正处在“算力忍耐期”，开发者们正利用现有硬件完善生态工具，以待下一代向量化硬件带来的性能爆发。

PyTorch 拥有数十万个测试用例，在 x86 上通过率极高，但在新架构上，隐含的未定义行为、端序假设、时间精度差异都会导致测试失败。Ludovic Henry 描述了团队如何系统性地排查失败用例、提交补丁并向上游反馈。这是一个枯燥但绝对必要的净化过程。

从芯片与编译器的角度看，CI 测试通过的过程实质上是软硬件接口规范对齐的过程。例如，某些测试失败可能并非 PyTorch 代码有误，而是触发了 RISC-V 特定内存模型下的竞态条件，或是编译器针对 RVV 向量化生成的代码在边界对齐上存在问题。解决这些问题是反向打磨 RISC-V 软件栈鲁棒性的最佳途径。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
PyTorch RISC-V 适配的关键抉择：团队将与 LF/PyTorch 官方协作，目标是将适配代码合入上游主分支，而非维护永久分支，体现了推动生态兼容、共建社区标准的务实思路。

四、性能解耦与未来图景：走向原生加速

在解决可用性问题后，自然过渡到性能与发布策略。

4.1 硬件加速的向量化路径

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
RISC-V 硬件加速栈示意图：标量计算单周期单元素，OpenBLAS+RVV 已达通用最优性能（无微架构调优）；oneDNN+RVV 支持单周期 VLEN 元素，覆盖 GEMM、卷积、池化、归一化等算子，是 PyTorch 在 RISC-V 上性能提升的核心路径。

Ludovic Henry 坦诚地指出，虽然 OpenBLAS 的 RVV 支持已接近最优（针对通用 RVV），但针对特定微架构的调优 尚未开始。这是典型的“先求有，再求好”策略。oneDNN 作为开源的深度神经网络加速库，其 pipeline 中的 RISC-V 适配工作预示着未来 PyTorch 在 RISC-V 上的卷积、RNN 等算子将能享受到现代 CPU 的缓存阻塞与指令重排优化。

4.2 边缘侧的降维打击：ExecuTorch

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
边缘 AI 场景：ExecuTorch 是 PyTorch 边缘轻量化方案，RISC-V 在嵌入式领域优势显著，二者天然融合。边缘端是 RISC-V+PyTorch 生态的重要前沿，完善从数据中心到终端的全场景 AI 部署能力。

PyTorch 在边缘侧的部署利器与 RISC-V 在嵌入式领域的天然优势在此形成了战略交汇。这意味着未来大量的端侧 AI 推理芯片（基于 RISC-V IP 核）将拥有一个极其丝滑的模型部署工作流——模型在云端 PyTorch 训练，导出为 .pte 文件，直接运行在 RISC-V MCU 上。

4.3 社区驱动的飞轮效应

在演讲的尾声，Ludovic Henry 发出了具体的行动呼吁，并描绘了“良性循环”：更多的库迁移 → 更丰富的 CI 验证 → 更稳定的平台体验 → 吸引更多开发者 → 发现更深层性能瓶颈 → 驱动硬件改进。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
Ludovic Henry 倡导社区协同，构建生态良性循环。呼吁开发者：将库移植到 riscv64、使用免费 RISE RISC-V Runner 搭建 CI、向上游提交补丁 / 报 bug / 参与测试。RISC-V 上 PyTorch 成熟是必然结果，社区参与将加速全栈落地。

这份演讲最大的价值在于其诚实性。它没有宣称 RISC-V 已经超越了 x86，而是诚实地展示了从底层代码迭代，到最终用户可见的 pip install 之间，到底隔着多么浩繁的工程细节。

RISC-V 在 AI 领域的崛起并非一道“是与否”的选择题，而是一个关于“何时到来”的时间函数。

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践
RISC-V 成为主流 AI 架构不是 “会不会” 的问题，而是 “什么时候” 的问题。

正如演讲最后结语所言——Not if, but when. 当编译、测试、发布这三座大山被社区合力移除后，一个真正开放的、无专利壁垒的 AI 算力时代轮廓已然清晰可见。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30781

PyTorch Conf EU 2026：RISC-V如何攻克AI框架适配难题？从RVV向量化到CI/CD的硬核实践

本文目录

一、战略支点：为何 PyTorch 与 RISC-V 的相遇至关重要

1.1 RISC-V 的生态位与 PyTorch 的试金石效应

1.2 从云端到边缘的硬件现实

二、冰山之下：跨越编译鸿沟的工程艺术

2.1 地基重构：从操作系统到底层运行时

2.2 Python世界的最后一公里

三、信任锚点：从“能编译”到“跑得稳”的CI进化

3.1 RISE Runners：打破硬件获取壁垒

3.2 漫长的“绿化”之旅

展望：下一代RISE RISC-V Runner

四、性能解耦与未来图景：走向原生加速

4.1 硬件加速的向量化路径

4.2 边缘侧的降维打击：ExecuTorch

4.3 社区驱动的飞轮效应

相关推荐

OpenClaw创始人揭秘：逆向API打造AI军团，80%手机App将被吞噬！

AI模型周报：阶跃星辰GUI Agent破纪录，Mistral 3系列开源引领多模态浪潮

谷歌Nano Banana Pro深度评测：多模态文生图模型的突破与局限

美团LongCat-Flash-Omni：全模态实时交互开源模型的架构突破与产业影响

DeepSeek核心工程师郭达雅离职：V2、V3、R1模型核心作者，从“中山大学雷军”到百万奖金天才