关键词: RISC-V、PyTorch、CI/CD、RVV 向量化、RISE 项目
在 PyTorch Conf EU 2026 上,Meta 软件工程师、RISE 项目技术指导委员会联合主席 Ludovic Henry 以一个质朴的问题“So… how do you start?”,揭示了新兴硬件生态最关键的命题:如何让 RISC-V 这一潜力架构,真正承接 PyTorch 这座 AI 框架基石?

作为开源软件与新兴硬件交叉领域的深耕者,Ludovic 始终聚焦于 AI 软件栈在 RISC-V 上的性能突破与稳定落地。
他分享了近期的重要实践:深度优化 OpenBLAS、oneDNN 等原生依赖库以释放 RVV 向量扩展潜力,主导搭建 RISC-V 专属的 PyTorch 测试基础设施,并系统性拆解了“编译、测试、发布”三重技术壁垒——不依赖口号,而是致力于交付可运行的代码、可复现的测试与可持续的发布流程。

- PyTorch on RISC-V: From Cross-Compilation to Native CI
- https://github.com/riseproject-dev/riscv-runner
- 4000 字,阅读约 20 分钟
这场演讲不仅是一次技术迁移的复盘:它直面 RISC-V 适配 PyTorch 的核心痛点,既解答了 RVV 向量扩展如何与动态图执行模型协同、算子优化如何上游化等深层技术问题,也破解了 NumPy/SciPy 等依赖库的“最后一公里”兼容难题,更给出了从交叉编译到原生硬件测试池的完整演进路线图。
这不仅填补了 RISC-V 在主流 AI 框架支持上的关键空白,更是一份开源硬件从“可用”走向“好用”的行业实操指南。

Ludovic Henry 将介绍解决问题的方案、实践经验与有效/无效路径,并坦诚表示“尚未完全成功”。下方“编译→测试→发布”的流程呼应了项目从适配到落地的完整工程路径,为这场硬核实践定下了务实、不浮夸的基调。
本文目录
- 一、战略支点:为何 PyTorch 与 RISC-V 的相遇至关重要
- 1.1 RISC-V 的生态位与 PyTorch 的试金石效应
- 1.2 从云端到边缘的硬件现实
- 二、冰山之下:跨越编译鸿沟的工程艺术
- 2.1 地基重构:从操作系统到底层运行时
- 2.2 Python 世界的最后一公里
- 三、信任锚点:从“能编译”到“跑得稳”的 CI 进化
- 3.1 RISE Runners:打破硬件获取壁垒
- 3.2 漫长的绿化之旅
- 四、性能解耦与未来图景:走向原生加速
- 4.1 硬件加速的向量化路径
- 4.2 边缘侧的降维打击:ExecuTorch
- 4.3 社区驱动的飞轮效应

RISE 联盟成员墙,云集了 Meta、Google、高通、英伟达、联发科等科技巨头,直观展现了 RISC-V 软件生态的阵营实力,印证了推动 PyTorch 适配并非单打独斗,而是全行业协同打通开源软件与新兴硬件的集体行动。
一、战略支点:为何 PyTorch 与 RISC-V 的相遇至关重要
在深入具体的技术攻坚之前,Ludovic Henry 首先勾勒了 RISC-V 在当前计算版图中的位置以及 PyTorch 所承载的象征意义。这不是一次普通的软件适配,而是开源软件栈与开源指令集架构的一次顶峰对齐。

多年生态建设成果:已生成 linux-noble-riscv64-py3.12 编译产物(258MB),并在原生 RISC-V 环境中完成矩阵乘法测试,输出正确的张量形状与数值。用真实运行结果证明,PyTorch 已能在 RISC-V 上基础执行 AI 计算,达成了编译阶段的核心目标。
1.1 RISC-V 的生态位与 PyTorch 的试金石效应
RISC-V 并非某家公司的私有财产,而是一个开放标准的指令集架构。其“免版税、开源、社区驱动”的特质,已支撑数十亿颗芯片的出货。

从嵌入式微控制器到数据中心级处理器,RISC-V 的触角正在迅速延伸。然而,一个架构能否在算力要求苛刻的 AI/ML 时代站稳脚跟,关键取决于其对主流框架的支持程度。
在这一背景下,PyTorch 的角色被提到了战略高度。作为 RISE 项目的旗舰级项目,PyTorch 在 RISC-V 上的运行表现,被定义为检验该平台是否“准备好应对 AI/ML 工作负载”的试金石。
如果开发者无法在 RISC-V 服务器上流畅运行 PyTorch,那么所有关于开放硬件在数据中心替代 x86 或 ARM 的畅想都将是无源之水。Ludovic Henry 的演讲逻辑清晰地表明:RISE 社区的目标不仅是让代码跑通,而是要通过优化 PyTorch 这一关键负载,反向驱动 RISC-V 底层硬件特性(如向量扩展)的成熟与工具链的完善。
1.2 从云端到边缘的硬件现实
为了证明这场迁移并非纸上谈兵,下图展示了当前的硬件基础——Scaleway EM-RV1 云实例。这是一款基于真实 RISC-V 裸金属服务器的商用云产品。

Scaleway EM-RV1 裸金属服务器已在云端正式上线。该硬件是本次 PyTorch 适配、编译、测试的真实物理载体,提供原生 RISC-V 运行环境,支撑从交叉编译验证到原生 CI 测试的全流程工作。
相比于模拟器(QEMU)上的交叉编译验证,真实硬件的存在让后续的 CI/CD 流程具备了物理意义上的可靠性。值得注意的是,虽然当前硬件已可用于基础构建,但 Ludovic Henry 也预告了下一代 RVA23 标准硬件的到来,承诺将提供 2-3 倍的性能跃升。

二、冰山之下:跨越编译鸿沟的工程艺术
“Step 1: Make it compile.”
这句话听起来轻描淡写,但对于任何有过交叉编译或新架构移植经验的工程师而言,其背后隐藏的是一座巨大的“依赖冰山”。

(图示:PyTorch编译的“依赖冰山”。可见层为PyTorch、VLLM、ExecuTorch等应用框架;隐藏层则包含NumPy、SciPy、数学库、GCC/LLVM、Linux内核乃至RISC-V硬件本身的全栈依赖。只有打通全栈,才能完成基础编译。)
Ludovic Henry 以抽丝剥茧的方式,揭示了RISE社区过去两年在这一层面的系统性工程。
2.1 地基重构:从操作系统到底层运行时
任何框架的运行都建立在稳健的操作系统与工具链之上。在x86生态中习以为常的
pip install,在riscv64架构下却是一场从底层开始的供应链重塑。

(图示:PyTorch编译的底层基石——操作系统与工具链。RISE推动了AlmaLinux、RockyLinux及manylinux标准对riscv64的官方支持,并完善了GCC、LLVM/Clang在RISC-V上的适配。此基础层是上层所有软件运行的前提。)
这项工作远不止于重新编译内核。其核心在于确保 GCC/LLVM能够为RISC-V生成正确且高效的代码,特别是对后续性能至关重要的RVV向量扩展支持。
Ludovic Henry 特别强调了数学库这一层的挑战。
在AI计算中,OpenBLAS和oneDNN是CPU推理性能的核心加速库。若缺乏针对RISC-V Vector扩展的手工汇编优化或intrinsics重写,PyTorch在CPU上的计算将退化为低效的标量运算,性能将无法满足实际需求。

(图示:AI计算核心数学库适配。RISE贡献了OpenBLAS的RVV支持,提供了向量化数学函数库SLEEF,并将oneDNN适配列为重点任务。这些库是PyTorch矩阵运算的底层支撑,其优化直接决定AI计算的正确性与性能。)
这暗示着社区正在为RISC-V定制一套高效的GEMM微内核,为所有上层矩阵运算奠定物理基础。
2.2 Python世界的最后一公里
当C/C++底层库编译通过后,便进入了更为繁琐的“Python生态最后一公里”适配。

(图示:Python生态适配。PyTorch所依赖的NumPy、SciPy、ONNX、conda等所有wheel包均需支持riscv64。RISE耗时两年完成全依赖栈适配,演示了在riscv64架构的Ubuntu Docker中成功安装maturin,验证了Python工具链的可用性。)
NumPy、SciPy、ONNX等PyTorch生态基石库必须逐个生成适配riscv64的原生wheel包。一段演示在 linux/riscv64 容器中成功安装 maturin 的录屏,标志着一个重要里程碑:RISC-V平台已具备构建Python原生扩展的能力。
此环节最棘手的挑战在于解决ABI兼容性与二进制分发标准。得益于历史包袱较轻,RISC-V社区得以在一开始就推动 manylinux_2_31_riscv64 这类较新的ABI标准,避免了早期生态碎片化。这使得开发者可以像在x86上一样,直接通过pip安装预编译的wheel包,而无需进行耗时的本地源码编译。
三、信任锚点:从“能编译”到“跑得稳”的CI进化
跨越编译难关后,一个工程哲学层面的论断被提出:No CI = no official support(没有持续集成,就没有官方支持)。

(图示:CI是官方支持的基石。RISE提供了基于Scaleway EM-RV1裸金属的免费GitHub Actions Runner,环境与x86/arm64一致、安全临时。项目仅需配置 runs-on: ubuntu-24.04-riscv 即可使用,为RISC-V项目提供标准化CI测试能力。)
对于成熟的软件工程而言,软件在特定架构上的可用性不取决于某次手动编译的成功,而取决于是否有一个持续验证、结果公开的自动化测试体系。
3.1 RISE Runners:打破硬件获取壁垒
为解决开发者缺乏RISC-V硬件的问题,RISE项目推出了具有变革意义的 RISE RISC-V Runners。
这是一种托管在GitHub Actions上的免费、裸金属、临时性的CI服务。其架构设计直接对标GitHub官方的x86/ARM运行器。通过简单的 runs-on: ubuntu-24.04-riscv 配置,任何开源项目都能获得真实的RISC-V算力进行验证。
这不仅大幅降低了准入门槛,更重要的是建立了一套标准化的验证流程。
3.2 漫长的“绿化”之旅
有了硬件基础设施,接下来的核心任务便是“Greening the Test Suite”(让测试套件全部通过)。

(图示:PyTorch测试套件优化。通过社区贡献者与承包商协同,系统性修复RISC-V架构下失败的测试用例,提交问题、修复补丁并合并至上游。核心目标是实现RISC-V架构的PyTorch CI全绿,满足官方支持的核心条件,保障版本迭代的稳定性。)
这项工作旨在确保PyTorch在RISC-V上的行为符合预期,是获得上游官方支持、保障长期稳定性的关键一步。
展望:下一代RISE RISC-V Runner

(图示:RISC-V CI/CD运行器的未来规划。)
下一代RISE RISC-V Runner规划明确:
1. 硬件升级:采用下一代RVA23硬件,预计带来2-3倍的性能提升,并完整支持RVV向量扩展。
2. 体验对齐:推出虚拟化(VM)Runner,进一步对齐GitHub原生体验,完善 setup-python、ccache等工具链支持,实现开箱即用。
3. 深度集成:为PyTorch、Kubernetes等旗舰项目提供一站式集成,显著降低其适配与测试门槛。
这种代际升级预示着当前RISC-V软件栈正处在“算力忍耐期”,开发者们正利用现有硬件完善生态工具,以待下一代向量化硬件带来的性能爆发。
PyTorch 拥有数十万个测试用例,在 x86 上通过率极高,但在新架构上,隐含的未定义行为、端序假设、时间精度差异都会导致测试失败。Ludovic Henry 描述了团队如何系统性地排查失败用例、提交补丁并向上游反馈。这是一个枯燥但绝对必要的净化过程。
从芯片与编译器的角度看,CI 测试通过的过程实质上是软硬件接口规范对齐的过程。例如,某些测试失败可能并非 PyTorch 代码有误,而是触发了 RISC-V 特定内存模型下的竞态条件,或是编译器针对 RVV 向量化生成的代码在边界对齐上存在问题。解决这些问题是反向打磨 RISC-V 软件栈鲁棒性的最佳途径。

PyTorch RISC-V 适配的关键抉择:团队将与 LF/PyTorch 官方协作,目标是将适配代码合入上游主分支,而非维护永久分支,体现了推动生态兼容、共建社区标准的务实思路。
四、性能解耦与未来图景:走向原生加速
在解决可用性问题后,自然过渡到性能与发布策略。
4.1 硬件加速的向量化路径

RISC-V 硬件加速栈示意图:标量计算单周期单元素,OpenBLAS+RVV 已达通用最优性能(无微架构调优);oneDNN+RVV 支持单周期 VLEN 元素,覆盖 GEMM、卷积、池化、归一化等算子,是 PyTorch 在 RISC-V 上性能提升的核心路径。
Ludovic Henry 坦诚地指出,虽然 OpenBLAS 的 RVV 支持已接近最优(针对通用 RVV),但针对特定微架构的调优 尚未开始。这是典型的“先求有,再求好”策略。oneDNN 作为开源的深度神经网络加速库,其 pipeline 中的 RISC-V 适配工作预示着未来 PyTorch 在 RISC-V 上的卷积、RNN 等算子将能享受到现代 CPU 的缓存阻塞与指令重排优化。
4.2 边缘侧的降维打击:ExecuTorch

边缘 AI 场景:ExecuTorch 是 PyTorch 边缘轻量化方案,RISC-V 在嵌入式领域优势显著,二者天然融合。边缘端是 RISC-V+PyTorch 生态的重要前沿,完善从数据中心到终端的全场景 AI 部署能力。
PyTorch 在边缘侧的部署利器与 RISC-V 在嵌入式领域的天然优势在此形成了战略交汇。这意味着未来大量的端侧 AI 推理芯片(基于 RISC-V IP 核)将拥有一个极其丝滑的模型部署工作流——模型在云端 PyTorch 训练,导出为 .pte 文件,直接运行在 RISC-V MCU 上。
4.3 社区驱动的飞轮效应
在演讲的尾声,Ludovic Henry 发出了具体的行动呼吁,并描绘了“良性循环”:更多的库迁移 → 更丰富的 CI 验证 → 更稳定的平台体验 → 吸引更多开发者 → 发现更深层性能瓶颈 → 驱动硬件改进。

Ludovic Henry 倡导社区协同,构建生态良性循环。呼吁开发者:将库移植到 riscv64、使用免费 RISE RISC-V Runner 搭建 CI、向上游提交补丁 / 报 bug / 参与测试。RISC-V 上 PyTorch 成熟是必然结果,社区参与将加速全栈落地。
这份演讲最大的价值在于其诚实性。它没有宣称 RISC-V 已经超越了 x86,而是诚实地展示了从底层代码迭代,到最终用户可见的 pip install 之间,到底隔着多么浩繁的工程细节。
RISC-V 在 AI 领域的崛起并非一道“是与否”的选择题,而是一个关于“何时到来”的时间函数。

RISC-V 成为主流 AI 架构不是 “会不会” 的问题,而是 “什么时候” 的问题。
正如演讲最后结语所言——Not if, but when. 当编译、测试、发布这三座大山被社区合力移除后,一个真正开放的、无专利壁垒的 AI 算力时代轮廓已然清晰可见。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30781

