PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践

关键词: RISC-VPyTorchCI/CDRVV 向量化、RISE 项目

在 PyTorch Conf EU 2026 上,Meta 软件工程师、RISE 项目技术指导委员会联合主席 Ludovic Henry 以一个质朴的问题“So… how do you start?”,揭示了新兴硬件生态最关键的命题:如何让 RISC-V 这一潜力架构,真正承接 PyTorch 这座 AI 框架基石?

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践

作为开源软件与新兴硬件交叉领域的深耕者,Ludovic 始终聚焦于 AI 软件栈在 RISC-V 上的性能突破与稳定落地。

他分享了近期的重要实践:深度优化 OpenBLAS、oneDNN 等原生依赖库以释放 RVV 向量扩展潜力,主导搭建 RISC-V 专属的 PyTorch 测试基础设施,并系统性拆解了“编译、测试、发布”三重技术壁垒——不依赖口号,而是致力于交付可运行的代码、可复现的测试与可持续的发布流程。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践

  • PyTorch on RISC-V: From Cross-Compilation to Native CI
  • https://github.com/riseproject-dev/riscv-runner
  • 4000 字,阅读约 20 分钟

这场演讲不仅是一次技术迁移的复盘:它直面 RISC-V 适配 PyTorch 的核心痛点,既解答了 RVV 向量扩展如何与动态图执行模型协同、算子优化如何上游化等深层技术问题,也破解了 NumPy/SciPy 等依赖库的“最后一公里”兼容难题,更给出了从交叉编译到原生硬件测试池的完整演进路线图。

这不仅填补了 RISC-V 在主流 AI 框架支持上的关键空白,更是一份开源硬件从“可用”走向“好用”的行业实操指南。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
Ludovic Henry 将介绍解决问题的方案、实践经验与有效/无效路径,并坦诚表示“尚未完全成功”。下方“编译→测试→发布”的流程呼应了项目从适配到落地的完整工程路径,为这场硬核实践定下了务实、不浮夸的基调。

本文目录

  • 一、战略支点:为何 PyTorch 与 RISC-V 的相遇至关重要
    • 1.1 RISC-V 的生态位与 PyTorch 的试金石效应
    • 1.2 从云端到边缘的硬件现实
  • 二、冰山之下:跨越编译鸿沟的工程艺术
    • 2.1 地基重构:从操作系统到底层运行时
    • 2.2 Python 世界的最后一公里
  • 三、信任锚点:从“能编译”到“跑得稳”的 CI 进化
    • 3.1 RISE Runners:打破硬件获取壁垒
    • 3.2 漫长的绿化之旅
  • 四、性能解耦与未来图景:走向原生加速
    • 4.1 硬件加速的向量化路径
    • 4.2 边缘侧的降维打击:ExecuTorch
    • 4.3 社区驱动的飞轮效应

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
RISE 联盟成员墙,云集了 Meta、Google、高通、英伟达、联发科等科技巨头,直观展现了 RISC-V 软件生态的阵营实力,印证了推动 PyTorch 适配并非单打独斗,而是全行业协同打通开源软件与新兴硬件的集体行动。

一、战略支点:为何 PyTorch 与 RISC-V 的相遇至关重要

在深入具体的技术攻坚之前,Ludovic Henry 首先勾勒了 RISC-V 在当前计算版图中的位置以及 PyTorch 所承载的象征意义。这不是一次普通的软件适配,而是开源软件栈与开源指令集架构的一次顶峰对齐。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
多年生态建设成果:已生成 linux-noble-riscv64-py3.12 编译产物(258MB),并在原生 RISC-V 环境中完成矩阵乘法测试,输出正确的张量形状与数值。用真实运行结果证明,PyTorch 已能在 RISC-V 上基础执行 AI 计算,达成了编译阶段的核心目标。

1.1 RISC-V 的生态位与 PyTorch 的试金石效应

RISC-V 并非某家公司的私有财产,而是一个开放标准的指令集架构。其“免版税、开源、社区驱动”的特质,已支撑数十亿颗芯片的出货。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践

从嵌入式微控制器到数据中心级处理器,RISC-V 的触角正在迅速延伸。然而,一个架构能否在算力要求苛刻的 AI/ML 时代站稳脚跟,关键取决于其对主流框架的支持程度。

在这一背景下,PyTorch 的角色被提到了战略高度。作为 RISE 项目的旗舰级项目,PyTorch 在 RISC-V 上的运行表现,被定义为检验该平台是否“准备好应对 AI/ML 工作负载”的试金石

如果开发者无法在 RISC-V 服务器上流畅运行 PyTorch,那么所有关于开放硬件在数据中心替代 x86 或 ARM 的畅想都将是无源之水。Ludovic Henry 的演讲逻辑清晰地表明:RISE 社区的目标不仅是让代码跑通,而是要通过优化 PyTorch 这一关键负载,反向驱动 RISC-V 底层硬件特性(如向量扩展)的成熟与工具链的完善。

1.2 从云端到边缘的硬件现实

为了证明这场迁移并非纸上谈兵,下图展示了当前的硬件基础——Scaleway EM-RV1 云实例。这是一款基于真实 RISC-V 裸金属服务器的商用云产品。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
Scaleway EM-RV1 裸金属服务器已在云端正式上线。该硬件是本次 PyTorch 适配、编译、测试的真实物理载体,提供原生 RISC-V 运行环境,支撑从交叉编译验证到原生 CI 测试的全流程工作。

相比于模拟器(QEMU)上的交叉编译验证,真实硬件的存在让后续的 CI/CD 流程具备了物理意义上的可靠性。值得注意的是,虽然当前硬件已可用于基础构建,但 Ludovic Henry 也预告了下一代 RVA23 标准硬件的到来,承诺将提供 2-3 倍的性能跃升。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践

二、冰山之下:跨越编译鸿沟的工程艺术

“Step 1: Make it compile.”

这句话听起来轻描淡写,但对于任何有过交叉编译或新架构移植经验的工程师而言,其背后隐藏的是一座巨大的“依赖冰山”。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:PyTorch编译的“依赖冰山”。可见层为PyTorch、VLLM、ExecuTorch等应用框架;隐藏层则包含NumPy、SciPy、数学库、GCC/LLVM、Linux内核乃至RISC-V硬件本身的全栈依赖。只有打通全栈,才能完成基础编译。)

Ludovic Henry 以抽丝剥茧的方式,揭示了RISE社区过去两年在这一层面的系统性工程。

2.1 地基重构:从操作系统到底层运行时

任何框架的运行都建立在稳健的操作系统与工具链之上。在x86生态中习以为常的 pip install,在riscv64架构下却是一场从底层开始的供应链重塑。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:PyTorch编译的底层基石——操作系统与工具链。RISE推动了AlmaLinux、RockyLinux及manylinux标准对riscv64的官方支持,并完善了GCC、LLVM/Clang在RISC-V上的适配。此基础层是上层所有软件运行的前提。)

这项工作远不止于重新编译内核。其核心在于确保 GCC/LLVM能够为RISC-V生成正确且高效的代码,特别是对后续性能至关重要的RVV向量扩展支持。

Ludovic Henry 特别强调了数学库这一层的挑战。

在AI计算中,OpenBLASoneDNN是CPU推理性能的核心加速库。若缺乏针对RISC-V Vector扩展的手工汇编优化或intrinsics重写,PyTorch在CPU上的计算将退化为低效的标量运算,性能将无法满足实际需求。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:AI计算核心数学库适配。RISE贡献了OpenBLAS的RVV支持,提供了向量化数学函数库SLEEF,并将oneDNN适配列为重点任务。这些库是PyTorch矩阵运算的底层支撑,其优化直接决定AI计算的正确性与性能。)

这暗示着社区正在为RISC-V定制一套高效的GEMM微内核,为所有上层矩阵运算奠定物理基础。

2.2 Python世界的最后一公里

当C/C++底层库编译通过后,便进入了更为繁琐的“Python生态最后一公里”适配。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:Python生态适配。PyTorch所依赖的NumPy、SciPy、ONNX、conda等所有wheel包均需支持riscv64。RISE耗时两年完成全依赖栈适配,演示了在riscv64架构的Ubuntu Docker中成功安装maturin,验证了Python工具链的可用性。)

NumPy、SciPy、ONNX等PyTorch生态基石库必须逐个生成适配riscv64的原生wheel包。一段演示在 linux/riscv64 容器中成功安装 maturin 的录屏,标志着一个重要里程碑:RISC-V平台已具备构建Python原生扩展的能力

此环节最棘手的挑战在于解决ABI兼容性与二进制分发标准。得益于历史包袱较轻,RISC-V社区得以在一开始就推动 manylinux_2_31_riscv64 这类较新的ABI标准,避免了早期生态碎片化。这使得开发者可以像在x86上一样,直接通过pip安装预编译的wheel包,而无需进行耗时的本地源码编译。

三、信任锚点:从“能编译”到“跑得稳”的CI进化

跨越编译难关后,一个工程哲学层面的论断被提出:No CI = no official support(没有持续集成,就没有官方支持)。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:CI是官方支持的基石。RISE提供了基于Scaleway EM-RV1裸金属的免费GitHub Actions Runner,环境与x86/arm64一致、安全临时。项目仅需配置 runs-on: ubuntu-24.04-riscv 即可使用,为RISC-V项目提供标准化CI测试能力。)

对于成熟的软件工程而言,软件在特定架构上的可用性不取决于某次手动编译的成功,而取决于是否有一个持续验证、结果公开的自动化测试体系。

3.1 RISE Runners:打破硬件获取壁垒

为解决开发者缺乏RISC-V硬件的问题,RISE项目推出了具有变革意义的 RISE RISC-V Runners

这是一种托管在GitHub Actions上的免费、裸金属、临时性的CI服务。其架构设计直接对标GitHub官方的x86/ARM运行器。通过简单的 runs-on: ubuntu-24.04-riscv 配置,任何开源项目都能获得真实的RISC-V算力进行验证。

这不仅大幅降低了准入门槛,更重要的是建立了一套标准化的验证流程

3.2 漫长的“绿化”之旅

有了硬件基础设施,接下来的核心任务便是“Greening the Test Suite”(让测试套件全部通过)。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:PyTorch测试套件优化。通过社区贡献者与承包商协同,系统性修复RISC-V架构下失败的测试用例,提交问题、修复补丁并合并至上游。核心目标是实现RISC-V架构的PyTorch CI全绿,满足官方支持的核心条件,保障版本迭代的稳定性。)

这项工作旨在确保PyTorch在RISC-V上的行为符合预期,是获得上游官方支持、保障长期稳定性的关键一步。

展望:下一代RISE RISC-V Runner

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
(图示:RISC-V CI/CD运行器的未来规划。)

下一代RISE RISC-V Runner规划明确:
1. 硬件升级:采用下一代RVA23硬件,预计带来2-3倍的性能提升,并完整支持RVV向量扩展。
2. 体验对齐:推出虚拟化(VM)Runner,进一步对齐GitHub原生体验,完善 setup-python、ccache等工具链支持,实现开箱即用。
3. 深度集成:为PyTorch、Kubernetes等旗舰项目提供一站式集成,显著降低其适配与测试门槛。

这种代际升级预示着当前RISC-V软件栈正处在“算力忍耐期”,开发者们正利用现有硬件完善生态工具,以待下一代向量化硬件带来的性能爆发。

PyTorch 拥有数十万个测试用例,在 x86 上通过率极高,但在新架构上,隐含的未定义行为、端序假设、时间精度差异都会导致测试失败。Ludovic Henry 描述了团队如何系统性地排查失败用例、提交补丁并向上游反馈。这是一个枯燥但绝对必要的净化过程。

从芯片与编译器的角度看,CI 测试通过的过程实质上是软硬件接口规范对齐的过程。例如,某些测试失败可能并非 PyTorch 代码有误,而是触发了 RISC-V 特定内存模型下的竞态条件,或是编译器针对 RVV 向量化生成的代码在边界对齐上存在问题。解决这些问题是反向打磨 RISC-V 软件栈鲁棒性的最佳途径。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
PyTorch RISC-V 适配的关键抉择:团队将与 LF/PyTorch 官方协作,目标是将适配代码合入上游主分支,而非维护永久分支,体现了推动生态兼容、共建社区标准的务实思路。

四、性能解耦与未来图景:走向原生加速

在解决可用性问题后,自然过渡到性能与发布策略。

4.1 硬件加速的向量化路径

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
RISC-V 硬件加速栈示意图:标量计算单周期单元素,OpenBLAS+RVV 已达通用最优性能(无微架构调优);oneDNN+RVV 支持单周期 VLEN 元素,覆盖 GEMM、卷积、池化、归一化等算子,是 PyTorch 在 RISC-V 上性能提升的核心路径。

Ludovic Henry 坦诚地指出,虽然 OpenBLAS 的 RVV 支持已接近最优(针对通用 RVV),但针对特定微架构的调优 尚未开始。这是典型的“先求有,再求好”策略。oneDNN 作为开源的深度神经网络加速库,其 pipeline 中的 RISC-V 适配工作预示着未来 PyTorch 在 RISC-V 上的卷积、RNN 等算子将能享受到现代 CPU 的缓存阻塞与指令重排优化。

4.2 边缘侧的降维打击:ExecuTorch

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
边缘 AI 场景:ExecuTorch 是 PyTorch 边缘轻量化方案,RISC-V 在嵌入式领域优势显著,二者天然融合。边缘端是 RISC-V+PyTorch 生态的重要前沿,完善从数据中心到终端的全场景 AI 部署能力。

PyTorch 在边缘侧的部署利器与 RISC-V 在嵌入式领域的天然优势在此形成了战略交汇。这意味着未来大量的端侧 AI 推理芯片(基于 RISC-V IP 核)将拥有一个极其丝滑的模型部署工作流——模型在云端 PyTorch 训练,导出为 .pte 文件,直接运行在 RISC-V MCU 上。

4.3 社区驱动的飞轮效应

在演讲的尾声,Ludovic Henry 发出了具体的行动呼吁,并描绘了“良性循环”:更多的库迁移 → 更丰富的 CI 验证 → 更稳定的平台体验 → 吸引更多开发者 → 发现更深层性能瓶颈 → 驱动硬件改进

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
Ludovic Henry 倡导社区协同,构建生态良性循环。呼吁开发者:将库移植到 riscv64、使用免费 RISE RISC-V Runner 搭建 CI、向上游提交补丁 / 报 bug / 参与测试。RISC-V 上 PyTorch 成熟是必然结果,社区参与将加速全栈落地。

这份演讲最大的价值在于其诚实性。它没有宣称 RISC-V 已经超越了 x86,而是诚实地展示了从底层代码迭代,到最终用户可见的 pip install 之间,到底隔着多么浩繁的工程细节。

RISC-V 在 AI 领域的崛起并非一道“是与否”的选择题,而是一个关于“何时到来”的时间函数。

PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践
RISC-V 成为主流 AI 架构不是 “会不会” 的问题,而是 “什么时候” 的问题。

正如演讲最后结语所言——Not if, but when. 当编译、测试、发布这三座大山被社区合力移除后,一个真正开放的、无专利壁垒的 AI 算力时代轮廓已然清晰可见。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30781

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐

  • OpenClaw创始人揭秘:逆向API打造AI军团,80%手机App将被吞噬!

    “80%的手机App会被吃掉!” 近日,热门项目 OpenClaw(原名 Clawdbot)的创始人 Peter Steinberger 在一次播客访谈中分享了新的见解。 他透露,自己已将 OpenClaw 的应用场景扩展到诸如查询外卖配送进度、调节智能床温度等日常事务。实现这种能力扩展的核心方法在于:逆向第三方服务的 API。 Peter 预测,未来 80…

    2026年2月3日
    1.0K00
  • AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮

    12月1日 【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨…

    2025年12月8日
    46200
  • 谷歌Nano Banana Pro深度评测:多模态文生图模型的突破与局限

    谷歌最新推出的Nano Banana Pro(又名Gemini 3 Pro Image)作为Gemini 3 Pro的衍生模型,在多模态文生图领域引发了广泛关注。该模型整合了Gemini 3 Pro的多模态理解能力与谷歌搜索知识库,在图像生成质量、语义理解和专业图表制作等方面展现出显著进步。本文将从技术架构、实际表现、应用场景及现存挑战四个维度,对这一模型进…

    2025年11月21日
    28800
  • 美团LongCat-Flash-Omni:全模态实时交互开源模型的架构突破与产业影响

    在AI模型竞争日趋白热化的当下,美团最新开源的LongCat-Flash-Omni模型以“全模态实时交互”为核心卖点,不仅刷新了开源多模态模型的性能基准,更在架构设计层面展现了独特的技术路径。这款总参数560B、激活参数仅27B的MoE架构模型,成功实现了多模态能力与推理效率的平衡,标志着开源大模型在实用化道路上迈出了关键一步。 从性能表现来看,LongCa…

    2025年11月3日
    24700
  • DeepSeek核心工程师郭达雅离职:V2、V3、R1模型核心作者,从“中山大学雷军”到百万奖金天才

    DeepSeek核心工程师郭达雅离职:V2、V3、R1模型核心作者 DeepSeek核心工程师郭达雅被曝离职。作为公司V2、V3、R1等一系列模型的核心作者,他的动向备受关注。 这位曾被导师寄予厚望成为“中山大学雷军”的技术天才,在学术与竞赛领域有着近乎传奇的履历:自述在博士入学第三天便完成了毕业所需的论文发表要求;多次在腾讯广告算法大赛中蝉联冠军,并在AT…

    2026年3月23日
    63300