YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

关键词YOLO26、YOLO架构演进、单次检测算法(YOLO)、目标检测计算机视觉深度学习

十年来,单次检测算法(YOLO,You Only Look Once)一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点,并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下:

核心改进项 解释
移除分布焦点损失(DFL) 去掉预测边界框位置概率分布的模块,改为直接回归坐标,简化计算流程,减少推理开销。
端到端无非极大值抑制推理 推理时无需NMS后处理去重,网络直接输出最终检测框,提升推理速度。
渐进损失 + 小目标感知标签分配 动态平衡训练损失,并专门优化小目标的标签分配策略,提升小目标检测效果。
采用MuSGD优化器 结合Muon思想与SGD的新优化器,旨在使训练过程更稳定、收敛更快。

上述设计的核心目标是提升推理速度。据称,YOLO26在CPU模式下的推理速度提升可达43%。这一优化使其能够在边缘设备或无GPU的设备上实现实时推理性能。此外,YOLO26在实例分割、姿态估计和有向边界框(OBB)解码等多个计算机视觉任务中均实现了性能提升。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

本研究力求突破现有技术文档的信息整合范畴,挖掘更深层次的研究价值。因此,我们依托YOLO26在GitHub的源码及官方文档,对其进行了严谨的架构研究

YOLO26真实且详尽的运行机制均体现在源码中,而这部分内容极少被深入挖掘。本研究呈现了经调研得到的YOLO26架构图。据我们所知,这是首篇详细阐述基于卷积神经网络(CNN)的YOLO26核心架构的研究。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

表 1 | YOLO模型发展历程。以时间线为轴,系统性梳理了从2016年YOLOv1到2026年YOLO26共14个关键版本的迭代脉络。它不仅记录了作者团队的更迭(从Joseph Redmon到Ultralytics及其他机构),更核心的是提炼了每个版本最具代表性的架构创新,如锚框引入、无锚框进化、注意力机制融合及NMS-Free的实现,清晰揭示了YOLO模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。

我们旨在为有志于改进YOLO模型的研究者和开发者提供对YOLO26架构的精准理解,确保该模型始终保持计算机视觉领域深度学习模型的领先地位。

一、引言

1.1 Ultralytics版YOLO的核心优势

Ultralytics公司推出的YOLO版本是最受期待的YOLO模型,该版本具备以下多项优势:

a. 功能集成全面:集成了目标检测、实例分割、图像分类、姿态估计、有向目标检测和目标跟踪等多种计算机视觉任务,是一套综合性算法框架。

b. 流程简洁灵活:基于YAML语言的架构定义使得模型调整与改进流程简洁高效。

c. 部署支持完善:可导出为ONNX、TensorRT、CoreML和OpenVINO等多种框架格式,便于在不同平台部署。

d. 支持模型量化:通过降低数据精度来减少计算量,有效提升推理速度。

e. 速度与精度平衡:在保持实时推理速度的同时,维持了优异的检测精度。YOLO26更是将边缘设备的速度提升作为核心研发重点。

1.2 YOLO26的功能定位与命名特殊性

YOLO26是一款能够解决上述各类计算机视觉问题的综合性模型,但YOLO的各类功能其实已在YOLOv8中全面实现。从这一角度来看,YOLO26并无实质性的功能新增,但其对各类拓展功能进行了优化,相关细节将在本文后续部分展开阐述。

YOLO26的命名方式颇具特殊性,它并未延续上一版本YOLOv13的编号规则,而是直接跳至26。一种观点认为,该编号源于其2026年的发布时间,可将其视作YOLO的2026年版本。

1.3 YOLO26架构图缺失的影响与研究必要性

人类天生是视觉化的生物,通过图像可视化的信息更易被理解,而文字与数字描述往往存在局限性。YOLO26 架构图的缺失,让研究者和开发者在理解模型并对其进行升级优化时面临巨大阻碍,而这对 YOLO 模型的持续发展,以及其与基于 Transformer 的 RF-DETR [4]、RT-DETRv3 [5] 等其他目标检测模型的竞争至关重要。

为保持 YOLO 在目标检测模型乃至整个计算机视觉领域的领先地位,我们应鼓励社区参与 YOLO 模型的开发,而架构图的提供及解读是推动社区优化该模型的关键因素。YOLO 某一版本的架构改进往往会为其他版本提供参考,这一现象在 YOLO26 中已有所体现:其整合了 YOLOv10 的部分改进点 [6]。

1.4 研究依据与核心贡献

仅依靠 YOLO26 的技术文档 [1],无法绘制出精准的架构图。 例如,仅通过文档阅读,无法知晓分布焦点损失(DFL)在架构中所处的模块位置。要明确 YOLO26 中各架构改进的位置及工作原理,必须直接研读其源码 [7]。

据我们所知,本文是首篇呈现 YOLO26 整体架构图的论文,同时还详细阐述了 YOLO26 的核心改进点,希望本研究能为 YOLO 模型的优化发展提供助力。

1.5 YOLO26 的架构改进方向与研发目标

经深入研究发现,与上一版本相比,YOLO26 在架构上做出了多项改进,但整体设计仍延续了上一版本的单阶段端到端目标检测器架构。这些改进旨在提升模型效率、稳定训练过程,并摆脱预测阶段对非极大值抑制(NMS)的依赖

YOLO26 的发布口号为“端到端构建,为边缘设备而生”,其研发目标是在提升检测精度的同时,增强边缘设备上的运行性能。

二、YOLO 模型的发展历程

表 1 展示了 YOLO 模型的发展历程,该模型历经多次迭代,每个新版本均在架构上做出改进,这也反映出实时目标检测技术的飞速发展。

在最初的四年里,YOLO 仅发布了 3 个版本,而自 2020 年 YOLOv4 发布后,2020 至 2026 年间共推出了 11 个版本,这足以证明 YOLO 的受欢迎程度与技术发展速度。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

表 1 | YOLO 模型发展历程。以时间线为轴,系统性梳理了从 2016 年 YOLOv1 到 2026 年 YOLO26 共 14 个关键版本的迭代脉络。它不仅记录了作者团队的更迭(从 Joseph Redmon 到 Ultralytics 及其他机构),更核心的是提炼了每个版本最具代表性的架构创新,如锚框引入、无锚框进化、注意力机制融合及 NMS-Free 的实现,清晰揭示了 YOLO 模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。

YOLOv1 凭借单阶段网格检测方法和直接的边界框回归,颠覆了传统的目标识别方式,自此该模型进入快速发展阶段。后续版本在其基础上,陆续集成了锚框、批量归一化、多尺度预测等改进点,而 Darknet-53、CSPDarknet、EfficientRep 等更高效的骨干网络,PANet、SPP、ELAN、GELAN 等优化的特征融合方法,以及独特的无锚框检测头设计等创新,体现出 YOLO 模型在速度与精度双提升上的研发追求。

从 YOLOv9 到 YOLOv13,模型设计朝着更灵活的方向发展,融入了可编程梯度信息、注意力式结构、超图关联建模等特性。YOLO26 则进一步发展了这些理念,实现了融合双标签分配的无 NMS 检测方法,通过移除分布焦点损失(DFL)提升端到端推理效率,同时采用 MuSGD 优化器,并将渐进损失(ProgLoss)与小目标感知标签分配(STAL)相结合

YOLO 模型的发展历程,不仅体现了目标检测效果的持续提升,也展现出其在实例分割、姿态估计、有向边界框检测等当代计算机视觉任务中的能力拓展。

三、YOLO26 的架构

本研究中的架构图基于 Ultralytics GitHub 代码仓库最新版本(8.4.14)的源码绘制,具体参考了ultralytics/cfg/models/26目录下的 YOLO26 架构文件yolo26.yaml,以及ultralytics/nn目录下的tasks.py文件。为验证架构图的准确性,我们还开展了输入输出张量追踪实验。

3.1 架构变体的参数定义

与 YOLOv8 和 YOLOv11 一致,YOLO26 的变体由三个参数定义:depth_multiple(深度系数)、width_multiple(宽度系数)和max_channels(最大通道数)。其中:
* depth_multiple决定 C3k2 模块中的瓶颈块数量,以及 C2PSA 模块中的 PSA 块数量;
* width_multiplemax_channels则共同决定每个模块的输出通道数。

3.2 整体架构流程

YOLO26 的输入为三通道图像,图像数据依次经过骨干网络(Backbone)、颈部网络(Neck),最终进入检测头(Head)完成检测。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

图 1 | YOLO26 架构图完整呈现了 YOLO26 从三通道 640×640 输入到多尺度检测输出的全流程,清晰划分骨干网络、颈部网络、检测头三大核心模块,标注了各模块张量尺寸、核心组件(C3k2、SPPF、C2PSA 等)及参数配置,还明确了不同尺度特征图的下采样、上采样与拼接操作,直观展现了小、中、大目标检测头的特征来源与层级对应关系,是理解其特征提取与融合逻辑的核心可视化依据。

3.3 骨干网络(Backbone)结构

YOLO26 的骨干网络以两个卷积核大小为 3、步长为 2 的卷积块为起始,步长为 2 的设计会降低特征图的空间分辨率,每个卷积块输出特征图的空间分辨率均为输入的一半。

紧随其后的是 C3k2 模块,该模块用于生成高抽象度的特征,其包含nc3ke等多个参数。骨干网络中还包含 3、5、7 号等多个卷积块,以及 4、6、8 号等多个 C3k2 模块,这三个 C3k2 模块与颈部网络相连。

3.4 颈部网络(Neck)结构

颈部(Neck)网络的首个模块为快速空间金字塔池化(SPPF,Spatial Pyramid Pooling Fast),该模块能让模型通过不同尺寸的池化操作,提取不同抽象度的特征。
* YOLO26 对 SPPF 模块进行了增强,为其添加了快捷连接(shortcut),该连接可将输入直接融入输出,从而提升信息流动效率,增强特征表示能力。
* C2PSA 模块采用自注意力机制,通过融合全局建模能力提升模型效率。

颈部网络中还包含多个上采样(Upsample)和拼接(Concat)模块:上采样采用最近邻插值法提升特征图分辨率,拼接模块则用于融合多个特征图,该过程中特征图分辨率保持不变,通道数则会增加。

颈部网络由两个卷积块和四个 C3k2 模块组成,其中三个 C3k2 模块与检测头相连,且在最后一个 C3k2 模块中,新增了一个注意力块组件。

3.5 检测头(Head)结构

YOLO26 包含三个检测头:
* 与 16 号 C3k2 模块相连的首个检测头用于小目标检测
* 与 19 号 C3k2 模块相连的第二个检测头用于中目标检测
* 与 22 号 C3k2 模块相连的第三个检测头用于大目标检测

需要重点注意的是,在所有 YOLO 版本中,目标的尺寸划分均与图像或视频帧的尺寸成比例。

四、YOLO26 相较于前代 YOLO 版本的核心改进

YOLO26 的架构设计与 YOLOv11 高度相似 [18],二者拥有众多相同的架构组件,且均由 Ultralytics 公司开发。尽管如此,YOLO26 仍在前辈版本的基础上提出了诸多创新点,以下为其相较于 YOLOv11 的改进与调整内容。

4.1 SPPF 模块的结构改造

YOLO26 对快速空间金字塔池化(SPPF)模块进行了结构改造,引入了快捷连接。这一设计提升了特征图间的梯度传递效率,有助于在高维语义表示的优化过程中稳定训练过程。

4.2 检测层前最后一个 C3k2 模块的优化

YOLO26 将该模块的重复参数 n 设为 1,因为实验表明增加重复次数只会带来计算开销的上升,而无法提升检测精度。为了弥补由此可能带来的表征能力下降,YOLO26 在 PSABlock 模块中融入了注意力机制,在增强全局上下文建模能力的同时,最大限度地控制了参数数量和推理延迟的增加。

4.3 检测头的核心调整

YOLO26 的检测头仍包含三个检测块,分别负责小、中、大目标的检测。其最显著的变化是移除了分布焦点损失(DFL),改用直接预测坐标的边界框回归方式,这一设计简化了训练与推理流程。

在之前的 YOLO 模型中,DFL 通过预测边界框可能的位置分布来提升回归精度,但会增加计算量,且其固定的回归范围限制了模型学习一对一目标分配的能力,同时增加了对非极大值抑制(NMS)的依赖。YOLO26 移除 DFL 后,模型学习直接预测精准的边界框坐标,旨在实现更少但置信度更高的检测结果。

4.4 双分配无 NMS 训练策略

YOLO26 的检测头采用了受 YOLOv10 启发的双分配无 NMS 训练策略:
* 训练过程中同时使用一对多和一对一两种标签分配方式。一对多分配为骨干网络和颈部网络提供更全面的学习指导。
* 在推理阶段,一对多检测头会被舍弃,仅通过一对一检测头完成预测。

具体而言,YOLO26 彻底摒弃了 NMS 这一后处理步骤。传统方法会生成大量重叠的预测框再进行过滤,而 YOLO26 的网络直接输出最终的检测结果,实现了端到端无 NMS 推理。其训练过程中的两个检测头基于同一基础模型构建,但目标不同:
* 一对一检测头:将每个目标与唯一的预测框关联,是端到端无 NMS 架构的核心。
* 一对多检测头:仅在训练阶段使用,可将多个预测框与单个目标关联,提升监督密度,以更丰富的学习信号稳定训练过程并提升精度,在训练初期效果尤为显著。

4.5 渐进损失平衡策略(ProgLoss)

YOLO26 采用渐进损失平衡策略(ProgLoss) 来动态调整两个检测头对总损失的贡献比例:
* 训练初期,为一对多检测头分配更高的权重,以稳定学习过程、提升召回率。
* 随着训练的推进,权重逐渐向一对一检测头倾斜,使训练过程更贴合推理的实际情况。

这一设计旨在实现更平滑的模型收敛,减少训练不稳定性,提升最终性能的一致性。

4.6 小目标感知标签分配策略(STAL)

YOLO26 对现有的任务对齐学习(TAL)方法进行了改进。针对 TAL 在训练中容易忽略极小目标的问题,YOLO26 提出了小目标感知标签分配策略(STAL),对标签分配过程进行调整,确保小目标在训练中不被忽略。

具体来说,对于 640×640 的输入图像,该策略为尺寸小于 8×8 像素的目标设置至少四个锚框,保证这些极小目标也能持续为训练损失提供贡献。

4.7 MuSGD 优化器设计

为实现更稳定、可预测的训练过程,YOLO26 采用了全新的 MuSGD 优化器。该优化器在随机梯度下降(SGD)的基础上,融入了受大语言模型优化方法 Muon 启发的理念。

YOLO26 采用混合更新策略:部分参数通过 Muon 风格更新与 SGD 结合的方式更新,其余参数则仍采用纯 SGD 方式更新。该策略旨在实现更平滑的优化过程,加快模型收敛速度,并使不同尺寸的模型均能保持可预测的训练表现。

4.8 基于分数的推理结果筛选方法

在推理阶段,检测结果的筛选不再依赖 NMS 和边界框交并比(IoU)的比较。YOLO26 采用基于分数的排序方法:模型直接根据分类分数执行全局的 Top-K 选择,筛选出置信度最高的一组预测结果。整个过程无需计算 IoU,也无需进行 NMS。

通过上述改进,YOLO26 在提升检测精度的同时,显著优化了推理效率。开发者声称,其在 CPU 模式下的推理速度提升可达 43%,这使其在边缘设备或无 GPU 环境下的部署具备了显著优势。

五、YOLO26 在各计算机视觉专项任务中的性能提升

Ultralytics 版 YOLO 支持多种计算机视觉任务,YOLO26 对这些任务的性能均进行了针对性优化。

任务名称 任务说明 YOLO26 改进点
目标检测 在图像或视频帧中识别目标,并为其绘制边界框及分类。 各项架构改进与调整均直接推动了其目标检测核心性能的提升。
实例分割 在目标检测基础上,为每个目标生成像素级的掩码(Mask)。 引入了语义分割损失以提升收敛速度,并优化了原型模块,通过融合多尺度信息生成更高质量的掩码。
图像分类 将整张图像划分至预定义的类别,输出单一类别标签及置信度。 支持图像分类任务,输出单一类别标签与置信度分数。
姿态估计 检测图像或视频帧中的特定关键点(如人体关节)。 集成了残差对数似然估计(RLE),提升了关键点定位精度,同时优化了解码流程以提升推理速度。
有向边界框(OBB)检测 在传统目标检测基础上,增加方向角预测,以定位旋转目标。 引入了专用的角度损失以提升方形目标检测精度,并优化了 OBB 解码过程,解决了边界不连续问题。

六、性能对比

图 2 展示了 YOLO26 与前代 YOLO 版本的性能对比。数据基于 YOLO26 技术文档,其中平均精度均值(mAP)在 COCO 数据集上计算,推理速度通过 NVIDIA T4 GPU 进行测试。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

图 2 | YOLO 模型性能对比。该图为 YOLO26 与 YOLOv8/v9/v10/v11 在 NVIDIA T4 GPU、TensorRT FP16 精度下的延迟-精度对比散点图。纵轴为检测精度(mAP),横轴为单张图像推理延迟(ms)。图表显示,YOLO26 在全系列变体上实现了精度的全面领先,同时其轻量型(s, m)变体保持了与 YOLOv11 相当的最快推理速度。

结果显示,YOLO26 的各尺寸变体在精度上均超越了前代版本;在速度方面,其轻量型(s 和 m)变体达到了最快水平,与 YOLOv11 持平。

七、结论

与前代 YOLO 版本相比,YOLO26 在架构和训练机制上均做出了多项改进。从公开的模型性能对比结果来看,这些改进有效提升了整体性能。从架构角度分析,YOLO26 是对前代模型的优化升级,而非颠覆性的重新设计。

本研究通过深入调研得出结论:YOLO26 对多个架构组件进行了精细化优化,实现了检测精度的提升(尤其是小目标检测精度),并简化了推理流程,降低了计算成本,非常适合在边缘设备上部署。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21898

(0)
上一篇 19小时前
下一篇 5小时前

相关推荐

  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    16600
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    12000
  • AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

    前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量已超过 700 万。现在,一个有力的证明出现了。 近日,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了新项目 VibeTensor,展示了 AI 在编程方面的强大能力。 从名字可以看出,这是「氛围编程」(Vibe Co…

    2026年1月23日
    12400
  • 告别并行编程烦恼:Joblib如何让Python多进程变得优雅高效

    深夜,当办公室的灯光一盏盏熄灭,总有一块屏幕还在固执地亮着。 一位数据科学家靠在椅背上,目光紧盯着那条几乎停滞的进度条。数据集不大,机器也不差,问题在于 Python 正在忠实地、一个接一个地执行任务。 许多开发者都经历过这样的时刻。此时,“并行处理”的念头极具诱惑力——直到你真正尝试使用 Python 自带的 multiprocessing 模块,才发现它…

    2025年12月2日
    14400
  • KlingAvatar2.0:时空级联框架与共推理导演系统,让数字人拥有生动灵魂与5分钟长视频生成能力

    还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化。 近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告。这一次,数字人不仅能“表演”,更能“生动表达”——它们将拥有更丰富的情感层次、更精准的多角色互动,对复杂文本指令的深度理解能力,以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平…

    2025年12月24日
    20800