YOLO26深度解析：十年演进，如何实现CPU推理43%加速与边缘设备实时检测

关键词：YOLO26、YOLO架构演进、单次检测算法（YOLO）、目标检测、计算机视觉、深度学习

十年来，单次检测算法（YOLO，You Only Look Once）一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点，并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下：

核心改进项	解释
移除分布焦点损失（DFL）	去掉预测边界框位置概率分布的模块，改为直接回归坐标，简化计算流程，减少推理开销。
端到端无非极大值抑制推理	推理时无需NMS后处理去重，网络直接输出最终检测框，提升推理速度。
渐进损失 + 小目标感知标签分配	动态平衡训练损失，并专门优化小目标的标签分配策略，提升小目标检测效果。
采用MuSGD优化器	结合Muon思想与SGD的新优化器，旨在使训练过程更稳定、收敛更快。

上述设计的核心目标是提升推理速度。据称，YOLO26在CPU模式下的推理速度提升可达43%。这一优化使其能够在边缘设备或无GPU的设备上实现实时推理性能。此外，YOLO26在实例分割、姿态估计和有向边界框（OBB）解码等多个计算机视觉任务中均实现了性能提升。

本研究力求突破现有技术文档的信息整合范畴，挖掘更深层次的研究价值。因此，我们依托YOLO26在GitHub的源码及官方文档，对其进行了严谨的架构研究。

YOLO26真实且详尽的运行机制均体现在源码中，而这部分内容极少被深入挖掘。本研究呈现了经调研得到的YOLO26架构图。据我们所知，这是首篇详细阐述基于卷积神经网络（CNN）的YOLO26核心架构的研究。

表 1 | YOLO模型发展历程。以时间线为轴，系统性梳理了从2016年YOLOv1到2026年YOLO26共14个关键版本的迭代脉络。它不仅记录了作者团队的更迭（从Joseph Redmon到Ultralytics及其他机构），更核心的是提炼了每个版本最具代表性的架构创新，如锚框引入、无锚框进化、注意力机制融合及NMS-Free的实现，清晰揭示了YOLO模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。

我们旨在为有志于改进YOLO模型的研究者和开发者提供对YOLO26架构的精准理解，确保该模型始终保持计算机视觉领域深度学习模型的领先地位。

一、引言

1.1 Ultralytics版YOLO的核心优势

Ultralytics公司推出的YOLO版本是最受期待的YOLO模型，该版本具备以下多项优势：

a. 功能集成全面：集成了目标检测、实例分割、图像分类、姿态估计、有向目标检测和目标跟踪等多种计算机视觉任务，是一套综合性算法框架。

b. 流程简洁灵活：基于YAML语言的架构定义使得模型调整与改进流程简洁高效。

c. 部署支持完善：可导出为ONNX、TensorRT、CoreML和OpenVINO等多种框架格式，便于在不同平台部署。

d. 支持模型量化：通过降低数据精度来减少计算量，有效提升推理速度。

e. 速度与精度平衡：在保持实时推理速度的同时，维持了优异的检测精度。YOLO26更是将边缘设备的速度提升作为核心研发重点。

1.2 YOLO26的功能定位与命名特殊性

YOLO26是一款能够解决上述各类计算机视觉问题的综合性模型，但YOLO的各类功能其实已在YOLOv8中全面实现。从这一角度来看，YOLO26并无实质性的功能新增，但其对各类拓展功能进行了优化，相关细节将在本文后续部分展开阐述。

YOLO26的命名方式颇具特殊性，它并未延续上一版本YOLOv13的编号规则，而是直接跳至26。一种观点认为，该编号源于其2026年的发布时间，可将其视作YOLO的2026年版本。

1.3 YOLO26架构图缺失的影响与研究必要性

人类天生是视觉化的生物，通过图像可视化的信息更易被理解，而文字与数字描述往往存在局限性。YOLO26 架构图的缺失，让研究者和开发者在理解模型并对其进行升级优化时面临巨大阻碍，而这对 YOLO 模型的持续发展，以及其与基于 Transformer 的 RF-DETR [4]、RT-DETRv3 [5] 等其他目标检测模型的竞争至关重要。

为保持 YOLO 在目标检测模型乃至整个计算机视觉领域的领先地位，我们应鼓励社区参与 YOLO 模型的开发，而架构图的提供及解读是推动社区优化该模型的关键因素。YOLO 某一版本的架构改进往往会为其他版本提供参考，这一现象在 YOLO26 中已有所体现：其整合了 YOLOv10 的部分改进点 [6]。

1.4 研究依据与核心贡献

仅依靠 YOLO26 的技术文档 [1]，无法绘制出精准的架构图。 例如，仅通过文档阅读，无法知晓分布焦点损失（DFL）在架构中所处的模块位置。要明确 YOLO26 中各架构改进的位置及工作原理，必须直接研读其源码 [7]。

据我们所知，本文是首篇呈现 YOLO26 整体架构图的论文，同时还详细阐述了 YOLO26 的核心改进点，希望本研究能为 YOLO 模型的优化发展提供助力。

1.5 YOLO26 的架构改进方向与研发目标

经深入研究发现，与上一版本相比，YOLO26 在架构上做出了多项改进，但整体设计仍延续了上一版本的单阶段端到端目标检测器架构。这些改进旨在提升模型效率、稳定训练过程，并摆脱预测阶段对非极大值抑制（NMS）的依赖。

YOLO26 的发布口号为“端到端构建，为边缘设备而生”，其研发目标是在提升检测精度的同时，增强边缘设备上的运行性能。

二、YOLO 模型的发展历程

表 1 展示了 YOLO 模型的发展历程，该模型历经多次迭代，每个新版本均在架构上做出改进，这也反映出实时目标检测技术的飞速发展。

在最初的四年里，YOLO 仅发布了 3 个版本，而自 2020 年 YOLOv4 发布后，2020 至 2026 年间共推出了 11 个版本，这足以证明 YOLO 的受欢迎程度与技术发展速度。

表 1 | YOLO 模型发展历程。以时间线为轴，系统性梳理了从 2016 年 YOLOv1 到 2026 年 YOLO26 共 14 个关键版本的迭代脉络。它不仅记录了作者团队的更迭（从 Joseph Redmon 到 Ultralytics 及其他机构），更核心的是提炼了每个版本最具代表性的架构创新，如锚框引入、无锚框进化、注意力机制融合及 NMS-Free 的实现，清晰揭示了 YOLO 模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。

YOLOv1 凭借单阶段网格检测方法和直接的边界框回归，颠覆了传统的目标识别方式，自此该模型进入快速发展阶段。后续版本在其基础上，陆续集成了锚框、批量归一化、多尺度预测等改进点，而 Darknet-53、CSPDarknet、EfficientRep 等更高效的骨干网络，PANet、SPP、ELAN、GELAN 等优化的特征融合方法，以及独特的无锚框检测头设计等创新，体现出 YOLO 模型在速度与精度双提升上的研发追求。

从 YOLOv9 到 YOLOv13，模型设计朝着更灵活的方向发展，融入了可编程梯度信息、注意力式结构、超图关联建模等特性。YOLO26 则进一步发展了这些理念，实现了融合双标签分配的无 NMS 检测方法，通过移除分布焦点损失（DFL）提升端到端推理效率，同时采用 MuSGD 优化器，并将渐进损失（ProgLoss）与小目标感知标签分配（STAL）相结合。

YOLO 模型的发展历程，不仅体现了目标检测效果的持续提升，也展现出其在实例分割、姿态估计、有向边界框检测等当代计算机视觉任务中的能力拓展。

三、YOLO26 的架构

本研究中的架构图基于 Ultralytics GitHub 代码仓库最新版本（8.4.14）的源码绘制，具体参考了ultralytics/cfg/models/26目录下的 YOLO26 架构文件yolo26.yaml，以及ultralytics/nn目录下的tasks.py文件。为验证架构图的准确性，我们还开展了输入输出张量追踪实验。

3.1 架构变体的参数定义

与 YOLOv8 和 YOLOv11 一致，YOLO26 的变体由三个参数定义：depth_multiple（深度系数）、width_multiple（宽度系数）和max_channels（最大通道数）。其中：
* depth_multiple决定 C3k2 模块中的瓶颈块数量，以及 C2PSA 模块中的 PSA 块数量；
* width_multiple和max_channels则共同决定每个模块的输出通道数。

3.2 整体架构流程

YOLO26 的输入为三通道图像，图像数据依次经过骨干网络（Backbone）、颈部网络（Neck），最终进入检测头（Head）完成检测。

图 1 | YOLO26 架构图完整呈现了 YOLO26 从三通道 640×640 输入到多尺度检测输出的全流程，清晰划分骨干网络、颈部网络、检测头三大核心模块，标注了各模块张量尺寸、核心组件（C3k2、SPPF、C2PSA 等）及参数配置，还明确了不同尺度特征图的下采样、上采样与拼接操作，直观展现了小、中、大目标检测头的特征来源与层级对应关系，是理解其特征提取与融合逻辑的核心可视化依据。

3.3 骨干网络（Backbone）结构

YOLO26 的骨干网络以两个卷积核大小为 3、步长为 2 的卷积块为起始，步长为 2 的设计会降低特征图的空间分辨率，每个卷积块输出特征图的空间分辨率均为输入的一半。

紧随其后的是 C3k2 模块，该模块用于生成高抽象度的特征，其包含n、c3k、e等多个参数。骨干网络中还包含 3、5、7 号等多个卷积块，以及 4、6、8 号等多个 C3k2 模块，这三个 C3k2 模块与颈部网络相连。

3.4 颈部网络（Neck）结构

颈部（Neck）网络的首个模块为快速空间金字塔池化（SPPF，Spatial Pyramid Pooling Fast），该模块能让模型通过不同尺寸的池化操作，提取不同抽象度的特征。
* YOLO26 对 SPPF 模块进行了增强，为其添加了快捷连接（shortcut），该连接可将输入直接融入输出，从而提升信息流动效率，增强特征表示能力。
* C2PSA 模块采用自注意力机制，通过融合全局建模能力提升模型效率。

颈部网络中还包含多个上采样（Upsample）和拼接（Concat）模块：上采样采用最近邻插值法提升特征图分辨率，拼接模块则用于融合多个特征图，该过程中特征图分辨率保持不变，通道数则会增加。

颈部网络由两个卷积块和四个 C3k2 模块组成，其中三个 C3k2 模块与检测头相连，且在最后一个 C3k2 模块中，新增了一个注意力块组件。

3.5 检测头（Head）结构

YOLO26 包含三个检测头：
* 与 16 号 C3k2 模块相连的首个检测头用于小目标检测
* 与 19 号 C3k2 模块相连的第二个检测头用于中目标检测
* 与 22 号 C3k2 模块相连的第三个检测头用于大目标检测

需要重点注意的是，在所有 YOLO 版本中，目标的尺寸划分均与图像或视频帧的尺寸成比例。

四、YOLO26 相较于前代 YOLO 版本的核心改进

YOLO26 的架构设计与 YOLOv11 高度相似 [18]，二者拥有众多相同的架构组件，且均由 Ultralytics 公司开发。尽管如此，YOLO26 仍在前辈版本的基础上提出了诸多创新点，以下为其相较于 YOLOv11 的改进与调整内容。

4.1 SPPF 模块的结构改造

YOLO26 对快速空间金字塔池化（SPPF）模块进行了结构改造，引入了快捷连接。这一设计提升了特征图间的梯度传递效率，有助于在高维语义表示的优化过程中稳定训练过程。

4.2 检测层前最后一个 C3k2 模块的优化

YOLO26 将该模块的重复参数 n 设为 1，因为实验表明增加重复次数只会带来计算开销的上升，而无法提升检测精度。为了弥补由此可能带来的表征能力下降，YOLO26 在 PSABlock 模块中融入了注意力机制，在增强全局上下文建模能力的同时，最大限度地控制了参数数量和推理延迟的增加。

4.3 检测头的核心调整

YOLO26 的检测头仍包含三个检测块，分别负责小、中、大目标的检测。其最显著的变化是移除了分布焦点损失（DFL），改用直接预测坐标的边界框回归方式，这一设计简化了训练与推理流程。

在之前的 YOLO 模型中，DFL 通过预测边界框可能的位置分布来提升回归精度，但会增加计算量，且其固定的回归范围限制了模型学习一对一目标分配的能力，同时增加了对非极大值抑制（NMS）的依赖。YOLO26 移除 DFL 后，模型学习直接预测精准的边界框坐标，旨在实现更少但置信度更高的检测结果。

4.4 双分配无 NMS 训练策略

YOLO26 的检测头采用了受 YOLOv10 启发的双分配无 NMS 训练策略：
* 训练过程中同时使用一对多和一对一两种标签分配方式。一对多分配为骨干网络和颈部网络提供更全面的学习指导。
* 在推理阶段，一对多检测头会被舍弃，仅通过一对一检测头完成预测。

具体而言，YOLO26 彻底摒弃了 NMS 这一后处理步骤。传统方法会生成大量重叠的预测框再进行过滤，而 YOLO26 的网络直接输出最终的检测结果，实现了端到端无 NMS 推理。其训练过程中的两个检测头基于同一基础模型构建，但目标不同：
* 一对一检测头：将每个目标与唯一的预测框关联，是端到端无 NMS 架构的核心。
* 一对多检测头：仅在训练阶段使用，可将多个预测框与单个目标关联，提升监督密度，以更丰富的学习信号稳定训练过程并提升精度，在训练初期效果尤为显著。

4.5 渐进损失平衡策略（ProgLoss）

YOLO26 采用渐进损失平衡策略（ProgLoss） 来动态调整两个检测头对总损失的贡献比例：
* 训练初期，为一对多检测头分配更高的权重，以稳定学习过程、提升召回率。
* 随着训练的推进，权重逐渐向一对一检测头倾斜，使训练过程更贴合推理的实际情况。

这一设计旨在实现更平滑的模型收敛，减少训练不稳定性，提升最终性能的一致性。

4.6 小目标感知标签分配策略（STAL）

YOLO26 对现有的任务对齐学习（TAL）方法进行了改进。针对 TAL 在训练中容易忽略极小目标的问题，YOLO26 提出了小目标感知标签分配策略（STAL），对标签分配过程进行调整，确保小目标在训练中不被忽略。

具体来说，对于 640×640 的输入图像，该策略为尺寸小于 8×8 像素的目标设置至少四个锚框，保证这些极小目标也能持续为训练损失提供贡献。

4.7 MuSGD 优化器设计

为实现更稳定、可预测的训练过程，YOLO26 采用了全新的 MuSGD 优化器。该优化器在随机梯度下降（SGD）的基础上，融入了受大语言模型优化方法 Muon 启发的理念。

YOLO26 采用混合更新策略：部分参数通过 Muon 风格更新与 SGD 结合的方式更新，其余参数则仍采用纯 SGD 方式更新。该策略旨在实现更平滑的优化过程，加快模型收敛速度，并使不同尺寸的模型均能保持可预测的训练表现。

4.8 基于分数的推理结果筛选方法

在推理阶段，检测结果的筛选不再依赖 NMS 和边界框交并比（IoU）的比较。YOLO26 采用基于分数的排序方法：模型直接根据分类分数执行全局的 Top-K 选择，筛选出置信度最高的一组预测结果。整个过程无需计算 IoU，也无需进行 NMS。

通过上述改进，YOLO26 在提升检测精度的同时，显著优化了推理效率。开发者声称，其在 CPU 模式下的推理速度提升可达 43%，这使其在边缘设备或无 GPU 环境下的部署具备了显著优势。

五、YOLO26 在各计算机视觉专项任务中的性能提升

Ultralytics 版 YOLO 支持多种计算机视觉任务，YOLO26 对这些任务的性能均进行了针对性优化。

任务名称	任务说明	YOLO26 改进点
目标检测	在图像或视频帧中识别目标，并为其绘制边界框及分类。	各项架构改进与调整均直接推动了其目标检测核心性能的提升。
实例分割	在目标检测基础上，为每个目标生成像素级的掩码（Mask）。	引入了语义分割损失以提升收敛速度，并优化了原型模块，通过融合多尺度信息生成更高质量的掩码。
图像分类	将整张图像划分至预定义的类别，输出单一类别标签及置信度。	支持图像分类任务，输出单一类别标签与置信度分数。
姿态估计	检测图像或视频帧中的特定关键点（如人体关节）。	集成了残差对数似然估计（RLE），提升了关键点定位精度，同时优化了解码流程以提升推理速度。
有向边界框（OBB）检测	在传统目标检测基础上，增加方向角预测，以定位旋转目标。	引入了专用的角度损失以提升方形目标检测精度，并优化了 OBB 解码过程，解决了边界不连续问题。

六、性能对比

图 2 展示了 YOLO26 与前代 YOLO 版本的性能对比。数据基于 YOLO26 技术文档，其中平均精度均值（mAP）在 COCO 数据集上计算，推理速度通过 NVIDIA T4 GPU 进行测试。

图 2 | YOLO 模型性能对比。该图为 YOLO26 与 YOLOv8/v9/v10/v11 在 NVIDIA T4 GPU、TensorRT FP16 精度下的延迟-精度对比散点图。纵轴为检测精度（mAP），横轴为单张图像推理延迟（ms）。图表显示，YOLO26 在全系列变体上实现了精度的全面领先，同时其轻量型（s, m）变体保持了与 YOLOv11 相当的最快推理速度。

结果显示，YOLO26 的各尺寸变体在精度上均超越了前代版本；在速度方面，其轻量型（s 和 m）变体达到了最快水平，与 YOLOv11 持平。

七、结论

与前代 YOLO 版本相比，YOLO26 在架构和训练机制上均做出了多项改进。从公开的模型性能对比结果来看，这些改进有效提升了整体性能。从架构角度分析，YOLO26 是对前代模型的优化升级，而非颠覆性的重新设计。

本研究通过深入调研得出结论：YOLO26 对多个架构组件进行了精细化优化，实现了检测精度的提升（尤其是小目标检测精度），并简化了推理流程，降低了计算成本，非常适合在边缘设备上部署。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21898