关键词:YOLO26、YOLO架构演进、单次检测算法(YOLO)、目标检测、计算机视觉、深度学习
十年来,单次检测算法(YOLO,You Only Look Once)一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点,并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下:
| 核心改进项 | 解释 |
|---|---|
| 移除分布焦点损失(DFL) | 去掉预测边界框位置概率分布的模块,改为直接回归坐标,简化计算流程,减少推理开销。 |
| 端到端无非极大值抑制推理 | 推理时无需NMS后处理去重,网络直接输出最终检测框,提升推理速度。 |
| 渐进损失 + 小目标感知标签分配 | 动态平衡训练损失,并专门优化小目标的标签分配策略,提升小目标检测效果。 |
| 采用MuSGD优化器 | 结合Muon思想与SGD的新优化器,旨在使训练过程更稳定、收敛更快。 |
上述设计的核心目标是提升推理速度。据称,YOLO26在CPU模式下的推理速度提升可达43%。这一优化使其能够在边缘设备或无GPU的设备上实现实时推理性能。此外,YOLO26在实例分割、姿态估计和有向边界框(OBB)解码等多个计算机视觉任务中均实现了性能提升。

本研究力求突破现有技术文档的信息整合范畴,挖掘更深层次的研究价值。因此,我们依托YOLO26在GitHub的源码及官方文档,对其进行了严谨的架构研究。
YOLO26真实且详尽的运行机制均体现在源码中,而这部分内容极少被深入挖掘。本研究呈现了经调研得到的YOLO26架构图。据我们所知,这是首篇详细阐述基于卷积神经网络(CNN)的YOLO26核心架构的研究。

表 1 | YOLO模型发展历程。以时间线为轴,系统性梳理了从2016年YOLOv1到2026年YOLO26共14个关键版本的迭代脉络。它不仅记录了作者团队的更迭(从Joseph Redmon到Ultralytics及其他机构),更核心的是提炼了每个版本最具代表性的架构创新,如锚框引入、无锚框进化、注意力机制融合及NMS-Free的实现,清晰揭示了YOLO模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。
我们旨在为有志于改进YOLO模型的研究者和开发者提供对YOLO26架构的精准理解,确保该模型始终保持计算机视觉领域深度学习模型的领先地位。
一、引言
1.1 Ultralytics版YOLO的核心优势
Ultralytics公司推出的YOLO版本是最受期待的YOLO模型,该版本具备以下多项优势:
a. 功能集成全面:集成了目标检测、实例分割、图像分类、姿态估计、有向目标检测和目标跟踪等多种计算机视觉任务,是一套综合性算法框架。
b. 流程简洁灵活:基于YAML语言的架构定义使得模型调整与改进流程简洁高效。
c. 部署支持完善:可导出为ONNX、TensorRT、CoreML和OpenVINO等多种框架格式,便于在不同平台部署。
d. 支持模型量化:通过降低数据精度来减少计算量,有效提升推理速度。
e. 速度与精度平衡:在保持实时推理速度的同时,维持了优异的检测精度。YOLO26更是将边缘设备的速度提升作为核心研发重点。
1.2 YOLO26的功能定位与命名特殊性
YOLO26是一款能够解决上述各类计算机视觉问题的综合性模型,但YOLO的各类功能其实已在YOLOv8中全面实现。从这一角度来看,YOLO26并无实质性的功能新增,但其对各类拓展功能进行了优化,相关细节将在本文后续部分展开阐述。
YOLO26的命名方式颇具特殊性,它并未延续上一版本YOLOv13的编号规则,而是直接跳至26。一种观点认为,该编号源于其2026年的发布时间,可将其视作YOLO的2026年版本。
1.3 YOLO26架构图缺失的影响与研究必要性
人类天生是视觉化的生物,通过图像可视化的信息更易被理解,而文字与数字描述往往存在局限性。YOLO26 架构图的缺失,让研究者和开发者在理解模型并对其进行升级优化时面临巨大阻碍,而这对 YOLO 模型的持续发展,以及其与基于 Transformer 的 RF-DETR [4]、RT-DETRv3 [5] 等其他目标检测模型的竞争至关重要。
为保持 YOLO 在目标检测模型乃至整个计算机视觉领域的领先地位,我们应鼓励社区参与 YOLO 模型的开发,而架构图的提供及解读是推动社区优化该模型的关键因素。YOLO 某一版本的架构改进往往会为其他版本提供参考,这一现象在 YOLO26 中已有所体现:其整合了 YOLOv10 的部分改进点 [6]。
1.4 研究依据与核心贡献
仅依靠 YOLO26 的技术文档 [1],无法绘制出精准的架构图。 例如,仅通过文档阅读,无法知晓分布焦点损失(DFL)在架构中所处的模块位置。要明确 YOLO26 中各架构改进的位置及工作原理,必须直接研读其源码 [7]。
据我们所知,本文是首篇呈现 YOLO26 整体架构图的论文,同时还详细阐述了 YOLO26 的核心改进点,希望本研究能为 YOLO 模型的优化发展提供助力。
1.5 YOLO26 的架构改进方向与研发目标
经深入研究发现,与上一版本相比,YOLO26 在架构上做出了多项改进,但整体设计仍延续了上一版本的单阶段端到端目标检测器架构。这些改进旨在提升模型效率、稳定训练过程,并摆脱预测阶段对非极大值抑制(NMS)的依赖。
YOLO26 的发布口号为“端到端构建,为边缘设备而生”,其研发目标是在提升检测精度的同时,增强边缘设备上的运行性能。
二、YOLO 模型的发展历程
表 1 展示了 YOLO 模型的发展历程,该模型历经多次迭代,每个新版本均在架构上做出改进,这也反映出实时目标检测技术的飞速发展。
在最初的四年里,YOLO 仅发布了 3 个版本,而自 2020 年 YOLOv4 发布后,2020 至 2026 年间共推出了 11 个版本,这足以证明 YOLO 的受欢迎程度与技术发展速度。

表 1 | YOLO 模型发展历程。以时间线为轴,系统性梳理了从 2016 年 YOLOv1 到 2026 年 YOLO26 共 14 个关键版本的迭代脉络。它不仅记录了作者团队的更迭(从 Joseph Redmon 到 Ultralytics 及其他机构),更核心的是提炼了每个版本最具代表性的架构创新,如锚框引入、无锚框进化、注意力机制融合及 NMS-Free 的实现,清晰揭示了 YOLO 模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。
YOLOv1 凭借单阶段网格检测方法和直接的边界框回归,颠覆了传统的目标识别方式,自此该模型进入快速发展阶段。后续版本在其基础上,陆续集成了锚框、批量归一化、多尺度预测等改进点,而 Darknet-53、CSPDarknet、EfficientRep 等更高效的骨干网络,PANet、SPP、ELAN、GELAN 等优化的特征融合方法,以及独特的无锚框检测头设计等创新,体现出 YOLO 模型在速度与精度双提升上的研发追求。
从 YOLOv9 到 YOLOv13,模型设计朝着更灵活的方向发展,融入了可编程梯度信息、注意力式结构、超图关联建模等特性。YOLO26 则进一步发展了这些理念,实现了融合双标签分配的无 NMS 检测方法,通过移除分布焦点损失(DFL)提升端到端推理效率,同时采用 MuSGD 优化器,并将渐进损失(ProgLoss)与小目标感知标签分配(STAL)相结合。
YOLO 模型的发展历程,不仅体现了目标检测效果的持续提升,也展现出其在实例分割、姿态估计、有向边界框检测等当代计算机视觉任务中的能力拓展。
三、YOLO26 的架构
本研究中的架构图基于 Ultralytics GitHub 代码仓库最新版本(8.4.14)的源码绘制,具体参考了
ultralytics/cfg/models/26目录下的 YOLO26 架构文件yolo26.yaml,以及ultralytics/nn目录下的tasks.py文件。为验证架构图的准确性,我们还开展了输入输出张量追踪实验。
3.1 架构变体的参数定义
与 YOLOv8 和 YOLOv11 一致,YOLO26 的变体由三个参数定义:depth_multiple(深度系数)、width_multiple(宽度系数)和max_channels(最大通道数)。其中:
* depth_multiple决定 C3k2 模块中的瓶颈块数量,以及 C2PSA 模块中的 PSA 块数量;
* width_multiple和max_channels则共同决定每个模块的输出通道数。
3.2 整体架构流程
YOLO26 的输入为三通道图像,图像数据依次经过骨干网络(Backbone)、颈部网络(Neck),最终进入检测头(Head)完成检测。

图 1 | YOLO26 架构图完整呈现了 YOLO26 从三通道 640×640 输入到多尺度检测输出的全流程,清晰划分骨干网络、颈部网络、检测头三大核心模块,标注了各模块张量尺寸、核心组件(C3k2、SPPF、C2PSA 等)及参数配置,还明确了不同尺度特征图的下采样、上采样与拼接操作,直观展现了小、中、大目标检测头的特征来源与层级对应关系,是理解其特征提取与融合逻辑的核心可视化依据。
3.3 骨干网络(Backbone)结构
YOLO26 的骨干网络以两个卷积核大小为 3、步长为 2 的卷积块为起始,步长为 2 的设计会降低特征图的空间分辨率,每个卷积块输出特征图的空间分辨率均为输入的一半。
紧随其后的是 C3k2 模块,该模块用于生成高抽象度的特征,其包含n、c3k、e等多个参数。骨干网络中还包含 3、5、7 号等多个卷积块,以及 4、6、8 号等多个 C3k2 模块,这三个 C3k2 模块与颈部网络相连。
3.4 颈部网络(Neck)结构
颈部(Neck)网络的首个模块为快速空间金字塔池化(SPPF,Spatial Pyramid Pooling Fast),该模块能让模型通过不同尺寸的池化操作,提取不同抽象度的特征。
* YOLO26 对 SPPF 模块进行了增强,为其添加了快捷连接(shortcut),该连接可将输入直接融入输出,从而提升信息流动效率,增强特征表示能力。
* C2PSA 模块采用自注意力机制,通过融合全局建模能力提升模型效率。
颈部网络中还包含多个上采样(Upsample)和拼接(Concat)模块:上采样采用最近邻插值法提升特征图分辨率,拼接模块则用于融合多个特征图,该过程中特征图分辨率保持不变,通道数则会增加。
颈部网络由两个卷积块和四个 C3k2 模块组成,其中三个 C3k2 模块与检测头相连,且在最后一个 C3k2 模块中,新增了一个注意力块组件。
3.5 检测头(Head)结构
YOLO26 包含三个检测头:
* 与 16 号 C3k2 模块相连的首个检测头用于小目标检测
* 与 19 号 C3k2 模块相连的第二个检测头用于中目标检测
* 与 22 号 C3k2 模块相连的第三个检测头用于大目标检测
需要重点注意的是,在所有 YOLO 版本中,目标的尺寸划分均与图像或视频帧的尺寸成比例。
四、YOLO26 相较于前代 YOLO 版本的核心改进
YOLO26 的架构设计与 YOLOv11 高度相似 [18],二者拥有众多相同的架构组件,且均由 Ultralytics 公司开发。尽管如此,YOLO26 仍在前辈版本的基础上提出了诸多创新点,以下为其相较于 YOLOv11 的改进与调整内容。
4.1 SPPF 模块的结构改造
YOLO26 对快速空间金字塔池化(SPPF)模块进行了结构改造,引入了快捷连接。这一设计提升了特征图间的梯度传递效率,有助于在高维语义表示的优化过程中稳定训练过程。
4.2 检测层前最后一个 C3k2 模块的优化
YOLO26 将该模块的重复参数 n 设为 1,因为实验表明增加重复次数只会带来计算开销的上升,而无法提升检测精度。为了弥补由此可能带来的表征能力下降,YOLO26 在 PSABlock 模块中融入了注意力机制,在增强全局上下文建模能力的同时,最大限度地控制了参数数量和推理延迟的增加。
4.3 检测头的核心调整
YOLO26 的检测头仍包含三个检测块,分别负责小、中、大目标的检测。其最显著的变化是移除了分布焦点损失(DFL),改用直接预测坐标的边界框回归方式,这一设计简化了训练与推理流程。
在之前的 YOLO 模型中,DFL 通过预测边界框可能的位置分布来提升回归精度,但会增加计算量,且其固定的回归范围限制了模型学习一对一目标分配的能力,同时增加了对非极大值抑制(NMS)的依赖。YOLO26 移除 DFL 后,模型学习直接预测精准的边界框坐标,旨在实现更少但置信度更高的检测结果。
4.4 双分配无 NMS 训练策略
YOLO26 的检测头采用了受 YOLOv10 启发的双分配无 NMS 训练策略:
* 训练过程中同时使用一对多和一对一两种标签分配方式。一对多分配为骨干网络和颈部网络提供更全面的学习指导。
* 在推理阶段,一对多检测头会被舍弃,仅通过一对一检测头完成预测。
具体而言,YOLO26 彻底摒弃了 NMS 这一后处理步骤。传统方法会生成大量重叠的预测框再进行过滤,而 YOLO26 的网络直接输出最终的检测结果,实现了端到端无 NMS 推理。其训练过程中的两个检测头基于同一基础模型构建,但目标不同:
* 一对一检测头:将每个目标与唯一的预测框关联,是端到端无 NMS 架构的核心。
* 一对多检测头:仅在训练阶段使用,可将多个预测框与单个目标关联,提升监督密度,以更丰富的学习信号稳定训练过程并提升精度,在训练初期效果尤为显著。
4.5 渐进损失平衡策略(ProgLoss)
YOLO26 采用渐进损失平衡策略(ProgLoss) 来动态调整两个检测头对总损失的贡献比例:
* 训练初期,为一对多检测头分配更高的权重,以稳定学习过程、提升召回率。
* 随着训练的推进,权重逐渐向一对一检测头倾斜,使训练过程更贴合推理的实际情况。
这一设计旨在实现更平滑的模型收敛,减少训练不稳定性,提升最终性能的一致性。
4.6 小目标感知标签分配策略(STAL)
YOLO26 对现有的任务对齐学习(TAL)方法进行了改进。针对 TAL 在训练中容易忽略极小目标的问题,YOLO26 提出了小目标感知标签分配策略(STAL),对标签分配过程进行调整,确保小目标在训练中不被忽略。
具体来说,对于 640×640 的输入图像,该策略为尺寸小于 8×8 像素的目标设置至少四个锚框,保证这些极小目标也能持续为训练损失提供贡献。
4.7 MuSGD 优化器设计
为实现更稳定、可预测的训练过程,YOLO26 采用了全新的 MuSGD 优化器。该优化器在随机梯度下降(SGD)的基础上,融入了受大语言模型优化方法 Muon 启发的理念。
YOLO26 采用混合更新策略:部分参数通过 Muon 风格更新与 SGD 结合的方式更新,其余参数则仍采用纯 SGD 方式更新。该策略旨在实现更平滑的优化过程,加快模型收敛速度,并使不同尺寸的模型均能保持可预测的训练表现。
4.8 基于分数的推理结果筛选方法
在推理阶段,检测结果的筛选不再依赖 NMS 和边界框交并比(IoU)的比较。YOLO26 采用基于分数的排序方法:模型直接根据分类分数执行全局的 Top-K 选择,筛选出置信度最高的一组预测结果。整个过程无需计算 IoU,也无需进行 NMS。
通过上述改进,YOLO26 在提升检测精度的同时,显著优化了推理效率。开发者声称,其在 CPU 模式下的推理速度提升可达 43%,这使其在边缘设备或无 GPU 环境下的部署具备了显著优势。
五、YOLO26 在各计算机视觉专项任务中的性能提升
Ultralytics 版 YOLO 支持多种计算机视觉任务,YOLO26 对这些任务的性能均进行了针对性优化。
| 任务名称 | 任务说明 | YOLO26 改进点 |
|---|---|---|
| 目标检测 | 在图像或视频帧中识别目标,并为其绘制边界框及分类。 | 各项架构改进与调整均直接推动了其目标检测核心性能的提升。 |
| 实例分割 | 在目标检测基础上,为每个目标生成像素级的掩码(Mask)。 | 引入了语义分割损失以提升收敛速度,并优化了原型模块,通过融合多尺度信息生成更高质量的掩码。 |
| 图像分类 | 将整张图像划分至预定义的类别,输出单一类别标签及置信度。 | 支持图像分类任务,输出单一类别标签与置信度分数。 |
| 姿态估计 | 检测图像或视频帧中的特定关键点(如人体关节)。 | 集成了残差对数似然估计(RLE),提升了关键点定位精度,同时优化了解码流程以提升推理速度。 |
| 有向边界框(OBB)检测 | 在传统目标检测基础上,增加方向角预测,以定位旋转目标。 | 引入了专用的角度损失以提升方形目标检测精度,并优化了 OBB 解码过程,解决了边界不连续问题。 |
六、性能对比
图 2 展示了 YOLO26 与前代 YOLO 版本的性能对比。数据基于 YOLO26 技术文档,其中平均精度均值(mAP)在 COCO 数据集上计算,推理速度通过 NVIDIA T4 GPU 进行测试。

图 2 | YOLO 模型性能对比。该图为 YOLO26 与 YOLOv8/v9/v10/v11 在 NVIDIA T4 GPU、TensorRT FP16 精度下的延迟-精度对比散点图。纵轴为检测精度(mAP),横轴为单张图像推理延迟(ms)。图表显示,YOLO26 在全系列变体上实现了精度的全面领先,同时其轻量型(s, m)变体保持了与 YOLOv11 相当的最快推理速度。
结果显示,YOLO26 的各尺寸变体在精度上均超越了前代版本;在速度方面,其轻量型(s 和 m)变体达到了最快水平,与 YOLOv11 持平。
七、结论
与前代 YOLO 版本相比,YOLO26 在架构和训练机制上均做出了多项改进。从公开的模型性能对比结果来看,这些改进有效提升了整体性能。从架构角度分析,YOLO26 是对前代模型的优化升级,而非颠覆性的重新设计。
本研究通过深入调研得出结论:YOLO26 对多个架构组件进行了精细化优化,实现了检测精度的提升(尤其是小目标检测精度),并简化了推理流程,降低了计算成本,非常适合在边缘设备上部署。


关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21898
