YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

关键词YOLO26、YOLO架构演进、单次检测算法(YOLO)、目标检测计算机视觉深度学习

十年来,单次检测算法(YOLO,You Only Look Once)一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点,并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下:

核心改进项 解释
移除分布焦点损失(DFL) 去掉预测边界框位置概率分布的模块,改为直接回归坐标,简化计算流程,减少推理开销。
端到端无非极大值抑制推理 推理时无需NMS后处理去重,网络直接输出最终检测框,提升推理速度。
渐进损失 + 小目标感知标签分配 动态平衡训练损失,并专门优化小目标的标签分配策略,提升小目标检测效果。
采用MuSGD优化器 结合Muon思想与SGD的新优化器,旨在使训练过程更稳定、收敛更快。

上述设计的核心目标是提升推理速度。据称,YOLO26在CPU模式下的推理速度提升可达43%。这一优化使其能够在边缘设备或无GPU的设备上实现实时推理性能。此外,YOLO26在实例分割、姿态估计和有向边界框(OBB)解码等多个计算机视觉任务中均实现了性能提升。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

本研究力求突破现有技术文档的信息整合范畴,挖掘更深层次的研究价值。因此,我们依托YOLO26在GitHub的源码及官方文档,对其进行了严谨的架构研究

YOLO26真实且详尽的运行机制均体现在源码中,而这部分内容极少被深入挖掘。本研究呈现了经调研得到的YOLO26架构图。据我们所知,这是首篇详细阐述基于卷积神经网络(CNN)的YOLO26核心架构的研究。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

表 1 | YOLO模型发展历程。以时间线为轴,系统性梳理了从2016年YOLOv1到2026年YOLO26共14个关键版本的迭代脉络。它不仅记录了作者团队的更迭(从Joseph Redmon到Ultralytics及其他机构),更核心的是提炼了每个版本最具代表性的架构创新,如锚框引入、无锚框进化、注意力机制融合及NMS-Free的实现,清晰揭示了YOLO模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。

我们旨在为有志于改进YOLO模型的研究者和开发者提供对YOLO26架构的精准理解,确保该模型始终保持计算机视觉领域深度学习模型的领先地位。

一、引言

1.1 Ultralytics版YOLO的核心优势

Ultralytics公司推出的YOLO版本是最受期待的YOLO模型,该版本具备以下多项优势:

a. 功能集成全面:集成了目标检测、实例分割、图像分类、姿态估计、有向目标检测和目标跟踪等多种计算机视觉任务,是一套综合性算法框架。

b. 流程简洁灵活:基于YAML语言的架构定义使得模型调整与改进流程简洁高效。

c. 部署支持完善:可导出为ONNX、TensorRT、CoreML和OpenVINO等多种框架格式,便于在不同平台部署。

d. 支持模型量化:通过降低数据精度来减少计算量,有效提升推理速度。

e. 速度与精度平衡:在保持实时推理速度的同时,维持了优异的检测精度。YOLO26更是将边缘设备的速度提升作为核心研发重点。

1.2 YOLO26的功能定位与命名特殊性

YOLO26是一款能够解决上述各类计算机视觉问题的综合性模型,但YOLO的各类功能其实已在YOLOv8中全面实现。从这一角度来看,YOLO26并无实质性的功能新增,但其对各类拓展功能进行了优化,相关细节将在本文后续部分展开阐述。

YOLO26的命名方式颇具特殊性,它并未延续上一版本YOLOv13的编号规则,而是直接跳至26。一种观点认为,该编号源于其2026年的发布时间,可将其视作YOLO的2026年版本。

1.3 YOLO26架构图缺失的影响与研究必要性

人类天生是视觉化的生物,通过图像可视化的信息更易被理解,而文字与数字描述往往存在局限性。YOLO26 架构图的缺失,让研究者和开发者在理解模型并对其进行升级优化时面临巨大阻碍,而这对 YOLO 模型的持续发展,以及其与基于 Transformer 的 RF-DETR [4]、RT-DETRv3 [5] 等其他目标检测模型的竞争至关重要。

为保持 YOLO 在目标检测模型乃至整个计算机视觉领域的领先地位,我们应鼓励社区参与 YOLO 模型的开发,而架构图的提供及解读是推动社区优化该模型的关键因素。YOLO 某一版本的架构改进往往会为其他版本提供参考,这一现象在 YOLO26 中已有所体现:其整合了 YOLOv10 的部分改进点 [6]。

1.4 研究依据与核心贡献

仅依靠 YOLO26 的技术文档 [1],无法绘制出精准的架构图。 例如,仅通过文档阅读,无法知晓分布焦点损失(DFL)在架构中所处的模块位置。要明确 YOLO26 中各架构改进的位置及工作原理,必须直接研读其源码 [7]。

据我们所知,本文是首篇呈现 YOLO26 整体架构图的论文,同时还详细阐述了 YOLO26 的核心改进点,希望本研究能为 YOLO 模型的优化发展提供助力。

1.5 YOLO26 的架构改进方向与研发目标

经深入研究发现,与上一版本相比,YOLO26 在架构上做出了多项改进,但整体设计仍延续了上一版本的单阶段端到端目标检测器架构。这些改进旨在提升模型效率、稳定训练过程,并摆脱预测阶段对非极大值抑制(NMS)的依赖

YOLO26 的发布口号为“端到端构建,为边缘设备而生”,其研发目标是在提升检测精度的同时,增强边缘设备上的运行性能。

二、YOLO 模型的发展历程

表 1 展示了 YOLO 模型的发展历程,该模型历经多次迭代,每个新版本均在架构上做出改进,这也反映出实时目标检测技术的飞速发展。

在最初的四年里,YOLO 仅发布了 3 个版本,而自 2020 年 YOLOv4 发布后,2020 至 2026 年间共推出了 11 个版本,这足以证明 YOLO 的受欢迎程度与技术发展速度。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

表 1 | YOLO 模型发展历程。以时间线为轴,系统性梳理了从 2016 年 YOLOv1 到 2026 年 YOLO26 共 14 个关键版本的迭代脉络。它不仅记录了作者团队的更迭(从 Joseph Redmon 到 Ultralytics 及其他机构),更核心的是提炼了每个版本最具代表性的架构创新,如锚框引入、无锚框进化、注意力机制融合及 NMS-Free 的实现,清晰揭示了 YOLO 模型从基础单阶段检测向高效、多功能、端到端边缘智能演进的技术路径。

YOLOv1 凭借单阶段网格检测方法和直接的边界框回归,颠覆了传统的目标识别方式,自此该模型进入快速发展阶段。后续版本在其基础上,陆续集成了锚框、批量归一化、多尺度预测等改进点,而 Darknet-53、CSPDarknet、EfficientRep 等更高效的骨干网络,PANet、SPP、ELAN、GELAN 等优化的特征融合方法,以及独特的无锚框检测头设计等创新,体现出 YOLO 模型在速度与精度双提升上的研发追求。

从 YOLOv9 到 YOLOv13,模型设计朝着更灵活的方向发展,融入了可编程梯度信息、注意力式结构、超图关联建模等特性。YOLO26 则进一步发展了这些理念,实现了融合双标签分配的无 NMS 检测方法,通过移除分布焦点损失(DFL)提升端到端推理效率,同时采用 MuSGD 优化器,并将渐进损失(ProgLoss)与小目标感知标签分配(STAL)相结合

YOLO 模型的发展历程,不仅体现了目标检测效果的持续提升,也展现出其在实例分割、姿态估计、有向边界框检测等当代计算机视觉任务中的能力拓展。

三、YOLO26 的架构

本研究中的架构图基于 Ultralytics GitHub 代码仓库最新版本(8.4.14)的源码绘制,具体参考了ultralytics/cfg/models/26目录下的 YOLO26 架构文件yolo26.yaml,以及ultralytics/nn目录下的tasks.py文件。为验证架构图的准确性,我们还开展了输入输出张量追踪实验。

3.1 架构变体的参数定义

与 YOLOv8 和 YOLOv11 一致,YOLO26 的变体由三个参数定义:depth_multiple(深度系数)、width_multiple(宽度系数)和max_channels(最大通道数)。其中:
* depth_multiple决定 C3k2 模块中的瓶颈块数量,以及 C2PSA 模块中的 PSA 块数量;
* width_multiplemax_channels则共同决定每个模块的输出通道数。

3.2 整体架构流程

YOLO26 的输入为三通道图像,图像数据依次经过骨干网络(Backbone)、颈部网络(Neck),最终进入检测头(Head)完成检测。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

图 1 | YOLO26 架构图完整呈现了 YOLO26 从三通道 640×640 输入到多尺度检测输出的全流程,清晰划分骨干网络、颈部网络、检测头三大核心模块,标注了各模块张量尺寸、核心组件(C3k2、SPPF、C2PSA 等)及参数配置,还明确了不同尺度特征图的下采样、上采样与拼接操作,直观展现了小、中、大目标检测头的特征来源与层级对应关系,是理解其特征提取与融合逻辑的核心可视化依据。

3.3 骨干网络(Backbone)结构

YOLO26 的骨干网络以两个卷积核大小为 3、步长为 2 的卷积块为起始,步长为 2 的设计会降低特征图的空间分辨率,每个卷积块输出特征图的空间分辨率均为输入的一半。

紧随其后的是 C3k2 模块,该模块用于生成高抽象度的特征,其包含nc3ke等多个参数。骨干网络中还包含 3、5、7 号等多个卷积块,以及 4、6、8 号等多个 C3k2 模块,这三个 C3k2 模块与颈部网络相连。

3.4 颈部网络(Neck)结构

颈部(Neck)网络的首个模块为快速空间金字塔池化(SPPF,Spatial Pyramid Pooling Fast),该模块能让模型通过不同尺寸的池化操作,提取不同抽象度的特征。
* YOLO26 对 SPPF 模块进行了增强,为其添加了快捷连接(shortcut),该连接可将输入直接融入输出,从而提升信息流动效率,增强特征表示能力。
* C2PSA 模块采用自注意力机制,通过融合全局建模能力提升模型效率。

颈部网络中还包含多个上采样(Upsample)和拼接(Concat)模块:上采样采用最近邻插值法提升特征图分辨率,拼接模块则用于融合多个特征图,该过程中特征图分辨率保持不变,通道数则会增加。

颈部网络由两个卷积块和四个 C3k2 模块组成,其中三个 C3k2 模块与检测头相连,且在最后一个 C3k2 模块中,新增了一个注意力块组件。

3.5 检测头(Head)结构

YOLO26 包含三个检测头:
* 与 16 号 C3k2 模块相连的首个检测头用于小目标检测
* 与 19 号 C3k2 模块相连的第二个检测头用于中目标检测
* 与 22 号 C3k2 模块相连的第三个检测头用于大目标检测

需要重点注意的是,在所有 YOLO 版本中,目标的尺寸划分均与图像或视频帧的尺寸成比例。

四、YOLO26 相较于前代 YOLO 版本的核心改进

YOLO26 的架构设计与 YOLOv11 高度相似 [18],二者拥有众多相同的架构组件,且均由 Ultralytics 公司开发。尽管如此,YOLO26 仍在前辈版本的基础上提出了诸多创新点,以下为其相较于 YOLOv11 的改进与调整内容。

4.1 SPPF 模块的结构改造

YOLO26 对快速空间金字塔池化(SPPF)模块进行了结构改造,引入了快捷连接。这一设计提升了特征图间的梯度传递效率,有助于在高维语义表示的优化过程中稳定训练过程。

4.2 检测层前最后一个 C3k2 模块的优化

YOLO26 将该模块的重复参数 n 设为 1,因为实验表明增加重复次数只会带来计算开销的上升,而无法提升检测精度。为了弥补由此可能带来的表征能力下降,YOLO26 在 PSABlock 模块中融入了注意力机制,在增强全局上下文建模能力的同时,最大限度地控制了参数数量和推理延迟的增加。

4.3 检测头的核心调整

YOLO26 的检测头仍包含三个检测块,分别负责小、中、大目标的检测。其最显著的变化是移除了分布焦点损失(DFL),改用直接预测坐标的边界框回归方式,这一设计简化了训练与推理流程。

在之前的 YOLO 模型中,DFL 通过预测边界框可能的位置分布来提升回归精度,但会增加计算量,且其固定的回归范围限制了模型学习一对一目标分配的能力,同时增加了对非极大值抑制(NMS)的依赖。YOLO26 移除 DFL 后,模型学习直接预测精准的边界框坐标,旨在实现更少但置信度更高的检测结果。

4.4 双分配无 NMS 训练策略

YOLO26 的检测头采用了受 YOLOv10 启发的双分配无 NMS 训练策略:
* 训练过程中同时使用一对多和一对一两种标签分配方式。一对多分配为骨干网络和颈部网络提供更全面的学习指导。
* 在推理阶段,一对多检测头会被舍弃,仅通过一对一检测头完成预测。

具体而言,YOLO26 彻底摒弃了 NMS 这一后处理步骤。传统方法会生成大量重叠的预测框再进行过滤,而 YOLO26 的网络直接输出最终的检测结果,实现了端到端无 NMS 推理。其训练过程中的两个检测头基于同一基础模型构建,但目标不同:
* 一对一检测头:将每个目标与唯一的预测框关联,是端到端无 NMS 架构的核心。
* 一对多检测头:仅在训练阶段使用,可将多个预测框与单个目标关联,提升监督密度,以更丰富的学习信号稳定训练过程并提升精度,在训练初期效果尤为显著。

4.5 渐进损失平衡策略(ProgLoss)

YOLO26 采用渐进损失平衡策略(ProgLoss) 来动态调整两个检测头对总损失的贡献比例:
* 训练初期,为一对多检测头分配更高的权重,以稳定学习过程、提升召回率。
* 随着训练的推进,权重逐渐向一对一检测头倾斜,使训练过程更贴合推理的实际情况。

这一设计旨在实现更平滑的模型收敛,减少训练不稳定性,提升最终性能的一致性。

4.6 小目标感知标签分配策略(STAL)

YOLO26 对现有的任务对齐学习(TAL)方法进行了改进。针对 TAL 在训练中容易忽略极小目标的问题,YOLO26 提出了小目标感知标签分配策略(STAL),对标签分配过程进行调整,确保小目标在训练中不被忽略。

具体来说,对于 640×640 的输入图像,该策略为尺寸小于 8×8 像素的目标设置至少四个锚框,保证这些极小目标也能持续为训练损失提供贡献。

4.7 MuSGD 优化器设计

为实现更稳定、可预测的训练过程,YOLO26 采用了全新的 MuSGD 优化器。该优化器在随机梯度下降(SGD)的基础上,融入了受大语言模型优化方法 Muon 启发的理念。

YOLO26 采用混合更新策略:部分参数通过 Muon 风格更新与 SGD 结合的方式更新,其余参数则仍采用纯 SGD 方式更新。该策略旨在实现更平滑的优化过程,加快模型收敛速度,并使不同尺寸的模型均能保持可预测的训练表现。

4.8 基于分数的推理结果筛选方法

在推理阶段,检测结果的筛选不再依赖 NMS 和边界框交并比(IoU)的比较。YOLO26 采用基于分数的排序方法:模型直接根据分类分数执行全局的 Top-K 选择,筛选出置信度最高的一组预测结果。整个过程无需计算 IoU,也无需进行 NMS。

通过上述改进,YOLO26 在提升检测精度的同时,显著优化了推理效率。开发者声称,其在 CPU 模式下的推理速度提升可达 43%,这使其在边缘设备或无 GPU 环境下的部署具备了显著优势。

五、YOLO26 在各计算机视觉专项任务中的性能提升

Ultralytics 版 YOLO 支持多种计算机视觉任务,YOLO26 对这些任务的性能均进行了针对性优化。

任务名称 任务说明 YOLO26 改进点
目标检测 在图像或视频帧中识别目标,并为其绘制边界框及分类。 各项架构改进与调整均直接推动了其目标检测核心性能的提升。
实例分割 在目标检测基础上,为每个目标生成像素级的掩码(Mask)。 引入了语义分割损失以提升收敛速度,并优化了原型模块,通过融合多尺度信息生成更高质量的掩码。
图像分类 将整张图像划分至预定义的类别,输出单一类别标签及置信度。 支持图像分类任务,输出单一类别标签与置信度分数。
姿态估计 检测图像或视频帧中的特定关键点(如人体关节)。 集成了残差对数似然估计(RLE),提升了关键点定位精度,同时优化了解码流程以提升推理速度。
有向边界框(OBB)检测 在传统目标检测基础上,增加方向角预测,以定位旋转目标。 引入了专用的角度损失以提升方形目标检测精度,并优化了 OBB 解码过程,解决了边界不连续问题。

六、性能对比

图 2 展示了 YOLO26 与前代 YOLO 版本的性能对比。数据基于 YOLO26 技术文档,其中平均精度均值(mAP)在 COCO 数据集上计算,推理速度通过 NVIDIA T4 GPU 进行测试。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

图 2 | YOLO 模型性能对比。该图为 YOLO26 与 YOLOv8/v9/v10/v11 在 NVIDIA T4 GPU、TensorRT FP16 精度下的延迟-精度对比散点图。纵轴为检测精度(mAP),横轴为单张图像推理延迟(ms)。图表显示,YOLO26 在全系列变体上实现了精度的全面领先,同时其轻量型(s, m)变体保持了与 YOLOv11 相当的最快推理速度。

结果显示,YOLO26 的各尺寸变体在精度上均超越了前代版本;在速度方面,其轻量型(s 和 m)变体达到了最快水平,与 YOLOv11 持平。

七、结论

与前代 YOLO 版本相比,YOLO26 在架构和训练机制上均做出了多项改进。从公开的模型性能对比结果来看,这些改进有效提升了整体性能。从架构角度分析,YOLO26 是对前代模型的优化升级,而非颠覆性的重新设计。

本研究通过深入调研得出结论:YOLO26 对多个架构组件进行了精细化优化,实现了检测精度的提升(尤其是小目标检测精度),并简化了推理流程,降低了计算成本,非常适合在边缘设备上部署。

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21898

(0)
上一篇 2026年2月18日 下午7:00
下一篇 2026年2月19日 上午8:53

相关推荐

  • 何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练

    训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…

    2026年2月8日
    22400
  • AI能力指数级跃迁:从实验室到职场的颠覆性跨越

    在公众仍聚焦于AI模型的偶然失误时,前沿研究揭示了一个截然不同的现实:人工智能正以指数级速度逼近并超越人类专业能力。AlphaGo、AlphaZero核心作者Julian Schrittwieser近期罕见发声,直言公众对AI的认知至少滞后一个世代。这一警告并非危言耸听,而是基于多项严谨研究的实证分析。 Julian Schrittwieser作为深度强化学…

    2025年11月4日
    23600
  • GenMimic突破:从AI生成视频到机器人零样本模仿,人形机器人迎来动作学习新范式

    在《黑客帝国》中,Neo通过脑机接口瞬间掌握功夫的场景曾让无数观众惊叹。如今,这一科幻想象正通过伯克利、纽约大学和约翰・开普勒林茨大学联合研究团队提出的GenMimic方法,在机器人领域迈出实质性步伐。这项研究不仅解决了人形机器人如何零样本执行生成视频中人类动作的核心问题,更开辟了机器人动作学习的新路径。 研究团队构建的完整技术框架包含三个关键创新:GenM…

    2025年12月6日
    26600
  • 智能的两种演化路径:从生物生存到商业优化的本质差异

    近日,OpenAI联合创始人、前特斯拉AI高级总监Andrej Karpathy在社交媒体上发表了一系列关于智能本质的深刻见解,引发了科技界的广泛讨论。他提出的核心观点挑战了我们对人工智能的传统认知框架:我们一直用理解动物智能的方式来理解AI,但这可能是一个根本性的错误。 Karpathy明确指出:“智能的空间很大,而动物智能(我们唯一了解的智能)只是其中的…

    2025年11月23日
    23700
  • 清华姚班天才陈立杰全职加盟OpenAI,保留伯克利教职,理论计算机科学迎来新星

    清华大学「姚班」校友、加州大学伯克利分校(UC Berkeley)助理教授陈立杰(Lijie Chen)已正式加入 OpenAI。 知情人士透露,陈立杰此次是以全职身份加入 OpenAI 开展研究工作。与此同时,他目前在伯克利的状态为 On Leave(停薪留职),即他保留了在大学的教职,并未离职。 陈立杰是理论计算机科学领域的顶尖青年学者,本科毕业于清华姚…

    2026年1月15日
    39600