关键词: YOLO-Master、混合专家(MoE)、实时目标检测、动态路由、ES-MoE
动态计算,按需分配:YOLO-Master 如何用 MoE 重新定义实时目标检测
实时目标检测(Real-Time Object Detection, RTOD)是计算机视觉领域的核心任务之一,从自动驾驶到工业质检,从安防监控到移动端应用,都离不开它的身影。YOLO 系列作为 RTOD 的佼佼者,凭借其极致的速度和不错的精度,几乎成为工业界的事实标准。
然而,传统的 YOLO 模型有一个固有缺陷:静态密集计算。无论输入图像是一片空旷的天空,还是一个拥挤的十字路口,模型都会分配相同的计算资源。这显然是一种浪费——简单场景不需要复杂的特征提取,而复杂场景却可能因为算力不足而漏检。

- YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection.
- 代码:https://github.com/Tencent/YOLO-Master
- 论文:https://arxiv.org/pdf/2512.23273
人类视觉系统天生具有“自适应”能力:扫视空旷区域时,我们快速略过;聚焦复杂区域时,我们仔细分析。那么,能否让检测模型也学会这种“按需计算”呢?
2025 年底,腾讯优图实验室等机构的研究者给出了他们的答案——YOLO-Master。这项工作首次将混合专家(Mixture-of-Experts, MoE)深度集成到 YOLO 架构中,实现了实例条件自适应计算。简单来说,模型会根据每个样本的复杂度,动态激活不同的“专家”子网络,从而在精度和延迟之间达到更优的平衡。

雷达图直观对比了 YOLOv10-N、YOLOv11-N、YOLOv12-N、YOLOv13-N 与 YOLO-Master-N 在 VOC、MS COCO、VisDrone、SKU-100K 和 KITTI 等数据集上的 mAP 性能。从各维度表现来看,YOLOv13-N 在多数指标上实现显著提升,尤其在 SKU-100K mAP50(90.3)和 KITTI mAP50-95(90.7)上表现突出,而 YOLO-Master-N 则在 VOC mAP50-95(62.1)等指标上展现出强劲竞争力,整体反映出新一代 YOLO 模型在多场景目标检测任务上的性能迭代优势。
零、快速上手:安装、训练、推理
安装(极简步骤)
# 1. 创建并激活 conda 环境
conda create -n yolo_master python=3.11 -y
conda activate yolo_master
# 2. 克隆仓库并进入目录
git clone https://github.com/isLinXu/YOLO-Master
cd YOLO-Master
# 3. 安装依赖和项目包
pip install -r requirements.txt
pip install -e
# 4. 训练可选。安装 FlashAttention 后可以有更快的训练速度 (CUDA required)
pip install flash_attn
推理(命令行)
# 单张图片推理并显示结果
yolo predict model=yolo_master_n.pt source='path/to/image.jpg' show=True
训练(Python 示例)
“`
from ultralytics import YOLO
从配置文件构建新模型
model = YOLO(‘cfg/models/master/v0/det/yolo-master-n.yaml’)
训练模型
results = model.train(
data=’coco.yaml’,
epochs=600,
batch=256,
imgsz=640,
device=’0,1,2,3′, # 多卡训练
scale=0.5,
mosaic=1.0,
mixup=0.0,
copy_paste=0.1
)
一、相关工作:YOLO 的演进与 MoE 的渗透
1.1 YOLO 家族:从 v1 到 v13 的征途
YOLO(You Only Look Once)自 2016 年诞生以来,经历了多次迭代。从 YOLOv1 的端到端检测,到 v3 的多尺度预测,v5 的工程优化,v8 的模块化设计,再到 v10、v11 的无 NMS 训练、v12 的注意力增强、v13 的进一步调优,YOLO 始终在追求 更高精度、更低延迟 的平衡。
然而,这些模型无一例外都是“静态”的:无论输入是什么,它们都执行相同的计算图。
1.2 混合专家(MoE):大语言模型的“杀手锏”
MoE 最早可追溯到 1991 年的自适应混合专家,但真正让它大放异彩的是在自然语言处理领域。谷歌的 Switch Transformer、GLaM 等模型通过稀疏激活的专家网络,将模型参数量扩展到万亿级别,同时保持推理效率。MoE 的核心思想是:拥有多个并行的“专家”子网络,每个输入只激活其中少数几个专家,从而实现条件计算。
近年来,MoE 也开始渗透到视觉任务中,例如 VMOE、EfficientMOE 等。但据 YOLO-Master 作者所述,这是第一个在通用数据集上将 MoE 与 YOLO 深度结合的工作。它不仅继承了 YOLO 的高效骨干,还引入了专门设计的 MoE 模块,使得模型能够根据输入场景的复杂度,动态分配计算资源。
二、核心创新:ES-MoE + 动态路由
YOLO-Master 的整体架构如图 1 所示。

图 1 | YOLO-Master整体架构,展示了ES-MoE块如何通过动态路由实现“按需计算”。展示了 YOLO-Master 的框架,包含 Backbone、Neck 和 Detection Head。ES-MoE 模块插入在 Backbone 和 Neck 中,通过动态路由网络(Dynamic Routing Network)和 Softmax 门控机制选择 Top-K 专家,实现加权聚合。右侧展示了训练(Soft Top-K)和推理(Hard Top-K)两种路由策略的切换。
它在 YOLO 的骨干网络中嵌入了ES-MoE(Efficient Sparse Mixture-of-Experts)块,并通过动态路由网络决定每个样本应激活哪些专家。
2.1 ES-MoE:高效稀疏混合专家
ES-MoE 是 YOLO-Master 的核心组件,它包含以下几个关键设计:
- 异构专家(早期版本):最初探索时,ES-MoE 模块使用了不同卷积核大小(如 3×3、5×5、7×7)的专家,意图捕获多尺度特征。但这种设计在硬件并行性上不佳,后续版本改为同质专家。
- 动态路由层:基于全局平均池化或空间池化生成路由权重,决定每个样本分配给哪些专家。
- 稀疏激活:训练时通常采用全专家计算并加权(密集前向),以保证梯度回传;推理时只激活权重最高的 Top-K 个专家,实现真正的稀疏计算,减少 FLOPs。
- 共享专家(后续版本):引入一个始终激活的共享专家,确保基础性能,稳定训练。
2.2 动态路由:让模型学会“看人下菜碟”
动态路由的任务是根据输入特征,为每个样本生成专家选择的概率分布。YOLO-Master 设计了多种路由器,以适应不同场景:
- EfficientSpatialRouter:先下采样再路由,大幅降低计算量,适合通用场景。
- LocalRoutingLayer:保留更多局部信息,适合小目标检测。
- AdaptiveRoutingLayer:自适应池化到 1×1,忽略空间信息,仅用通道信息,适合极低资源场景。
- UltraEfficientRouter:采用深度可分离卷积+激进下采样,将路由 FLOPs 降低 95%以上,适合边缘设备。
通过这种动态路由,YOLO-Master 实现了“计算按需分配”:简单图像只需少数专家,复杂图像则激活更多专家。这种机制带来的收益在密集场景和困难样本上尤为显著。
三、技术细节深挖:MoE 模块的演化与数学公式
3.1 ES-MoE 模块的数学形式
给定输入特征图 $X$,ES-MoE 模块首先通过动态路由网络计算门控权重。
设专家总数为 $N$,门控权重 $G$ 通过 Softmax 函数计算:
$$G_i = frac{exp(g_i(X))}{sum_{j=1}^{N} exp(g_j(X))}$$
其中 $g_i$ 是第 $i$ 个专家的门控函数。然后选择权重最高的 Top-K 个专家,其中 $K ll N$,并通过加权聚合得到输出特征图 $Y$:
$$Y = sum_{i in text{TopK}(G)} tilde{G}_i cdot E_i(X)$$
这里 $tilde{G}_i$ 是归一化操作后的权重。
3.2 专家网络设计
每个专家 $E_i$ 采用深度可分离卷积(Depthwise Separable Convolution)来降低计算量:
$$E_i(X) = text{DWConv}_{k times k}(X)$$
其中 $k$ 是卷积核大小(如 3、5、7),通过不同感受野捕获多尺度特征。
3.3 门控网络
门控网络 $g$ 首先对输入 $X$ 进行全局平均池化得到全局描述符 $z$,然后通过两个 1×1 卷积层生成原始 logits $l$:
$$l = W_2 cdot text{ReLU}(W_1 cdot z)$$
其中通道缩减比 $r = 4$,$W_1 in mathbb{R}^{C/r times C}$,$W_2 in mathbb{R}^{N times C/r}$。
3.4 分阶段路由策略
训练阶段(Soft Top-K):保持梯度流动,首先计算 Softmax 权重 $G$,然后根据 Top-K 索引构造二进制掩码 $M$,再重新归一化:
$$tilde{G} = text{Normalize}(G odot M)$$
推理阶段(Hard Top-K):仅计算 Top-K 专家的输出,其余专家权重置零,实现真正的稀疏加速:
$$Y = sum_{i in text{TopK}(G)} E_i(X)$$
3.5 损失函数
YOLO-Master 的总损失函数由 YOLOv8 检测损失和负载均衡损失组成:
$$L_{text{total}} = L_{text{det}} + lambda L_{text{balance}}$$
其中 $L_{text{det}}$ 包含分类损失、定位损失和分布焦点损失(DFL)。
- $lambda$ 是负载平衡损失(Load Balancing Loss, $L_{text{balance}}$)的权重超参数,用于解决 MoE 架构训练中的专家坍缩问题(路由网络倾向于只激活少数“优势专家”)。$lambda$ 通过调节权重,控制模型在学习检测任务($L_{text{det}}$)的同时,对所有专家的均衡利用的约束强度。简单来说,$lambda$ 是为了让 MoE 架构的所有专家都能被充分训练、避免闲置而设置的“调节旋钮”,数值越大,对专家均衡利用的约束越强。
- 负载均衡损失 $L_{text{balance}}$ 鼓励各专家被均匀使用,避免路由崩溃:
$$L_{text{balance}} = N sum_{i=1}^{N} f_i cdot P_i$$
这里 $f_i$ 是专家 $i$ 在当前 batch 中的平均使用频率,$P_i$ 是专家 $i$ 被选中的平均概率。$N$ 代表 YOLO-Master 模型中 ES-MoE 模块里专家网络的总数量(Expert count),是整个 MoE 架构的核心基础参数。
四、实验与结果:精度与速度的双重突破
4.1 主要检测结果
YOLO-Master 在五个大型基准(COCO、PASCAL VOC、VisDrone、KITTI、SKU-110K)上与最先进的 Nano-scale 检测器进行了对比。表 1 展示了详细结果。

表 1 | 五种基准数据集上与当前最优轻量型检测器的性能对比。该表对比了五款 Nano 级 YOLO 模型在五大主流检测数据集的精度与延迟,YOLO-Master-N 在所有数据集上均实现 mAP 领先,其中 VisDrone 提升 2.1%、KITTI 提升 1.5%,小目标和密集场景优势显著,且 1.62ms 延迟兼顾实时性,较 YOLOv13-N 快 17.8%。
- 在 COCO 上,YOLO-Master-N 达到 42.4% AP,比 YOLOv13-N 高 0.8%,同时推理延迟仅为1.62ms(T4 GPU 测量),比 YOLOv13-N 快 17.8%。
- 在 VisDrone(无人机视角,小目标密集)上,mAP 提升超过 2 个百分点,充分体现了动态计算在复杂场景的优势。
以上结果直观展示了 YOLO-Master 在精度-延迟帕累托前沿上的领先地位。
下图展示了 YOLO-Master-N 在 MS COCO 数据集上与其他 YOLO 模型的精度(AP)和延迟(ms)对比,紫色五角星代表 YOLO-Master-N,明显处于帕累托前沿。

图 1 | MS COCO 数据集上的精度 – 延迟权衡曲线。YOLO-Master-N 模型在 1.62 毫秒的推理延迟下实现了 42.4% 的平均精度,在帕累托前沿上的性能超越所有基线模型。该图直观展现了各轻量型 YOLO 模型的精度与延迟表现,YOLO-Master-N 突破了现有模型的帕累托前沿,相比 YOLOv13-N 精度提升 0.8% 且延迟降低 0.35ms,同时比 YOLOv12-N 精度高 1.8%,成为精度和速度平衡的最优解。
4.2 扩展到分类与分割任务
YOLO-Master 不仅在检测任务上表现出色,其骨干网络在分类和分割任务上同样优异。表 2 和表 3 分别展示了 ImageNet 分类和 COCO 分割的结果。

表 2 | ImageNet 分类性能对比。该表验证 YOLO-Master 骨干网络的通用特征提取能力,其分类版本在 ImageNet 上实现 76.6% Top-1、93.4% Top-5 精度,较 YOLOv11-cls-N、YOLOv12-cls-N 分别提升 6.6%、4.9%,证明 ES-MoE 模块的自适应特征学习可迁移至分类任务,提升特征表征鲁棒性。

表 4 | 640×640 分辨率下 MS COCO 数据集上的分割性能对比。此表展现 YOLO-Master 在实例分割任务的拓展能力,其分割版本实现 42.9% 框 mAP、35.6% 掩码 mAP,较 YOLOv12-seg-N 分别提升 3%、2.8%,说明 ES-MoE 的自适应专家路由不仅优化检测,还能提升掩码预测的精细度,实现检测与分割双提升。
具体而言,YOLO-Master-cls-N 在 ImageNet 上达到 76.6% Top-1 准确率,比 YOLOv12-cls-N 高出 4.9%;YOLO-Master-seg-N 的 mask mAP 达到 35.6%,比 YOLOv12-seg-N 高 2.8%。这些结果证明 MoE 机制能有效提升骨干网络的泛化能力。
4.3 消融实验:深入理解设计选择
论文进行了详尽的消融实验,验证了 ES-MoE 模块的放置位置、专家数量、Top-K 选择以及损失函数配置的影响。

表 5 | ES-MoE 模块部署位置的消融实验。该表探究 ES-MoE 的最优部署位置,仅骨干网络集成时实现 62.1% mAP,是唯一优于基线的配置;仅颈部集成或全集成均导致精度下降,核心原因是颈部无多样骨干特征支撑专家特化,全集成则引发路由梯度干扰,证明骨干是 MoE 部署的核心位置。
结果表明,仅在 Backbone 中插入 ES-MoE 效果最佳(+1.3%),而同时插入 Backbone 和 Neck 会导致性能严重下降(-5.9%),可能是因为路由梯度相互干扰。

表 6 | 专家数量的消融实验。此表验证专家数量对性能的影响,4 个专家时实现 62.3% mAP、82.2% mAP50 的最优性能,2 个专家因容量不足精度下降,8 个专家则因过参数化无精度提升且参数量增加 33%,说明适度的专家多样性是检测任务的最优选择,冗余专家易造成资源浪费。
实验显示,4 个专家在参数和精度之间达到最佳平衡。

表 7 | 4 个专家设置下 Top-K 选择策略的消融实验。该表在 4 专家配置下探究 Top-K 的最优值,K=2 时以 50% 稀疏度实现 61.8% mAP,为性能与效率的平衡点;K=1 因特征容量不足精度下降,K≥3 无精度提升却损失稀疏性,契合视觉任务 MoE 的设计规律,证明双专家互补足以覆盖检测的特征需求。
上表在 K=2 时,50%稀疏度下达到最佳性能,验证了稀疏激活的有效性。

表 8 | DFL 损失与 MoE 损失配置的消融实验。该表分析损失函数的最优组合,仅用 MoE 损失(λ=1.5)时实现 62.2% mAP,是最优配置;同时加入 DFL 与强 MoE 损失会引发梯度冲突,导致精度下降,证明 MoE 损失可替代 DFL 的作用,单独使用时能更稳定地引导专家特化与边界框回归。
令人惊讶的是,移除 DFL 损失并增加 MoE 损失权重(Config 5)取得了最佳结果,说明 MoE 损失可能已经包含了类似 DFL 的分布约束功能。

图 3 | 不同损失函数配置下的消融实验结果。(a) 分布焦点损失对比;(b) 混合专家损失对比;(c) 验证集平均精度;(d) 总损失变化;(e) 混合专家损失的演化过程;(f) 平均精度的收敛趋势。该组曲线清晰呈现了 DFL 与 MoE 损失的相互作用,含强 MoE 权重的 DFL 配置会引发损失震荡,而仅用 MoE 损失的配置损失收敛平滑且验证集 mAP 更高,直观印证了两种损失的梯度冲突及纯 MoE 损失的最优训练效果。
上图 3 包含六个子图,分别展示了 DFL 损失对比、MoE 损失对比、验证 mAP、总损失、MoE 损失演化以及 mAP 收敛曲线。Config 5(MoE only)在训练后期保持稳定且 mAP 最高。
4.4 定性分析
图 4 展示了 YOLO-Master 在四个挑战性场景下的检测结果对比。

图 4 | 四种典型挑战性场景的定性对比结果:小目标、类别混淆、复杂场景、密集场景。所有测试图像均来自 MS COCO 和 PASCAL VOC 2007+2012 测试集。从上到下依次为:小动物检测、沿海场景中的人、剪羊毛场景、密集餐桌,YOLO-Master-N 在各场景中均实现更高置信度的检测和更精准的定位,相比 YOLOv10-v13 系列,对遮挡、密集、小尺度目标的检测完整性和准确性提升显著。例如小动物置信度 0.65-0.82,其他模型 0.47-0.53。
五、部署与应用:从服务器到移动端的全面优化
许多开发者担心 MoE 的动态特性会导致部署困难,但 YOLO-Master 团队为此做了大量工作,确保模型能在各种硬件上高效运行。
5.1 GPU(服务器/桌面)
在 NVIDIA GPU 上,MoE 的主要挑战是 小核启动开销 和 warp divergence 。
UltraOptimizedMoE 通过 批处理计算 解决:将分配给同一专家的样本用torch.where和index_add_聚合,然后一次性调用 CUDA 核,大幅减少核启动次数,提升 GPU 利用率。
对于 TensorRT 部署,YOLO-Master 的路由逻辑仅依赖 TopK、Gather、Scatter 等标准算子,TensorRT 8.x 及以上版本均支持。导出 ONNX 时推荐设置 opset_version≥13。
5.2 CPU(Intel/AMD)
CPU 反而很适合运行 MoE,因为 CPU 有强大的分支预测能力,能高效处理稀疏计算。 在 CPU 上,MoE 的稀疏性(例如只激活 2/4 的专家)意味着直接跳过 50%的计算量,获得真实加速。
推荐使用 OpenVINO 或 ONNX Runtime 推理,并确保启用use_sparse_inference=True。
5.3 移动端与边缘设备(NPU/DSP)
NPU 通常对动态控制流支持不佳。为此,YOLO-Master 提供了几种解决方案:
- 使用 GhostExpert:参数减半,缓解内存带宽压力。
- 静态图导出:如果 NPU 不支持 Gather/Scatter 操作,可在模型导出时将 Top-K 值设为等于专家总数(即转为密集模式),从而将 MoE 层转化为常规的并行卷积。此举会增加计算量,但能确保模型完全在 NPU 上运行。
- 仅用共享专家:在资源极度受限的场景下,可仅使用共享专家进行推理,作为一种“降级模式”以维持基本功能。
5.4 工具链与实用功能
YOLO-Master 提供了一系列实用工具:
- MoE 剪枝:通过
diagnose_model可视化专家利用率,并使用prune_moe_model物理移除冗余专家,无需重新训练即可实现模型加速。 - CW-NMS:Cluster-Weighted NMS,可在平均精度(mAP)和推理速度之间进行权衡。
- Sparse SAHI:针对高分辨率图像,通过全局 Objectness Mask 指导稀疏切片,大幅提升小目标检测效率。
- LoRA 支持:2026年2月新增,支持低秩自适应微调。
- Gradio Demo:一键启动交互式 Web 演示界面。
六、未来展望:迈向开放世界
YOLO-Master 目前专注于实时目标检测,但其设计理念具备扩展到更广阔任务的潜力。
作者在论文结论中提到,未来将借鉴大语言模型(LLM)和视觉语言模型(VLM)的突破,将动态计算的思想推广至 开放词汇检测 和 开放集分割。可以设想,MoE 不仅能实现计算资源自适应,还能实现 功能自适应:不同的专家可能擅长检测不同类别的物体,甚至在开放世界中动态生成新专家以应对未知类别。
结论
YOLO-Master 通过将混合专家(MoE)机制与 YOLO 架构深度融合,首次在通用数据集上实现了“按需计算”的实时目标检测。
其核心创新——专家选择 MoE(ES-MoE)和动态路由机制——使模型能够根据输入图像的复杂度动态分配计算资源,在检测精度和推理速度上均取得了领先优势。从 ES-MoE 到 UltraOptimizedMoE 的技术演进,体现了从概念验证到工业级优化的完整路径。同时,团队在部署适配方面做了大量工作,确保了 MoE 模型能在 GPU、CPU、NPU 等多种硬件平台上高效运行。
参考文献
- Lin, X., Peng, J., Gan, Z., Zhu, J., & Liu, J. (2025). YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection. arXiv preprint arXiv:2512.23273.
- Tencent/YOLO-Master GitHub Repository: https://github.com/Tencent/YOLO-Master
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21889
