关键词： YOLO-Master、混合专家（MoE）、实时目标检测、动态路由、ES-MoE

动态计算，按需分配：YOLO-Master 如何用 MoE 重新定义实时目标检测

实时目标检测（Real-Time Object Detection, RTOD）是计算机视觉领域的核心任务之一，从自动驾驶到工业质检，从安防监控到移动端应用，都离不开它的身影。YOLO 系列作为 RTOD 的佼佼者，凭借其极致的速度和不错的精度，几乎成为工业界的事实标准。

然而，传统的 YOLO 模型有一个固有缺陷：静态密集计算。无论输入图像是一片空旷的天空，还是一个拥挤的十字路口，模型都会分配相同的计算资源。这显然是一种浪费——简单场景不需要复杂的特征提取，而复杂场景却可能因为算力不足而漏检。

腾讯开源YOLO-Master：混合专家MoE赋能实时目标检测，开启端侧AI自适应计算新时代

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection.
代码：https://github.com/Tencent/YOLO-Master
论文：https://arxiv.org/pdf/2512.23273

人类视觉系统天生具有“自适应”能力：扫视空旷区域时，我们快速略过；聚焦复杂区域时，我们仔细分析。那么，能否让检测模型也学会这种“按需计算”呢？

2025 年底，腾讯优图实验室等机构的研究者给出了他们的答案——YOLO-Master。这项工作首次将混合专家（Mixture-of-Experts, MoE）深度集成到 YOLO 架构中，实现了实例条件自适应计算。简单来说，模型会根据每个样本的复杂度，动态激活不同的“专家”子网络，从而在精度和延迟之间达到更优的平衡。

雷达图直观对比了 YOLOv10-N、YOLOv11-N、YOLOv12-N、YOLOv13-N 与 YOLO-Master-N 在 VOC、MS COCO、VisDrone、SKU-100K 和 KITTI 等数据集上的 mAP 性能。从各维度表现来看，YOLOv13-N 在多数指标上实现显著提升，尤其在 SKU-100K mAP50（90.3）和 KITTI mAP50-95（90.7）上表现突出，而 YOLO-Master-N 则在 VOC mAP50-95（62.1）等指标上展现出强劲竞争力，整体反映出新一代 YOLO 模型在多场景目标检测任务上的性能迭代优势。

零、快速上手：安装、训练、推理

安装（极简步骤）

# 1. 创建并激活 conda 环境  
conda create -n yolo_master python=3.11 -y  
conda activate yolo_master  

# 2. 克隆仓库并进入目录  
git clone https://github.com/isLinXu/YOLO-Master  
cd YOLO-Master  

# 3. 安装依赖和项目包  
pip install -r requirements.txt  
pip install -e  

# 4. 训练可选。安装 FlashAttention 后可以有更快的训练速度 (CUDA required)  
pip install flash_attn

推理（命令行）

# 单张图片推理并显示结果  
yolo predict model=yolo_master_n.pt source='path/to/image.jpg' show=True

训练（Python 示例）

“`
from ultralytics import YOLO

从配置文件构建新模型

model = YOLO(‘cfg/models/master/v0/det/yolo-master-n.yaml’)

训练模型

results = model.train(
data=’coco.yaml’,
epochs=600,
batch=256,
imgsz=640,
device=’0,1,2,3′, # 多卡训练
scale=0.5,
mosaic=1.0,
mixup=0.0,
copy_paste=0.1
)

一、相关工作：YOLO 的演进与 MoE 的渗透

1.1 YOLO 家族：从 v1 到 v13 的征途

YOLO（You Only Look Once）自 2016 年诞生以来，经历了多次迭代。从 YOLOv1 的端到端检测，到 v3 的多尺度预测，v5 的工程优化，v8 的模块化设计，再到 v10、v11 的无 NMS 训练、v12 的注意力增强、v13 的进一步调优，YOLO 始终在追求 更高精度、更低延迟 的平衡。

然而，这些模型无一例外都是“静态”的：无论输入是什么，它们都执行相同的计算图。

1.2 混合专家（MoE）：大语言模型的“杀手锏”

MoE 最早可追溯到 1991 年的自适应混合专家，但真正让它大放异彩的是在自然语言处理领域。谷歌的 Switch Transformer、GLaM 等模型通过稀疏激活的专家网络，将模型参数量扩展到万亿级别，同时保持推理效率。MoE 的核心思想是：拥有多个并行的“专家”子网络，每个输入只激活其中少数几个专家，从而实现条件计算。

近年来，MoE 也开始渗透到视觉任务中，例如 VMOE、EfficientMOE 等。但据 YOLO-Master 作者所述，这是第一个在通用数据集上将 MoE 与 YOLO 深度结合的工作。它不仅继承了 YOLO 的高效骨干，还引入了专门设计的 MoE 模块，使得模型能够根据输入场景的复杂度，动态分配计算资源。

二、核心创新：ES-MoE + 动态路由

YOLO-Master 的整体架构如图 1 所示。

图 1 | YOLO-Master整体架构，展示了ES-MoE块如何通过动态路由实现“按需计算”。展示了 YOLO-Master 的框架，包含 Backbone、Neck 和 Detection Head。ES-MoE 模块插入在 Backbone 和 Neck 中，通过动态路由网络（Dynamic Routing Network）和 Softmax 门控机制选择 Top-K 专家，实现加权聚合。右侧展示了训练（Soft Top-K）和推理（Hard Top-K）两种路由策略的切换。

它在 YOLO 的骨干网络中嵌入了ES-MoE（Efficient Sparse Mixture-of-Experts）块，并通过动态路由网络决定每个样本应激活哪些专家。

2.1 ES-MoE：高效稀疏混合专家

ES-MoE 是 YOLO-Master 的核心组件，它包含以下几个关键设计：

异构专家（早期版本）：最初探索时，ES-MoE 模块使用了不同卷积核大小（如 3×3、5×5、7×7）的专家，意图捕获多尺度特征。但这种设计在硬件并行性上不佳，后续版本改为同质专家。
动态路由层：基于全局平均池化或空间池化生成路由权重，决定每个样本分配给哪些专家。
稀疏激活：训练时通常采用全专家计算并加权（密集前向），以保证梯度回传；推理时只激活权重最高的 Top-K 个专家，实现真正的稀疏计算，减少 FLOPs。
共享专家（后续版本）：引入一个始终激活的共享专家，确保基础性能，稳定训练。

2.2 动态路由：让模型学会“看人下菜碟”

动态路由的任务是根据输入特征，为每个样本生成专家选择的概率分布。YOLO-Master 设计了多种路由器，以适应不同场景：

EfficientSpatialRouter：先下采样再路由，大幅降低计算量，适合通用场景。
LocalRoutingLayer：保留更多局部信息，适合小目标检测。
AdaptiveRoutingLayer：自适应池化到 1×1，忽略空间信息，仅用通道信息，适合极低资源场景。
UltraEfficientRouter：采用深度可分离卷积+激进下采样，将路由 FLOPs 降低 95%以上，适合边缘设备。

通过这种动态路由，YOLO-Master 实现了“计算按需分配”：简单图像只需少数专家，复杂图像则激活更多专家。这种机制带来的收益在密集场景和困难样本上尤为显著。

三、技术细节深挖：MoE 模块的演化与数学公式

3.1 ES-MoE 模块的数学形式

给定输入特征图 $X$，ES-MoE 模块首先通过动态路由网络计算门控权重。

设专家总数为 $N$，门控权重 $G$ 通过 Softmax 函数计算：

$$G_i = frac{exp(g_i(X))}{sum_{j=1}^{N} exp(g_j(X))}$$

其中 $g_i$ 是第 $i$ 个专家的门控函数。然后选择权重最高的 Top-K 个专家，其中 $K ll N$，并通过加权聚合得到输出特征图 $Y$：

$$Y = sum_{i in text{TopK}(G)} tilde{G}_i cdot E_i(X)$$

这里 $tilde{G}_i$ 是归一化操作后的权重。

3.2 专家网络设计

每个专家 $E_i$ 采用深度可分离卷积（Depthwise Separable Convolution）来降低计算量：

$$E_i(X) = text{DWConv}_{k times k}(X)$$

其中 $k$ 是卷积核大小（如 3、5、7），通过不同感受野捕获多尺度特征。

3.3 门控网络

门控网络 $g$ 首先对输入 $X$ 进行全局平均池化得到全局描述符 $z$，然后通过两个 1×1 卷积层生成原始 logits $l$：

$$l = W_2 cdot text{ReLU}(W_1 cdot z)$$

其中通道缩减比 $r = 4$，$W_1 in mathbb{R}^{C/r times C}$，$W_2 in mathbb{R}^{N times C/r}$。

3.4 分阶段路由策略

训练阶段（Soft Top-K）：保持梯度流动，首先计算 Softmax 权重 $G$，然后根据 Top-K 索引构造二进制掩码 $M$，再重新归一化：

$$tilde{G} = text{Normalize}(G odot M)$$

推理阶段（Hard Top-K）：仅计算 Top-K 专家的输出，其余专家权重置零，实现真正的稀疏加速：

$$Y = sum_{i in text{TopK}(G)} E_i(X)$$

3.5 损失函数

YOLO-Master 的总损失函数由 YOLOv8 检测损失和负载均衡损失组成：

$$L_{text{total}} = L_{text{det}} + lambda L_{text{balance}}$$

其中 $L_{text{det}}$ 包含分类损失、定位损失和分布焦点损失（DFL）。

$lambda$ 是负载平衡损失（Load Balancing Loss, $L_{text{balance}}$）的权重超参数，用于解决 MoE 架构训练中的专家坍缩问题（路由网络倾向于只激活少数“优势专家”）。$lambda$ 通过调节权重，控制模型在学习检测任务（$L_{text{det}}$）的同时，对所有专家的均衡利用的约束强度。简单来说，$lambda$ 是为了让 MoE 架构的所有专家都能被充分训练、避免闲置而设置的“调节旋钮”，数值越大，对专家均衡利用的约束越强。
负载均衡损失 $L_{text{balance}}$ 鼓励各专家被均匀使用，避免路由崩溃：

$$L_{text{balance}} = N sum_{i=1}^{N} f_i cdot P_i$$

这里 $f_i$ 是专家 $i$ 在当前 batch 中的平均使用频率，$P_i$ 是专家 $i$ 被选中的平均概率。$N$ 代表 YOLO-Master 模型中 ES-MoE 模块里专家网络的总数量（Expert count），是整个 MoE 架构的核心基础参数。

四、实验与结果：精度与速度的双重突破

4.1 主要检测结果

YOLO-Master 在五个大型基准（COCO、PASCAL VOC、VisDrone、KITTI、SKU-110K）上与最先进的 Nano-scale 检测器进行了对比。表 1 展示了详细结果。

表 1 | 五种基准数据集上与当前最优轻量型检测器的性能对比。该表对比了五款 Nano 级 YOLO 模型在五大主流检测数据集的精度与延迟，YOLO-Master-N 在所有数据集上均实现 mAP 领先，其中 VisDrone 提升 2.1%、KITTI 提升 1.5%，小目标和密集场景优势显著，且 1.62ms 延迟兼顾实时性，较 YOLOv13-N 快 17.8%。

在 COCO 上，YOLO-Master-N 达到 42.4% AP，比 YOLOv13-N 高 0.8%，同时推理延迟仅为1.62ms（T4 GPU 测量），比 YOLOv13-N 快 17.8%。
在 VisDrone（无人机视角，小目标密集）上，mAP 提升超过 2 个百分点，充分体现了动态计算在复杂场景的优势。

以上结果直观展示了 YOLO-Master 在精度-延迟帕累托前沿上的领先地位。

下图展示了 YOLO-Master-N 在 MS COCO 数据集上与其他 YOLO 模型的精度（AP）和延迟（ms）对比，紫色五角星代表 YOLO-Master-N，明显处于帕累托前沿。

图 1 | MS COCO 数据集上的精度 – 延迟权衡曲线。YOLO-Master-N 模型在 1.62 毫秒的推理延迟下实现了 42.4% 的平均精度，在帕累托前沿上的性能超越所有基线模型。该图直观展现了各轻量型 YOLO 模型的精度与延迟表现，YOLO-Master-N 突破了现有模型的帕累托前沿，相比 YOLOv13-N 精度提升 0.8% 且延迟降低 0.35ms，同时比 YOLOv12-N 精度高 1.8%，成为精度和速度平衡的最优解。

4.2 扩展到分类与分割任务

YOLO-Master 不仅在检测任务上表现出色，其骨干网络在分类和分割任务上同样优异。表 2 和表 3 分别展示了 ImageNet 分类和 COCO 分割的结果。

表 2 | ImageNet 分类性能对比。该表验证 YOLO-Master 骨干网络的通用特征提取能力，其分类版本在 ImageNet 上实现 76.6% Top-1、93.4% Top-5 精度，较 YOLOv11-cls-N、YOLOv12-cls-N 分别提升 6.6%、4.9%，证明 ES-MoE 模块的自适应特征学习可迁移至分类任务，提升特征表征鲁棒性。

表 4 | 640×640 分辨率下 MS COCO 数据集上的分割性能对比。此表展现 YOLO-Master 在实例分割任务的拓展能力，其分割版本实现 42.9% 框 mAP、35.6% 掩码 mAP，较 YOLOv12-seg-N 分别提升 3%、2.8%，说明 ES-MoE 的自适应专家路由不仅优化检测，还能提升掩码预测的精细度，实现检测与分割双提升。

具体而言，YOLO-Master-cls-N 在 ImageNet 上达到 76.6% Top-1 准确率，比 YOLOv12-cls-N 高出 4.9%；YOLO-Master-seg-N 的 mask mAP 达到 35.6%，比 YOLOv12-seg-N 高 2.8%。这些结果证明 MoE 机制能有效提升骨干网络的泛化能力。

4.3 消融实验：深入理解设计选择

论文进行了详尽的消融实验，验证了 ES-MoE 模块的放置位置、专家数量、Top-K 选择以及损失函数配置的影响。

表 5 | ES-MoE 模块部署位置的消融实验。该表探究 ES-MoE 的最优部署位置，仅骨干网络集成时实现 62.1% mAP，是唯一优于基线的配置；仅颈部集成或全集成均导致精度下降，核心原因是颈部无多样骨干特征支撑专家特化，全集成则引发路由梯度干扰，证明骨干是 MoE 部署的核心位置。

结果表明，仅在 Backbone 中插入 ES-MoE 效果最佳（+1.3%），而同时插入 Backbone 和 Neck 会导致性能严重下降（-5.9%），可能是因为路由梯度相互干扰。

表 6 | 专家数量的消融实验。此表验证专家数量对性能的影响，4 个专家时实现 62.3% mAP、82.2% mAP50 的最优性能，2 个专家因容量不足精度下降，8 个专家则因过参数化无精度提升且参数量增加 33%，说明适度的专家多样性是检测任务的最优选择，冗余专家易造成资源浪费。

实验显示，4 个专家在参数和精度之间达到最佳平衡。

表 7 | 4 个专家设置下 Top-K 选择策略的消融实验。该表在 4 专家配置下探究 Top-K 的最优值，K=2 时以 50% 稀疏度实现 61.8% mAP，为性能与效率的平衡点；K=1 因特征容量不足精度下降，K≥3 无精度提升却损失稀疏性，契合视觉任务 MoE 的设计规律，证明双专家互补足以覆盖检测的特征需求。

上表在 K=2 时，50%稀疏度下达到最佳性能，验证了稀疏激活的有效性。

表 8 | DFL 损失与 MoE 损失配置的消融实验。该表分析损失函数的最优组合，仅用 MoE 损失（λ=1.5）时实现 62.2% mAP，是最优配置；同时加入 DFL 与强 MoE 损失会引发梯度冲突，导致精度下降，证明 MoE 损失可替代 DFL 的作用，单独使用时能更稳定地引导专家特化与边界框回归。

令人惊讶的是，移除 DFL 损失并增加 MoE 损失权重（Config 5）取得了最佳结果，说明 MoE 损失可能已经包含了类似 DFL 的分布约束功能。

图 3 | 不同损失函数配置下的消融实验结果。(a) 分布焦点损失对比；(b) 混合专家损失对比；(c) 验证集平均精度；(d) 总损失变化；(e) 混合专家损失的演化过程；(f) 平均精度的收敛趋势。该组曲线清晰呈现了 DFL 与 MoE 损失的相互作用，含强 MoE 权重的 DFL 配置会引发损失震荡，而仅用 MoE 损失的配置损失收敛平滑且验证集 mAP 更高，直观印证了两种损失的梯度冲突及纯 MoE 损失的最优训练效果。

上图 3 包含六个子图，分别展示了 DFL 损失对比、MoE 损失对比、验证 mAP、总损失、MoE 损失演化以及 mAP 收敛曲线。Config 5（MoE only）在训练后期保持稳定且 mAP 最高。

4.4 定性分析

图 4 展示了 YOLO-Master 在四个挑战性场景下的检测结果对比。

图 4 | 四种典型挑战性场景的定性对比结果：小目标、类别混淆、复杂场景、密集场景。所有测试图像均来自 MS COCO 和 PASCAL VOC 2007+2012 测试集。从上到下依次为：小动物检测、沿海场景中的人、剪羊毛场景、密集餐桌，YOLO-Master-N 在各场景中均实现更高置信度的检测和更精准的定位，相比 YOLOv10-v13 系列，对遮挡、密集、小尺度目标的检测完整性和准确性提升显著。例如小动物置信度 0.65-0.82，其他模型 0.47-0.53。

五、部署与应用：从服务器到移动端的全面优化

许多开发者担心 MoE 的动态特性会导致部署困难，但 YOLO-Master 团队为此做了大量工作，确保模型能在各种硬件上高效运行。

5.1 GPU（服务器/桌面）

在 NVIDIA GPU 上，MoE 的主要挑战是 小核启动开销 和 warp divergence 。

UltraOptimizedMoE 通过 批处理计算 解决：将分配给同一专家的样本用torch.where和index_add_聚合，然后一次性调用 CUDA 核，大幅减少核启动次数，提升 GPU 利用率。

对于 TensorRT 部署，YOLO-Master 的路由逻辑仅依赖 TopK、Gather、Scatter 等标准算子，TensorRT 8.x 及以上版本均支持。导出 ONNX 时推荐设置 opset_version≥13。

5.2 CPU（Intel/AMD）

CPU 反而很适合运行 MoE，因为 CPU 有强大的分支预测能力，能高效处理稀疏计算。 在 CPU 上，MoE 的稀疏性（例如只激活 2/4 的专家）意味着直接跳过 50%的计算量，获得真实加速。

推荐使用 OpenVINO 或 ONNX Runtime 推理，并确保启用use_sparse_inference=True。

5.3 移动端与边缘设备（NPU/DSP）

NPU 通常对动态控制流支持不佳。为此，YOLO-Master 提供了几种解决方案：

使用 GhostExpert：参数减半，缓解内存带宽压力。
静态图导出：如果 NPU 不支持 Gather/Scatter 操作，可在模型导出时将 Top-K 值设为等于专家总数（即转为密集模式），从而将 MoE 层转化为常规的并行卷积。此举会增加计算量，但能确保模型完全在 NPU 上运行。
仅用共享专家：在资源极度受限的场景下，可仅使用共享专家进行推理，作为一种“降级模式”以维持基本功能。

5.4 工具链与实用功能

YOLO-Master 提供了一系列实用工具：

MoE 剪枝：通过 diagnose_model 可视化专家利用率，并使用 prune_moe_model 物理移除冗余专家，无需重新训练即可实现模型加速。
CW-NMS：Cluster-Weighted NMS，可在平均精度（mAP）和推理速度之间进行权衡。
Sparse SAHI：针对高分辨率图像，通过全局 Objectness Mask 指导稀疏切片，大幅提升小目标检测效率。
LoRA 支持：2026年2月新增，支持低秩自适应微调。
Gradio Demo：一键启动交互式 Web 演示界面。

六、未来展望：迈向开放世界

YOLO-Master 目前专注于实时目标检测，但其设计理念具备扩展到更广阔任务的潜力。

作者在论文结论中提到，未来将借鉴大语言模型（LLM）和视觉语言模型（VLM）的突破，将动态计算的思想推广至 开放词汇检测 和 开放集分割。可以设想，MoE 不仅能实现计算资源自适应，还能实现 功能自适应：不同的专家可能擅长检测不同类别的物体，甚至在开放世界中动态生成新专家以应对未知类别。

结论

YOLO-Master 通过将混合专家（MoE）机制与 YOLO 架构深度融合，首次在通用数据集上实现了“按需计算”的实时目标检测。

其核心创新——专家选择 MoE（ES-MoE）和动态路由机制——使模型能够根据输入图像的复杂度动态分配计算资源，在检测精度和推理速度上均取得了领先优势。从 ES-MoE 到 UltraOptimizedMoE 的技术演进，体现了从概念验证到工业级优化的完整路径。同时，团队在部署适配方面做了大量工作，确保了 MoE 模型能在 GPU、CPU、NPU 等多种硬件平台上高效运行。

参考文献

Lin, X., Peng, J., Gan, Z., Zhu, J., & Liu, J. (2025). YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection. arXiv preprint arXiv:2512.23273.
Tencent/YOLO-Master GitHub Repository: https://github.com/Tencent/YOLO-Master

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21889

腾讯开源YOLO-Master：混合专家MoE赋能实时目标检测，开启端侧AI自适应计算新时代