คำสำคัญ: YOLO-Master, Mixture-of-Experts (MoE), การตรวจจับวัตถุแบบเรียลไทม์, การกำหนดเส้นทางแบบไดนามิก, ES-MoE
การคำนวณแบบไดนามิก จัดสรรตามความต้องการ: YOLO-Master ใช้ MoE กำหนดนิยามใหม่ของการตรวจจับวัตถุแบบเรียลไทม์อย่างไร
การตรวจจับวัตถุแบบเรียลไทม์ (Real-Time Object Detection, RTOD) เป็นหนึ่งในงานหลักของสาขาวิสัยทัศน์คอมพิวเตอร์ ตั้งแต่รถยนต์ขับเคลื่อนอัตโนมัติ การตรวจสอบคุณภาพในอุตสาหกรรม การเฝ้าระวังความปลอดภัย ไปจนถึงแอปพลิเคชันบนอุปกรณ์เคลื่อนที่ ล้วนต้องพึ่งพามันทั้งสิ้น ซีรีส์ YOLO ในฐานะผู้นำด้าน RTOD ด้วยความเร็วสูงสุดและความแม่นยำที่ยอมรับได้ ได้กลายเป็นมาตรฐานโดยพฤตินัยในอุตสาหกรรม
อย่างไรก็ตาม โมเดล YOLO แบบดั้งเดิมมีข้อบกพร่องโดยธรรมชาติ: การคำนวณแบบหนาแน่นแบบคงที่ ไม่ว่าภาพอินพุตจะเป็นท้องฟ้าที่โล่งกว้าง หรือสี่แยกที่พลุกพล่าน โมเดลจะจัดสรรทรัพยากรการคำนวณในปริมาณเท่ากัน นี่เป็นการสิ้นเปลืองอย่างเห็นได้ชัด — ฉากที่ง่ายไม่จำเป็นต้องใช้การสกัดคุณลักษณะที่ซับซ้อน ในขณะที่ฉากที่ซับซ้อนอาจเกิดการตรวจจับตกหล่นเนื่องจากกำลังการคำนวณไม่เพียงพอ

- YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection.
- โค้ด: https://github.com/Tencent/YOLO-Master
- เอกสารวิจัย: https://arxiv.org/pdf/2512.23273
ระบบการมองเห็นของมนุษย์มีความสามารถ “ปรับตัวได้” โดยธรรมชาติ: เมื่อกวาดสายตาผ่านพื้นที่โล่ง เราจะมองผ่านอย่างรวดเร็ว; เมื่อจดจ่อกับพื้นที่ซับซ้อน เราจะวิเคราะห์อย่างละเอียด แล้วเราจะทำให้โมเดลตรวจจับเรียนรู้การ “คำนวณตามความต้องการ” นี้ได้หรือไม่?
ปลายปี 2025 นักวิจัยจาก Tencent YouTu Lab และสถาบันอื่นๆ ได้ให้คำตอบของพวกเขา — YOLO-Master งานวิจัยนี้เป็นครั้งแรกที่ผสาน Mixture-of-Experts (MoE) เข้ากับโครงสร้าง YOLO อย่างลึกซึ้ง ทำให้เกิด การคำนวณแบบปรับตัวตามเงื่อนไขของอินสแตนซ์ พูดง่ายๆ คือ โมเดลจะเปิดใช้งานซับเน็ตเวิร์ก “ผู้เชี่ยวชาญ” ที่แตกต่างกันแบบไดนามิกตามความซับซ้อนของแต่ละตัวอย่าง ส่งผลให้ได้สมดุลระหว่างความแม่นยำและความล่าช้าที่ดีขึ้น

แผนภาพเรดาร์เปรียบเทียบประสิทธิภาพ mAP ของ YOLOv10-N, YOLOv11-N, YOLOv12-N, YOLOv13-N และ YOLO-Master-N บนชุดข้อมูลต่างๆ เช่น VOC, MS COCO, VisDrone, SKU-100K และ KITTI อย่างชัดเจน จากประสิทธิภาพในแต่ละมิติ YOLOv13-N มีการปรับปรุงอย่างมีนัยสำคัญในตัวชี้วัดส่วนใหญ่ โดยเฉพาะอย่างยิ่งใน SKU-100K mAP50 (90.3) และ KITTI mAP50-95 (90.7) ในขณะที่ YOLO-Master-N แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในตัวชี้วัดเช่น VOC mAP50-95 (62.1) ซึ่งสะท้อนให้เห็นถึงข้อได้เปรียบในการวนซ้ำประสิทธิภาพของโมเดล YOLO รุ่นใหม่ในงานตรวจจับวัตถุหลายสถานการณ์โดยรวม
ศูนย์. เริ่มต้นใช้งานอย่างรวดเร็ว: การติดตั้ง, การฝึก, การอนุมาน
การติดตั้ง (ขั้นตอนง่ายสุด)
# 1. สร้างและเปิดใช้งานสภาพแวดล้อม conda
conda create -n yolo_master python=3.11 -y
conda activate yolo_master
# 2. โคลน repository และเข้าไปในไดเรกทอรี
git clone https://github.com/isLinXu/YOLO-Master
cd YOLO-Master
# 3. ติดตั้ง dependencies และแพ็คเกจโปรเจกต์
pip install -r requirements.txt
pip install -e
# 4. การฝึก (ตัวเลือก) หลังจากติดตั้ง FlashAttention จะได้ความเร็วในการฝึกที่เร็วขึ้น (ต้องใช้ CUDA)
pip install flash_attn
การอนุมาน (command line)
# อนุมานภาพเดี่ยวและแสดงผลลัพธ์
yolo predict model=yolo_master_n.pt source='path/to/image.jpg' show=True
การฝึก (ตัวอย่าง Python)
from ultralytics import YOLO
สร้างโมเดลใหม่จากไฟล์คอนฟิก
model = YOLO(‘cfg/models/master/v0/det/yolo-master-n.yaml’)
ฝึกโมเดล
results = model.train(
data=’coco.yaml’,
epochs=600,
batch=256,
imgsz=640,
device=’0,1,2,3′, # การฝึกแบบหลายการ์ด
scale=0.5,
mosaic=1.0,
mixup=0.0,
copy_paste=0.1
)
หนึ่ง. งานที่เกี่ยวข้อง: การวิวัฒนาการของ YOLO และการแทรกซึมของ MoE
1.1 ตระกูล YOLO: การเดินทางจาก v1 ถึง v13
YOLO (You Only Look Once) ตั้งแต่กำเนิดในปี 2016 ได้ผ่านการวนซ้ำหลายครั้ง ตั้งแต่การตรวจจับแบบ end-to-end ของ YOLOv1, การทำนายหลายสเกลของ v3, การปรับปรุงทางวิศวกรรมของ v5, การออกแบบแบบโมดูลาร์ของ v8, ไปจนถึงการฝึกแบบไม่มี NMS ของ v10, v11, การเพิ่มประสิทธิภาพความสนใจของ v12, การปรับแต่งเพิ่มเติมของ v13 YOLO มุ่งมั่นเสมอที่จะหาความสมดุลระหว่าง ความแม่นยำที่สูงขึ้นและความล่าช้าที่ต่ำลง
อย่างไรก็ตาม โมเดลเหล่านี้ล้วนเป็นแบบ “คงที่”: ไม่ว่าอินพุตจะเป็นอะไร พวกมันจะดำเนินการกราฟการคำนวณเดียวกัน
1.2 Mixture-of-Experts (MoE): “อาวุธลับ” ของโมเดลภาษาขนาดใหญ่
MoE สามารถย้อนกลับไปได้ถึงปี 1991 กับ Adaptive Mixture of Experts แต่สิ่งที่ทำให้มันโดดเด่นอย่างแท้จริงคือในสาขาการประมวลผลภาษาธรรมชาติ โมเดลเช่น Switch Transformer, GLaM ของ Google ผ่านเครือข่ายผู้เชี่ยวชาญที่เปิดใช้งานแบบเบาบาง ขยายจำนวนพารามิเตอร์โมเดลไปถึงระดับล้านล้าน ในขณะที่ยังคงประสิทธิภาพการอนุมาน แนวคิดหลักของ MoE คือ: มีซับเน็ตเวิร์ก “ผู้เชี่ยวชาญ” ขนานกันหลายตัว สำหรับแต่ละอินพุตจะเปิดใช้งานผู้เชี่ยวชาญเพียงไม่กี่ตัวเท่านั้น จึงทำให้เกิดการคำนวณแบบมีเงื่อนไข
ในปีที่ผ่านมา MoE เริ่มแทรกซึมเข้าสู่งานด้านวิสัยทัศน์ด้วย เช่น VMOE, EfficientMOE เป็นต้น แต่ตามที่ผู้เขียน YOLO-Master ระบุ นี่คือ งานแรกที่ผสาน MoE กับ YOLO อย่างลึกซึ้งบนชุดข้อมูลทั่วไป ไม่เพียงแต่สืบทอดโครงสร้างหลักที่มีประสิทธิภาพของ YOLO เท่านั้น แต่ยังแนะนำโมดูล MoE ที่ออกแบบมาโดยเฉพาะ ทำให้โมเดลสามารถจัดสรรทรัพยากรการคำนวณแบบไดนามิกตามความซับซ้อนของฉากอินพุต
สอง. นวัตกรรมหลัก: ES-MoE + การกำหนดเส้นทางแบบไดนามิก
โครงสร้างโดยรวมของ YOLO-Master แสดงในรูปที่ 1

รูปที่ 1 | โครงสร้างโดยรวมของ YOLO-Master แสดงให้เห็นว่าบล็อก ES-MoE บรรลุ “การคำนวณตามความต้องการ” ผ่านการกำหนดเส้นทางแบบไดนามิกได้อย่างไร แสดงกรอบของ YOLO-Master ซึ่งประกอบด้วย Backbone, Neck และ Detection Head โมดูล ES-MoE ถูกแทรกใน Backbone และ Neck ผ่าน Dynamic Routing Network และกลไก Softmax Gating เพื่อเลือก Top-K ผู้เชี่ยวชาญ ทำให้เกิดการรวมแบบถ่วงน้ำหนัก ด้านขวาแสดงการสลับระหว่างกลยุทธ์การกำหนดเส้นทางสองแบบ: การฝึก (Soft Top-K) และการอนุมาน (Hard Top-K)
มันฝัง บล็อก ES-MoE (Efficient Sparse Mixture-of-Experts) ลงในโครงสร้างหลักของ YOLO และตัดสินใจผ่าน Dynamic Routing Network ว่าผู้เชี่ยวชาญคนใดควรถูกเปิดใช้งานสำหรับแต่ละตัวอย่าง
2.1 ES-MoE: Efficient Sparse Mixture-of-Experts
ES-MoE เป็นส่วนประกอบหลักของ YOLO-Master ประกอบด้วยการออกแบบที่สำคัญดังต่อไปนี้:
- ผู้เชี่ยวชาญแบบเฮเทอโรจีนีส (รุ่นแรกเริ่ม): ในช่วงเริ่มต้นของการสำรวจ โมดูล ES-MoE ใช้ผู้เชี่ยวชาญที่มีขนาดเคอร์เนลคอนโวลูชันต่างกัน (เช่น 3×3, 5×5, 7×7) มีจุดประสงค์เพื่อจับคุณลักษณะหลายสเกล แต่การออกแบบนี้ไม่ดีในด้านความขนานของฮาร์ดแวร์ รุ่นต่อมาจึงเปลี่ยนเป็นผู้เชี่ยวชาญแบบโฮโมจีนีส
- Dynamic Routing Layer: สร้างน้ำหนักการกำหนดเส้นทางโดยอิงจาก Global Average Pooling หรือ Spatial Pooling เพื่อตัดสินใจว่าผู้เชี่ยวชาญคนใดจะถูกจัดสรรให้กับแต่ละตัวอย่าง
- Sparse Activation: ในระหว่างการฝึก มักจะใช้การคำนวณผู้เชี่ยวชาญทั้งหมดและถ่วงน้ำหนัก (การส่งต่อแบบหนาแน่น) เพื่อรับประกันการส่งกลับเกรเดียนต์; ในระหว่างการอนุมาน จะเปิดใช้งานเฉพาะผู้เชี่ยวชาญ Top-K ที่มีน้ำหนักสูงสุดเท่านั้น ทำให้เกิดการคำนวณแบบเบาบางที่แท้จริง ลด FLOPs
- Shared Expert (รุ่นต่อมา): แนะนำผู้เชี่ยวชาญที่แชร์กันซึ่งเปิดใช้งานเสมอ เพื่อรับประกันประสิทธิภาพพื้นฐานและความเสถียรในการฝึก
2.2 การกำหนดเส้นทางแบบไดนามิก: ทำให้โมเดลเรียนรู้ที่จะ “ปรับเปลี่ยนตามสถานการณ์”
งานของการกำหนดเส้นทางแบบไดนามิกคือการสร้างการกระจายความน่าจะเป็นของการเลือกผู้เชี่ยวชาญสำหรับแต่ละตัวอย่างตามคุณลักษณะอินพุต ทีม YOLO-Master ออกแบบเราเตอร์หลายประเภทเพื่อให้เหมาะกับสถานการณ์ต่างๆ:
- EfficientSpatialRouter: ทำ Downsample ก่อนแล้วค่อยกำหนดเส้นทาง ลดปริมาณการคำนวณอย่างมาก เหมาะสำหรับสถานการณ์ทั่วไป
- LocalRoutingLayer: รักษาข้อมูลเฉพาะที่มากขึ้น เหมาะสำหรับการตรวจจับวัตถุขนาดเล็ก
- AdaptiveRoutingLayer: Adaptive Pooling ไปที่ 1×1 ไม่สนใจข้อมูลเชิงพื้นที่ ใช้เฉพาะข้อมูลช่องสัญญาณ เหมาะสำหรับสถานการณ์ที่มีทรัพยากรต่ำมาก
- UltraEfficientRouter: ใช้ Depthwise Separable Convolution + การ Downsample แบบรุนแรง ลด FLOPs ของการกำหนดเส้นทางลงมากกว่า 95% เหมาะสำหรับอุปกรณ์ Edge
ผ่านการกำหนดเส้นทางแบบไดนามิกนี้ YOLO-Master บรรลุ “การจัดสรรการคำนวณตามความต้องการ”: ภาพที่ง่ายต้องการผู้เชี่ยวชาญเพียงไม่กี่คน ภาพที่ซับซ้อนจะเปิดใช้งานผู้เชี่ยวชาญมากขึ้น กลไกนี้ให้ผลประโยชน์อย่างเห็นได้ชัดในฉากที่หนาแน่นและตัวอย่างที่ยาก
สาม. ขุดลึกรายละเอียดทางเทคนิค: วิวัฒนาการของโมดูล MoE และสูตรทางคณิตศาสตร์
3.1 รูปแบบทางคณิตศาสตร์ของโมดูล ES-MoE
กำหนดแผนที่คุณลักษณะอินพุต $X$ โมดูล ES-MoE จะคำนวณน้ำหนักเกตผ่าน Dynamic Routing Network ก่อน
ให้จำนวนผู้เชี่ยวชาญทั้งหมดเป็น $N$ น้ำหนักเกต $G$ คำนวณผ่านฟังก์ชัน Softmax:
$$G_i = frac{exp(g_i(X))}{sum_{j=1}^{N} exp(g_j(X))}$$
โดยที่ $g_i$ คือฟังก์ชันเกตของผู้เชี่ยวชาญคนที่ $i$ จากนั้นเลือกผู้เชี่ยวชาญ Top-K ที่มีน้ำหนักสูงสุด โดยที่ $K ll N$ และได้แผนที่คุณลักษณะเอาต์พุต $Y$ ผ่านการรวมแบบถ่วงน้ำหนัก:
$$Y = sum_{i in text{TopK}(G)} tilde{G}_i cdot E_i(X)$$
ที่นี่ $tilde{G}_i$ คือน้ำหนักหลังจากดำเนินการ normalization
3.2 การออกแบบเครือข่ายผู้เชี่ยวชาญ
ผู้เชี่ยวชาญแต่ละคน $E_i$ ใช้ Depthwise Separable Convolution เพื่อลดปริมาณการคำนวณ:
$$E_i(X) = text{DWConv}_{k times k}(X)$$
โดยที่ $k$ คือขนาดเคอร์เนลคอนโวลูชัน (เช่น 3, 5, 7) จับคุณลักษณะหลายสเกลผ่าน receptive fields ที่แตกต่างกัน
3.3 เกตเน็ตเวิร์ก
เกตเน็ตเวิร์ก $g$ ก่อนอื่นทำ Global Average Pooling บนอินพุต $X$ เพื่อให้ได้ global descriptor $z$ จากนั้นสร้าง raw logits $l$ ผ่าน convolutional layer ขนาด 1×1 สองชั้น:
$$l = W_2 cdot text{ReLU}(W_1 cdot z)$$
โดยที่อัตราการลดช่องสัญญาณ $r = 4$, $W_1 in mathbb{R}^{C/r times C}$, $W_2 in mathbb{R}^{N times C/r}$
3.4 กลยุทธ์การกำหนดเส้นทางแบบแบ่งระยะ
ระยะการฝึก (Soft Top-K): รักษาการไหลของเกรเดียนต์ ก่อนอื่นคำนวณน้ำหนัก Softmax $G$ จากนั้นสร้าง binary mask $M$ ตามดัชนี Top-K แล้วทำ normalization ใหม่:
$$tilde{G} = text{Normalize}(G odot M)$$
ระยะอนุมาน (Hard Top-K): คำนวณผลลัพธ์ของผู้เชี่ยวชาญ Top-K เท่านั้น น้ำหนักของผู้เชี่ยวชาญที่เหลือตั้งเป็นศูนย์ ทำให้เกิดความเร่งแบบเบาบางที่แท้จริง:
$$Y = sum_{
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22903
