เทนเซ็นต์เปิดตัว YOLO-Master: MoE ผสานผู้เชี่ยวชาญเสริมพลังตรวจจับวัตถุแบบเรียลไทม์ เปิดยุคใหม่การคำนวณปรับตัว AI ฝั่งอุปกรณ์

2026年2月19日 am8:53 • ข่าวสารอุตสาหกรรม AI • 223 views

คำสำคัญ: YOLO-Master, Mixture-of-Experts (MoE), การตรวจจับวัตถุแบบเรียลไทม์, การกำหนดเส้นทางแบบไดนามิก, ES-MoE

การคำนวณแบบไดนามิก จัดสรรตามความต้องการ: YOLO-Master ใช้ MoE กำหนดนิยามใหม่ของการตรวจจับวัตถุแบบเรียลไทม์อย่างไร

การตรวจจับวัตถุแบบเรียลไทม์ (Real-Time Object Detection, RTOD) เป็นหนึ่งในงานหลักของสาขาวิสัยทัศน์คอมพิวเตอร์ ตั้งแต่รถยนต์ขับเคลื่อนอัตโนมัติ การตรวจสอบคุณภาพในอุตสาหกรรม การเฝ้าระวังความปลอดภัย ไปจนถึงแอปพลิเคชันบนอุปกรณ์เคลื่อนที่ ล้วนต้องพึ่งพามันทั้งสิ้น ซีรีส์ YOLO ในฐานะผู้นำด้าน RTOD ด้วยความเร็วสูงสุดและความแม่นยำที่ยอมรับได้ ได้กลายเป็นมาตรฐานโดยพฤตินัยในอุตสาหกรรม

อย่างไรก็ตาม โมเดล YOLO แบบดั้งเดิมมีข้อบกพร่องโดยธรรมชาติ: การคำนวณแบบหนาแน่นแบบคงที่ ไม่ว่าภาพอินพุตจะเป็นท้องฟ้าที่โล่งกว้าง หรือสี่แยกที่พลุกพล่าน โมเดลจะจัดสรรทรัพยากรการคำนวณในปริมาณเท่ากัน นี่เป็นการสิ้นเปลืองอย่างเห็นได้ชัด — ฉากที่ง่ายไม่จำเป็นต้องใช้การสกัดคุณลักษณะที่ซับซ้อน ในขณะที่ฉากที่ซับซ้อนอาจเกิดการตรวจจับตกหล่นเนื่องจากกำลังการคำนวณไม่เพียงพอ

เทนเซ็นต์เปิดตัว YOLO-Master: MoE ผสานผู้เชี่ยวชาญเสริมพลังตรวจจับวัตถุแบบเรียลไทม์ เปิดยุคใหม่การคำนวณปรับตัว AI ฝั่งอุปกรณ์

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection.
โค้ด: https://github.com/Tencent/YOLO-Master
เอกสารวิจัย: https://arxiv.org/pdf/2512.23273

ระบบการมองเห็นของมนุษย์มีความสามารถ “ปรับตัวได้” โดยธรรมชาติ: เมื่อกวาดสายตาผ่านพื้นที่โล่ง เราจะมองผ่านอย่างรวดเร็ว; เมื่อจดจ่อกับพื้นที่ซับซ้อน เราจะวิเคราะห์อย่างละเอียด แล้วเราจะทำให้โมเดลตรวจจับเรียนรู้การ “คำนวณตามความต้องการ” นี้ได้หรือไม่?

ปลายปี 2025 นักวิจัยจาก Tencent YouTu Lab และสถาบันอื่นๆ ได้ให้คำตอบของพวกเขา — YOLO-Master งานวิจัยนี้เป็นครั้งแรกที่ผสาน Mixture-of-Experts (MoE) เข้ากับโครงสร้าง YOLO อย่างลึกซึ้ง ทำให้เกิด การคำนวณแบบปรับตัวตามเงื่อนไขของอินสแตนซ์ พูดง่ายๆ คือ โมเดลจะเปิดใช้งานซับเน็ตเวิร์ก “ผู้เชี่ยวชาญ” ที่แตกต่างกันแบบไดนามิกตามความซับซ้อนของแต่ละตัวอย่าง ส่งผลให้ได้สมดุลระหว่างความแม่นยำและความล่าช้าที่ดีขึ้น

แผนภาพเรดาร์เปรียบเทียบประสิทธิภาพ mAP ของ YOLOv10-N, YOLOv11-N, YOLOv12-N, YOLOv13-N และ YOLO-Master-N บนชุดข้อมูลต่างๆ เช่น VOC, MS COCO, VisDrone, SKU-100K และ KITTI อย่างชัดเจน จากประสิทธิภาพในแต่ละมิติ YOLOv13-N มีการปรับปรุงอย่างมีนัยสำคัญในตัวชี้วัดส่วนใหญ่ โดยเฉพาะอย่างยิ่งใน SKU-100K mAP50 (90.3) และ KITTI mAP50-95 (90.7) ในขณะที่ YOLO-Master-N แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในตัวชี้วัดเช่น VOC mAP50-95 (62.1) ซึ่งสะท้อนให้เห็นถึงข้อได้เปรียบในการวนซ้ำประสิทธิภาพของโมเดล YOLO รุ่นใหม่ในงานตรวจจับวัตถุหลายสถานการณ์โดยรวม

ศูนย์. เริ่มต้นใช้งานอย่างรวดเร็ว: การติดตั้ง, การฝึก, การอนุมาน

การติดตั้ง (ขั้นตอนง่ายสุด)

# 1. สร้างและเปิดใช้งานสภาพแวดล้อม conda
conda create -n yolo_master python=3.11 -y
conda activate yolo_master

# 2. โคลน repository และเข้าไปในไดเรกทอรี
git clone https://github.com/isLinXu/YOLO-Master
cd YOLO-Master

# 3. ติดตั้ง dependencies และแพ็คเกจโปรเจกต์
pip install -r requirements.txt
pip install -e

# 4. การฝึก (ตัวเลือก) หลังจากติดตั้ง FlashAttention จะได้ความเร็วในการฝึกที่เร็วขึ้น (ต้องใช้ CUDA)
pip install flash_attn

การอนุมาน (command line)

# อนุมานภาพเดี่ยวและแสดงผลลัพธ์
yolo predict model=yolo_master_n.pt source='path/to/image.jpg' show=True

การฝึก (ตัวอย่าง Python)

from ultralytics import YOLO

สร้างโมเดลใหม่จากไฟล์คอนฟิก

model = YOLO(‘cfg/models/master/v0/det/yolo-master-n.yaml’)

ฝึกโมเดล

results = model.train(
data=’coco.yaml’,
epochs=600,
batch=256,
imgsz=640,
device=’0,1,2,3′, # การฝึกแบบหลายการ์ด
scale=0.5,
mosaic=1.0,
mixup=0.0,
copy_paste=0.1
)

หนึ่ง. งานที่เกี่ยวข้อง: การวิวัฒนาการของ YOLO และการแทรกซึมของ MoE

1.1 ตระกูล YOLO: การเดินทางจาก v1 ถึง v13

YOLO (You Only Look Once) ตั้งแต่กำเนิดในปี 2016 ได้ผ่านการวนซ้ำหลายครั้ง ตั้งแต่การตรวจจับแบบ end-to-end ของ YOLOv1, การทำนายหลายสเกลของ v3, การปรับปรุงทางวิศวกรรมของ v5, การออกแบบแบบโมดูลาร์ของ v8, ไปจนถึงการฝึกแบบไม่มี NMS ของ v10, v11, การเพิ่มประสิทธิภาพความสนใจของ v12, การปรับแต่งเพิ่มเติมของ v13 YOLO มุ่งมั่นเสมอที่จะหาความสมดุลระหว่าง ความแม่นยำที่สูงขึ้นและความล่าช้าที่ต่ำลง

อย่างไรก็ตาม โมเดลเหล่านี้ล้วนเป็นแบบ “คงที่”: ไม่ว่าอินพุตจะเป็นอะไร พวกมันจะดำเนินการกราฟการคำนวณเดียวกัน

1.2 Mixture-of-Experts (MoE): “อาวุธลับ” ของโมเดลภาษาขนาดใหญ่

MoE สามารถย้อนกลับไปได้ถึงปี 1991 กับ Adaptive Mixture of Experts แต่สิ่งที่ทำให้มันโดดเด่นอย่างแท้จริงคือในสาขาการประมวลผลภาษาธรรมชาติ โมเดลเช่น Switch Transformer, GLaM ของ Google ผ่านเครือข่ายผู้เชี่ยวชาญที่เปิดใช้งานแบบเบาบาง ขยายจำนวนพารามิเตอร์โมเดลไปถึงระดับล้านล้าน ในขณะที่ยังคงประสิทธิภาพการอนุมาน แนวคิดหลักของ MoE คือ: มีซับเน็ตเวิร์ก “ผู้เชี่ยวชาญ” ขนานกันหลายตัว สำหรับแต่ละอินพุตจะเปิดใช้งานผู้เชี่ยวชาญเพียงไม่กี่ตัวเท่านั้น จึงทำให้เกิดการคำนวณแบบมีเงื่อนไข

ในปีที่ผ่านมา MoE เริ่มแทรกซึมเข้าสู่งานด้านวิสัยทัศน์ด้วย เช่น VMOE, EfficientMOE เป็นต้น แต่ตามที่ผู้เขียน YOLO-Master ระบุ นี่คือ งานแรกที่ผสาน MoE กับ YOLO อย่างลึกซึ้งบนชุดข้อมูลทั่วไป ไม่เพียงแต่สืบทอดโครงสร้างหลักที่มีประสิทธิภาพของ YOLO เท่านั้น แต่ยังแนะนำโมดูล MoE ที่ออกแบบมาโดยเฉพาะ ทำให้โมเดลสามารถจัดสรรทรัพยากรการคำนวณแบบไดนามิกตามความซับซ้อนของฉากอินพุต

สอง. นวัตกรรมหลัก: ES-MoE + การกำหนดเส้นทางแบบไดนามิก

โครงสร้างโดยรวมของ YOLO-Master แสดงในรูปที่ 1

รูปที่ 1 | โครงสร้างโดยรวมของ YOLO-Master แสดงให้เห็นว่าบล็อก ES-MoE บรรลุ “การคำนวณตามความต้องการ” ผ่านการกำหนดเส้นทางแบบไดนามิกได้อย่างไร แสดงกรอบของ YOLO-Master ซึ่งประกอบด้วย Backbone, Neck และ Detection Head โมดูล ES-MoE ถูกแทรกใน Backbone และ Neck ผ่าน Dynamic Routing Network และกลไก Softmax Gating เพื่อเลือก Top-K ผู้เชี่ยวชาญ ทำให้เกิดการรวมแบบถ่วงน้ำหนัก ด้านขวาแสดงการสลับระหว่างกลยุทธ์การกำหนดเส้นทางสองแบบ: การฝึก (Soft Top-K) และการอนุมาน (Hard Top-K)

มันฝัง บล็อก ES-MoE (Efficient Sparse Mixture-of-Experts) ลงในโครงสร้างหลักของ YOLO และตัดสินใจผ่าน Dynamic Routing Network ว่าผู้เชี่ยวชาญคนใดควรถูกเปิดใช้งานสำหรับแต่ละตัวอย่าง

2.1 ES-MoE: Efficient Sparse Mixture-of-Experts

ES-MoE เป็นส่วนประกอบหลักของ YOLO-Master ประกอบด้วยการออกแบบที่สำคัญดังต่อไปนี้:

ผู้เชี่ยวชาญแบบเฮเทอโรจีนีส (รุ่นแรกเริ่ม): ในช่วงเริ่มต้นของการสำรวจ โมดูล ES-MoE ใช้ผู้เชี่ยวชาญที่มีขนาดเคอร์เนลคอนโวลูชันต่างกัน (เช่น 3×3, 5×5, 7×7) มีจุดประสงค์เพื่อจับคุณลักษณะหลายสเกล แต่การออกแบบนี้ไม่ดีในด้านความขนานของฮาร์ดแวร์ รุ่นต่อมาจึงเปลี่ยนเป็นผู้เชี่ยวชาญแบบโฮโมจีนีส
Dynamic Routing Layer: สร้างน้ำหนักการกำหนดเส้นทางโดยอิงจาก Global Average Pooling หรือ Spatial Pooling เพื่อตัดสินใจว่าผู้เชี่ยวชาญคนใดจะถูกจัดสรรให้กับแต่ละตัวอย่าง
Sparse Activation: ในระหว่างการฝึก มักจะใช้การคำนวณผู้เชี่ยวชาญทั้งหมดและถ่วงน้ำหนัก (การส่งต่อแบบหนาแน่น) เพื่อรับประกันการส่งกลับเกรเดียนต์; ในระหว่างการอนุมาน จะเปิดใช้งานเฉพาะผู้เชี่ยวชาญ Top-K ที่มีน้ำหนักสูงสุดเท่านั้น ทำให้เกิดการคำนวณแบบเบาบางที่แท้จริง ลด FLOPs
Shared Expert (รุ่นต่อมา): แนะนำผู้เชี่ยวชาญที่แชร์กันซึ่งเปิดใช้งานเสมอ เพื่อรับประกันประสิทธิภาพพื้นฐานและความเสถียรในการฝึก

2.2 การกำหนดเส้นทางแบบไดนามิก: ทำให้โมเดลเรียนรู้ที่จะ “ปรับเปลี่ยนตามสถานการณ์”

งานของการกำหนดเส้นทางแบบไดนามิกคือการสร้างการกระจายความน่าจะเป็นของการเลือกผู้เชี่ยวชาญสำหรับแต่ละตัวอย่างตามคุณลักษณะอินพุต ทีม YOLO-Master ออกแบบเราเตอร์หลายประเภทเพื่อให้เหมาะกับสถานการณ์ต่างๆ:

EfficientSpatialRouter: ทำ Downsample ก่อนแล้วค่อยกำหนดเส้นทาง ลดปริมาณการคำนวณอย่างมาก เหมาะสำหรับสถานการณ์ทั่วไป
LocalRoutingLayer: รักษาข้อมูลเฉพาะที่มากขึ้น เหมาะสำหรับการตรวจจับวัตถุขนาดเล็ก
AdaptiveRoutingLayer: Adaptive Pooling ไปที่ 1×1 ไม่สนใจข้อมูลเชิงพื้นที่ ใช้เฉพาะข้อมูลช่องสัญญาณ เหมาะสำหรับสถานการณ์ที่มีทรัพยากรต่ำมาก
UltraEfficientRouter: ใช้ Depthwise Separable Convolution + การ Downsample แบบรุนแรง ลด FLOPs ของการกำหนดเส้นทางลงมากกว่า 95% เหมาะสำหรับอุปกรณ์ Edge

ผ่านการกำหนดเส้นทางแบบไดนามิกนี้ YOLO-Master บรรลุ “การจัดสรรการคำนวณตามความต้องการ”: ภาพที่ง่ายต้องการผู้เชี่ยวชาญเพียงไม่กี่คน ภาพที่ซับซ้อนจะเปิดใช้งานผู้เชี่ยวชาญมากขึ้น กลไกนี้ให้ผลประโยชน์อย่างเห็นได้ชัดในฉากที่หนาแน่นและตัวอย่างที่ยาก

สาม. ขุดลึกรายละเอียดทางเทคนิค: วิวัฒนาการของโมดูล MoE และสูตรทางคณิตศาสตร์

3.1 รูปแบบทางคณิตศาสตร์ของโมดูล ES-MoE

กำหนดแผนที่คุณลักษณะอินพุต $X$ โมดูล ES-MoE จะคำนวณน้ำหนักเกตผ่าน Dynamic Routing Network ก่อน

ให้จำนวนผู้เชี่ยวชาญทั้งหมดเป็น $N$ น้ำหนักเกต $G$ คำนวณผ่านฟังก์ชัน Softmax:

$$G_i = frac{exp(g_i(X))}{sum_{j=1}^{N} exp(g_j(X))}$$

โดยที่ $g_i$ คือฟังก์ชันเกตของผู้เชี่ยวชาญคนที่ $i$ จากนั้นเลือกผู้เชี่ยวชาญ Top-K ที่มีน้ำหนักสูงสุด โดยที่ $K ll N$ และได้แผนที่คุณลักษณะเอาต์พุต $Y$ ผ่านการรวมแบบถ่วงน้ำหนัก:

$$Y = sum_{i in text{TopK}(G)} tilde{G}_i cdot E_i(X)$$

ที่นี่ $tilde{G}_i$ คือน้ำหนักหลังจากดำเนินการ normalization

3.2 การออกแบบเครือข่ายผู้เชี่ยวชาญ

ผู้เชี่ยวชาญแต่ละคน $E_i$ ใช้ Depthwise Separable Convolution เพื่อลดปริมาณการคำนวณ:

$$E_i(X) = text{DWConv}_{k times k}(X)$$

โดยที่ $k$ คือขนาดเคอร์เนลคอนโวลูชัน (เช่น 3, 5, 7) จับคุณลักษณะหลายสเกลผ่าน receptive fields ที่แตกต่างกัน

3.3 เกตเน็ตเวิร์ก

เกตเน็ตเวิร์ก $g$ ก่อนอื่นทำ Global Average Pooling บนอินพุต $X$ เพื่อให้ได้ global descriptor $z$ จากนั้นสร้าง raw logits $l$ ผ่าน convolutional layer ขนาด 1×1 สองชั้น:

$$l = W_2 cdot text{ReLU}(W_1 cdot z)$$

โดยที่อัตราการลดช่องสัญญาณ $r = 4$, $W_1 in mathbb{R}^{C/r times C}$, $W_2 in mathbb{R}^{N times C/r}$

3.4 กลยุทธ์การกำหนดเส้นทางแบบแบ่งระยะ

ระยะการฝึก (Soft Top-K): รักษาการไหลของเกรเดียนต์ ก่อนอื่นคำนวณน้ำหนัก Softmax $G$ จากนั้นสร้าง binary mask $M$ ตามดัชนี Top-K แล้วทำ normalization ใหม่:

$$tilde{G} = text{Normalize}(G odot M)$$

ระยะอนุมาน (Hard Top-K): คำนวณผลลัพธ์ของผู้เชี่ยวชาญ Top-K เท่านั้น น้ำหนักของผู้เชี่ยวชาญที่เหลือตั้งเป็นศูนย์ ทำให้เกิดความเร่งแบบเบาบางที่แท้จริง:

$$Y = sum_{

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22903

ES-MoE YOLO-Master การตรวจจับวัตถุแบบเรียลไทม์ผู้เชี่ยวชาญผสมผสาน (MoE)เส้นทางแบบไดนามิก

Like (0)

0 0

YOLO26 วิเคราะห์เชิงลึก: วิวัฒนาการทศวรรษ เร่งความเร็วการประมวลผล CPU 43% และตรวจจับแบบเรียลไทม์บนอุปกรณ์ Edge ได้อย่างไร

Previous 2026年2月18日 pm9:41

Claude Task Viewer: กระดานอัจฉริยะสำหรับแสดงภาพการทำงานของ Claude Code แบบเรียลไทม์

Next 2026年2月19日 am10:19

ข่าวสารอุตสาหกรรม AI

การปฏิวัติกระบวนทัศน์ AI: จากทำนายคำถัดไปสู่ทำนายสถานะทางกายภาพถัดไป

อีกหนึ่งยักษ์ใหญ่เตรียมปฏิวัติกระบวนทัศน์เทคโนโลยี AI ที่มีอยู่ในปัจจุบัน ในเช้ามืดวันนี้ Jim Fan (Fan Linxi) นักวิทยาศาสตร์วิจัยอาวุโสของ Nvidia และหัวหน้าทีมหุ่นยนต์ ได้เผยแพร่บท…

2026年2月4日
178000
ข่าวสารอุตสาหกรรม AI

บทสนทนากับหวัง เสี่ยว แห่ง Jiuhe: 90% ของบริษัทเอมบอดีด์อินเทลลิเจนซ์ไม่มีอนาคต ตลาดมีที่ว่างเพียง 3-5 บริษัท

เทียน เหยี่ยนหลิน รายงานจาก เอาเฟย์ซื่อ ต้นปี 2026 วงการ Embodied AI (ปัญญาประดิษฐ์เชิงกายภาพ) ได้รับเงินทุนมหาศาลอีกครั้ง ท่ามกลางกระแสเงินทุนที่วุ่นวาย นักลงทุนที่สามารถตัดสินใจอ…

2026年3月1日
206000
การวิเคราะห์เชิงลึกของ Ultraman: OpenClaw นำแนวโน้มระยะยาว, Codex อาจกลายเป็นผลิตภัณฑ์หลักอันดับสามของ OpenAI, เปิดเผยความขัดแย้งที่ซ่อนเร้นสี่ประการในยุค AI

เมื่อเร็วๆ นี้ ซาม อัลต์แมน (Sam Altman) CEO ของ OpenAI และ Jeetu Patel ประธานและหัวหน้าเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Cisco ได้ร่วมสนทนาอย่างลึกซึ้งในงาน Cisco AI Summit ในการสนทนานี…

ข่าวสารอุตสาหกรรม AI 2026年2月5日
192000
ข่าวสารอุตสาหกรรม AI

การประเมินเชิงลึก ByteDance Seed-2.0-pro: ท้าทาย GPT และ Gemini มาตรฐานใหม่ของการให้เหตุผลแบบหลายรูปแบบ

บทสรุปสั้นๆ: กุญแจสู่ยุคสมัยถัดไป สถานภาพพื้นฐาน: โมเดลขนาดใหญ่แบบหลายรูปแบบ Seed-2.0-pro ที่เปิดตัวโดย ByteDance เป็นการอัปเกรดที่สำคัญในลำดับเทคโนโลยีของบริษัท ก่อนหน้านี้ Doubao…

2026年2月14日
242000
ข่าวสารอุตสาหกรรม AI

AI Ping: แพลตฟอร์มนำทางและประเมิน API แบบจำลองขนาดใหญ่ด้วยปัญญาประดิษฐ์ สิ้นสุดยุคแห่งความสับสนในการเลือก

衡宇发自凹非寺 สิ่งที่ทำให้ปวดหัวยิ่งกว่าการเผชิญหน้ากับกล่องดำของโมเดลใหญ่ ก็คือการต้องเลือกบริการ API ที่ทั้งน่าเชื่อถือและคุ้มค่าเงิน นี่เกือบจะเป็นช่วงเวลามืดมนที่สุดที่ทีมพัฒนาที่เ…

2026年2月2日
213000