YOLO26 วิเคราะห์เชิงลึก: วิวัฒนาการทศวรรษ เร่งความเร็วการประมวลผล CPU 43% และตรวจจับแบบเรียลไทม์บนอุปกรณ์ Edge ได้อย่างไร

2026年2月18日 pm9:41 • ข่าวสารอุตสาหกรรม AI • 26 views

คำสำคัญ: YOLO26, การวิวัฒนาการของสถาปัตยกรรม YOLO, อัลกอริทึมตรวจจับแบบครั้งเดียว (YOLO), การตรวจจับวัตถุ, การมองเห็นด้วยคอมพิวเตอร์, การเรียนรู้เชิงลึก

ตลอดทศวรรษที่ผ่านมา อัลกอริทึมตรวจจับแบบครั้งเดียว (YOLO, You Only Look Once) เป็นโมเดลหลักในการตรวจจับวัตถุในสาขาการมองเห็นด้วยคอมพิวเตอร์และการเรียนรู้เชิงลึก ส่วนแรกของบทความนี้จะสำรวจจุดนวัตกรรมหลักของ YOLO26 ซึ่งเป็นเวอร์ชันล่าสุดของซีรีส์ YOLO และจัดระบบลำดับการพัฒนาของโมเดล YOLO การปรับปรุงหลักของ YOLO26 มีดังนี้:

หัวข้อการปรับปรุงหลัก	คำอธิบาย
การลบ Distribution Focal Loss (DFL)	ลบโมดูลที่ทำนายการกระจายความน่าจะเป็นของตำแหน่งกรอบขอบเขต เปลี่ยนเป็นการถดถอยพิกัดโดยตรง ทำให้ขั้นตอนการคำนวณง่ายขึ้นและลดค่าใช้จ่ายในการอนุมาน
การอนุมานแบบ End-to-End โดยไม่ใช้ Non-Maximum Suppression (NMS)	ไม่จำเป็นต้องใช้ NMS เป็นขั้นตอนหลังการประมวลผลเพื่อกำจัดผลซ้ำในระหว่างการอนุมาน เครือข่ายจะส่งออกกรอบการตรวจจับสุดท้ายโดยตรง เพิ่มความเร็วในการอนุมาน
Progressive Loss + Small Target Aware Label Assignment	ปรับสมดุลการสูญเสียระหว่างการฝึกแบบไดนามิก และปรับปรุงกลยุทธ์การกำหนดป้ายกำกับสำหรับวัตถุขนาดเล็กโดยเฉพาะ เพื่อเพิ่มประสิทธิภาพการตรวจจับวัตถุขนาดเล็ก
การใช้ตัวปรับให้เหมาะสม MuSGD	ตัวปรับให้เหมาะสมใหม่ที่ผสมผสานแนวคิด Muon กับ SGD มีเป้าหมายเพื่อให้กระบวนการฝึกมีความเสถียรมากขึ้นและลู่เข้าอย่างรวดเร็ว

เป้าหมายหลักของการออกแบบข้างต้นคือ เพื่อเพิ่มความเร็วในการอนุมาน ตามรายงาน ความเร็วในการอนุมานของ YOLO26 ในโหมด CPU สามารถเพิ่มขึ้นได้ถึง 43% การปรับปรุงนี้ทำให้สามารถ บรรลุประสิทธิภาพการอนุมานแบบเรียลไทม์บนอุปกรณ์ Edge หรืออุปกรณ์ที่ไม่มี GPU นอกจากนี้ YOLO26 ยังแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพในงานการมองเห็นด้วยคอมพิวเตอร์หลายงาน เช่น การแบ่งส่วนอินสแตนซ์ การประมาณท่าทาง และการถอดรหัสกรอบขอบเขตแบบมีทิศทาง (OBB)

YOLO26 วิเคราะห์เชิงลึก: วิวัฒนาการทศวรรษ เร่งความเร็วการประมวลผล CPU 43% และตรวจจับแบบเรียลไทม์บนอุปกรณ์ Edge ได้อย่างไร

งานวิจัยนี้มุ่งมั่นที่จะก้าวข้ามขอบเขตของการบูรณาการข้อมูลในเอกสารทางเทคนิคที่มีอยู่ และขุดค้นคุณค่าทางการวิจัยในระดับที่ลึกยิ่งขึ้น ดังนั้น เราจึงอาศัยซอร์สโค้ดและเอกสารทางการของ YOLO26 บน GitHub เพื่อดำเนิน การศึกษาสถาปัตยกรรม อย่างเข้มงวด

กลไกการทำงานที่แท้จริงและละเอียดถี่ถ้วนของ YOLO26 ปรากฏอยู่ในซอร์สโค้ด ซึ่งเนื้อหาส่วนนี้แทบไม่เคยถูกขุดค้นอย่างลึกซึ้งมาก่อน งานวิจัยนี้นำเสนอแผนภาพสถาปัตยกรรมของ YOLO26 ที่ได้จากการสำรวจ ตามความรู้ของเรา นี่เป็นงานวิจัยชิ้นแรกที่อธิบายรายละเอียดเกี่ยวกับสถาปัตยกรรมหลักของ YOLO26 ที่ใช้โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN)

ตารางที่ 1 | ลำดับการพัฒนาของโมเดล YOLO จัดระบบเส้นทางการวนซ้ำของ 14 เวอร์ชันสำคัญตั้งแต่ YOLOv1 ในปี 2016 ถึง YOLO26 ในปี 2026 ตามแกนเวลา ไม่เพียงบันทึกการเปลี่ยนแปลงของทีมผู้พัฒนา (จาก Joseph Redmon ไปยัง Ultralytics และองค์กรอื่นๆ) แต่ยังสรุปนวัตกรรมสถาปัตยกรรมที่เป็นตัวแทนของแต่ละเวอร์ชัน เช่น การแนะนำ Anchor Box, การวิวัฒนาการสู่ Anchor-Free, การผสานกลไกความสนใจ และการทำให้เป็น NMS-Free ซึ่งเผยให้เห็นเส้นทางทางเทคนิคของโมเดล YOLO อย่างชัดเจน จากการตรวจจับแบบ Single-Stage พื้นฐานไปสู่ความชาญฉลาดแบบ Edge ที่มีประสิทธิภาพ หลากหลายหน้าที่ และแบบ End-to-End

เรามุ่งหวังที่จะมอบความเข้าใจที่แม่นยำเกี่ยวกับสถาปัตยกรรมของ YOLO26 ให้กับนักวิจัยและนักพัฒนาที่มีเป้าหมายในการปรับปรุงโมเดล YOLO เพื่อให้มั่นใจว่าโมเดลนี้ยังคงรักษาตำแหน่งผู้นำในฐานะโมเดลการเรียนรู้เชิงลึกในสาขาการมองเห็นด้วยคอมพิวเตอร์

1. บทนำ

1.1 จุดเด่นหลักของ YOLO เวอร์ชัน Ultralytics

YOLO เวอร์ชันที่เปิดตัวโดยบริษัท Ultralytics เป็นโมเดล YOLO ที่ได้รับความคาดหวังมากที่สุด เวอร์ชันนี้มีข้อได้เปรียบหลายประการดังต่อไปนี้:

ก. การรวมฟังก์ชันการทำงานที่ครอบคลุม: รวมงานการมองเห็นด้วยคอมพิวเตอร์ที่หลากหลาย เช่น การตรวจจับวัตถุ การแบ่งส่วนอินสแตนซ์ การจำแนกภาพ การประมาณท่าทาง การตรวจจับวัตถุแบบมีทิศทาง และการติดตามวัตถุ เป็นเฟรมเวิร์กอัลกอริทึมแบบบูรณาการ

ข. ขั้นตอนที่เรียบง่ายและยืดหยุ่น: การกำหนดโครงสร้างสถาปัตยกรรมโดยใช้ภาษา YAML ทำให้กระบวนการปรับเปลี่ยนและปรับปรุงโมเดลมีประสิทธิภาพและเรียบง่าย

ค. การสนับสนุนการปรับใช้ที่สมบูรณ์: สามารถส่งออกเป็นรูปแบบเฟรมเวิร์กต่างๆ เช่น ONNX, TensorRT, CoreML และ OpenVINO เพื่อความสะดวกในการปรับใช้บนแพลตฟอร์มที่แตกต่างกัน

ง. สนับสนุนการ Quantize โมเดล: ลดปริมาณการคำนวณโดยการลดความแม่นยำของข้อมูล เพิ่มความเร็วในการอนุมานได้อย่างมีประสิทธิภาพ

จ. ความสมดุลระหว่างความเร็วและความแม่นยำ: รักษาความแม่นยำในการตรวจจับที่ยอดเยี่ยมในขณะที่ยังคงความเร็วในการอนุมานแบบเรียลไทม์ YOLO26 ยังเน้นการเพิ่มความเร็วบนอุปกรณ์ Edge เป็นเป้าหมายการวิจัยและพัฒนาหลัก

1.2 ตำแหน่งหน้าที่และลักษณะพิเศษของการตั้งชื่อของ YOLO26

YOLO26 เป็นโมเดลแบบบูรณาการที่สามารถแก้ปัญหาการมองเห็นด้วยคอมพิวเตอร์ประเภทต่างๆ ข้างต้นได้ แต่ฟังก์ชันการทำงานต่างๆ ของ YOLO นั้นได้ถูกนำไปใช้อย่างครบถ้วนแล้วใน YOLOv8 จากมุมมองนี้ YOLO26 ไม่ได้เพิ่มฟังก์ชันการทำงานที่สำคัญใหม่ แต่ได้ปรับปรุงฟังก์ชันการทำงานขยายต่างๆ รายละเอียดที่เกี่ยวข้องจะถูกอธิบายในส่วนต่อๆ ไปของบทความนี้

วิธีการตั้งชื่อของ YOLO26 มีลักษณะพิเศษ คือ ไม่ได้ต่อยอดจากกฎหมายเลขรุ่นของ YOLOv13 เวอร์ชันก่อนหน้า แต่ข้ามไปที่ 26 โดยตรง ความคิดเห็นหนึ่งระบุว่าหมายเลขนี้มาจากปีที่เผยแพร่ในปี 2026 และสามารถมองว่าเป็นเวอร์ชันปี 2026 ของ YOLO

1.3 ผลกระทบจากการขาดแผนภาพสถาปัตยกรรม YOLO26 และความจำเป็นในการวิจัย

มนุษย์เป็นสิ่งมีชีวิตที่รับรู้ผ่านภาพโดยธรรมชาติ ข้อมูลที่มองเห็นได้ผ่านภาพเข้าใจได้ง่ายกว่า ในขณะที่คำอธิบายด้วยข้อความและตัวเลขมักมีข้อจำกัด การขาดแผนภาพสถาปัตยกรรมของ YOLO26 สร้างอุปสรรคใหญ่หลวงให้นักวิจัยและนักพัฒนาในการทำความเข้าใจโมเดลและปรับปรุงมัน ซึ่งมีความสำคัญอย่างยิ่งต่อการพัฒนาอย่างต่อเนื่องของโมเดล YOLO และการแข่งขันกับโมเดลตรวจจับวัตถุอื่นๆ เช่น RF-DETR [4] และ RT-DETRv3 [5] ที่ใช้ Transformer

เพื่อรักษาตำแหน่งผู้นำของ YOLO ในหมู่โมเดลตรวจจับวัตถุและในสาขาการมองเห็นด้วยคอมพิวเตอร์โดยรวม เราควรสนับสนุนให้ชุมชนมีส่วนร่วมในการพัฒนาโมเดล YOLO และการจัดเตรียมและตีความแผนภาพสถาปัตยกรรมเป็นปัจจัยสำคัญที่ขับเคลื่อนให้ชุมชนปรับปรุงโมเดลนี้ การปรับปรุงสถาปัตยกรรมของ YOLO เวอร์ชันหนึ่งมักจะให้ข้อมูลอ้างอิงสำหรับเวอร์ชันอื่น ซึ่งปรากฏการณ์นี้ได้แสดงให้เห็นแล้วใน YOLO26: มันได้รวมจุดปรับปรุงบางส่วนจาก YOLOv10 [6]

1.4 หลักฐานการวิจัยและผลงานหลัก

การพึ่งพาเอกสารทางเทคนิคของ YOLO26 [1] เพียงอย่างเดียว ไม่สามารถวาดแผนภาพสถาปัตยกรรมที่แม่นยำได้ ตัวอย่างเช่น การอ่านเอกสารเพียงอย่างเดียวไม่สามารถทราบได้ว่า Distribution Focal Loss (DFL) อยู่ในตำแหน่งโมดูลใดในสถาปัตยกรรม เพื่อระบุตำแหน่งและหลักการทำงานของการปรับปรุงสถาปัตยกรรมต่างๆ ใน YOLO26 จำเป็นต้องศึกษาซอร์สโค้ดโดยตรง [7]

ตามความรู้ของเรา บทความนี้เป็นบทความแรกที่นำเสนอแผนภาพสถาปัตยกรรมโดยรวมของ YOLO26 พร้อมทั้งอธิบายรายละเอียดจุดปรับปรุงหลักของ YOLO26 หวังว่างานวิจัยนี้จะสามารถสนับสนุนการพัฒนาการปรับปรุงโมเดล YOLO

1.5 ทิศทางการปรับปรุงสถาปัตยกรรมและเป้าหมายการวิจัยและพัฒนาของ YOLO26

จากการศึกษาอย่างลึกซึ้งพบว่า เมื่อเทียบกับเวอร์ชันก่อนหน้า YOLO26 ได้ทำการปรับปรุงสถาปัตยกรรมหลายประการ แต่การออกแบบโดยรวมยังคงสืบทอดสถาปัตยกรรมของตัวตรวจจับวัตถุแบบ End-to-End Single-Stage จากเวอร์ชันก่อนหน้า การปรับปรุงเหล่านี้มีเป้าหมายเพื่อเพิ่มประสิทธิภาพของโมเดล ทำให้กระบวนการฝึกมีความเสถียร และหลีกเลี่ยงการพึ่งพา Non-Maximum Suppression (NMS) ในขั้นตอนการทำนาย

คำขวัญการเปิดตัวของ YOLO26 คือ “สร้างแบบ End-to-End เพื่ออุปกรณ์ Edge” เป้าหมายการวิจัยและพัฒนาคือการเพิ่มประสิทธิภาพการทำงานบนอุปกรณ์ Edge ในขณะที่เพิ่มความแม่นยำในการตรวจจับ

2. ลำดับการพัฒนาของโมเดล YOLO

ตารางที่ 1 แสดงลำดับการพัฒนาของโมเดล YOLO โมเดลนี้ผ่านการวนซ้ำหลายครั้ง แต่ละเวอร์ชันใหม่มีการปรับปรุงสถาปัตยกรรม ซึ่งสะท้อนถึงการพัฒนาอย่างรวดเร็วของเทคโนโลยีการตรวจจับวัตถุแบบเรียลไทม์

ในช่วงสี่ปีแรก YOLO เผยแพร่เพียง 3 เวอร์ชัน แต่ตั้งแต่ YOLOv4 เปิดตัวในปี 2020 จนถึงปี 2026 มีการเปิดตัวทั้งหมด 11 เวอร์ชัน ซึ่งเพียงพอที่จะพิสูจน์ความนิยมและความเร็วในการพัฒนาทางเทคโนโลยีของ YOLO

YOLOv1 ด้วยวิธีการตรวจจับแบบกริด Single-Stage และการถดถอยกรอบขอบเขตโดยตรง ได้ปฏิวัติวิธีการจดจำวัตถุแบบดั้งเดิม ตั้งแต่นั้นมาโมเดลนี้ก็เข้าสู่ระยะพัฒนาอย่างรวดเร็ว เวอร์ชันต่อๆ มาบนพื้นฐานนี้ ได้รวมจุดปรับปรุงต่างๆ เช่น Anchor Box, Batch Normalization, การทำนายแบบหลายสเกล ตามลำดับ ในขณะที่โครงข่าย Backbone ที่มีประสิทธิภาพมากขึ้น เช่น Darknet-53, CSPDarknet, EfficientRep วิธีการผสานคุณลักษณะที่ได้รับการปรับปรุง เช่น PANet, SPP, ELAN, GELAN และการออกแบบ Head การตรวจจับแบบ Anchor-Free ที่เป็นเอกลักษณ์ สะท้อนให้เห็นถึงความพยายามในการวิจัยและพัฒนาของโมเดล YOLO ในการเพิ่มทั้งความเร็วและความแม่นยำ

จาก YOLOv9 ถึง YOLOv13 การออกแบบโมเดลมุ่งไปในทิศทางที่ยืดหยุ่นมากขึ้น ผสมผสานคุณลักษณะต่างๆ เช่น Programmable Gradient Information, Attention-Like Structures, Hypergraph Relation Modeling YOLO26 ได้พัฒนาความคิดเหล่านี้ต่อไป โดยทำให้วิธีการตรวจจับแบบไม่มี NMS ที่ผสานการกำหนดป้ายกำกับแบบ Dual Assignment เป็นจริง เพิ่มประสิทธิภาพการอนุมานแบบ End-to-End ผ่านการลบ Distribution Focal Loss (DFL) ในขณะเดียวกันก็ใช้ตัวปรับให้เหมาะสม MuSGD และรวม Progressive Loss (ProgLoss) เข้ากับ Small Target Aware Label Assignment (STAL)

ลำดับการพัฒนาของโมเดล YOLO ไม่เพียงสะท้อนถึงการปรับปรุงประสิทธิภาพการตรวจจับวัตถุอย่างต่อเนื่อง แต่ยังแสดงให้เห็นถึงความสามารถในการขยายขอบเขตในงานการมองเห็นด้วยคอมพิวเตอร์ร่วมสมัย เช่น การแบ่งส่วนอินสแตนซ์ การประมาณท่าทาง และการตรวจจับกรอบขอบเขตแบบมีทิศทาง

3. สถาปัตยกรรมของ YOLO26

แผนภาพสถาปัตยกรรมในงานวิจัยนี้วาดขึ้นจากซอร์สโค้ดล่าสุด (8.4.14) ของ Ultralytics GitHub repository โดยอ้างอิงจากไฟล์โครงสร้าง YOLO26 yolo26.yaml ในไดเรกทอรี ultralytics/cfg/models/26 และไฟล์ tasks.py ในไดเรกทอรี ultralytics/nn เพื่อตรวจสอบความถูกต้องของแผนภาพสถาปัตยกรรม เรายังได้ทำการทดสอบติดตามเทนเซอร์อินพุตและเอาต์พุต