Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80%

2026年2月14日 pm6:48 • ข่าวสารอุตสาหกรรม AI • 279 views

คำสำคัญ: Apple Silicon, ตัวเร่งความเร็วฮาร์ดแวร์เฉพาะโดเมน (DSA), ANE, NUC, HPC, การประเมินประสิทธิภาพ

เมื่อเราพูดถึงชิปที่ Apple ออกแบบเองอย่าง M1, M2, M3 และล่าสุด M4 เรากำลังพูดถึงอะไร? สิ่งแรกที่คนส่วนใหญ่คิดถึงคือประสิทธิภาพต่อการใช้พลังงานที่น่าทึ่ง ประสบการณ์การใช้โน้ตบุ๊กบางเบาไร้พัดลม หรือเอนจินสื่ออันทรงพลังที่ใช้ตัดวิดีโอ ProRes

แต่ภายใต้ความสวยงามที่ผิวเผินเหล่านี้ ในชิปของ Apple นั้นมีหน่วยหนึ่งที่ซ่อนตัวอยู่อย่างเงียบๆ แต่มีศักยภาพมหาศาลมาโดยตลอด นั่นคือ Apple Neural Engine

Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80%

Evaluation of Domain-Specific Architectures for General-Purpose Applications in Apple Silicon
https://arxiv.org/pdf/2511.13450
1 หมื่นตัวอักษร อ่าน 40 นาที พอดแคสต์ 18 นาที

การเพิ่มขึ้นของปัญญาประดิษฐ์และความต้องการด้านการคำนวณที่เพิ่มขึ้น ได้ขับเคลื่อนการบูรณาการของตัวเร่งความเร็วเฉพาะโดเมน เช่น GPU, TPU และ NPU เข้าสู่อุปกรณ์พื้นฐานการคำนวณทั้งหมด ตามแบบอย่างของ GPGPU ที่ทำให้ GPU เป็นที่นิยมสำหรับงานทั่วไป งานวิจัยนี้ตั้งคำถามว่า: แบบแผนนี้สามารถทำซ้ำได้ในบริบทใหม่ผ่านตัวเร่งความเร็วเฉพาะทาง เช่น NPU หรือไม่?

บทความนี้ประเมินศักยภาพของ Apple Neural Engine (ANE) ซึ่งออกแบบมาสำหรับงานแมชชีนเลิร์นนิงและมีคุณสมบัติด้านประสิทธิภาพพลังงานสูง ในแอปพลิเคชัน HPC ทั่วไป เราได้ประเมินประสิทธิภาพและการใช้พลังงานของ ANE ของ Apple โดย รันอัลกอริธึม HPC คลาสสิกบนสถาปัตยกรรม M1 และ M4 ล่าสุด เช่น GEMM, Jacobi และ Multigrid (วิธีหลายกริด)

Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80% ตารางที่ 8 | อัตราเร่งสัมพัทธ์โดยใช้ประสิทธิภาพการทำงานของ CPU ของชิป M1 ที่ความแม่นยำ FP16 เป็นฐาน ตารางนี้วัดความสามารถในการเร่งความเร็วของแต่ละหน่วยเทียบกับ CPU M1 FP16 GPU ของ M4 Pro มีอัตราเร่งเพิ่มขึ้นมากที่สุด เกิน 20 เท่า CPU ก็มีอัตราเร่ง 3-4.5 เท่า แม้ ANE จะมีอัตราเร่งสัมบูรณ์สูงสุด แต่การพัฒนาระหว่างรุ่นมีเพียง 1.5-2.5 เท่า ซึ่งต่ำกว่า CPU และ GPU มาก ยืนยันว่า M4 Pro ลดช่องว่างประสิทธิภาพระหว่างหน่วยคำนวณทั่วไปกับ ANE ลงอย่างมาก

ผลลัพธ์ยืนยันว่า เมื่ออัลกอริธึมถูกปรับให้เหมาะสมแล้ว ANE บนชิป M4-Pro บรรลุประสิทธิภาพที่แข่งขันได้: การคำนวณ GEMM ถึง 3.8 TFlops เทียบเท่ากับ GPU 4.7 TFlops บน SoC เดียวกัน พร้อมทั้งแสดง ประสิทธิภาพพลังงานที่ดีกว่าอย่างมีนัยสำคัญ เช่น บนสถาปัตยกรรม M4 การคำนวณ GEMM ใช้พลังงาน 5.2 วัตต์บน ANE ในขณะที่บน GPU ใช้ 24 วัตต์

สารบัญบทความ

หนึ่ง บทนำ
สอง ชิปซิลิคอนของ Apple
- A. CPU
- B. GPU
- C. ANE
- D. CoreMLTools
สาม สภาพแวดล้อมการทดลอง
- 3.1 M1
- 3.2 M4
สี่ แอปพลิเคชันเป้าหมาย
- A. YOLOv3
- B. YOLOv11
- C. GEMM
- D. Jacobi
- E. Multigrid
ห้า ผลลัพธ์
- 5.1 สภาพแวดล้อมการทดลอง
- 5.2 ผลการทดลอง
- 5.3 YOLOv11
- 5.4 GEMM
- 5.5 Jacobi
- 5.6 Multigrid
- 5.7 การอภิปราย
หก สรุป
เจ็ด บรรณานุกรม

หนึ่ง บทนำ

ด้วยการมาถึงของยุคเอ็กซะสเกล เราได้เห็นการระเบิดของปริมาณงานที่ขับเคลื่อนโดยการเพิ่มขึ้นของปัญญาประดิษฐ์และการประมวลผลข้อมูลจำนวนมากในยุคข้อมูลขนาดใหญ่ แนวโน้มนี้ ร่วมกับความสามารถในการคำนวณของระบบ HPC ที่เพิ่มขึ้นอย่างต่อเนื่อง ได้ผลักดันให้เกิดการสร้างเทคโนโลยีที่ซับซ้อนยิ่งขึ้น ตัวอย่างที่โดดเด่นที่สุดคือปัญญาประดิษฐ์เชิงสร้างสรรค์ล่าสุด

ด้วยความก้าวหน้าทางเทคโนโลยีและสถาปัตยกรรมระบบ โหนด HPC ไม่เพียงแต่รวมโปรเซสเซอร์ระดับสูงมากขึ้นเท่านั้น แต่ยังรวมถึงตัวเร่งความเร็วเฉพาะโดเมนด้วย ตัวอย่างเช่น GPU ถูกใช้สำหรับแอปพลิเคชันทั่วไปในช่วงหลายทศวรรษที่ผ่านมา ส่งเสริมให้มีการใช้งานในสาขาวิทยาศาสตร์ต่างๆ [1] และผลักดันการใช้ นอกจากนี้ ความพร้อมใช้งานและความก้าวหน้าของ GPU ยังช่วยผลักดันการปฏิวัติ AI ล่าสุด [2] ทำให้สามารถฝึกฝนและใช้งานโมเดลที่ซับซ้อนกว่าเดิมได้

เหตุการณ์สำคัญในประวัติศาสตร์ AI คือการปรากฏตัวของ AlexNet [3] ซึ่งเป็นผู้บุกเบิกการพัฒนาของโมเดลการจำแนกและจดจำภาพสมัยใหม่ การประมวลผลภาษาธรรมชาติ และโมเดลปัญญาประดิษฐ์เชิงสร้างสรรค์ ความต้องการการคำนวณที่เพิ่มขึ้นอย่างต่อเนื่องของแอปพลิเคชันเหล่านี้ ได้ขับเคลื่อนการออกแบบตัวเร่งความเร็วเฉพาะทาง เช่น TPU (Tensor Processing Unit) และ NPU (Neural Processing Unit) ซึ่งปัจจุบันถูกบูรณาการเข้ากับสแต็กการคำนวณทั้งหมด [4] ตั้งแต่ระบบฝังตัว คอมพิวเตอร์เดสก์ท็อป ไปจนถึงเซิร์ฟเวอร์ประสิทธิภาพสูง โครงสร้างพื้นฐาน HPC และศูนย์ข้อมูลขนาดใหญ่

NPU [5], [6] ได้กลายเป็นส่วนประกอบพื้นฐานของการคำนวณบนเดสก์ท็อป โดยเฉพาะอย่างยิ่งหลังจากที่สถาปัตยกรรม Transformers [7] ซึ่งผลักดันให้เกิดเครื่องมือที่ใช้กันอย่างแพร่หลาย เช่น ChatGPT และ DeepSeek ความสนใจที่เพิ่มขึ้นนี้สะท้อนให้เห็นในการพัฒนาฮาร์ดแวร์ NPU เฉพาะทางโดยบริษัทเทคโนโลยีชั้นนำ (รวมถึง AMD, Samsung, Intel และ Apple)

ตัวอย่างที่ชัดเจนของแนวโน้มนี้คือการที่ Apple เปิดตัวชิป M1 ที่ใช้ระบบบนชิป (SoC) ในปี 2020 [8] ซึ่งรวม CPU แบบมัลติคอร์ประสิทธิภาพสูงและประสิทธิภาพพลังงานสูง, GPU, โคโปรเซสเซอร์คูณเมทริกซ์ และ Neural Engine เฉพาะทาง การบูรณาการนี้ทำให้อุปกรณ์สามารถใช้ความสามารถของมันได้อย่างมีประสิทธิภาพ ให้ประสิทธิภาพสูงสำหรับทุกด้านตั้งแต่งานประจำวันไปจนถึงการประมวลผลกราฟิกหนักและแอปพลิเคชัน AI นับจากนั้น Apple ได้พัฒนา M1 ไปสู่เวอร์ชันที่ใหม่ขึ้น ตามด้วยการเปิดตัวชิป M2, M3 และ M4 โดยคาดว่า M5 จะเปิดตัวในปี 2026

เช่นเดียวกับที่ GPU ได้รับความนิยมในบริบทที่ไม่ใช่กราฟิกผ่านขบวนการ GPGPU ในอดีต เราไม่ปฏิเสธว่าปรากฏการณ์นี้อาจเกิดขึ้นซ้ำกับตัวเร่งความเร็วเฉพาะทางอื่นๆ เช่น NPU งานนี้ประเมินการใช้ Apple ANE และตัวเร่งความเร็วอื่นๆ ในบริบทของแอปพลิเคชันทั่วไป เพื่อพิจารณาว่าอุปกรณ์ประเภทนี้สามารถแข่งขันกับอุปกรณ์อื่นๆ ที่มีอยู่ในระบบเดสก์ท็อปในปัจจุบันในด้านประสิทธิภาพและประสิทธิภาพพลังงานได้หรือไม่

ในงานที่เกี่ยวข้องกับการสำรวจการใช้ NPU สำหรับวัตถุประสงค์อื่น เราสามารถพบ:
* วิธีการเช่น Parrot Transformation [9] ซึ่งสำรวจการใช้โครงข่ายประสาทเทียมแทนที่ส่วนของโค้ดแบบ imperative เพื่อเพิ่มประสิทธิภาพและประสิทธิภาพพลังงานของโปรแกรม
* อีกตัวอย่างหนึ่งคืองานวิจัยของ Hubner และคณะ [10] ซึ่งวิเคราะห์สถาปัตยกรรมชิปซิลิคอนของ Apple อย่างลึกซึ้ง โดยเน้นหน่วยคำนวณหลัก: CPU, GPU และ ANE

Apple vs. oranges: Evaluating the apple silicon m-series socs for hpc performance and efficiency,” 2025. [Online]. Available: https://arxiv.org/abs/2502.05317

นอกจากเอกสารเหล่านี้แล้ว ANE ยังคงถูกสำรวจค่อนข้างน้อย แม้ว่าจะมีงานวิจัยบางชิ้นเริ่มตรวจสอบมันแล้ว

ส่วนที่เหลือของบทความนี้มีโครงสร้างดังนี้:

สอง สถาปัตยกรรมชิปซิลิคอนของ Apple

A. CPU

CPU ของชิปซิลิคอน Apple ใช้สถาปัตยกรรม big.LITTLE (คอร์ใหญ่-คอร์เล็ก) โดยรวมคอร์ประสิทธิภาพสูงกับคอร์ประสิทธิภาพพลังงานสูง การออกแบบนี้มีจุดมุ่งหมายเพื่อกระจายงานไปยังคอร์ประเภทต่างๆ ตามลักษณะของปริมาณงาน เพื่อเพิ่มประสิทธิภาพการใช้พลังงานโดยรวมขณะที่เพิ่มประสิทธิภาพ CPU รองรับการเขียนโปรแกรมโดยใช้ C, C++, Objective-C และ Swift และให้การสนับสนุนการดำเนินการเวกเตอร์ผ่านชุดคำสั่ง NEON 128 บิต นอกจากนี้ CPU ยังพึ่งพาโคโปรเซสเซอร์เฉพาะทางสำหรับการคำนวณเมทริกซ์: Apple Matrix Extension (AMX)

AMX: AMX เป็นโคโปรเซสเซอร์ที่ออกแบบมาเพื่อทำงานร่วมกับ CPU เพื่อเร่งการดำเนินการเมทริกซ์ ในชิป M4 ล่าสุด การปรับปรุงที่สำคัญคือการเพิ่มการสนับสนุนสำหรับชุดคำสั่ง ARM Scalable Matrix Extension (SME) ซึ่งออกแบบมาสำหรับการคำนวณเมทริกซ์ จากมุมมองการเขียนโปรแกรม นักพัฒนาสามารถเข้าถึง AMX ผ่านไลบรารี Accelerate (เฟรมเวิร์ก C++ ระดับสูงสำหรับการคำนวณเชิงตัวเลข) AMX ยังสามารถใช้ประโยชน์ผ่านเฟรมเวิร์ก CoreML ได้ทางอ้อม อย่างไรก็ตาม ในกรณีนี้ โฟลว์การทำงานเป็นแบบนามธรรม โดยเฟรมเวิร์กจะตัดสินใจโดยอัตโนว่าการคำนวณจะดำเนินการบน CPU หรือส่งไปให้ AMX ปัจจุบันยังไม่มีเอกสารอย่างเป็นทางการสำหรับการเขียนโปรแกรมระดับต่ำของ AMX

B. GPU

GPU ของซีรีส์ M ใช้เทคนิคการเรนเดอร์แบบล่าช้าที่ใช้ไทล์ โดยแบ่งฉากออกเป็นไทล์และเรนเดอร์ทีละไทล์ อุปกรณ์นี้สามารถเขียนโปรแกรมได้โดยใช้ Metal API ระดับต่ำร่วมกับ Metal Shading Language สำหรับความต้องการการเขียนโปรแกรมระดับสูง สามารถใช้ Metal Performance Shaders และเฟรมเวิร์ก CoreML

C. ANE

Apple Neural Engine (ANE) เป็นตัวเร่งความเร็วฮาร์ดแวร์ที่ปรับให้เหมาะสมสำหรับปริมาณงานแมชชีนเลิร์นนิง

ต่างจาก AMX, ANE ทำงานเป็นหน่วยประมวลผลอิสระ ไม่ใช่โคโปรเซสเซอร์ มันเปิดตัวครั้งแรกพร้อมกับชิป A11 ใน iPhone X และปัจจุบันถูกบูรณาการเข้ากับอุปกรณ์ชิปซิลิคอนของ Apple ANE ถูกปรับให้เหมาะสมสำหรับประเภทข้อมูล FP16 (เลขทศนิยม 16 บิต) แม้ว่าจะมีเอกสารทางเทคนิคอย่างเป็นทางการจำกัด แต่เป็นที่ทราบกันดีว่าสามารถเขียนโปรแกรมได้ผ่านเฟรมเวิร์ก CoreML เท่านั้น นักพัฒนาไม่สามารถควบคุมการกำหนดค่าพื้นฐานได้โดยตรง

D. CoreMLTools

CoreMLTools เป็นเฟรมเวิร์ก Python ของ Apple สำหรับการดำเนินการแมชชีนเลิร์นนิง

ข้อได้เปรียบหลักของเฟรมเวิร์กนี้คือ ความสามารถในการพกพา ซึ่งอนุญาตให้แอปพลิเคชันทำงานได้อย่างยืดหยุ่นระหว่างหน่วยประมวลผลต่างๆ ของ Apple SoC (CPU, GPU หรือ ANE) อย่างไรก็ตาม มัน ไม่อนุญาตให้นักพัฒนาควบคุมแต่ละอุปกรณ์โดยตรงแยกกัน

ในการดำเนินการจริง หาก CoreML ตัดสินว่าดีที่สุด หรือหากการดำเนินการหรือเลเยอร์บางอย่างไม่ได้รับการสนับสนุนโดย GPU/ANE การคำนวณอาจย้อนกลับไปที่ CPU ในโหมดการดำเนินการใดก็ได้ ตัวเลือกการดำเนินการที่มีมีดังนี้:

Core ML Tools ทำให้ขั้นตอนการรวมโมเดลง่ายขึ้น สามารถแปลงโมเดลจากเฟรมเวิร์กยอดนิยม เช่น TensorFlow และ PyTorch เป็นรูปแบบ Core ML ดั้งเดิม ควรทราบว่าประเภทข้อมูลที่ฮาร์ดแวร์ต่างๆ รองรับนั้นแตกต่างกัน: ในขณะที่ CPU และ GPU รองรับทั้งรูปแบบ FP32 และ FP16 แต่ ANE จำกัดเฉพาะการใช้รูปแบบ FP16 สำหรับการอนุมานโมเดล

สาม สภาพแวดล้อมการทดลอง

การทดลองดำเนินการบนระบบ Mac สองระบบที่แตกต่างกัน เพื่อเปรียบเทียบประสิทธิภาพและสังเกตวิวัฒนาการของฮาร์ดแวร์ Apple: Mac Mini M1 และ Mac Mini M4 Pro

เหตุผลในการเลือกอุปกรณ์เหล่านี้คือ:
* Mac Mini M1 เป็นตัวแทนของผลิตภัณฑ์รุ่นแรกของระบบบนชิป (SoC) ของ Apple สำหรับอุปกรณ์ Mac
* M4 Pro เป็นรุ่นล่าสุดที่มีอยู่ในขณะที่ทำการศึกษานี้

การเปรียบเทียบระหว่างชิปซิลิคอนรุ่นแรกและรุ่นล่าสุดของ Apple สามารถให้มุมมองที่กว้างขึ้นเกี่ยวกับวิวัฒนาการประสิทธิภาพของมัน สิ่งนี้ไม่เพียงช่วยในการเปรียบเทียบ ระหว่างหน่วยประมวลผลสามหน่วยที่รวมอยู่ในชิป (CPU, GPU, ANE) แต่ยังช่วย ประเมินการปรับปรุงของแต่ละองค์ประกอบข้ามรุ่น

Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80% ตารางที่ 1 | พารามิเตอร์สเปกหลักของแพลตฟอร์มฮาร์ดแวร์ M1 กับ M4 Pro ตารางนี้นำเสนอการกำหนดค่าฮาร์ดแวร์หลักของชิปซิลิคอน Apple สองรุ่นอย่างสมบูรณ์ M4 Pro อัปเกรดอย่างครอบคลุมในจำนวนคอร์ CPU, ความถี่,

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง