Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80%

คำสำคัญ: Apple Silicon, ตัวเร่งความเร็วฮาร์ดแวร์เฉพาะโดเมน (DSA), ANE, NUC, HPC, การประเมินประสิทธิภาพ

เมื่อเราพูดถึงชิปที่ Apple ออกแบบเองอย่าง M1, M2, M3 และล่าสุด M4 เรากำลังพูดถึงอะไร? สิ่งแรกที่คนส่วนใหญ่คิดถึงคือประสิทธิภาพต่อการใช้พลังงานที่น่าทึ่ง ประสบการณ์การใช้โน้ตบุ๊กบางเบาไร้พัดลม หรือเอนจินสื่ออันทรงพลังที่ใช้ตัดวิดีโอ ProRes

แต่ภายใต้ความสวยงามที่ผิวเผินเหล่านี้ ในชิปของ Apple นั้นมีหน่วยหนึ่งที่ซ่อนตัวอยู่อย่างเงียบๆ แต่มีศักยภาพมหาศาลมาโดยตลอด นั่นคือ Apple Neural Engine

Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80%

  • Evaluation of Domain-Specific Architectures for General-Purpose Applications in Apple Silicon
  • https://arxiv.org/pdf/2511.13450
  • 1 หมื่นตัวอักษร อ่าน 40 นาที พอดแคสต์ 18 นาที

การเพิ่มขึ้นของปัญญาประดิษฐ์และความต้องการด้านการคำนวณที่เพิ่มขึ้น ได้ขับเคลื่อนการบูรณาการของตัวเร่งความเร็วเฉพาะโดเมน เช่น GPU, TPU และ NPU เข้าสู่อุปกรณ์พื้นฐานการคำนวณทั้งหมด ตามแบบอย่างของ GPGPU ที่ทำให้ GPU เป็นที่นิยมสำหรับงานทั่วไป งานวิจัยนี้ตั้งคำถามว่า: แบบแผนนี้สามารถทำซ้ำได้ในบริบทใหม่ผ่านตัวเร่งความเร็วเฉพาะทาง เช่น NPU หรือไม่?

บทความนี้ประเมินศักยภาพของ Apple Neural Engine (ANE) ซึ่งออกแบบมาสำหรับงานแมชชีนเลิร์นนิงและมีคุณสมบัติด้านประสิทธิภาพพลังงานสูง ในแอปพลิเคชัน HPC ทั่วไป เราได้ประเมินประสิทธิภาพและการใช้พลังงานของ ANE ของ Apple โดย รันอัลกอริธึม HPC คลาสสิกบนสถาปัตยกรรม M1 และ M4 ล่าสุด เช่น GEMM, Jacobi และ Multigrid (วิธีหลายกริด)

Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80% ตารางที่ 8 | อัตราเร่งสัมพัทธ์โดยใช้ประสิทธิภาพการทำงานของ CPU ของชิป M1 ที่ความแม่นยำ FP16 เป็นฐาน ตารางนี้วัดความสามารถในการเร่งความเร็วของแต่ละหน่วยเทียบกับ CPU M1 FP16 GPU ของ M4 Pro มีอัตราเร่งเพิ่มขึ้นมากที่สุด เกิน 20 เท่า CPU ก็มีอัตราเร่ง 3-4.5 เท่า แม้ ANE จะมีอัตราเร่งสัมบูรณ์สูงสุด แต่การพัฒนาระหว่างรุ่นมีเพียง 1.5-2.5 เท่า ซึ่งต่ำกว่า CPU และ GPU มาก ยืนยันว่า M4 Pro ลดช่องว่างประสิทธิภาพระหว่างหน่วยคำนวณทั่วไปกับ ANE ลงอย่างมาก

ผลลัพธ์ยืนยันว่า เมื่ออัลกอริธึมถูกปรับให้เหมาะสมแล้ว ANE บนชิป M4-Pro บรรลุประสิทธิภาพที่แข่งขันได้: การคำนวณ GEMM ถึง 3.8 TFlops เทียบเท่ากับ GPU 4.7 TFlops บน SoC เดียวกัน พร้อมทั้งแสดง ประสิทธิภาพพลังงานที่ดีกว่าอย่างมีนัยสำคัญ เช่น บนสถาปัตยกรรม M4 การคำนวณ GEMM ใช้พลังงาน 5.2 วัตต์บน ANE ในขณะที่บน GPU ใช้ 24 วัตต์

สารบัญบทความ

  • หนึ่ง บทนำ
  • สอง ชิปซิลิคอนของ Apple
    • A. CPU
    • B. GPU
    • C. ANE
    • D. CoreMLTools
  • สาม สภาพแวดล้อมการทดลอง
    • 3.1 M1
    • 3.2 M4
  • สี่ แอปพลิเคชันเป้าหมาย
    • A. YOLOv3
    • B. YOLOv11
    • C. GEMM
    • D. Jacobi
    • E. Multigrid
  • ห้า ผลลัพธ์
    • 5.1 สภาพแวดล้อมการทดลอง
    • 5.2 ผลการทดลอง
    • 5.3 YOLOv11
    • 5.4 GEMM
    • 5.5 Jacobi
    • 5.6 Multigrid
    • 5.7 การอภิปราย
  • หก สรุป
  • เจ็ด บรรณานุกรม

หนึ่ง บทนำ

ด้วยการมาถึงของยุคเอ็กซะสเกล เราได้เห็นการระเบิดของปริมาณงานที่ขับเคลื่อนโดยการเพิ่มขึ้นของปัญญาประดิษฐ์และการประมวลผลข้อมูลจำนวนมากในยุคข้อมูลขนาดใหญ่ แนวโน้มนี้ ร่วมกับความสามารถในการคำนวณของระบบ HPC ที่เพิ่มขึ้นอย่างต่อเนื่อง ได้ผลักดันให้เกิดการสร้างเทคโนโลยีที่ซับซ้อนยิ่งขึ้น ตัวอย่างที่โดดเด่นที่สุดคือปัญญาประดิษฐ์เชิงสร้างสรรค์ล่าสุด

ด้วยความก้าวหน้าทางเทคโนโลยีและสถาปัตยกรรมระบบ โหนด HPC ไม่เพียงแต่รวมโปรเซสเซอร์ระดับสูงมากขึ้นเท่านั้น แต่ยังรวมถึงตัวเร่งความเร็วเฉพาะโดเมนด้วย ตัวอย่างเช่น GPU ถูกใช้สำหรับแอปพลิเคชันทั่วไปในช่วงหลายทศวรรษที่ผ่านมา ส่งเสริมให้มีการใช้งานในสาขาวิทยาศาสตร์ต่างๆ [1] และผลักดันการใช้ นอกจากนี้ ความพร้อมใช้งานและความก้าวหน้าของ GPU ยังช่วยผลักดันการปฏิวัติ AI ล่าสุด [2] ทำให้สามารถฝึกฝนและใช้งานโมเดลที่ซับซ้อนกว่าเดิมได้

เหตุการณ์สำคัญในประวัติศาสตร์ AI คือการปรากฏตัวของ AlexNet [3] ซึ่งเป็นผู้บุกเบิกการพัฒนาของโมเดลการจำแนกและจดจำภาพสมัยใหม่ การประมวลผลภาษาธรรมชาติ และโมเดลปัญญาประดิษฐ์เชิงสร้างสรรค์ ความต้องการการคำนวณที่เพิ่มขึ้นอย่างต่อเนื่องของแอปพลิเคชันเหล่านี้ ได้ขับเคลื่อนการออกแบบตัวเร่งความเร็วเฉพาะทาง เช่น TPU (Tensor Processing Unit) และ NPU (Neural Processing Unit) ซึ่งปัจจุบันถูกบูรณาการเข้ากับสแต็กการคำนวณทั้งหมด [4] ตั้งแต่ระบบฝังตัว คอมพิวเตอร์เดสก์ท็อป ไปจนถึงเซิร์ฟเวอร์ประสิทธิภาพสูง โครงสร้างพื้นฐาน HPC และศูนย์ข้อมูลขนาดใหญ่

NPU [5], [6] ได้กลายเป็นส่วนประกอบพื้นฐานของการคำนวณบนเดสก์ท็อป โดยเฉพาะอย่างยิ่งหลังจากที่สถาปัตยกรรม Transformers [7] ซึ่งผลักดันให้เกิดเครื่องมือที่ใช้กันอย่างแพร่หลาย เช่น ChatGPT และ DeepSeek ความสนใจที่เพิ่มขึ้นนี้สะท้อนให้เห็นในการพัฒนาฮาร์ดแวร์ NPU เฉพาะทางโดยบริษัทเทคโนโลยีชั้นนำ (รวมถึง AMD, Samsung, Intel และ Apple)

ตัวอย่างที่ชัดเจนของแนวโน้มนี้คือการที่ Apple เปิดตัวชิป M1 ที่ใช้ระบบบนชิป (SoC) ในปี 2020 [8] ซึ่งรวม CPU แบบมัลติคอร์ประสิทธิภาพสูงและประสิทธิภาพพลังงานสูง, GPU, โคโปรเซสเซอร์คูณเมทริกซ์ และ Neural Engine เฉพาะทาง การบูรณาการนี้ทำให้อุปกรณ์สามารถใช้ความสามารถของมันได้อย่างมีประสิทธิภาพ ให้ประสิทธิภาพสูงสำหรับทุกด้านตั้งแต่งานประจำวันไปจนถึงการประมวลผลกราฟิกหนักและแอปพลิเคชัน AI นับจากนั้น Apple ได้พัฒนา M1 ไปสู่เวอร์ชันที่ใหม่ขึ้น ตามด้วยการเปิดตัวชิป M2, M3 และ M4 โดยคาดว่า M5 จะเปิดตัวในปี 2026

เช่นเดียวกับที่ GPU ได้รับความนิยมในบริบทที่ไม่ใช่กราฟิกผ่านขบวนการ GPGPU ในอดีต เราไม่ปฏิเสธว่าปรากฏการณ์นี้อาจเกิดขึ้นซ้ำกับตัวเร่งความเร็วเฉพาะทางอื่นๆ เช่น NPU งานนี้ประเมินการใช้ Apple ANE และตัวเร่งความเร็วอื่นๆ ในบริบทของแอปพลิเคชันทั่วไป เพื่อพิจารณาว่าอุปกรณ์ประเภทนี้สามารถแข่งขันกับอุปกรณ์อื่นๆ ที่มีอยู่ในระบบเดสก์ท็อปในปัจจุบันในด้านประสิทธิภาพและประสิทธิภาพพลังงานได้หรือไม่

ในงานที่เกี่ยวข้องกับการสำรวจการใช้ NPU สำหรับวัตถุประสงค์อื่น เราสามารถพบ:
* วิธีการเช่น Parrot Transformation [9] ซึ่งสำรวจการใช้โครงข่ายประสาทเทียมแทนที่ส่วนของโค้ดแบบ imperative เพื่อเพิ่มประสิทธิภาพและประสิทธิภาพพลังงานของโปรแกรม
* อีกตัวอย่างหนึ่งคืองานวิจัยของ Hubner และคณะ [10] ซึ่งวิเคราะห์สถาปัตยกรรมชิปซิลิคอนของ Apple อย่างลึกซึ้ง โดยเน้นหน่วยคำนวณหลัก: CPU, GPU และ ANE

Apple vs. oranges: Evaluating the apple silicon m-series socs for hpc performance and efficiency,” 2025. [Online]. Available: https://arxiv.org/abs/2502.05317

นอกจากเอกสารเหล่านี้แล้ว ANE ยังคงถูกสำรวจค่อนข้างน้อย แม้ว่าจะมีงานวิจัยบางชิ้นเริ่มตรวจสอบมันแล้ว

ส่วนที่เหลือของบทความนี้มีโครงสร้างดังนี้:

สอง สถาปัตยกรรมชิปซิลิคอนของ Apple

A. CPU

CPU ของชิปซิลิคอน Apple ใช้สถาปัตยกรรม big.LITTLE (คอร์ใหญ่-คอร์เล็ก) โดยรวมคอร์ประสิทธิภาพสูงกับคอร์ประสิทธิภาพพลังงานสูง การออกแบบนี้มีจุดมุ่งหมายเพื่อกระจายงานไปยังคอร์ประเภทต่างๆ ตามลักษณะของปริมาณงาน เพื่อเพิ่มประสิทธิภาพการใช้พลังงานโดยรวมขณะที่เพิ่มประสิทธิภาพ CPU รองรับการเขียนโปรแกรมโดยใช้ C, C++, Objective-C และ Swift และให้การสนับสนุนการดำเนินการเวกเตอร์ผ่านชุดคำสั่ง NEON 128 บิต นอกจากนี้ CPU ยังพึ่งพาโคโปรเซสเซอร์เฉพาะทางสำหรับการคำนวณเมทริกซ์: Apple Matrix Extension (AMX)

  • AMX: AMX เป็นโคโปรเซสเซอร์ที่ออกแบบมาเพื่อทำงานร่วมกับ CPU เพื่อเร่งการดำเนินการเมทริกซ์ ในชิป M4 ล่าสุด การปรับปรุงที่สำคัญคือการเพิ่มการสนับสนุนสำหรับชุดคำสั่ง ARM Scalable Matrix Extension (SME) ซึ่งออกแบบมาสำหรับการคำนวณเมทริกซ์ จากมุมมองการเขียนโปรแกรม นักพัฒนาสามารถเข้าถึง AMX ผ่านไลบรารี Accelerate (เฟรมเวิร์ก C++ ระดับสูงสำหรับการคำนวณเชิงตัวเลข) AMX ยังสามารถใช้ประโยชน์ผ่านเฟรมเวิร์ก CoreML ได้ทางอ้อม อย่างไรก็ตาม ในกรณีนี้ โฟลว์การทำงานเป็นแบบนามธรรม โดยเฟรมเวิร์กจะตัดสินใจโดยอัตโนว่าการคำนวณจะดำเนินการบน CPU หรือส่งไปให้ AMX ปัจจุบันยังไม่มีเอกสารอย่างเป็นทางการสำหรับการเขียนโปรแกรมระดับต่ำของ AMX

B. GPU

GPU ของซีรีส์ M ใช้เทคนิคการเรนเดอร์แบบล่าช้าที่ใช้ไทล์ โดยแบ่งฉากออกเป็นไทล์และเรนเดอร์ทีละไทล์ อุปกรณ์นี้สามารถเขียนโปรแกรมได้โดยใช้ Metal API ระดับต่ำร่วมกับ Metal Shading Language สำหรับความต้องการการเขียนโปรแกรมระดับสูง สามารถใช้ Metal Performance Shaders และเฟรมเวิร์ก CoreML

C. ANE

Apple Neural Engine (ANE) เป็นตัวเร่งความเร็วฮาร์ดแวร์ที่ปรับให้เหมาะสมสำหรับปริมาณงานแมชชีนเลิร์นนิง

ต่างจาก AMX, ANE ทำงานเป็นหน่วยประมวลผลอิสระ ไม่ใช่โคโปรเซสเซอร์ มันเปิดตัวครั้งแรกพร้อมกับชิป A11 ใน iPhone X และปัจจุบันถูกบูรณาการเข้ากับอุปกรณ์ชิปซิลิคอนของ Apple ANE ถูกปรับให้เหมาะสมสำหรับประเภทข้อมูล FP16 (เลขทศนิยม 16 บิต) แม้ว่าจะมีเอกสารทางเทคนิคอย่างเป็นทางการจำกัด แต่เป็นที่ทราบกันดีว่าสามารถเขียนโปรแกรมได้ผ่านเฟรมเวิร์ก CoreML เท่านั้น นักพัฒนาไม่สามารถควบคุมการกำหนดค่าพื้นฐานได้โดยตรง

D. CoreMLTools

CoreMLTools เป็นเฟรมเวิร์ก Python ของ Apple สำหรับการดำเนินการแมชชีนเลิร์นนิง

ข้อได้เปรียบหลักของเฟรมเวิร์กนี้คือ ความสามารถในการพกพา ซึ่งอนุญาตให้แอปพลิเคชันทำงานได้อย่างยืดหยุ่นระหว่างหน่วยประมวลผลต่างๆ ของ Apple SoC (CPU, GPU หรือ ANE) อย่างไรก็ตาม มัน ไม่อนุญาตให้นักพัฒนาควบคุมแต่ละอุปกรณ์โดยตรงแยกกัน

ในการดำเนินการจริง หาก CoreML ตัดสินว่าดีที่สุด หรือหากการดำเนินการหรือเลเยอร์บางอย่างไม่ได้รับการสนับสนุนโดย GPU/ANE การคำนวณอาจย้อนกลับไปที่ CPU ในโหมดการดำเนินการใดก็ได้ ตัวเลือกการดำเนินการที่มีมีดังนี้:

| ค่า Enum | คำอธิบาย |
| :— | :— |
| ct.ComputeUnit.ALL | แจกจ่ายการดำเนินการระหว่าง CPU, GPU และ ANE |
| ct.ComputeUnit.CPU_ONLY | การดำเนินการจำกัดเฉพาะ CPU |
| ct.ComputeUnit.CPU_AND_GPU | แจกจ่ายการดำเนินการระหว่าง CPU และ GPU |
| ct.ComputeUnit.CPU_AND_ANE | แจกจ่ายการดำเนินการระหว่าง CPU และ ANE |

Core ML Tools ทำให้ขั้นตอนการรวมโมเดลง่ายขึ้น สามารถแปลงโมเดลจากเฟรมเวิร์กยอดนิยม เช่น TensorFlow และ PyTorch เป็นรูปแบบ Core ML ดั้งเดิม ควรทราบว่าประเภทข้อมูลที่ฮาร์ดแวร์ต่างๆ รองรับนั้นแตกต่างกัน: ในขณะที่ CPU และ GPU รองรับทั้งรูปแบบ FP32 และ FP16 แต่ ANE จำกัดเฉพาะการใช้รูปแบบ FP16 สำหรับการอนุมานโมเดล

สาม สภาพแวดล้อมการทดลอง

การทดลองดำเนินการบนระบบ Mac สองระบบที่แตกต่างกัน เพื่อเปรียบเทียบประสิทธิภาพและสังเกตวิวัฒนาการของฮาร์ดแวร์ Apple: Mac Mini M1 และ Mac Mini M4 Pro

เหตุผลในการเลือกอุปกรณ์เหล่านี้คือ:
* Mac Mini M1 เป็นตัวแทนของผลิตภัณฑ์รุ่นแรกของระบบบนชิป (SoC) ของ Apple สำหรับอุปกรณ์ Mac
* M4 Pro เป็นรุ่นล่าสุดที่มีอยู่ในขณะที่ทำการศึกษานี้

การเปรียบเทียบระหว่างชิปซิลิคอนรุ่นแรกและรุ่นล่าสุดของ Apple สามารถให้มุมมองที่กว้างขึ้นเกี่ยวกับวิวัฒนาการประสิทธิภาพของมัน สิ่งนี้ไม่เพียงช่วยในการเปรียบเทียบ ระหว่างหน่วยประมวลผลสามหน่วยที่รวมอยู่ในชิป (CPU, GPU, ANE) แต่ยังช่วย ประเมินการปรับปรุงของแต่ละองค์ประกอบข้ามรุ่น

Apple Silicon Neural Engine ปลดปล่อยศักยภาพ: M4 Pro ANE บรรลุ 3.8 TFLOPS ประสิทธิภาพพลังงานดีกว่า GPU 80% ตารางที่ 1 | พารามิเตอร์สเปกหลักของแพลตฟอร์มฮาร์ดแวร์ M1 กับ M4 Pro ตารางนี้นำเสนอการกำหนดค่าฮาร์ดแวร์หลักของชิปซิลิคอน Apple สองรุ่นอย่างสมบูรณ์ M4 Pro อัปเกรดอย่างครอบคลุมในจำนวนคอร์ CPU, ความถี่,


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22927

Like (0)
Previous 2026年2月14日 pm5:18
Next 2026年2月14日 pm11:31

相关推荐