คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

2026年3月8日 am8:53 • การฝึกโมเดลขนาดใหญ่ • 224 views

Claude แฮ็ก Apple Neural Engine! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ค่าใช้จ่ายร่วงเหลือแค่เศษเสี้ยวของค่าไฟ (1/2)

สรุปสาระสำคัญ

นักพัฒนาประสบความสำเร็จในการย้อนวิศวกรรม (Reverse Engineer) Apple Neural Engine (ANE) ด้วยความช่วยเหลือจาก Claude สามารถหลีกเลี่ยงข้อจำกัดของเฟรมเวิร์ก CoreML ทางการของ Apple และเป็นครั้งแรกที่ทำให้การฝึกโครงข่ายประสาทเทียม (Neural Network Training) บน ANE ของชิป M4 เป็นจริงได้ สิ่งนี้พิสูจน์ว่า NPU ในตัวอุปกรณ์ Mac มีศักยภาพในการฝึกที่ทรงพลัง และอาจนำการฝึก AI ที่มีต้นทุนต่ำและประสิทธิภาพพลังงานสูงเข้าสู่ยุคของคอมพิวเตอร์ส่วนบุคคล

วงการ AI ต้อนรับความก้าวหน้าใหม่ โดยครั้งนี้ตัวเอกคือ Mac mini ของ Apple และ Apple Neural Engine ในตัวมัน

ไม่นานมานี้ โครงการที่นำโดยนักพัฒนา Manjeet Singh ประสบความสำเร็จในการแฮ็กข้อจำกัดซอฟต์แวร์ของ Apple Neural Engine (ANE) เขาใช้ Claude ในการย้อนวิศวกรรม วิเคราะห์ภาษาระดับล่างอย่าง MIL และไบนารี E5 หลีกเลี่ยงเฟรมเวิร์กระดับสูงอย่าง CoreML สื่อสารกับฮาร์ดแวร์ ANE โดยตรง และฝึกโมเดล Transformer ชั้นเดียวสำเร็จ

นี่ไม่ได้หมายความว่าตอนนี้ใครๆ ก็สามารถใช้ Mac ฝึกโมเดลภาษาขนาดใหญ่ (LLM) ได้ แต่มันเปิดประตูบานใหม่ให้กับนักวิจัยและผู้ที่สนใจ: คุณสามารถทำการทดลอง AI ขนาดเล็กบน MacBook ของคุณเอง โดยใช้ชิป ANE ด้วยการใช้พลังงานที่ต่ำมาก

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

การย้อนวิศวกรรมด้วยความร่วมมือระหว่างมนุษย์และเครื่อง

กระบวนการแฮ็กทั้งหมดพึ่งพาความช่วยเหลือจาก Claude อย่างลึกซึ้ง นักพัฒนา Manjeet Singh ระบุว่า เขาทำหน้าที่หลักเป็น “สถาปนิกที่มีสัญชาตญาณ” รับผิดชอบในการชี้นำทิศทางการสำรวจ ในขณะที่ Claude ทำหน้าที่เป็น “วิศวกรที่เขียนโค้ดและออกแบบการทดลอง” ในการอนุมานข้อมูล เขียนรายงานวิเคราะห์ และสร้างโค้ด รูปแบบความร่วมมือระหว่างมนุษย์และเครื่องที่แปลกใหม่นี้ ให้แนวทางใหม่สำหรับการย้อนวิศวกรรมระบบที่ซับซ้อน

ที่อยู่โครงการ: http://github.com/maderix/ANE

ผลลัพธ์ที่ก้าวกระโดด: การฝึก Transformer บน Mac

ผ่านการวิเคราะห์อัจฉริยะของ Claude โครงการประสบความสำเร็จในการ Hook วิธีการส่วนตัว (Private Method) ของ Apple หลีกเลี่ยง CoreML และควบคุมฮาร์ดแวร์ ANE โดยตรงเพื่อทำให้เกิดการส่งต่อ (Forward Propagation) และการแพร่กลับ (Backward Propagation) ของโครงข่ายประสาทเทียม

การทดสอบเบื้องต้นแสดงให้เห็นว่า Transformer ชั้นเดียว (มิติ 768, ความยาวลำดับ 512) บน ANE ใช้เวลาในการฝึกเพียงขั้นตอนเดียวเพียง 9.3 มิลลิวินาที โดยมีประสิทธิภาพพลังงานสูงสุดถึง 6.6 TFLOPS/วัตต์ เปรียบเทียบแล้ว ข้อมูลประสิทธิภาพพลังงานนี้สูงกว่า GPU ศูนย์ข้อมูลหลักอย่างมาก

การอัปเดตที่ก้าวไกลยิ่งขึ้นแสดงให้เห็นว่า โครงการประสบความสำเร็จในการฝึกโมเดล Stories110M ที่มีพารามิเตอร์ 109 ล้านตัว (สถาปัตยกรรม Llama-2 12 ชั้น) บน ANE อย่างสมบูรณ์ บนชุดข้อมูล TinyStories ทำให้ฟังก์ชันการสูญเสีย (Loss Function) ลดลงแบบเรียลไทม์ ในขณะที่การใช้พลังงานต่ำกว่าหนึ่งวัตต์

นี่หมายความว่าอย่างไร?
Mac บนโต๊ะของคุณ อาจไม่ใช่แค่อุปกรณ์สำหรับผู้บริโภคอีกต่อไป มันมีโอกาสกลายเป็นเครื่องฝึก AI ที่มีต้นทุนต่ำและประสิทธิภาพพลังงานสูง โดยลดต้นทุนการทดลองที่ในอดีตต้องการพลังการประมวลผลบนคลาวด์หลายหมื่นดอลลาร์ ลงเหลือเกือบแค่ค่าไฟของคอมพิวเตอร์เอง

เกณฑ์การฝึก AI กำลังถูกลดระดับลงอย่างรวดเร็ว ในอนาคต การปรับแต่ง (Fine-tune) หรือฝึกโมเดลในเครื่องส่วนตัวอย่างเป็นส่วนตัวจะเป็นไปได้

Apple Neural Engine (ANE) คืออะไร?

Apple Neural Engine เป็น NPU (Neural Processing Unit) ออกแบบมาเพื่อเร่งงานการเรียนรู้ของเครื่อง (เช่น Convolution, Matrix Multiplication) โดยเฉพาะ มันแตกต่างจาก CPU/GPU ทั่วไป เป็นตัวเร่งความเร็วแบบฟังก์ชันคงที่: นักพัฒนาส่งกราฟการคำนวณโครงข่ายประสาทเทียมที่คอมไพล์เสร็จแล้วแบบสมบูรณ์ ANE จะดำเนินการทั้งหมดในครั้งเดียวเหมือนเป็นปฏิบัติการอะตอม

ตั้งแต่เปิดตัวครั้งแรกในชิป A11 ในปี 2017 ขนาดของ ANE ก็ขยายตัวต่อเนื่อง วัตถุของการศึกษาครั้งนี้คือ ANE ในชิป M4 ของ Apple (รหัส H16G) ซึ่งมี 16 คอร์ และมีความสามารถในการควบคุมการใช้พลังงานอย่างละเอียด

ชิปสำหรับ Inference ทำไมถึงใช้ฝึกได้?

ANE มีประสิทธิภาพแข็งแกร่งในตัว แต่ Apple จำกัดการใช้งานอย่างเข้มงวดให้อยู่ในขอบเขต “การอนุมาน (Inference)” ผ่านเฟรมเวิร์ก CoreML อุปสรรคที่แท้จริงไม่ใช่ความสามารถของฮาร์ดแวร์ แต่เป็นการสนับสนุนจากซอฟต์แวร์

ความเข้าใจที่สำคัญของโครงการนี้คือ การค้นพบเส้นทางในการหลีกเลี่ยง CoreML และเข้าถึง AppleNeuralEngine.framework ระดับล่างโดยตรง ผ่านการย้อนวิศวกรรม API ส่วนตัว นักพัฒนาสร้างไปป์ไลน์การฝึกแบบกำหนดเองขึ้นมา ปลดปล่อยศักยภาพในการฝึกของ ANE ที่ถูกผนึกไว้

ทำไมต้องฝึกบน NPU? คำตอบหลักคือ: ประสิทธิภาพพลังงาน
ANE ใช้พลังงานเพียงประมาณ 2.8 วัตต์ที่ประสิทธิภาพสูงสุด อัตราส่วนประสิทธิภาพพลังงานที่สูงมาก (6.6 TFLOPS/วัตต์) ทำให้ GPU แบบดั้งเดิมเทียบไม่ติด แน่นอนว่า โซลูชันนี้ยังอยู่ในระยะเริ่มต้นของการวิจัย มีความท้าทายทางวิศวกรรม เช่น อัตราการใช้ประโยชน์ต่ำ การคำนวณบางส่วนต้องย้อนกลับไปที่ CPU ฯลฯ ยังไม่สามารถแทนที่ GPU ในการฝึกขนาดใหญ่ได้ แต่ให้แรงบันดาลใจอย่างมากสำหรับโมเดลวิจัยขนาดเล็กและการปรับแต่ง (เช่น LoRA)

ผลการทดสอบที่น่าประหลาดใจ

การทดสอบเปิดเผยข้อมูลสำคัญ: ประสิทธิภาพสูงสุด “38 TOPS” ที่ Apple ประกาศทางการ แม้จะไม่ผิดในเชิงเทคนิค แต่ในโหมดการเข้าถึงจริงนั้นทำให้เข้าใจผิดได้ง่าย และนักพัฒนาทั่วไปเข้าถึงค่าสูงสุดทางทฤษฎีได้ยาก

พวกเขาเริ่มจากการทดสอบการคูณเมทริกซ์พื้นฐาน:

การทดสอบพบปรากฏการณ์สำคัญสองประการ:
1. ค่าโสหุ้ยการจัดตาราง (Scheduling Overhead) มหาศาล: สำหรับเมทริกซ์ขนาดเล็ก 256×256 เวลาส่วนใหญ่ใช้ไปกับการสื่อสารของระบบ สัดส่วนการคำนวณจริงต่ำมาก
2. หน้าผาประสิทธิภาพ (Performance Cliff): เมื่อขนาดเมทริกซ์เพิ่มเป็น 4096 ประสิทธิภาพลดลงอย่างเห็นได้ชัดจาก 5.7 TFLOPS ที่ขนาด 2048 เป็น 4.0 TFLOPS บ่งชี้ว่าพบกับข้อจำกัดทรัพยากร

หน้าผาประสิทธิภาพ SRAM

(นี่คือตอนจบของส่วนแรก เนื้อหาต่อไปจะวิเคราะห์สาเหตุเฉพาะของคอขวดประสิทธิภาพและรายละเอียดทางเทคนิคเพิ่มเติม)

หน้าผาประสิทธิภาพ SRAM และการอนุมานความจุบนชิป

เมื่อขนาดเมทริกซ์เพิ่มจาก 2048 เป็น 4096 ประสิทธิภาพลดลงอย่างรวดเร็ว สิ่งนี้สะท้อนให้เห็นถึงคอขวดประสิทธิภาพของ SRAM โดยตรง

การดำเนินการคูณเมทริกซ์หนึ่งครั้งเกี่ยวข้องกับเมทริกซ์สามตัว (A, B, C)

วิเคราะห์ด้วยความแม่นยำ FP16:
* เมื่อขนาดเป็น 2048×2048 ความจุรวมของการคำนวณประมาณ 24 MB สามารถบรรจุไว้ใน SRAM บนชิปได้ทั้งหมด ดังนั้นจึงสามารถบรรลุปริมาณงานการคำนวณสูงสุดประมาณ 5.7 TFLOPS
* เมื่อขนาดเพิ่มเป็น 4096×4096 ความจุของการคำนวณเพิ่มขึ้นเป็นประมาณ 96 MB ซึ่งเกินความจุของ SRAM มาก ทำให้ข้อมูลต้องถูกสลับระหว่าง SRAM และ DRAM บ่อยครั้ง ส่งผลให้ปริมาณงานลดลงประมาณ 30%

ประสิทธิภาพที่เปลี่ยนแปลงอย่างรุนแรงในช่วง 24MB (เร็ว) และ 96MB (ช้า) บ่งชี้ว่าความจุ SRAM บนชิปของ Apple Neural Engine (ANE) มีประมาณ 32 MB

ประสิทธิภาพไม่ได้ลดลงทันทีเมื่อถึงขีดจำกัดความจุ แต่มีแนวโน้มลดลงทีละน้อย สิ่งนี้บ่งชี้ว่า ANE อาจใช้สถาปัตยกรรมการจัดเก็บแบบหลายชั้นที่คล้ายกับแคช แทนที่จะเป็นหน่วยความจำแบบ Scratchpad ความจุคงที่แบบเดียว

ข้อได้เปรียบของการดำเนินการ Convolution เทียบกับการคูณเมทริกซ์

สิ่งที่เอกสารทางการของ Apple ไม่ได้ระบุชัดเจนคือ: ANE โดยพื้นฐานแล้วเป็นเอ็นจิ้นที่ปรับให้เหมาะสมสำหรับการดำเนินการ Convolution การแสดงงานคำนวณเดียวกันในรูปแบบ Convolution ขนาด 1×1 แทนที่จะเป็นการคูณเมทริกซ์มาตรฐาน สามารถเพิ่มปริมาณงานได้อย่างมีนัยสำคัญ

การดำเนินการคูณเมทริกซ์ C[M,N] = A[M,K] @ B[K,N] สามารถแปลงเป็น Convolution 1×1 ได้อย่างสมบูรณ์แบบผ่านการปรับรูปร่างข้อมูล:
* ปรับรูปร่างเทนเซอร์อินพุตเป็น: (1, K, 1, M)
* ปรับรูปร่างเทนเซอร์น้ำหนักเป็น: (N, K, 1, 1)
* ปรับรูปร่างเทนเซอร์เอาต์พุตเป็น: (1, N, 1, M)

แม้ว่าปริมาณการคำนวณและผลลัพธ์สุดท้ายจะเหมือนกันทุกประการ แต่เส้นทางข้อมูล Convolution ของ ANE สามารถประมวลผลรูปแบบนี้ได้อย่างมีประสิทธิภาพสูงกว่ามาก

การใช้กราฟเครือข่ายลึกเพื่อให้ไปป์ไลน์อิ่มตัว

การดำเนินการคูณเมทริกซ์เดี่ยวๆ สามารถใช้ประโยชน์จากประสิทธิภาพสูงสุดของ ANE ได้เพียงประมาณ 30%

ฮาร์ดแวร์นี้ออกแบบมาเพื่อประมวลผลกราฟเครือข่ายโดยเฉพาะ นั่นคือโซ่ของการดำเนินการที่สามารถทำให้คอร์การคำนวณทั้งหมด 16 คอร์ ยุ่งอยู่ตลอดเวลา ยิ่งมีการดำเนินการต่อเนื่องที่เชื่อมโยงกันมากเท่าไร ก็ยิ่งเข้าใกล้ประสิทธิภาพสูงสุดทางทฤษฎีมากขึ้นเท่านั้น

หลักการสำคัญในการเพิ่มปริมาณงาน ANE ให้สูงสุดมีดังนี้:
1. สร้างกราฟลึก ไม่ใช่กราฟกว้าง: เชื่อมโยงการดำเนินการ 16 ถึง 64 รายการในโปรแกรม MIL (Model Intermediate Language) การดำเนินการเดี่ยวๆ จะสูญเสียความสามารถของฮาร์ดแวร์ประมาณ 70%
2. ใช้ Convolution เป็นลำดับแรก แทนการคูณเมทริกซ์: Convolution 1×1 สามารถใช้เส้นทางข้อมูลเร็วได้ ซึ่งเร็วกว่าการคูณเมทริกซ์ที่เทียบเท่าถึง 3 เท่า
3. ควบคุมข้อมูลภายในความจุ SRAM อย่างเคร่งครัด: ตรวจสอบให้แน่ใจว่าการใช้หน่วยความจำของแต่ละเทนเซอร์ไม่เกิน 32 MB ข้อมูล一旦ล้นไปยัง DRAM จะทำลายปริมาณงานอย่างรุนแรง
4. หลีกเลี่ยงการดำเนินการขนาดเล็กที่ถูกจำกัดโดยการจัดตาราง: การดำเนินการใดๆ ที่ใช้เวลาดำเนินการน้อยกว่าประมาณ 1 มิลลิวินาที เวลาหลักอาจมาจากค่าโสหุ้ยการจัดตารางประมาณ 0.095 มิลลิวินาที

การเปรียบเทียบค่าโสหุ้ยประสิทธิภาพระหว่าง CoreML และ _ANEClient

ด้วยการเปรียบเทียบประสิทธิภาพของการดำเนินการเดียวกันบนเส้นทางสองเส้นทาง: เฟรมเวิร์ก CoreML และการเรียกใช้ API ระดับล่าง _ANEClient โดยตรง สามารถวัดปริมาณค่าโสหุ้ยที่เกิดจาก CoreML ได้

สำหรับการดำเนินการขนาดเล็ก CoreML จะเพิ่มค่าโสหุ้ย 2 ถึง 4 เท่า ภายใต้การกำหนดค่าปริมาณงานสูง ช่องว่างนี้จะลดลงเนื่องจากเวลาในการคำนวณของ ANE เป็นปัจจัยหลัก แต่สำหรับเวิร์กโหลดที่ไวต่อความล่าช้า (เช่น การถอดรหัส Token ของโมเดลภาษาขนาดใหญ่, การอนุมานแบบเรียลไทม์) การสูญเสียประสิทธิภาพที่เกิดจาก CoreML ค่อนข้างมีนัยสำคัญ

การวิเคราะห์ประสิทธิภาพ INT8 และ FP16: การตีความพลังการคำนวณ “38 TOPS”

Apple อ้างว่า Neural Engine ของ M4 มีพลังการคำนวณ “38 TOPS” ด้วยการวัดประสิทธิภาพของการดำเนินการที่เหมือนกันทุกประการในสองระดับความแม่นยำ: FP16 และ INT8 สามารถเปิดเผยความหมายที่แท้จริงได้