คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

Claude แฮ็ก Apple Neural Engine! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ค่าใช้จ่ายร่วงเหลือแค่เศษเสี้ยวของค่าไฟ (1/2)


สรุปสาระสำคัญ

นักพัฒนาประสบความสำเร็จในการย้อนวิศวกรรม (Reverse Engineer) Apple Neural Engine (ANE) ด้วยความช่วยเหลือจาก Claude สามารถหลีกเลี่ยงข้อจำกัดของเฟรมเวิร์ก CoreML ทางการของ Apple และเป็นครั้งแรกที่ทำให้การฝึกโครงข่ายประสาทเทียม (Neural Network Training) บน ANE ของชิป M4 เป็นจริงได้ สิ่งนี้พิสูจน์ว่า NPU ในตัวอุปกรณ์ Mac มีศักยภาพในการฝึกที่ทรงพลัง และอาจนำการฝึก AI ที่มีต้นทุนต่ำและประสิทธิภาพพลังงานสูงเข้าสู่ยุคของคอมพิวเตอร์ส่วนบุคคล

วงการ AI ต้อนรับความก้าวหน้าใหม่ โดยครั้งนี้ตัวเอกคือ Mac mini ของ Apple และ Apple Neural Engine ในตัวมัน

ไม่นานมานี้ โครงการที่นำโดยนักพัฒนา Manjeet Singh ประสบความสำเร็จในการแฮ็กข้อจำกัดซอฟต์แวร์ของ Apple Neural Engine (ANE) เขาใช้ Claude ในการย้อนวิศวกรรม วิเคราะห์ภาษาระดับล่างอย่าง MIL และไบนารี E5 หลีกเลี่ยงเฟรมเวิร์กระดับสูงอย่าง CoreML สื่อสารกับฮาร์ดแวร์ ANE โดยตรง และฝึกโมเดล Transformer ชั้นเดียวสำเร็จ

นี่ไม่ได้หมายความว่าตอนนี้ใครๆ ก็สามารถใช้ Mac ฝึกโมเดลภาษาขนาดใหญ่ (LLM) ได้ แต่มันเปิดประตูบานใหม่ให้กับนักวิจัยและผู้ที่สนใจ: คุณสามารถทำการทดลอง AI ขนาดเล็กบน MacBook ของคุณเอง โดยใช้ชิป ANE ด้วยการใช้พลังงานที่ต่ำมาก

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

การย้อนวิศวกรรมด้วยความร่วมมือระหว่างมนุษย์และเครื่อง

กระบวนการแฮ็กทั้งหมดพึ่งพาความช่วยเหลือจาก Claude อย่างลึกซึ้ง นักพัฒนา Manjeet Singh ระบุว่า เขาทำหน้าที่หลักเป็น “สถาปนิกที่มีสัญชาตญาณ” รับผิดชอบในการชี้นำทิศทางการสำรวจ ในขณะที่ Claude ทำหน้าที่เป็น “วิศวกรที่เขียนโค้ดและออกแบบการทดลอง” ในการอนุมานข้อมูล เขียนรายงานวิเคราะห์ และสร้างโค้ด รูปแบบความร่วมมือระหว่างมนุษย์และเครื่องที่แปลกใหม่นี้ ให้แนวทางใหม่สำหรับการย้อนวิศวกรรมระบบที่ซับซ้อน

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ที่อยู่โครงการ: http://github.com/maderix/ANE

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ผลลัพธ์ที่ก้าวกระโดด: การฝึก Transformer บน Mac

ผ่านการวิเคราะห์อัจฉริยะของ Claude โครงการประสบความสำเร็จในการ Hook วิธีการส่วนตัว (Private Method) ของ Apple หลีกเลี่ยง CoreML และควบคุมฮาร์ดแวร์ ANE โดยตรงเพื่อทำให้เกิดการส่งต่อ (Forward Propagation) และการแพร่กลับ (Backward Propagation) ของโครงข่ายประสาทเทียม

การทดสอบเบื้องต้นแสดงให้เห็นว่า Transformer ชั้นเดียว (มิติ 768, ความยาวลำดับ 512) บน ANE ใช้เวลาในการฝึกเพียงขั้นตอนเดียวเพียง 9.3 มิลลิวินาที โดยมีประสิทธิภาพพลังงานสูงสุดถึง 6.6 TFLOPS/วัตต์ เปรียบเทียบแล้ว ข้อมูลประสิทธิภาพพลังงานนี้สูงกว่า GPU ศูนย์ข้อมูลหลักอย่างมาก

การอัปเดตที่ก้าวไกลยิ่งขึ้นแสดงให้เห็นว่า โครงการประสบความสำเร็จในการฝึกโมเดล Stories110M ที่มีพารามิเตอร์ 109 ล้านตัว (สถาปัตยกรรม Llama-2 12 ชั้น) บน ANE อย่างสมบูรณ์ บนชุดข้อมูล TinyStories ทำให้ฟังก์ชันการสูญเสีย (Loss Function) ลดลงแบบเรียลไทม์ ในขณะที่การใช้พลังงานต่ำกว่าหนึ่งวัตต์

นี่หมายความว่าอย่างไร?
Mac บนโต๊ะของคุณ อาจไม่ใช่แค่อุปกรณ์สำหรับผู้บริโภคอีกต่อไป มันมีโอกาสกลายเป็นเครื่องฝึก AI ที่มีต้นทุนต่ำและประสิทธิภาพพลังงานสูง โดยลดต้นทุนการทดลองที่ในอดีตต้องการพลังการประมวลผลบนคลาวด์หลายหมื่นดอลลาร์ ลงเหลือเกือบแค่ค่าไฟของคอมพิวเตอร์เอง

เกณฑ์การฝึก AI กำลังถูกลดระดับลงอย่างรวดเร็ว ในอนาคต การปรับแต่ง (Fine-tune) หรือฝึกโมเดลในเครื่องส่วนตัวอย่างเป็นส่วนตัวจะเป็นไปได้

Apple Neural Engine (ANE) คืออะไร?

Apple Neural Engine เป็น NPU (Neural Processing Unit) ออกแบบมาเพื่อเร่งงานการเรียนรู้ของเครื่อง (เช่น Convolution, Matrix Multiplication) โดยเฉพาะ มันแตกต่างจาก CPU/GPU ทั่วไป เป็นตัวเร่งความเร็วแบบฟังก์ชันคงที่: นักพัฒนาส่งกราฟการคำนวณโครงข่ายประสาทเทียมที่คอมไพล์เสร็จแล้วแบบสมบูรณ์ ANE จะดำเนินการทั้งหมดในครั้งเดียวเหมือนเป็นปฏิบัติการอะตอม

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ตั้งแต่เปิดตัวครั้งแรกในชิป A11 ในปี 2017 ขนาดของ ANE ก็ขยายตัวต่อเนื่อง วัตถุของการศึกษาครั้งนี้คือ ANE ในชิป M4 ของ Apple (รหัส H16G) ซึ่งมี 16 คอร์ และมีความสามารถในการควบคุมการใช้พลังงานอย่างละเอียด

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ชิปสำหรับ Inference ทำไมถึงใช้ฝึกได้?

ANE มีประสิทธิภาพแข็งแกร่งในตัว แต่ Apple จำกัดการใช้งานอย่างเข้มงวดให้อยู่ในขอบเขต “การอนุมาน (Inference)” ผ่านเฟรมเวิร์ก CoreML อุปสรรคที่แท้จริงไม่ใช่ความสามารถของฮาร์ดแวร์ แต่เป็นการสนับสนุนจากซอฟต์แวร์

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ความเข้าใจที่สำคัญของโครงการนี้คือ การค้นพบเส้นทางในการหลีกเลี่ยง CoreML และเข้าถึง AppleNeuralEngine.framework ระดับล่างโดยตรง ผ่านการย้อนวิศวกรรม API ส่วนตัว นักพัฒนาสร้างไปป์ไลน์การฝึกแบบกำหนดเองขึ้นมา ปลดปล่อยศักยภาพในการฝึกของ ANE ที่ถูกผนึกไว้

ทำไมต้องฝึกบน NPU? คำตอบหลักคือ: ประสิทธิภาพพลังงาน
ANE ใช้พลังงานเพียงประมาณ 2.8 วัตต์ที่ประสิทธิภาพสูงสุด อัตราส่วนประสิทธิภาพพลังงานที่สูงมาก (6.6 TFLOPS/วัตต์) ทำให้ GPU แบบดั้งเดิมเทียบไม่ติด แน่นอนว่า โซลูชันนี้ยังอยู่ในระยะเริ่มต้นของการวิจัย มีความท้าทายทางวิศวกรรม เช่น อัตราการใช้ประโยชน์ต่ำ การคำนวณบางส่วนต้องย้อนกลับไปที่ CPU ฯลฯ ยังไม่สามารถแทนที่ GPU ในการฝึกขนาดใหญ่ได้ แต่ให้แรงบันดาลใจอย่างมากสำหรับโมเดลวิจัยขนาดเล็กและการปรับแต่ง (เช่น LoRA)

ผลการทดสอบที่น่าประหลาดใจ

การทดสอบเปิดเผยข้อมูลสำคัญ: ประสิทธิภาพสูงสุด “38 TOPS” ที่ Apple ประกาศทางการ แม้จะไม่ผิดในเชิงเทคนิค แต่ในโหมดการเข้าถึงจริงนั้นทำให้เข้าใจผิดได้ง่าย และนักพัฒนาทั่วไปเข้าถึงค่าสูงสุดทางทฤษฎีได้ยาก

พวกเขาเริ่มจากการทดสอบการคูณเมทริกซ์พื้นฐาน:

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

การทดสอบพบปรากฏการณ์สำคัญสองประการ:
1. ค่าโสหุ้ยการจัดตาราง (Scheduling Overhead) มหาศาล: สำหรับเมทริกซ์ขนาดเล็ก 256×256 เวลาส่วนใหญ่ใช้ไปกับการสื่อสารของระบบ สัดส่วนการคำนวณจริงต่ำมาก
2. หน้าผาประสิทธิภาพ (Performance Cliff): เมื่อขนาดเมทริกซ์เพิ่มเป็น 4096 ประสิทธิภาพลดลงอย่างเห็นได้ชัดจาก 5.7 TFLOPS ที่ขนาด 2048 เป็น 4.0 TFLOPS บ่งชี้ว่าพบกับข้อจำกัดทรัพยากร

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

หน้าผาประสิทธิภาพ SRAM

(นี่คือตอนจบของส่วนแรก เนื้อหาต่อไปจะวิเคราะห์สาเหตุเฉพาะของคอขวดประสิทธิภาพและรายละเอียดทางเทคนิคเพิ่มเติม)

หน้าผาประสิทธิภาพ SRAM และการอนุมานความจุบนชิป

เมื่อขนาดเมทริกซ์เพิ่มจาก 2048 เป็น 4096 ประสิทธิภาพลดลงอย่างรวดเร็ว สิ่งนี้สะท้อนให้เห็นถึงคอขวดประสิทธิภาพของ SRAM โดยตรง

การดำเนินการคูณเมทริกซ์หนึ่งครั้งเกี่ยวข้องกับเมทริกซ์สามตัว (A, B, C)

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

วิเคราะห์ด้วยความแม่นยำ FP16:
* เมื่อขนาดเป็น 2048×2048 ความจุรวมของการคำนวณประมาณ 24 MB สามารถบรรจุไว้ใน SRAM บนชิปได้ทั้งหมด ดังนั้นจึงสามารถบรรลุปริมาณงานการคำนวณสูงสุดประมาณ 5.7 TFLOPS
* เมื่อขนาดเพิ่มเป็น 4096×4096 ความจุของการคำนวณเพิ่มขึ้นเป็นประมาณ 96 MB ซึ่งเกินความจุของ SRAM มาก ทำให้ข้อมูลต้องถูกสลับระหว่าง SRAM และ DRAM บ่อยครั้ง ส่งผลให้ปริมาณงานลดลงประมาณ 30%

ประสิทธิภาพที่เปลี่ยนแปลงอย่างรุนแรงในช่วง 24MB (เร็ว) และ 96MB (ช้า) บ่งชี้ว่าความจุ SRAM บนชิปของ Apple Neural Engine (ANE) มีประมาณ 32 MB

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ประสิทธิภาพไม่ได้ลดลงทันทีเมื่อถึงขีดจำกัดความจุ แต่มีแนวโน้มลดลงทีละน้อย สิ่งนี้บ่งชี้ว่า ANE อาจใช้สถาปัตยกรรมการจัดเก็บแบบหลายชั้นที่คล้ายกับแคช แทนที่จะเป็นหน่วยความจำแบบ Scratchpad ความจุคงที่แบบเดียว

ข้อได้เปรียบของการดำเนินการ Convolution เทียบกับการคูณเมทริกซ์

สิ่งที่เอกสารทางการของ Apple ไม่ได้ระบุชัดเจนคือ: ANE โดยพื้นฐานแล้วเป็นเอ็นจิ้นที่ปรับให้เหมาะสมสำหรับการดำเนินการ Convolution การแสดงงานคำนวณเดียวกันในรูปแบบ Convolution ขนาด 1×1 แทนที่จะเป็นการคูณเมทริกซ์มาตรฐาน สามารถเพิ่มปริมาณงานได้อย่างมีนัยสำคัญ

การดำเนินการคูณเมทริกซ์ C[M,N] = A[M,K] @ B[K,N] สามารถแปลงเป็น Convolution 1×1 ได้อย่างสมบูรณ์แบบผ่านการปรับรูปร่างข้อมูล:
* ปรับรูปร่างเทนเซอร์อินพุตเป็น: (1, K, 1, M)
* ปรับรูปร่างเทนเซอร์น้ำหนักเป็น: (N, K, 1, 1)
* ปรับรูปร่างเทนเซอร์เอาต์พุตเป็น: (1, N, 1, M)

แม้ว่าปริมาณการคำนวณและผลลัพธ์สุดท้ายจะเหมือนกันทุกประการ แต่เส้นทางข้อมูล Convolution ของ ANE สามารถประมวลผลรูปแบบนี้ได้อย่างมีประสิทธิภาพสูงกว่ามาก

การใช้กราฟเครือข่ายลึกเพื่อให้ไปป์ไลน์อิ่มตัว

การดำเนินการคูณเมทริกซ์เดี่ยวๆ สามารถใช้ประโยชน์จากประสิทธิภาพสูงสุดของ ANE ได้เพียงประมาณ 30%

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ฮาร์ดแวร์นี้ออกแบบมาเพื่อประมวลผลกราฟเครือข่ายโดยเฉพาะ นั่นคือโซ่ของการดำเนินการที่สามารถทำให้คอร์การคำนวณทั้งหมด 16 คอร์ ยุ่งอยู่ตลอดเวลา ยิ่งมีการดำเนินการต่อเนื่องที่เชื่อมโยงกันมากเท่าไร ก็ยิ่งเข้าใกล้ประสิทธิภาพสูงสุดทางทฤษฎีมากขึ้นเท่านั้น

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

หลักการสำคัญในการเพิ่มปริมาณงาน ANE ให้สูงสุดมีดังนี้:
1. สร้างกราฟลึก ไม่ใช่กราฟกว้าง: เชื่อมโยงการดำเนินการ 16 ถึง 64 รายการในโปรแกรม MIL (Model Intermediate Language) การดำเนินการเดี่ยวๆ จะสูญเสียความสามารถของฮาร์ดแวร์ประมาณ 70%
2. ใช้ Convolution เป็นลำดับแรก แทนการคูณเมทริกซ์: Convolution 1×1 สามารถใช้เส้นทางข้อมูลเร็วได้ ซึ่งเร็วกว่าการคูณเมทริกซ์ที่เทียบเท่าถึง 3 เท่า
3. ควบคุมข้อมูลภายในความจุ SRAM อย่างเคร่งครัด: ตรวจสอบให้แน่ใจว่าการใช้หน่วยความจำของแต่ละเทนเซอร์ไม่เกิน 32 MB ข้อมูล一旦ล้นไปยัง DRAM จะทำลายปริมาณงานอย่างรุนแรง
4. หลีกเลี่ยงการดำเนินการขนาดเล็กที่ถูกจำกัดโดยการจัดตาราง: การดำเนินการใดๆ ที่ใช้เวลาดำเนินการน้อยกว่าประมาณ 1 มิลลิวินาที เวลาหลักอาจมาจากค่าโสหุ้ยการจัดตารางประมาณ 0.095 มิลลิวินาที

การเปรียบเทียบค่าโสหุ้ยประสิทธิภาพระหว่าง CoreML และ _ANEClient

ด้วยการเปรียบเทียบประสิทธิภาพของการดำเนินการเดียวกันบนเส้นทางสองเส้นทาง: เฟรมเวิร์ก CoreML และการเรียกใช้ API ระดับล่าง _ANEClient โดยตรง สามารถวัดปริมาณค่าโสหุ้ยที่เกิดจาก CoreML ได้

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

สำหรับการดำเนินการขนาดเล็ก CoreML จะเพิ่มค่าโสหุ้ย 2 ถึง 4 เท่า ภายใต้การกำหนดค่าปริมาณงานสูง ช่องว่างนี้จะลดลงเนื่องจากเวลาในการคำนวณของ ANE เป็นปัจจัยหลัก แต่สำหรับเวิร์กโหลดที่ไวต่อความล่าช้า (เช่น การถอดรหัส Token ของโมเดลภาษาขนาดใหญ่, การอนุมานแบบเรียลไทม์) การสูญเสียประสิทธิภาพที่เกิดจาก CoreML ค่อนข้างมีนัยสำคัญ

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

การวิเคราะห์ประสิทธิภาพ INT8 และ FP16: การตีความพลังการคำนวณ “38 TOPS”

Apple อ้างว่า Neural Engine ของ M4 มีพลังการคำนวณ “38 TOPS” ด้วยการวัดประสิทธิภาพของการดำเนินการที่เหมือนกันทุกประการในสองระดับความแม่นยำ: FP16 และ INT8 สามารถเปิดเผยความหมายที่แท้จริงได้

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

ผลลัพธ์แสดงให้เห็นว่า:
* INT8 ไม่ได้นำมาซึ่งการเพิ่มความเร็ว


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24775

Like (0)
Previous 2 days ago
Next 2 days ago

相关推荐