ก้าวข้ามขีดจำกัดของ Edge Computing สุดขั้ว: เอ็นจิ้น AI ยกระดับประสิทธิภาพการให้เหตุผลทางวิทยาศาสตร์ถึง 4 เท่า พลิกโฉมอุปสรรคการปรับใช้ FPGA

19 hours ago • การอนุมานโมเดลขนาดใหญ่ • 17 views

ก้าวข้ามขีดจำกัดการประมวลผลแบบเอ็กซ์ตรีมเอดจ์: เอ็นจิ้น AI ยกระดับประสิทธิภาพการอนุมานทางวิทยาศาสตร์ 4 เท่า ทลายคอขวดการปรับใช้ FPGA

ส่วนที่ 1/5: ข้อจำกัดด้านประสิทธิภาพของการประมวลผลแบบเอ็กซ์ตรีมเอดจ์และหนทางแก้ไขด้วยเอ็นจิ้น AI

ในสถานการณ์การอนุมานแบบเรียลไทม์ทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์ ระบบต้องเผชิญกับข้อจำกัดที่เข้มงวดอย่างยิ่ง: ต้องมีเวลาแฝงแบบจุดต่อจุดระดับไมโครวินาที รักษาอัตราการรับส่งข้อมูลหลายสิบเมกะเฮิรตซ์ และน้ำหนักของโมเดลทั้งหมดต้องจัดเก็บอยู่บนชิปอย่างสมบูรณ์ โดยไม่สามารถพึ่งพาหน่วยความจำภายนอกได้

แนวทางดั้งเดิมอาศัยตรรกะที่ตั้งโปรแกรมได้ (PL) ของ FPGA ร่วมกับเครื่องมือ HLS4ML เพื่อสร้างสถาปัตยกรรมสตรีมข้อมูลเชิงพื้นที่ การออกแบบนี้มีประสิทธิภาพเฉพาะกับโครงข่ายประสาทเทียมขนาดเล็กเท่านั้น เมื่อขนาดโมเดลใหญ่ขึ้น ทรัพยากร PL จะหมดลงอย่างรวดเร็ว หน่วยคำนวณเลขคณิตถูกบังคับให้ใช้ซ้ำความถี่สูง ซึ่งนำไปสู่ประสิทธิภาพการอนุมานที่ลดลงอย่างรุนแรง
เอ็นจิ้น AI (AIE) ในฐานะอาร์เรย์โปรเซสเซอร์เวกเตอร์ VLIW สองมิติ ด้วยความหนาแน่นในการคำนวณที่สูง หน่วยความจำภายในขนาดใหญ่ และความสามารถในการทำงานที่ความถี่สูง จึงกลายเป็นเส้นทางเทคโนโลยีหลักในการก้าวข้ามคอขวดนี้

อย่างไรก็ตาม AIE และ PL มีความแตกต่างโดยพื้นฐานในด้านสถาปัตยกรรมพื้นฐาน รูปแบบการเขียนโปรแกรม และคุณสมบัติการปรับขนาดประสิทธิภาพ ปัจจุบันในแวดวงวิชาการยังขาดชุดระเบียบวิธีที่เป็นระบบเพื่อตอบคำถามสำคัญอย่างชัดเจนว่า เมื่อใดควรเลือกใช้ AIE และจะปรับใช้ AIE อย่างมีประสิทธิภาพได้อย่างไร

Design Rules for Extreme-Edge Scientific Computing on AI Engines
https://arxiv.org/pdf/2604.19106
เนื้อหาประมาณ 10,000 คำ ใช้เวลาอ่านประมาณ 40 นาที เวอร์ชันพอดแคสต์ประมาณ 22 นาที

บทความนี้ได้เสนอตัวชี้วัด Latency-Adjusted Resource Equivalence (LARE) อย่างสร้างสรรค์ผ่านการแสดงลักษณะสถาปัตยกรรมและการทดสอบวัดประสิทธิภาพระดับจุลภาค ตัวชี้วัดนี้สามารถกำหนดขอบเขตการปรับใช้ระหว่าง PL และ AIE ได้อย่างชัดเจน พร้อมทั้งสร้างระบบการปรับสตรีมข้อมูลแบบแบ่งบล็อกสองระดับ คือระดับพื้นที่และระดับ API ซึ่งสามารถวัดปริมาณค่าใช้จ่ายด้านเวลาแฝงที่เกิดจากการใช้คอลัมน์ AIE หมดและการข้ามขอบเขต PL-AIE ได้อย่างแม่นยำ

ข้อมูลจากการทดสอบจริงแสดงให้เห็นว่า แผนการปรับใช้ AIE ที่ผ่านการปรับให้เหมาะสม สามารถทำให้โมเดลต่างๆ เช่น Variational Autoencoder (VAE), Quantum Bit Readout, Deep Autoencoder ก้าวข้ามข้อกำหนดความถี่ 40MHz ของระบบทริกเกอร์ LHC ได้อย่างง่ายดาย โดยประสิทธิภาพเพิ่มขึ้นสูงสุดถึง 4 เท่า ทำลายขีดจำกัดการปรับใช้ของ PL อย่างสิ้นเชิง ซึ่งเป็นชุดแนวทางการออกแบบที่สมบูรณ์และสามารถนำไปปฏิบัติได้จริงสำหรับการนำโครงข่ายประสาทเทียมไปใช้ในสถานการณ์ทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์

สารบัญ

หนึ่ง บทนำ
สอง ความเป็นมาและแรงจูงใจในการวิจัย
- 2.1 การประมวลผลทางวิทยาศาสตร์แบบเอดจ์ที่มีเวลาแฝงต่ำ
- 2.2 กรอบงานสตรีมข้อมูลเชิงพื้นที่
- 2.3 ข้อดีของ AIE และความท้าทายในการวิจัย
- 2.4 การตั้งค่าการทดลอง
สาม การแสดงลักษณะสถาปัตยกรรมและการทดสอบวัดประสิทธิภาพระดับจุลภาค
- 3.1 อัตราการใช้ซ้ำและอุปสรรคด้านทรัพยากร PL
- 3.2 ความแตกต่างของพื้นที่การออกแบบและการทดสอบวัดประสิทธิภาพระดับจุลภาค
- 3.3 สรุปและอภิปราย
สี่ การแบ่งบล็อก AIE และการปรับสตรีมข้อมูลให้เหมาะสม
- 4.1 การแบ่งบล็อกสองระดับสำหรับการคูณเมทริกซ์ทั่วไป
- 4.2 ข้อจำกัดทางสถาปัตยกรรม
- 4.3 การปรับบล็อกระดับ API ให้เหมาะสม
- 4.4 การปรับบล็อกเชิงพื้นที่ให้เหมาะสม
- 4.5 ต้นทุนด้านประสิทธิภาพเมื่อคอลัมน์หมด
- 4.6 ต้นทุนของการข้ามขอบเขตสถาปัตยกรรม
ห้า การปรับใช้โครงข่ายประสาทเทียมแบบเต็มรูปแบบ
หก งานที่เกี่ยวข้อง
เจ็ด บทสรุป
เอกสารอ้างอิง

หนึ่ง บทนำ

สาขาการวิจัยทางวิทยาศาสตร์พึ่งพาการอนุมานด้วย机器学习แบบเรียลไทม์มากขึ้นเพื่อประมวลผลข้อมูลจากเซ็นเซอร์ความเร็วสูง [1–4] ภาระงานแบบเอ็กซ์ตรีมเอดจ์ทำงานในช่วงความถี่หลายสิบเมกะเฮิรตซ์ และต้องการเวลาแฝงแบบจุดต่อจุดที่เข้มงวดระดับไมโครวินาที เพื่อให้เป็นไปตามข้อจำกัดนี้ น้ำหนักของโมเดลทั้งหมดต้องจัดเก็บอยู่บนชิปอย่างสมบูรณ์ และการอนุมานต้องใช้ชุดข้อมูลขนาดเล็กและโครงข่ายประสาทเทียมขนาดเล็ก [5] ดังนั้น ปัจจุบันวงการวิจัยจึงปรับใช้โครงข่ายประสาทเทียมขนาดเล็กบนตรรกะที่ตั้งโปรแกรมได้ (PL) ของ FPGA หรือวงจรรวมเฉพาะแอปพลิเคชัน (ASIC) เป็นหลัก

HLS4ML [6] เป็นเครื่องมือโอเพนซอร์สหลักสำหรับการนำโมเดล机器学习ไปใช้บน PL ของ FPGA หรือ ASIC โดยใช้สถาปัตยกรรมสตรีมข้อมูลเชิงพื้นที่: แต่ละเลเยอร์ถูกนำไปใช้เป็นเส้นทางข้อมูลอิสระ และน้ำหนักทั้งหมดถูกเก็บไว้บนชิป แม้ว่าสถาปัตยกรรมสตรีมข้อมูลเชิงพื้นที่นี้จะให้เวลาแฝงต่ำและปริมาณงานสูง แต่ก็ใช้ทรัพยากรอย่างมหาศาล โดยขนาดของการแมปเชิงพื้นที่จะแปรผันตามขนาดและความลึกของโครงข่ายประสาทเทียมโดยประมาณ เมื่อปรับใช้โมเดล机器学习ขนาดใหญ่ขึ้น ทรัพยากร PL จะถูกเติมเต็มอย่างรวดเร็ว บังคับให้หน่วยคำนวณเลขคณิตถูกใช้ซ้ำจำนวนมาก ซึ่งนำไปสู่ประสิทธิภาพที่ลดลงอย่างรวดเร็วดังแสดงในรูปที่ 1

รูปที่ 1 กฎการออกแบบที่ใช้ AIE ช่วยให้โครงข่ายประสาทเทียมขนาดใหญ่ขึ้นสามารถตอบสนองและเกินกว่าข้อกำหนดปริมาณงาน 40MHz ของระบบทริกเกอร์ LHC [21],[22] PL เพียงพอที่จะรองรับโครงข่ายขนาดเล็ก เช่น Jet-tagger [23] และ τ-event selection [24] ในขณะที่โครงข่ายขนาดใหญ่ เช่น Variational Autoencoder (VAE) [25], Quantum Bit Readout [26] และ Deep Autoencoder [21] จะสามารถตอบสนองข้อกำหนดด้านประสิทธิภาพได้ก็ต่อเมื่อปรับใช้บน AIE โดยใช้กฎการออกแบบของบทความนี้เท่านั้น

นอกจากนี้ อัตราการใช้ซ้ำที่สูงขึ้นทำให้ปัญหาการปรับให้เหมาะสมของ HLS ซับซ้อนยิ่งขึ้น ซึ่งมักนำไปสู่ระยะเวลาการทำงานของเครื่องมือสังเคราะห์ที่นานเกินไป หรือแม้กระทั่งล้มเหลว

เอ็นจิ้น AI (AIE) เป็นอาร์เรย์โปรเซสเซอร์เวกเตอร์ VLIW สองมิติประสิทธิภาพสูง ออกแบบมาเพื่อการทำงานที่กำหนดได้และปริมาณงานสูงสำหรับภาระงานประมวลผลสัญญาณดิจิทัลและ机器学习 [7] AIE นำเสนอทางเลือกที่มีศักยภาพสูงสำหรับการคำนวณทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์ และปัจจุบันมีนักวิจัยจำนวนมากที่พิจารณานำไปใช้ในงานวิจัยทางวิทยาศาสตร์รุ่นต่อไป [8],[9] AIE ใช้โมเดลการเขียนโปรแกรมเชิงพื้นที่ โดยเคอร์เนลของโครงข่ายประสาทเทียมจะถูกแมปลงบนโปรเซสเซอร์เวกเตอร์ VLIW และเชื่อมต่อกันผ่านกราฟสตรีมข้อมูล [10] แม้ว่าโมเดลการเขียนโปรแกรมของ AIE จะได้รับการปรับปรุงอย่างต่อเนื่อง [11]–[13] แต่ความสมบูรณ์ยังด้อยกว่าเครื่องมือการเขียนโปรแกรมของ PL อยู่มาก

แม้ว่า AIE และ PL จะอยู่ร่วมกันบนระบบบนชิป Versal FPGA ตัวเดียวกัน [14],[15] แต่ทั้งสองเป็นสถาปัตยกรรมที่แตกต่างกันโดยสิ้นเชิง โดยมีคุณสมบัติการปรับขนาดประสิทธิภาพและทรัพยากรที่เป็นเอกลักษณ์ของตัวเอง ทำให้วงการวิจัยเอ็กซ์ตรีมเอดจ์มองเห็นคุณค่าที่แท้จริงของการปรับใช้ AIE ได้ยาก ยิ่งไปกว่านั้น โมเดลการเขียนโปรแกรม AIE ที่มีอยู่ในปัจจุบันได้รับการปรับให้เหมาะสมสำหรับการคำนวณการคูณเมทริกซ์ทั่วไป (GEMM) แบบแบตช์ปริมาณงานสูงเป็นหลัก [16]–[20] ไม่ใช่สำหรับการอนุมานบนชิปที่มีน้ำหนักคงที่ ขับเคลื่อนด้วยเหตุการณ์ และมีเวลาแฝงต่ำตามที่สาขานี้ต้องการ

ด้วยเหตุนี้ วงการวิจัยจึงขาดชุดวิธีการที่เป็นระบบในการตัดสินใจว่า เมื่อใด ควรปรับใช้โครงข่ายประสาทเทียมแบบเอ็กซ์ตรีมเอดจ์บน AIE และ อย่างไร ควรปรับใช้บน AIE แทนที่จะเป็น PL (ตรรกะที่ตั้งโปรแกรมได้) เป้าหมายของบทความนี้คือการเติมเต็มช่องว่างนี้ ผลงานหลักของบทความนี้ประกอบด้วย:

การสร้างแบบจำลองและการทดสอบวัดประสิทธิภาพระดับจุลภาคของภาระงานบน PL และ AIE ภายใต้งบประมาณทรัพยากรและประสิทธิภาพจริง ครอบคลุมพื้นที่การออกแบบของความขนานและการใช้ซ้ำของ PL
การเสนอตัวชี้วัด Latency-Adjusted Resource Equivalence (LARE) เพื่อใช้เป็นขอบเขตการตัดสินใจในการเลือกระหว่าง AIE และ PL พร้อมทั้งสามารถระบุได้ว่า AIE มีปัญหาการใช้ทรัพยากรไม่เต็มประสิทธิภาพหรือไม่
การออกแบบแผนการแบ่งบล็อกและการปรับสตรีมข้อมูลให้เหมาะสมสำหรับการนำภาระงานทางวิทยาศาสตร์ที่มีเวลาแฝงต่ำไปใช้บน AIE โดยผ่านการทดสอบวัดประสิทธิภาพเพื่อกลั่นกรองกฎการออกแบบเชิงปฏิบัติสำหรับการแบ่งบล็อกระดับพื้นที่และระดับ API พร้อมทั้งวัดปริมาณคอขวดทางสถาปัตยกรรม เช่น การหมดคอลัมน์และค่าใช้จ่ายในการข้ามขอบเขต PL-AIE เพื่อเป็นแนวทางสำหรับการปรับใช้ที่มีเวลาแฝงต่ำและมีประสิทธิภาพ
การปรับใช้และประเมินผลโครงข่ายประสาทเทียมแบบจุดต่อจุดสำหรับการคำนวณทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์ ดังแสดงในรูปที่ 1 ด้วยกฎการออกแบบการแบ่งบล็อกและสตรีมข้อมูลที่นำเสนอในบทความนี้ โครงข่ายประสาทเทียมขนาดใหญ่ที่ไม่สามารถตอบสนองข้อกำหนดปริมาณงาน 40MHz ของระบบทริกเกอร์ LHC บน PL ได้อีกต่อไป สามารถปรับใช้บน AIE ได้สำเร็จ

โครงสร้างส่วนที่เหลือของบทความนี้มีดังนี้:

สอง ความเป็นมาและแรงจูงใจในการวิจัย

บทนี้มีวัตถุประสงค์เพื่ออธิบายความต้องการพิเศษและเครื่องมือหลักในปัจจุบันของการประมวลผลทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์ ทบทวนแนวทางการนำโครงข่ายประสาทเทียมสำหรับงานฟิสิกส์พลังงานสูงไปใช้กับสตรีมข้อมูลเชิงพื้นที่บน FPGA วิเคราะห์คอขวดด้านความสามารถในการขยายขนาดของวิธีการดังกล่าวในโครงข่ายขนาดใหญ่ และสุดท้ายเสนอความท้าทายหลักในการวิจัย พร้อมทั้งอภิปรายถึงข้อได้เปรียบที่เป็นไปได้ของสถาปัตยกรรม AIE

2.1 การประมวลผลทางวิทยาศาสตร์แบบเอดจ์ที่มีเวลาแฝงต่ำ

งานอนุมานแบบเรียลไทม์สำหรับการประยุกต์ใช้ทางวิทยาศาสตร์ มีข้อกำหนดที่เข้มงวดอย่างยิ่งในด้านเวลาแฝงและแบนด์วิธ เครื่องชนอนุภาคขนาดใหญ่ (LHC) ขององค์การวิจัยนิวเคลียร์แห่งยุโรป (CERN) เป็นตัวอย่างที่โดดเด่นของสถานการณ์นี้: อุปกรณ์นี้สำรวจฟิสิกส์พื้นฐานผ่านการชนกันของโปรตอนด้วยความเร็วใกล้แสง โดยระบบตรวจจับของมันสร้างข้อมูลหลายร้อยเทราไบต์ต่อวินาที [1],[27]–[29] เพื่อบันทึกเหตุการณ์การชนต่างๆ

อย่างไรก็ตาม มีเพียงส่วนน้อยมากของข้อมูลนี้เท่านั้นที่มีคุณค่าทางการวิจัย การจัดเก็บทั้งหมดไม่สามารถทำได้ทั้งในด้านต้นทุนและความจุ ดังนั้น ระบบจึงต้องทำการคัดกรองข้อมูลแบบเรียลไทม์ใกล้กับเซ็นเซอร์ โดยเก็บไว้เฉพาะข้อมูลที่มีมูลค่าสูง ซึ่งต้องการให้ระบบมีเวลาแฝงต่ำมากและความสามารถในการรับส่งข้อมูลสูง เพื่อให้สอดคล้องกับอัตราการชน 40MHz [21],[22]

แพลตฟอร์ม FPGA ได้รับการพิสูจน์แล้วว่าเหมาะสมอย่างยิ่งสำหรับการจัดการภาระงานที่มีเวลาแฝงต่ำเช่นนี้ แต่ภายใต้ข้อจำกัดด้านเวลาแฝงและปริมาณงานที่เข้มงวดดังกล่าว แบนด์วิธที่จำเป็นสำหรับการโหลดน้ำหนักจากภายนอกชิป มักจะเกินความสามารถของอินเทอร์เฟซ DRAM บนชิป [4],[5],[14],[30],[31] ดังนั้น น้ำหนักทั้งหมดต้องถูกโหลดไว้ล่วงหน้าและจัดเก็บ固定在หน่วยความจำบนชิปตลอดกระบวนการอนุมาน

2.2 กรอบงานสตรีมข้อมูลเชิงพื้นที่

กรอบงานสตรีมข้อมูลเชิงพื้นที่ เช่น HLS4ML [6] และ FINN [32] ช่วยลดความซับซ้อนของกระบวนการปรับใช้โครงข่ายประสาทเทียมบน FPGA ได้อย่างมาก โดยเฉพาะ HLS4ML ที่ออกแบบมาสำหรับสาขาการวิจัยโดยเฉพาะ ผู้ใช้สามารถปรับใช้โมเดล机器学习บนฮาร์ดแวร์ได้แม้จะไม่มีประสบการณ์เชิงลึกด้าน FPGA หรือการออกแบบฮาร์ดแวร์ อย่างไรก็ตาม สถาปัตยกรรมสตรีมข้อมูลเชิงพื้นที่จะจัดสรรทรัพยากรฮาร์ดแวร์แยกกันสำหรับแต่ละเลเยอร์ของโครงข่าย ส่งผลให้ปริมาณทรัพยากรที่ใช้เพิ่มขึ้นเป็นเส้นตรงโดยประมาณกับจำนวนพารามิเตอร์และความลึกของโครงข่ายประสาทเทียม

ผู้ออกแบบสามารถปรับ อัตราการใช้ซ้ำ (จำนวนการดำเนินการแบบแบ่งเวลาบนหน่วยคำนวณเลขคณิตเดียวกัน) เพื่อแลกประสิทธิภาพกับการประหยัดทรัพยากร แต่สำหรับโครงข่ายขนาดใหญ่ จำเป็นต้องมีอัตราการใช้ซ้ำที่สูงขึ้น ซึ่งจะทำให้เวลาแฝงเพิ่มขึ้นอย่างมีนัยสำคัญ เมื่อขนาดโครงข่ายเกินจุดวิกฤตจุดหนึ่ง แม้จะเพิ่มอัตราการใช้ซ้ำอย่างมาก เครื่องมือ EDA ก็ไม่สามารถตอบสนองข้อจำกัดด้านทรัพยากรได้ คอขวดนี้จำกัดขนาดของโครงข่ายประสาทเทียมที่สามารถปรับใช้บน PL อย่างรุนแรง

2.3 ข้อดีของ AIE และความท้าทายในการวิจัย

สถาปัตยกรรม AIE นำเสนอเส้นทางที่เป็นไปได้ในการแก้ปัญหาความสามารถในการขยายขนาด ตัวอย่างเช่น บอร์ดพัฒนา Versal VEK280 [14] รวมหน่วยประมวลผล 304 หน่วยที่ใช้สถาปัตยกรรม AIE-ML แต่ละหน่วยมีหน่วยความจำภายใน 64KB

หน่วย AIE เดียวสามารถดำเนินการคูณ-สะสม (MAC) แบบ int8 ได้ 256 ครั้งต่อรอบ ซึ่งเทียบเท่ากับหน่วย DSP58 จำนวน 58 หน่วย [14] ในฐานะ ASIC แบบตายตัว AIE สามารถทำงานได้สูงสุดที่ 1GHz ซึ่งเร็วกว่าความถี่นาฬิกา 312.5MHz ของ PL ในการทดลองนี้ประมาณ 3.2 เท่า แสดงถึงศักยภาพด้านประสิทธิภาพที่มหาศาล

เพื่อให้ได้ประสิทธิภาพสูง ต้องวางแผนการเคลื่อนย้ายข้อมูลและรูปแบบการคำนวณอย่างพิถีพิถัน

สถาปัตยกรรม PL รองรับเส้นทางข้อมูลและโครงสร้างการเชื่อมต่อที่ปรับแต่งได้อย่างสมบูรณ์ เครื่องมือ EDA สมัยใหม่สามารถทำการวางและเดินสายแบบละเอียด ทำให้ข้อมูลสามารถส่งผ่านได้อย่างแม่นยำตามต้องการ โดยมีค่าใช้จ่ายต่ำมาก
ในทางตรงกันข้าม AIE เป็นโปรเซสเซอร์ VLIW แบบ耦合หลวม มีลำดับชั้นหน่วยความจำที่ตายตัว นักออกแบบต้องเขียนโปรแกรมภาระงานของแต่ละหน่วย AIE อย่างชัดเจน และจัดการสตรีมข้อมูลภายในหน่วยและระหว่างอาร์เรย์พร้อมกัน การเคลื่อนย้ายข้อมูลที่ไม่มีประสิทธิภาพอาจทำให้เกิดการหยุดชะงักของ DMA การแข่งขันของหน่วยความจำ และเวลาแฝงของบัฟเฟอร์เพิ่มเติม ซึ่งท้ายที่สุดจะนำไปสู่การใช้งานแกนประมวลผลไม่เต็มประสิทธิภาพ ปัญหาเหล่านี้ต้องหลีกเลี่ยงอย่างเคร่งครัดเพื่อป้องกันประสิทธิภาพที่ลดลง

สาขาการคำนวณทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์ได้เริ่มสำรวจความเป็นไปได้ในการใช้ AIE เป็นทางเลือกแทน PL ผ่านการวิจัยประยุกต์และเครื่องมือปรับใช้ที่เกิดขึ้นใหม่ [8],[9],[13] โดย AIE4ML [13] ได้นำเครื่องมือปรับใช้แบบจุดต่อจุดสำหรับโครงข่ายประสาทเทียมเชิงปริมาณมาใช้ ซึ่งรองรับการแบ่งบล็อกเชิงพื้นที่และการจัดวาง

แต่เนื่องจาก PL และ AIE มีความแตกต่างโดยพื้นฐานในด้านสถาปัตยกรรมและโมเดลการเขียนโปรแกรม เพื่อให้ AIE ถูกนำไปใช้อย่างมีประสิทธิภาพในสาขานี้ ต้องแก้ไขปัญหาหลักสองประการ:

เมื่อใดควรปรับใช้: ทรัพยากร PL ที่คับคั่งบังคับให้ HLS4ML ต้องประนีประนอมระหว่างประสิทธิภาพและทรัพยากร ในขณะที่พื้นที่การออกแบบและคุณสมบัติการปรับขนาดของ AIE แตกต่างกันโดยสิ้นเชิง ทำให้ยากต่อการตัดสินใจโดยตรงว่าเมื่อใดควรใช้ AIE แทน PL ภายใต้ขนาดภาระงานและงบประมาณทรัพยากรแบบใด การปรับใช้ AIE จะได้เปรียบกว่า PL?
วิธีการปรับใช้: การประยุกต์ใช้ทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์มีรูปแบบภาระงานและสตรีมข้อมูลที่เป็นเอกลักษณ์ AIE มีตัวเลือกการแบ่งบล็อกและการเคลื่อนย้ายข้อมูลหลายระดับ ทั้งระดับพื้นที่และระดับ API ควรออกแบบกลยุทธ์การปรับสตรีมข้อมูลที่มีประสิทธิภาพสำหรับสาขานี้อย่างไร?

บทความนี้มุ่งเน้นการศึกษาปัญหาข้างต้น

บทที่สามตอบคำถาม เมื่อใดควรปรับใช้ ผ่านการแสดงลักษณะสถาปัตยกรรมและการทดสอบวัดประสิทธิภาพระดับจุลภาค
บทที่สี่เสนอวิธีการปรับสตรีมข้อมูลให้เหมาะสม เพื่อตอบคำถาม วิธีการปรับใช้ โครงข่ายประสาทเทียมทางวิทยาศาสตร์แบบเอ็กซ์ตรีมเอดจ์

2.4 การตั้งค่าการทดลอง

การทดลองทั้งหมดดำเนินการบนบอร์ดพัฒนา AMD-Xilinx Versal VEK280 ซึ่งติดตั้งอาร์เรย์ AIE-ML ประสิทธิภาพของ AIE วัดผ่านการจำลองฮาร์ดแวร์ที่แม่นยำระดับรอบสัญญาณนาฬิกา เพื่อให้การเปรียบเทียบเป็นธรรม แผนพื้นฐานของ PL ก็ถูกนำไปใช้บนอุปกรณ์ VEK280 รุ่นเดียวกัน บทความนี้ได้ขยายกรอบงาน HLS4ML เพื่อรองรับแพลตฟอร์ม Versal ข้อมูลประสิทธิภาพและการใช้ทรัพยากรได้มาจากเครื่องมือสังเคราะห์และนำไปใช้ของ AMD Xilinx Vitis และ Vivado 2025.2

สาม การแสดงลักษณะสถาปัตยกรรมและการทดสอบวัดประสิทธิภาพระดับจุลภาค

บทนี้มีวัตถุประสงค์เพื่อตอบคำถาม เมื่อใดการใช้ AIE จึงจะได้เปรียบกว่า

ประการแรก เจาะลึกพื้นที่การออกแบบของ HLS4ML เพื่อระบุจุดที่ความสามารถในการขยายขนาดล้มเหลว และกำหนดข้อจำกัดในการปรับใช้โครงข่ายประสาทเทียมขนาดใหญ่
จากนั้น เปรียบเทียบความแตกต่างของพื้นที่การออกแบบระหว่าง HLS4ML และ AIE และแสดงผลการทดสอบวัดประสิทธิภาพระดับจุลภาค
สุดท้าย ดึงแนวโน้มประสิทธิภาพและทรัพยากรข้ามโดเมนจากการทดสอบวัดประสิทธิภาพระดับจุลภาคเหล่านี้ พร้อมทั้งเป็นพื้นฐานสำหรับการออกแบบสตรีมข้อมูลในบทที่สี่

3.1 อัตราการใช้ซ้ำและอุปสรรคด้านทรัพยากร PL

พารามิเตอร์การออกแบบที่สำคัญที่สุดใน HLS4ML คือ อัตราการใช้ซ้ำ (rf) ที่ผู้ใช้กำหนด ซึ่งใช้ปรับระดับความขนานของเส้นทางข้อมูลเลเยอร์ HLS4ML จะแปลงโมเดล机器学习ที่กำหนดโดย PyTorch, TensorFlow หรือ Keras เป็นโปรเจกต์ HLS อัตราการใช้ซ้ำจะเปลี่ยนคำสั่ง HLS เกี่ยวกับช่วงเวลาเริ่มต้นของไปป์ไลน์ (II) และการคลี่ลูป เพื่อแนะนำเครื่องมือ HLS ในการประนีประนอมระหว่างความขนานและการประหยัดทรัพยากร ทำให้เกิดพื้นที่การออกแบบประสิทธิภาพ-ทรัพยากรที่กว้างใหญ่ การสังเคราะห์เชิงตรรกะและเชิงกายภาพจะดำเนินการโดยอัตโนมัติโดยเครื่องมือ EDA ฝั่งแบ็คเอนด์

สำหรับโครงข่ายประสาทเทียมขนาดเล็ก HLS4ML สามารถทำการขนานเต็มรูปแบบได้ ดังนั้นประสิทธิภาพจึงดีเยี่ยม แต่เมื่อขนาดภาระงานเพิ่มขึ้น เพื่อให้การออกแบบเหมาะสมกับทรัพยากรที่มีอยู่ของ PL จำเป็นต้องเพิ่มอัตราการใช้ซ้ำ โดยใช้หน่วยคำนวณเลขคณิตแบบแบ่งเวลา อัตราการใช้ซ้ำที่สูงขึ้นเท่ากับการแลกประสิทธิภาพเพื่อประหยัดทรัพยากร พร้อมกับลดปริมาณงาน

นอกเหนือจากอัตราการใช้ซ้ำภายในเลเยอร์แล้ว HLS4ML ยังมีกลยุทธ์ระดับสูงอีกสองแบบ: การปรับให้เหมาะสมด้านเวลาแฝง และ การปรับให้เหมาะสมด้านทรัพยากร

กลยุทธ์การปรับให้เหมาะสมด้านเวลาแฝงจะให้ความสำคัญกับความขนานเป็นอันดับแรก ซึ่งจะใช้ทรัพยากร LUT และ FF จำนวนมาก
กลยุทธ์การปรับให้เหมาะสมด้านทรัพยากรจะอนุรักษ์นิยมมากกว่า และจะใช้ทรัพยากรเช่น Block RAM (BRAM) มากขึ้นเมื่อทรัพยากรตึงตัว

รูปที่ 2 ความสามารถในการขยายขนาดประสิทธิภาพของ HLS4ML ประสิทธิภาพวัดด้วยช่วงเวลา (interval) ซึ่งคือช่วงเวลาระหว่างเอาต์พุตของแบตช์ในระหว่างการทำงาน稳态 ช่วงเวลาที่น้อยกว่าหมายถึงปริมาณงานที่สูงกว่าและประสิทธิภาพที่ดีกว่า เมื่อทรัพยากรเพียงพอ HLS4ML สามารถทำการขนานเต็มรูปแบบสำหรับการออกแบบ ดังนั้นช่วงเวลาจึงคงที่โดยพื้นฐาน ในขณะที่การใช้ทรัพยากรเพิ่มขึ้นตามขนาดภาระงานที่เพิ่มขึ้น เมื่อทรัพยากรถูกจำกัด หน่วยคำนวณเลขคณิตต้องถูกใช้ซ้ำตามอัตราการใช้ซ้ำ ซึ่งนำไปสู่ปริมาณงานที่ลดลงและช่วงเวลาที่เพิ่มขึ้น รูปยังแสดงแผนการนำไปใช้บน AIE เป็นข้อมูลอ้างอิง

บทความนี้สร้างภาระงานสังเคราะห์ที่ประกอบด้วยเลเยอร์แบบหนาแน่น เพื่อทดสอบกฎการปรับขนาดประสิทธิภาพของ HLS4ML ตามขนาดภาระงาน (ดูรูปที่ 2) เมื่อขนาดภาระงานเพิ่มขึ้น ช่วงเวลาเอาต์พุต (ช่วงเวลาระหว่างเอาต์พุตของแบตช์ในระหว่างการทำงาน稳态) ของทั้งสองกลยุทธ์จะเพิ่มขึ้น และการเพิ่มขึ้นจะเด่นชัดเป็นพิเศษหลังจากที่การออกแบบไม่สามารถปรับให้เข้ากับทรัพยากร PL ได้ที่ rf=1

ภายใต้กลยุทธ์การปรับให้เหมาะสมด้านเวลาแฝง ช่วงเวลาจะเพิ่มขึ้นอย่างรวดเร็ว และทรัพยากรจะหมดลงอย่างรวดเร็วเช่นกัน
ภายใต้กลยุทธ์การปรับให้เหมาะสมด้านทรัพยากร การเติบโตของช่วงเวลาจะราบรื่นกว่า ซึ่งเหมาะสำหรับโครงข่ายประสาทเทียมขนาดกลางที่ต้องการการประนีประนอมระหว่างทรัพยากรและเวลาแฝง

แนวโน้มนี้ยังกำหนดการเลือก กลยุทธ์การปรับให้เหมาะสมด้านทรัพยากร เป็นเกณฑ์มาตรฐาน PL สำหรับการเปรียบเทียบกับ AIE ในภายหลัง ในสองกลยุทธ์ของ HLS4ML กลยุทธ์การปรับให้เหมาะสมด้านทรัพยากรมีความสามารถในการขยายขนาดและการใช้ทรัพยากรที่ดีกว่า ทำให้ผลการเปรียบเทียบมีความหมายมากขึ้น

หากภายใต้ภาระงานขนาดเล็ก ประสิทธิภาพของ PL ภายใต้กลยุทธ์การปรับให้เหมาะสมด้านทรัพยากรดีกว่า AIE อยู่แล้ว กลยุทธ์การปรับให้เหมาะสมด้านเวลาแฝงจะทำให้ข้อได้เปรียบนี้ชัดเจนยิ่งขึ้น
ในทางกลับกัน เมื่อ AIE เหนือกว่ากลยุทธ์การปรับให้เหมาะสมด้านทรัพยากรในขนาดที่ใหญ่ขึ้น มันก็จะเหนือกว่ากลยุทธ์การปรับให้เหมาะสมด้านเวลาแฝงที่ถึงขีดจำกัดทรัพยากร PL ก่อนหน้านี้อย่างแน่นอน

รูปยังแสดงแผนการแมปแบบง่ายบน AIE เป็นข้อมูลอ้างอิง: แผนนี้จะแมปแต่ละเลเยอร์ของโครงข่ายไปยังหน่วย AIE หนึ่งหน่วย ในกรณีนี้ ทรัพยากร AIE ยังคงเพียงพอ และช่วงเวลาเริ่มต้นถูกกำหนดโดยขนาดของเลเยอร์ ไม่ใช่จำนวนเลเยอร์ ผลลัพธ์เหล่านี้ร่วมกันแสดงให้เห็นว่า HLS4ML มีประสิทธิภาพดีเยี่ยมในสถานการณ์ขนาดเล็ก แต่มีขีดจำกัดความสามารถในการขยายขนาดที่ต่ำ ซึ่งเป็นเหตุผลเพียงพอสำหรับการใช้ AIE สำหรับภาระงานขนาดใหญ่

3.2 ความแตกต่างของพื้นที่การออกแบบและการทดสอบวัดประสิทธิภาพระดับจุลภาค

การเปรียบเทียบพื้นที่การออกแบบของ PL และ AIE โดยตรงนั้นค่อนข้างยาก ส่วนที่ 3.1 ชี้ให้เห็นแล้วว่าภายใต้กรอบงาน HLS4ML การประนีประนอมระหว่างประสิทธิภาพและทรัพยากรของ PL ถูกควบคุมโดยอัตราการใช้ซ้ำภายในเลเยอร์เป็นหลัก ในขณะที่ AIE ใช้โมเดลการเขียนโปรแกรมโปรเซสเซอร์เวกเตอร์และเครือข่ายบนชิปที่กำหนดได้ ซึ่งประสิทธิภาพขึ้นอยู่กับมิติของภาระงานและกลยุทธ์การแบ่งบล็อกระดับพื้นที่และระดับ API เป็นหลัก เพื่อให้การเปรียบเทียบมีความหมาย ต้องพิจารณาพารามิเตอร์อัตราการใช้ซ้ำที่เป็นเอกลักษณ์ของ PL ซึ่งไม่มีอยู่ใน AIE

เพื่อให้เกิดการเปรียบเทียบที่เป็นธรรมระหว่างสองโดเมนและกลั่นกรองข้อสรุปที่มีลักษณะทั่วไป บทความนี้ได้แมปเลเยอร์แบบหนาแน่นเดี่ยวไปยังหน่วย AIE หนึ่งหน่วย เพื่อใช้เป็นพื้นฐานในการทดสอบวัดประสิทธิภาพระดับจุลภาค เป้าหมายหลักของการทดสอบวัดประสิทธิภาพระดับจุลภาคคือการแยกแนวโน้มการออกแบบระดับเลเยอร์ที่สามารถถ่ายโอนไปยังการออกแบบขนาดใหญ่ได้ เนื่องจากอัตราการใช้ซ้ำถูกกำหนดตามเลเยอร์ ประสิทธิภาพของเลเยอร์เดียวกันภายใต้อัตราการใช้ซ้ำที่แตกต่างกัน จึงเทียบเท่ากับสถานะของเลเยอร์นั้นภายใต้งบประมาณทรัพยากรของโครงข่ายประสาทเทียมขนาดต่างๆ ยิ่งโครงข่ายประสาทเทียมมีขนาดใหญ่ งบประมาณที่มีสำหรับแต่ละเลเยอร์ก็จะน้อยลง และอัตราการใช้ซ้ำก็จะสูงขึ้นตามไปด้วย จากมุมมองนี้ เส้นโค้งการประนีประนอมระหว่างทรัพยากรและประสิทธิภาพของเลเยอร์เดี่ยว สามารถสะท้อนถึงประสิทธิภาพเฉพาะของเลเยอร์นั้นในโครงข่ายขนาดต่างๆ

สำหรับการทดสอบวัดประสิทธิภาพระดับจุลภาคของ AIE เมื่อกำหนดรูปร่างของเลเยอร์และแมปภาระงานไปยังหน่วยเดียว ประสิทธิภาพของมันจะคงที่ ซึ่งทำให้เราสามารถเปรียบเทียบประสิทธิภาพของ AIE กับเส้นโค้งการประนีประนอมทรัพยากร-ประสิทธิภาพของ PL ได้โดยตรง บทความนี้กำหนด ทรัพยากร PL ขั้นต่ำที่จำเป็นสำหรับ HLS4ML เพื่อให้ตรงกับประสิทธิภาพของ AIE ว่าเป็น Latency-Adjusted Resource Equivalence (LARE) โดยมีวิธีการคำนวณเฉพาะดังแสดงในอัลกอริทึม 1

อัลกอริทึม 1 การคำนวณตัวชี้วัด LARE สำหรับเลเยอร์แบบหนาแน่น (nin, nout)

บทความนี้ทำการทดลองสแกนอัตราการใช้ซ้ำและคำนวณ LARE ซ้ำสำหรับรูปร่างเลเยอร์แบบหนาแน่นที่แตกต่างกัน ผลลัพธ์แสดงในรูปที่ 3

รูปที่ 3 การทดสอบวัดประสิทธิภาพระดับจุลภาคของการประนีประนอมทรัพยากร-เวลาแฝง เส้นโค้งสีแต่ละเส้นสอดคล้องกับรูปร่างเลเยอร์หนึ่งบน PL จุดสีดำแสดงค่าทรัพยากร PL ที่สามารถจับคู่ประสิทธิภาพของ AIE ได้ (คือ LARE) พื้นที่สีน้ำเงินแสดงถึงทรัพยากร PL ที่ตึงตัว ซึ่ง AIE มีประสิทธิภาพดีกว่า พื้นที่สีแดงแสดงถึงทรัพยากร PL ที่เพียงพอ ซึ่งแผน PL ดีกว่า เส้นโค้งสีแต่ละเส้นแสดงถึงการประนีประนอมทรัพยากร-เวลาแฝงของรูปร่างเลเยอร์หนึ่งบน PL แต่ละจุดบนเส้นโค้งสอดคล้องกับอัตราการใช้ซ้ำที่แตกต่างกัน ยิ่งอัตราการใช้ซ้ำสูง (พื้นที่ซ้ายบน) ทรัพยากรที่ใช้ยิ่งน้อย แต่ช่วงเวลาเริ่มต้นยิ่งมากขึ้น (ประสิทธิภาพแย่ลง) จุดสีดำบนเส้นโค้งสี ทำเครื่องหมายประสิทธิภาพของ AIE (แกนตั้ง) และค่า LARE (แกนนอน) สำหรับเลเยอร์นั้น พื้นที่สีน้ำเงินคือโซนที่ทรัพยากร PL คับคั่ง ซึ่งการปรับใช้ PL ต้องการอัตราการใช้ซ้ำสูง ในขณะที่ AIE สามารถบรรลุเวลาแฝงที่ต่ำกว่า พื้นที่สีแดงคือโซนที่ทรัพยากร PL เหลือเฟือ ซึ่งแผนสตรีมข้อมูลเชิงพื้นที่ PL มีเวลาแฝงที่ดีกว่า AIE

ตัวชี้วัด LARE มีคุณค่าหลักสองประการ:

ขอบเขตการตัดสินใจ: หากทรัพยากร PL ที่มีสำหรับเลเยอร์เดี่ยวเกินค่า LARE แผน PL จะสามารถจับคู่หรือเหนือกว่าประสิทธิภาพของ AIE ในทางกลับกัน PL ที่มีทรัพยากรจำกัดจะทำให้ประสิทธิภาพลดลงเนื่องจากการใช้ซ้ำที่ไม่มีประสิทธิ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/32378