คำสำคัญ: เครื่องเร่งความเร็ว FPGA, โมเดลผู้เชี่ยวชาญแบบผสม (MoE), การปรับใช้ที่ขอบ, การอนุมานต้นทุนต่ำ, การเพิ่มประสิทธิภาพ GEMV
ด้วยต้นทุนวัสดุ 150 ดอลลาร์และความเร็วในการถอดรหัส 18 โทเค็น/วินาที FPGA ได้ทำการค้นพบที่สำคัญในด้านการปรับใช้โมเดลภาษาขนาดใหญ่ที่ขอบเครือข่าย
ในสาขาการเร่งความเร็วฮาร์ดแวร์สำหรับการเรียนรู้เชิงลึก FPGA มีตำแหน่งที่พิเศษเสมอมา มันไม่มีทั้งความหนาแน่นของพลังการคำนวณสูงสุดแบบที่ GPU มีในการครอบครองตลาดการฝึกฝน และก็ยากที่จะมีประสิทธิภาพพลังงานสูงสุดในสถานการณ์เฉพาะแบบที่ ASIC ทำได้ เป็นเวลานาน FPGA ส่วนใหญ่ทำงานในด้านการตรวจสอบต้นแบบสถาปัตยกรรม การตรวจสอบก่อนการผลิตชิป และสถานการณ์การปรับใช้ขั้นสุดท้ายบางส่วนที่ต้องการความยืดหยุ่นและประสิทธิภาพพลังงานเป็นพิเศษ

ตาราง: การเปรียบเทียบกับเครื่องเร่งความเร็ว FPGA สำหรับโมเดลภาษาขนาดใหญ่ที่มีอยู่ การศึกษานี้ปรับใช้โมเดล MoE ขนาด 30B ที่ใหญ่ที่สุดบน FPGA ระดับเริ่มต้น พร้อมทั้งสนับสนุนการเร่งความเร็วการเติมข้อมูลล่วงหน้าและการถอดรหัส โดยมีประสิทธิภาพการถอดรหัสอยู่ในอันดับต้นๆ ของเครื่องเร่งความเร็ว FPGA แบบฝังตัว
อย่างไรก็ตาม การเกิดขึ้นของโมเดลภาษาขนาดใหญ่กำลังเปลี่ยนสถานการณ์นี้ การอนุมาน LLM แสดงให้เห็นถึงลักษณะที่ถูกจำกัดโดยหน่วยความจำอย่างชัดเจน – จุดคอขวดของประสิทธิภาพแบบ end-to-end มักมาจากแบนด์วิธของหน่วยความจำ ไม่ใช่ปริมาณงานการคำนวณ ซึ่งทำให้ FPGA ที่ไม่มีข้อได้เปรียบในด้านพลังการคำนวณ สามารถยืนอยู่บนเส้นสตาร์ทที่ใกล้เคียงกับ GPU และ NPU ในสนามการแข่งขันการอนุมานได้
แต่ความท้าทายยังคงรุนแรง: การวิจัยเกี่ยวกับเครื่องเร่งความเร็ว LLM บน FPGA ที่มีอยู่ส่วนใหญ่ใช้แพลตฟอร์ม FPGA ระดับสูงราคาแพง (เช่น Alveo U280, VCU128 เป็นต้น) อุปกรณ์เหล่านี้ที่มีราคาหลายพันดอลลาร์ไม่สมจริงสำหรับผลิตภัณฑ์ขอบเครือข่ายที่อ่อนไหวต่อต้นทุนอย่างมาก ดังนั้น การจะทำให้ได้ประสิทธิภาพการอนุมาน LLM ที่ใช้งานได้บน FPGA แบบฝังตัวต้นทุนต่ำ จึงกลายเป็นปัญหาหลักที่ต้องแก้ไขอย่างเร่งด่วน
ในบริบทนี้เอง ทีมวิจัยจากสถาบันอัตโนมัติศาสตร์ สภาวิทยาศาสตร์จีน ได้เสนอแผนงาน Hummingbird+ เป็นครั้งแรกที่พิสูจน์ความเป็นไปได้ของการใช้ FPGA ต้นทุนต่ำเป็นฮาร์ดแวร์สำหรับการปรับใช้ LLM ขั้นสุดท้าย
ทีมงานได้ออกแบบแพลตฟอร์ม PCB แบบกำหนดเองโดยใช้ Xilinx Zynq UltraScale XCZU2CG/3EG SoC พร้อมหน่วยความจำ 24GB โดยต้นทุนวัสดุเมื่อผลิตจำนวนมากคาดว่าจะควบคุมได้ภายใน 150 ดอลลาร์
วิดีโอสาธิตการทดสอบจริงของแผนงาน Hummingbird+
บนแพลตฟอร์มนี้ พวกเขาประสบความสำเร็จในการปรับใช้โมเดลผู้เชี่ยวชาญแบบผสม Qwen3-30B-A3B ที่ผ่านการควอนไทซ์ 4-bit ด้วย GPTQ บรรลุความเร็วในการถอดรหัสมากกว่า 18 โทเค็น/วินาที และความเร็วในการเติมข้อมูลล่วงหน้า 50 โทเค็น/วินาที

รูป: แผนภาพสถาปัตยกรรมโซลูชันแบบ end-to-end ของ Hummingbird+ สำหรับการปรับใช้โมเดลภาษาขนาดใหญ่แบบ MoE สถาปัตยกรรมนี้ใช้ PCB แบบกำหนดเองและ SoC ระดับเริ่มต้นเป็นพื้นฐาน ผสานรวมหน่วยความจำความจุสูง และผ่านการออกแบบเครื่องเร่งความเร็วที่เพิ่มประสิทธิภาพอย่างลึกซึ้ง เป็นครั้งแรกที่ทำให้การปรับใช้โมเดล MoE ขนาดกลางถึงใหญ่ในทางวิศวกรรมสำเร็จบน FPGA
ประเด็นสำคัญ
ประเด็นที่หนึ่ง: ภายใต้ความผันผวนของต้นทุนหน่วยความจำ โมเดล MoE ขนาด 30B ยังคงมีข้อได้เปรียบด้านต้นทุนเมื่อเทียบกับโมเดลหนาแน่นขนาดเล็กหรือไม่?
Hummingbird+ ผ่านการเพิ่มประสิทธิภาพสถาปัตยกรรมขั้นสูงสุด เป็นครั้งแรกที่ปรับใช้โมเดล MoE ขนาด 30B บนแพลตฟอร์ม FPGA ระดับ 150 ดอลลาร์ ถือเป็นความก้าวหน้าทางวิศวกรรมที่โดดเด่น อย่างไรก็ตาม ข้อได้เปรียบด้านต้นทุนนี้ขึ้นอยู่กับราคาหน่วยความจำที่ใช้ในการประมาณการอย่างมาก ด้วยราคาตลาดหน่วยความจำที่เพิ่มขึ้นในปี 2024 ต้นทุนของชิป DDR4 สูงขึ้นอย่างมาก ทำให้แรงกดดันของต้นทุนหน่วยความจำซึ่งคิดเป็นเกือบครึ่งหนึ่งของ BOM เพิ่มขึ้นอย่างรุนแรง ในบริบทนี้ แผนงาน MoE ที่ต้องใช้ DRAM ความหนาแน่นสูงเพื่อรองรับพารามิเตอร์โมเดล 15GB ข้อได้เปรียบด้านต้นทุนโดยรวมได้ถูกบั่นทอนลงแล้วหรือไม่? เมื่อเทียบกับแผนงานโมเดลหนาแน่นขนาด 4B/8B ที่ต้องการหน่วยความจำเพียง 4-8GB และมีความทนทานต่อการขึ้นราคาสูงกว่า Hummingbird+ ในการนำไปใช้ในอุตสาหกรรมจะเสียเปรียบเนื่องจากความพึ่งพาหน่วยความจำที่สูงกว่าหรือไม่?
Hummingbird+ บรรลุการปรับใช้โมเดล MoE ขนาด 30B บนแพลตฟอร์ม FPGA ที่มี BOM 150 ดอลลาร์ การเพิ่มประสิทธิภาพทรัพยากรขั้นสูงสุดและการออกแบบระบบที่สมบูรณ์ถือเป็นความก้าวหน้าที่สำคัญ อย่างไรก็ตาม ตามที่งานวิจัยระบุ ต้นทุนหน่วยความจำคิดเป็นประมาณครึ่งหนึ่งของ BOM (ประมาณ 75 ดอลลาร์) ต้นทุนของทั้งระบบอ่อนไหวต่อราคา DRAM สูง หากราคาหน่วยความจำยังคงเพิ่มขึ้น (เช่น เพิ่มเป็นสองเท่า) ต้นทุน BOM รวมจะเพิ่มขึ้นอย่างมีนัยสำคัญ ทำให้ข้อได้เปรียบด้านต้นทุนลดลง ในทางตรงกันข้าม การปรับใช้โมเดลหนาแน่นขนาด 4B/8B ต้องการหน่วยความจำเพียง 4-8GB มีความสามารถในการทนต่อการขึ้นราคาหน่วยความจำได้ดีกว่า อาจมีความคุ้มค่าทางเศรษฐกิจมากกว่าในสถานการณ์ขอบเครือข่ายที่อ่อนไหวต่อต้นทุน
แต่ต้องระวังว่า MoE ขนาด 30B ให้ผลลัพธ์ในงานที่ซับซ้อนเหนือกว่าโมเดลหนาแน่นขนาดเล็กมาก ค่าของการออกแบบนี้อยู่ที่การพิสูจน์ว่า FPGA สามารถเป็นแพลตฟอร์มการอนุมาน LLM ที่คุ้มค่าได้ ให้การเตรียมเทคโนโลยีสำหรับอนาคตเมื่อราคาหน่วยความจำลดลงหรือมีการใช้เทคโนโลยีหน่วยความจำใหม่ (เช่น CXL) แนวทางการออกแบบของมัน (เช่น การประมวลผลแบบขนานหลายคอร์ การคำนวณความแม่นยำคู่) มีความหมายสำหรับการปรับใช้ LLM ทุกขนาด ดังนั้น แม้ความผันผวนของหน่วยความจำจะนำมาซึ่งความท้าทาย แต่การสำรวจนี้ได้เปิดเส้นทางใหม่สำหรับการออกแบบร่วมระหว่างโมเดลและฮาร์ดแวร์สำหรับ AI ที่ขอบเครือข่าย
ประเด็นที่สอง: ความเป็นทั่วไปและต้นทุนการย้ายที่ภายใต้การบีบอัดทรัพยากรขั้นสูงสุด RTL ที่ปรับปรุงด้วยมือสามารถตอบสนองต่อวิวัฒนาการของโมเดลได้หรือไม่?
เพื่อปรับใช้โปรเซสเซอร์หลายตัวบน FPGA ที่มีทรัพยากรจำกัด การออกแบบใช้การปรับปรุง RTL ด้วยมือจำนวนมาก (เช่น โซ่รีจิสเตอร์ในตัว DSP บัส AXI แบบกำหนดเอง) โครงการที่เชื่อมโยงอย่างแน่นหนาเช่นนี้ เมื่อเผชิญกับการเปลี่ยนแปลงสถาปัตยกรรม MoE ในอนาคต (เช่น การกำหนดเส้นทางผู้เชี่ยวชาญแบบไดนามิก Group-Query ความยาวแปรผัน) หมายความว่าทุกครั้งที่โมเดลมีการปรับปรุง จะต้องมีการปรับให้เข้ากันใหม่ในระดับการผลิตชิป ทำให้สูญเสียข้อได้เปรียบหลักด้านความยืดหยุ่นของ FPGA หรือไม่?
การบรรลุประสิทธิภาพต้นทุนขั้นสูงสุดจำเป็นต้องใช้การปรับปรุง RTL ด้วยมือในระดับละเอียด ซึ่งเป็นสิ่งที่วิธีการสังเคราะห์ระดับสูงหรือคอมไพเลอร์ในปัจจุบันทำได้ยาก แต่ประเด็นสำคัญคือสถาปัตยกรรม LLM หลักเมื่อเทียบกับ CNN มีแนวโน้มที่จะเสถียรแล้ว – โครงสร้างบล็อก Transformer รูปแบบการคำนวณที่ครอบงำโดย GEMV แนวคิดหลักเช่น GQA/MoE จะไม่เปลี่ยนแปลงอย่างรุนแรงในอนาคตอันใกล้
การออกแบบนี้เองมีขีดความสามารถในการกำหนดค่าด้วยพารามิเตอร์:
* เครื่องยนต์ GEMV รองรับการสลับความแม่นยำคู่ W4/KV8 โหมดคู่ AXPY/DOT
* เครื่องยนต์สเกลาร์บรรลุการปรับโครงสร้างไดนามิกระดับโอเปอเรเตอร์ผ่านวงจรแบ่งปันทรัพยากรตามเวลา

การออกแบบเหล่านี้ทำให้สามารถปรับให้เข้ากับมิติของเฮด จำนวนผู้เชี่ยวชาญ และแผนการควอนไทซ์ที่แตกต่างกันได้
ความท้าทายที่แท้จริงคือการขาดเครื่องมืออัตโนมัติ ซึ่งเปิดโอกาสสำหรับการสร้าง RTL ด้วยความช่วยเหลือของ AI – หากสามารถฝึกโมเดลให้สร้าง RTL ที่ปรับปรุงแล้วโดยอัตโนมัติโดยอิงจากความเสถียรของสถาปัตยกรรม LLM ก็จะสามารถรวมประสิทธิภาพของงานมือและการย้ายที่อัตโนมัติได้
ดังนั้น การออกแบบที่เชื่อมโยงอย่างแน่นหนาในปัจจุบันเป็นทางเลือกที่หลีกเลี่ยงไม่ได้ในขั้นตอนการพัฒนาทางเทคโนโลยี ไม่ใช่การละทิ้งความยืดหยุ่นโดยพื้นฐาน
หนึ่ง งานที่เกี่ยวข้อง: เส้นทางวิวัฒนาการของการเร่งความเร็ว LLM ด้วย FPGA
ก่อนเข้าสู่รายละเอียดทางเทคนิค จำเป็นต้องจัดลำดับเส้นทางการวิจัยการเร่งความเร็ว LLM ด้วย FPGA เพื่อทำความเข้าใจจุดที่เป็นนวัตกรรม
1.1 FPGA บนคลาวด์: แหล่งบ่มเพาะการตรวจสอบประสิทธิภาพ
การวิจัยการเร่งความเร็ว LLM ด้วย FPGA ในช่วงแรกส่วนใหญ่集中在แพลตฟอร์ม FPGA ประสิทธิภาพสูงบนคลาวด์ เช่น มีงานวิจัยที่ปรับใช้ LLaMA2-7B หรือ GPT-2-1.5B บน Alveo U280 ที่มี HBM พิสูจน์ความเป็นไปได้ของการเร่งความเร็ว LLM ด้วย FPGA แต่แพลตฟอร์มเหล่านี้มีราคาแพง และไม่สามารถย้ายไปยังสถานการณ์ขอบเครือข่ายที่อ่อนไหวต่อต้นทุนได้โดยตรง งานต่อมาบางงานแม้จะมีนวัตกรรมต่างกัน แต่ก็ไม่สามารถ突破ข้อจำกัดด้านต้นทุนฮาร์ดแวร์ได้
1.2 FPGA แบบฝังตัว: ความพยายามลดต้นทุน
ในปีที่ผ่านมา บางงานวิจัยเริ่มให้ความสนใจกับแพลตฟอร์ม FPGA แบบฝังตัว เช่น มีงานวิจัยที่ปรับใช้ LLaMA2-7B บน KV260 โดยมุ่งเน้นการเร่งความเร็วในขั้นตอนการถอดรหัส มีงานวิจัยที่ลดการใช้ทรัพยากรลงอีก ทำให้สามารถทำงานบนแพลตฟอร์มที่ถูกกว่าได้ แต่ก็สนับสนุนเฉพาะขั้นตอนการถอดรหัสเช่นกัน มีงานวิจัยอื่นที่แนะนำการเร่งความเร็วการเติมข้อมูลล่วงหน้า แต่โมเดลเป้าหมายคือ BitNet LLM ขนาดเล็กที่ผ่านการควอนไทซ์ขั้นรุนแรง ซึ่งส่งผลกระทบต่อคุณภาพโมเดลอย่างรุนแรง มีงานวิจัยที่บรรลุความเร็วในการเติมข้อมูลล่วงหน้าที่สูง แต่มุ่งเป้าเฉพาะโมเดลขนาดเล็ก 0.6B

ดังรูปที่ 2 งานวิจัยที่มีอยู่ดูเหมือนจะติดอยู่ในภาวะที่ต้องเลือกระหว่างหลายสิ่งที่ยากจะได้ครบ: ต้นทุนฮาร์ดแวร์ คุณภาพโมเดล ความเร็วในการเติมข้อมูลล่วงหน้าและการถอดรหัส การเพิ่มขึ้นในสี่มิติเหล่านี้มักต้องแลกกับการเสียสละมิติอื่นๆ เป้าหมายของการออกแบบนี้คือการ打破ภาวะที่ติดขัดนี้
สอง นวัตกรรมหลัก
แนวคิดหลักสามารถสรุปได้ว่า: ผ่านการเพิ่มประสิทธิภาพทรัพยากร FPGA ขั้นสูงสุด บรรลุการประมวลผลแบบขนานหลายโปรเซสเซอร์บนอุปกรณ์ต้นทุนต่ำ เพื่อตอบสนองความต้องการทั้งความเร็วในการถอดรหัสและความเร็วในการเติมข้อมูลล่วงหน้าในเวลาเดียวกัน การบรรลุแนวคิดนี้ขึ้นอยู่กับนวัตกรรมสามระดับ: การออกแบบฮาร์ดแวร์แบบกำหนดเองในระดับแพลตฟอร์ม การจัดองค์กรโปรเซสเซอร์หลายโทเค็นในระดับสถาปัตยกรรม และเทคนิคการเพิ่มประสิทธิภาพทรัพยากรในระดับไมโครสถาปัตยกรรม
2.1 โมเดลผู้เชี่ยวชาญแบบผสม: พันธมิตรโดยธรรมชาติของ FPGA
เพื่อเข้าใจว่าทำไมจึงเลือกโมเดลผู้เชี่ยวชาญแบบผสมเช่น Qwen3-30B-A3B จำเป็นต้องทบทวนวิธีการทำงานของ MoE

สำหรับแต่ละโทเค็นที่ป้อนเข้า เราเตอร์จะคำนวณว่าผู้เชี่ยวชาญใดถูกกระตุ้นผ่านการฉายเชิงเส้นและ softmax ก่อน จากนั้นเลือกผู้เชี่ยวชาญ K คนที่มีคะแนนสูงสุด และทำการ normalize ความน่าจะเป็นใหม่ ผู้เชี่ยวชาญแต่ละคนที่ถูกเลือกจะดำเนินการแปลงสามชั้น (เกต การฉายขึ้น การฉายลง)
ความละเอียดอ่อนของ MoE อยู่ที่: แม้จำนวนพารามิเตอร์รวมของโมเดลจะมาก แต่แต่ละโทเค็นจะกระตุ้นผู้เชี่ยวชาญเพียงส่วนเล็กๆ (เช่น เลือก 8 คนจาก 128 คน) ทำให้ปริมาณการเข้าถึงหน่วยความจำไม่เพิ่มขึ้นตามจำนวนพารามิเตอร์รวมแบบเชิงเส้น เมื่อความเบาบางของ MoE เพิ่มขึ้นอย่างต่อเนื่อง ภาระงานการเข้าถึงหน่วยความจำของแต่ละโทเค็นก็เข้าใกล้พื้นที่ที่เหมาะสมของฮาร์ดแวร์ DDR ต้นทุนต่ำมากขึ้น ซึ่งเปิดโอกาสที่ดีสำหรับ FPGA แบบฝังตัว
2.2 การสร้างแบบจำลองความต้องการทรัพยากร
ก่อนการนำไปใช้จริง ทีมวิจัยได้สร้างแบบจำลองความต้องการหน่วยความจำและความคาดหวังประสิทธิภาพของ Qwen3-30B-A3B อย่างแม่นยำ
ความต้องการหน่วยความจำ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25879
