ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%

1 day ago • การอนุมานโมเดลขนาดใหญ่ • 30 views

คำสำคัญ: ภาษาโมเดลขนาดใหญ่ฝั่งอุปกรณ์, การสร้างแบบจำลอง Roofline, การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์, กฎการปรับขนาด, ความเหมาะสมแบบพาเรโต, การค้นหาโครงสร้าง

ส่วนที่ 1: กฎการปรับขนาดการออกแบบร่วมระหว่างฮาร์ดแวร์และโมเดลภาษาขนาดใหญ่ฝั่งอุปกรณ์โดยอิงจากการสร้างแบบจำลอง Roofline

การนำภาษาโมเดลขนาดใหญ่ไปใช้งานฝั่งอุปกรณ์ต้องเผชิญกับการแลกเปลี่ยนระหว่างความแม่นยำของโมเดลและประสิทธิภาพการอนุมานมาเป็นเวลานาน โมเดลที่มีอยู่ในปัจจุบันส่วนใหญ่ยังคงใช้รูปแบบโครงสร้างทั่วไป ขาดกฎการปรับขนาดและการออกแบบที่เป็นระบบที่ประสานงานอย่างลึกซึ้งกับลักษณะเฉพาะของฮาร์ดแวร์พื้นฐาน

ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%

บทความนี้ได้แก้ไขจุดบกพร่องดังกล่าว โดยสร้างแบบจำลองการวิเคราะห์ความล่าช้าในการอนุมานแบบครบวงจรที่ครอบคลุมทั้งช่วงการเติมข้อมูลล่วงหน้าและการถอดรหัส โดยอิงจากกรอบการสร้างแบบจำลองประสิทธิภาพ Roofline พร้อมทั้งได้สร้างกฎการปรับขนาดการสูญเสียของโมเดลที่มีความเชื่อมั่นสูง โดยอิงจากการฝึกอบรม 170 ชุดที่ครอบคลุมทั้งโครงสร้างแบบหนาแน่นและแบบเบาบาง MoE

จากพื้นฐานนี้ ผู้เขียนได้เสนอกรอบการค้นหาโครงสร้าง LLM ที่เหมาะสมแบบพาเรโต (PLAS) ผ่านการวิเคราะห์เชิงระบบของโครงสร้าง 1,942 ชุด เพื่อสร้างขอบเขตหน้าด้านพาเรโตที่มีเป้าหมายสองประการคือความแม่นยำและความล่าช้า ซึ่งเผยให้เห็นการค้นพบหลักหลายประการสำหรับการใช้งานฝั่งอุปกรณ์ เช่น โครงสร้าง MoE ครอบคลุมทั้งหมด การออกแบบที่กว้างและตื้นดีกว่า อัตราการขยาย FFN ต่ำกว่าค่า 4× ทั่วไปอย่างมาก เป็นต้น

ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%
รูปที่ 3 | ภาพรวมกรอบการค้นหาโครงสร้างภาษาโมเดลขนาดใหญ่ที่เหมาะสมแบบพาเรโต (PLAS) กรอบนี้รวม (1) การสร้างแบบจำลองการสูญเสียเชิงประจักษ์ผ่านการปรับกฎการปรับขนาด (2) การประมาณความล่าช้าอิงจาก Roofline และ (3) การสร้างขอบเขตหน้าด้านพาเรโต เพื่อให้สามารถเลือกโครงสร้างที่ตระหนักถึงฮาร์ดแวร์

บทความนี้ได้สร้างกรอบทฤษฎีการปรับโครงสร้างภายใต้ข้อจำกัดของฮาร์ดแวร์เพิ่มเติม โดยได้หาคำตอบแบบปิดของพารามิเตอร์โครงสร้างที่เหมาะสมที่สุดภายใต้สถานการณ์ข้อจำกัดต่างๆ ซึ่งช่วยลดรอบการเลือกโครงสร้างจากหลายเดือนเหลือภายในหนึ่งสัปดาห์

ผลการทดสอบเชิงประจักษ์แสดงให้เห็นว่าโมเดลที่ออกแบบร่วมกันนี้มีค่า Perplexity ลดลง 19.42% เมื่อเทียบกับโมเดลโอเพนซอร์สหลักที่ความล่าช้าเท่ากัน ซึ่งให้การสนับสนุนทางทฤษฎีและแนวทางปฏิบัติสำหรับการออกแบบร่วมระหว่างฮาร์ดแวร์และโมเดลของ LLM ฝั่งอุปกรณ์

คำถามสำคัญ

คำถามที่หนึ่ง: กฎการออกแบบร่วมกับฮาร์ดแวร์มีคุณสมบัติในการถ่ายโอนข้ามแพลตฟอร์มจริงหรือไม่ หรือเป็นเพียงการบังเอิญที่ใช้ได้กับ NVIDIA Jetson Orin เท่านั้น?

กฎการออกแบบร่วมกับฮาร์ดแวร์ที่เสนอในบทความนี้ส่วนใหญ่มาจากการวัดจริงและการปรับให้เหมาะสมของโครงสร้าง 1,942 แบบบน NVIDIA Jetson Orin แม้ว่าจะอ้างว่าสนับสนุน “การขยายผลข้ามแพลตฟอร์ม” แต่การสร้างแบบจำลองการสูญเสีย-ความล่าช้าที่เป็นแกนหลักนั้นขึ้นอยู่กับพารามิเตอร์ Roofline ของฮาร์ดแวร์เฉพาะ (เช่น แบนด์วิดท์, ประสิทธิภาพการคำนวณ) และโครงสร้างลำดับชั้นของหน่วยความจำอย่างมาก หากถ่ายโอนโมเดลชุดเดียวกันไปยังอุปกรณ์ Edge ที่มีสถาปัตยกรรมต่างกัน (เช่น TPU, NPU หรือโปรเซสเซอร์ ARM ฝั่งอุปกรณ์เคลื่อนที่) รูปแบบการเข้าถึง KV-cache, แบนด์วิดท์หน่วยความจำ และพฤติกรรมการจัดตารางโอเปอเรเตอร์จะเปลี่ยนแปลงไปอย่างสิ้นเชิง ทำให้แบบจำลองความล่าช้าที่ปรับไว้ก่อนหน้านี้อาจใช้การไม่ได้ แม้ว่าผู้เขียนจะแนะนำให้ทำการตรวจสอบเพียงเล็กน้อยบนแพลตฟอร์มใหม่ แต่ไม่ได้ให้ขีดจำกัดบนทางทฤษฎีของความคลาดเคลื่อนในการทำนายข้ามแพลตฟอร์มหรือกลไกการแก้ไข ดังนั้น “กฎ” นี้โดยพื้นฐานแล้วเป็นการปรับให้เหมาะสมเชิงประจักษ์เฉพาะแพลตฟอร์ม ขาดการรับประกันความทนทานต่อความหลากหลายของฮาร์ดแวร์ ความเป็นสากลยังคงเป็นที่น่าสงสัยหรือไม่?

กฎการออกแบบร่วมกับฮาร์ดแวร์ที่เสนอในบทความนี้มีความสามารถในการถ่ายโอนกรอบทฤษฎีข้ามแพลตฟอร์ม ไม่ได้จำกัดเฉพาะ NVIDIA Jetson Orin เท่านั้น ประเด็นสำคัญคือวิธีการหลักของมันเป็นแบบมีพารามิเตอร์: ลักษณะของฮาร์ดแวร์จะถูกใส่เข้าไปในโมเดลผ่านพารามิเตอร์ เช่น ประสิทธิภาพการคำนวณสูงสุดและแบนด์วิดท์หน่วยความจำ แทนที่จะถูกเข้ารหัสตายตัวในกฎเอง เมื่อนำไปใช้งานบนแพลตฟอร์มใหม่ จำเป็นต้องวัดพารามิเตอร์สำคัญของฮาร์ดแวร์นั้น และคำนวณผลรวมของงบประมาณที่ปรับให้เป็นมาตรฐานใหม่ จากนั้นจึงสามารถทำนายโครงสร้างที่เหมาะสมที่สุดได้ด้วยสูตรทฤษฎีเดียวกัน ดังนั้น สิ่งที่ถ่ายโอนคือความสัมพันธ์เชิงโครงสร้าง เช่น ความสัมพันธ์ผกผันระหว่างความลึกและความกว้าง กฎการเชื่อมโยงความกว้าง-ความเบาบาง ไม่ใช่ค่าตัวเลขเฉพาะ ผู้เขียนเน้นว่ายังคงต้องมีการฝึกอบรมและตรวจสอบในระดับเล็กน้อยบนแพลตฟอร์มใหม่ ซึ่งก็เพื่อปรับเทียบความเบี่ยงเบนในระดับระบบ นี่เป็นการพิสูจน์ความทนทานของกรอบงาน ไม่ใช่ความบังเอิญ

คำถามที่สอง: ผลกระทบร่วมระหว่าง KV-cache และการกระตุ้นแบบเบาบางได้รับการสร้างแบบจำลองอย่างเพียงพอหรือไม่ โดยเฉพาะในสถานการณ์การถอดรหัสลำดับยาว?

บทความนี้ได้นำ KV-cache ที่ขึ้นกับ GQA เข้ามาในการสร้างแบบจำลองความล่าช้า แต่ในส่วนการปรับโครงสร้างทางทฤษฎี เทอม KV-cache ทำหน้าที่เป็นเพียงปัจจัยแก้ไข และไม่ได้สร้างการเชื่อมโยงที่แข็งแกร่งกับอัตราการกระตุ้นและอัตราการขยาย FFN อย่างไรก็ตาม ในการถอดรหัสลำดับยาวจริง การจัดเก็บและการเข้าถึง KV-cache จะเพิ่มขึ้นเป็นเส้นตรงตามความยาวของลำดับ และยังแข่งขันกับจำนวนผู้เชี่ยวชาญในการกระตุ้นแบบเบาบางเพื่อแย่งชิงแบนด์วิดท์หน่วยความจำที่มีจำกัด โมเดลปัจจุบันเชื่อมโยงอัตราการกระตุ้นกับข้อจำกัดด้านการจัดเก็บเท่านั้น โดยละเลยผลกระทบทางอ้อมต่อแบนด์วิดท์ KV-cache ซึ่งอาจทำให้ประเมินความล่าช้าต่ำเกินไปหรือประเมินผลประโยชน์จากความเบาบางสูงเกินไปในสถานการณ์ที่มีผลลัพธ์ยาว ควรสร้างข้อจำกัดร่วมระหว่างอัตราการกระตุ้นและแบนด์วิดท์ KV-cache เพื่ออธิบายการแข่งขันทรัพยากรในขั้นตอนการถอดรหัสได้แม่นยำยิ่งขึ้นหรือไม่?

บทความนี้ได้สร้างแบบจำลองผลกระทบร่วมระหว่าง KV-cache และการกระตุ้นแบบเบาบางอย่างชัดเจน โดยเฉพาะในขั้นตอนการถอดรหัส ซึ่งแสดงให้เห็นในสามด้านหลัก:

ข้อจำกัดความล่าช้าในการถอดรหัสรวมถึงเทอม KV-cache อย่างชัดเจน: ดังแสดงในสูตร (45) ปริมาณการเข้าถึง KV-cache เป็นสัดส่วนโดยตรงกับความยาวลำดับและมิติของโมเดล และถูกปรับโดยจำนวนกลุ่ม GQA
การวัดปริมาณการเชื่อมโยงภายใต้สถานการณ์ข้อจำกัดสองประการ: ภายใต้เงื่อนไขข้อจำกัดสองประการของการถอดรหัสและหน่วยความจำในทฤษฎีบท 5.3(b) หลังจากเพิ่มเทอมแก้ไข KV-cache (ดูภาคผนวก H) การหาอัตราการกระตุ้นที่เหมาะสมที่สุดจำเป็นต้องแก้สมการกำลังสอง ซึ่งบ่งชี้ว่ามีการเชื่อมโยงทางอ้อมระหว่างการวัดปริมาณและ KV-cache (ผ่านการส่งผลต่อข้อจำกัดปริมาณพารามิเตอร์ทั้งหมด ซึ่งส่งผลทางอ้อมต่อตัวส่วน)
ผลกระทบของลำดับยาว: เทอมความยาวลำดับในสูตรความล่าช้าแสดงให้เห็นถึงผลการขยายเชิงเส้นตรงต่อความต้องการแบนด์วิดท์ KV-cache

โมเดลปัจจุบันสมมติว่าจำนวนผู้เชี่ยวชาญที่ถูกกระตุ้นคงที่ ดังนั้นจึงไม่ส่งผลกระทบโดยตรงต่อปริมาณการเข้าถึง KV-cache ต่อขั้นตอน สมมติฐานนี้สมเหตุสมผลในสถานการณ์การถอดรหัสที่มีขนาดแบทช์เป็น 1 แต่ในกรณีลำดับยาว หากแบนด์วิดท์หน่วยความจำถูกใช้เต็มโดย KV-cache สัดส่วนความล่าช้าในการโหลดน้ำหนักผู้เชี่ยวชาญจะลดลง โมเดลได้จับความสัมพันธ์การแข่งขันนี้ผ่านเทอมการเชื่อมโยงในสูตร (40) แล้ว

4. การค้นหาโครงสร้างที่เหมาะสมแบบพาเรโต

บทนี้เสนอPLAS (กรอบการค้นหาโครงสร้างภาษาโมเดลขนาดใหญ่ที่เหมาะสมแบบพาเรโต, Pareto-optimal LLM Architecture Search) ซึ่งเป็นกรอบการสร้างแบบจำลองร่วมระหว่างการสูญเสียในการฝึกอบรมและความล่าช้าในการอนุมาน โดยมีเป้าหมายเพื่อให้สามารถเลือกโครงสร้างที่ตระหนักถึงฮาร์ดแวร์

ประการแรก สร้างแบบจำลองการสูญเสียเชิงประจักษ์โดยการปรับผลลัพธ์จากโครงสร้างที่ฝึกอบรมแล้ว 170 แบบ เพื่อทำนายการสูญเสียในการตรวจสอบโดยประมาณโดยไม่ต้องค้นหาแบบละเอียดถี่ถ้วน
ประการที่สอง แสดงลักษณะความล่าช้าในการอนุมานของโมเดลผ่านการสร้างแบบจำลองเชิงวิเคราะห์อิงจากแบบจำลอง Roofline และการวัดจริงบนแพลตฟอร์ม Edge
สุดท้าย ผสานแบบจำลองการสูญเสียและความล่าช้าเพื่อหาขอบเขตหน้าด้านพาเรโต และแสดงให้เห็นว่าสามารถชี้นำการเลือกโครงสร้างภายใต้งบประมาณความล่าช้าของสถานการณ์การใช้งานต่างๆ ได้อย่างไร

รูปที่ 3 แสดงขั้นตอนการทำงานโดยรวมของกรอบงานนี้

ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%
รูปที่ 3 | ภาพรวมกรอบการค้นหาโครงสร้างภาษาโมเดลขนาดใหญ่ที่เหมาะสมแบบพาเรโต (PLAS) กรอบนี้รวม (1) การสร้างแบบจำลองการสูญเสียเชิงประจักษ์อิงจากการปรับกฎการปรับขนาด (2) การประมาณความล่าช้าอิงจากแบบจำลอง Roofline และ (3) การสร้างขอบเขตหน้าด้านพาเรโต เพื่อให้สามารถเลือกโครงสร้างที่ตระหนักถึงฮาร์ดแวร์

4.1 การทำนายการสูญเสียอิงจากกฎการปรับขนาด

การได้กฎการปรับขนาดแบบมีพารามิเตอร์ที่มีความเที่ยงตรงสูงเป็นเรื่องที่ท้าทาย งานการปรับของเราอิงจากโครงสร้าง Transformer 170 แบบที่ฝึกอบรมแล้ว ครอบคลุมทั้งโครงสร้างแบบเบาบาง (โมเดลผู้เชี่ยวชาญผสม, MoE) และแบบหนาแน่น แต่ละโครงสร้างได้รับการฝึกอบรมภายใต้การตั้งค่าที่ควบคุมอย่างเข้มงวด ด้วยงบประมาณการฝึกอบรมโทเค็นคงที่ 10 พันล้านโทเค็น

เราเลือกการกำหนดค่าของโครงสร้างอย่างรอบคอบเพื่อครอบคลุมพื้นที่การออกแบบทั้งหมด ในขณะเดียวกันก็ปรับความลึกของโมเดล, ความกว้าง, ความเบาบางของ MoE, อัตราการขยายของเครือข่ายฟีดฟอร์เวิร์ด (FFN) และมิติแคชคีย์-เวลู (KV) และหลีกเลี่ยงช่วงพารามิเตอร์ที่เสื่อมสภาพหรือผิดปกติ

4.1.1 โปรโตคอลการฝึกอบรมล่วงหน้า

โมเดลทั้งหมดใช้การตั้งค่าการฝึกอบรมเดียวกันเพื่อให้การเปรียบเทียบเป็นธรรม:

ข้อมูลการฝึกอบรม: แต่ละการกำหนดค่าจะถูกฝึกอบรมบนชุดข้อมูล 10 พันล้านโทเค็น ซึ่งรวมคลังข้อความทั่วไป, คลังข้อความการให้เหตุผลทางคณิตศาสตร์ และคลังข้อความโค้ดเข้าด้วยกัน เพียงพอที่จะสังเกตคุณสมบัติการปรับขนาดของโมเดล ในขณะที่รักษาความสามารถในการคำนวณได้ คลังข้อความการฝึกอบรมนี้จะเผยแพร่สู่สาธารณะหลังจากตีพิมพ์บทความ
กลยุทธ์การปรับให้เหมาะสม: โมเดลทั้งหมดได้รับการฝึกอบรมโดยใช้ออปติไมเซอร์ AdamW โดยตั้งค่าพารามิเตอร์เกินเป็น β₁=0.9, β₂=0.95, ค่าสัมประสิทธิ์การลดน้ำหนักเป็น 0.01 อัตราการเรียนรู้ใช้กลยุทธ์การลดลงแบบโคไซน์ จากค่าเริ่มต้นลดลงจนถึงค่าต่ำสุด และมีการวอร์มอัพเชิงเส้นในช่วง 0.2% แรกของขั้นตอนการฝึกอบรม เพื่อเพิ่มความเสถียรในการฝึกอบรม (โดยเฉพาะสำหรับการกำหนดค่า MoE) ใช้กลยุทธ์การทำให้เป็นมาตรฐาน QK ขนาดแบทช์รวมของทุกการทดลองตั้งไว้ที่ 256
วิธีการประเมิน: ประสิทธิภาพของโมเดลประเมินผ่านการสูญเสียในการตรวจสอบต้นทางบนชุดตรวจสอบสำรองประมาณ 1 พันล้านโทเค็น โดยหาค่าเฉลี่ยของ 10 ขั้นตอนการปรับให้เหมาะสมสุดท้ายเพื่อลดความแปรปรวน นอกจากนี้ ยังประเมินความสามารถในการสรุปทั่วไปของโมเดลเพิ่มเติมโดยรายงานค่า Perplexity (ค่าที่ต่ำกว่าหมายถึงผลการทำนายที่ดีกว่า) บนชุดทดสอบ WikiText-2

4.1.2 การปรับกฎการปรับขนาด

เราใช้การกำหนดค่าการฝึกอบรม 120 แบบเป็นพื้นฐาน ใช้วิธีกำลังสองน้อยที่สุดแบบไม่เชิงเส้นเพื่อปรับกฎการปรับขนาดแบบมีพารามิเตอร์ในรูปแบบของสูตร (2) และสำรองการกำหนดค่า 17 แบบเป็นชุดตรวจสอบ การสำรวจที่ครอบคลุมและมีโครงสร้างนี้ทำให้ได้การปรับที่เสถียรซึ่งมีความสามารถในการสรุปทั่วไปที่แข็งแกร่ง

ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%
รูปที่ 4 | คุณภาพการปรับกฎการปรับขนาด ชุดฝึกอบรม (138 การกำหนดค่า); ชุดตรวจสอบ (32 การกำหนดค่าที่สำรองไว้) ผลการปรับนี้ยืนยันความเที่ยงตรงสูงของกฎการปรับขนาด แม้ในพื้นที่โครงสร้างที่หลากหลายซึ่งครอบคลุมทั้งแบบหนาแน่นและแบบเบาบาง การปรับยังคงเสถียร ค่า R² สูงแสดงว่าโมเดลสามารถทำนายการสูญเสียในการตรวจสอบของโครงสร้างต่างๆ ได้อย่างแม่นยำ ลดต้นทุนการลองผิดลองถูกในการสำรวจโครงสร้างลงอย่างมาก และยังวางพื้นฐานเชิงประจักษ์ที่เชื่อถือได้สำหรับการวิเคราะห์พาเรโตร่วม