ทีม Dynamic-dLLM ส่งบทความ
Quantum Bit | WeChat Official Account QbitAI
ในด้านการสร้างข้อความ โมเดลภาษาขนาดใหญ่แบบแพร่กระจาย (dLLMs) กำลังแสดงศักยภาพมหาศาล
แต่ในขณะเดียวกัน ก็ต้องเผชิญกับปัญหาคอขวดด้านการคำนวณที่รุนแรง —
ด้วยเหตุนี้ ทีมวิจัยจากมหาวิทยาลัยฮาร์บินแห่งเทคโนโลยี (เซินเจิ้น) ร่วมกับหัวเว่ย และสถาบันเหอเถาเซินเจิ้น จึงได้เสนอเฟรมเวิร์กการเร่งความเร็วแบบไม่ต้องฝึกอบรม Dynamic-dLLM
แตกต่างจากโซลูชันการเร่งความเร็ว dLLM กระแสหลัก (เช่น dLLM-Cache, Fast-dLLM) ซึ่งอาศัยแคชแบบคงที่หรือกลยุทธ์การถอดรหัสแบบขนานที่มีเกณฑ์ตายตัว Dynamic-dLLM ผสานการจัดสรรงบประมาณแคชแบบไดนามิก (DCU) และการถอดรหัสแบบขนานแบบปรับตัว (APD) อย่างชาญฉลาด ทำให้สามารถรักษาประสิทธิภาพที่ดีและเพิ่มอัตราเร่งอย่างมีนัยสำคัญ
บนโมเดลภาษาขนาดใหญ่แบบแพร่กระจายที่เป็นตัวแทนหลายตัวและเกณฑ์มาตรฐานหลักที่เชื่อถือได้ Dynamic-dLLM ทำผลงานได้ถึงระดับ SOTA
โดยเฉพาะอย่างยิ่ง ในงาน GSM8k ของโมเดล LLaDA-8B-Instruct Dynamic-dLLM ทำอัตราเร่งปริมาณงานได้ถึง 4.48 เท่า (จาก 8.32 TPS เป็น 37.29 TPS) โดยแทบไม่สูญเสียความแม่นยำ และทำอัตราเร่งเฉลี่ยข้ามงานได้มากกว่า 3 เท่า
ต่อไปนี้คือรายละเอียดเพิ่มเติม
ภูมิหลังการวิจัย
เฟรมเวิร์กการเร่งความเร็ว dLLMs ที่มีอยู่พยายามใช้คุณลักษณะระดับกลางจากขั้นตอนก่อนหน้าซ้ำ (เช่น Query, Key, Value) โดยสมมติว่าคุณลักษณะของขั้นตอนที่อยู่ติดกันมีความคล้ายคลึงกันสูง อย่างไรก็ตาม กลยุทธ์การเร่งความเร็วแบบคงที่นี้เผชิญกับปัญหาสำคัญสองประการ:
1. ความต้องการอัปเดตแคชในแต่ละเลเยอร์แตกต่างกันอย่างมาก:
ในการถอดรหัสจริง คุณลักษณะในเลเยอร์ตื้นจะเปลี่ยนแปลงอย่างช้าๆ ในขณะที่เลเยอร์ลึกจะเปลี่ยนแปลงอย่างรวดเร็ว สัดส่วนของ Token ที่ต้องอัปเดตแคชจะเพิ่มขึ้นแบบโมโนโทนิกตามจำนวนเลเยอร์ที่เพิ่มขึ้น กลยุทธ์การอัปเดตแคชแบบเดียวกันทำให้สิ้นเปลืองพลังการคำนวณอย่างมาก
2. การถอดรหัสแบบขนานที่มีเกณฑ์ตายตัวขัดขวางประสิทธิภาพ:
การถอดรหัสแบบขนานจะตรึง Token (Unmask) เมื่อความเชื่อมั่นของ Token เกินเกณฑ์ที่ตั้งไว้
แต่ในขั้นตอนแรกๆ Token ที่มีความเชื่อมั่นสูงสุดมักไม่ใช่ผลลัพธ์สุดท้าย เกณฑ์ตายตัวจะทำให้เกิด “คำมั่นสัญญาก่อนเวลาอันควร” ซึ่งนำไปสู่การสะสมข้อผิดพลาด ในขณะที่ Token ที่มีการกระจายตัวสูงมาก ก็จะเสียขั้นตอนการคำนวณโดยเปล่าประโยชน์เพราะความเชื่อมั่นสัมบูรณ์ไม่ถึงเกณฑ์
ดังที่แสดงในรูปด้านบน ความคล้ายคลึงของคุณลักษณะ Token และความต้องการอัปเดตในเลเยอร์และขั้นตอนต่างๆ แตกต่างกันอย่างมีนัยสำคัญ รูป (e) แสดงปรากฏการณ์ที่การใช้เกณฑ์ตายตัวทำให้ผู้สมัครที่ถูกต้องที่มีศักยภาพถูกทิ้งอย่างผิดพลาด
สิ่งนี้พิสูจน์ถึงความจำเป็นในการปรับให้สอดคล้องกับลักษณะไดนามิกในระดับเลเยอร์และขั้นตอนของโมเดลอย่างไดนามิก
ผสาน DCU และ APD เพื่อการเร่งความเร็วแบบไดนามิกสูงสุด
DCU: การอัปเดตแคชแบบไดนามิก
เพื่อตอบสนองต่อลักษณะไดนามิกที่แตกต่างกันของคุณลักษณะ Token ระหว่างเลเยอร์ DCU จึงใช้การจัดสรรงบประมาณแคชแบบปรับตัว:
1. การจัดสรรงบประมาณแบบปรับตัวตามเลเยอร์:
โดยไม่ต้องคำนวณเวกเตอร์ Value ที่มีต้นทุนสูงซ้ำ DCU ใช้ระยะทางโคไซน์ระหว่างขั้นตอนที่อยู่ติดกันโดยตรงจากอินพุต Token ที่ผ่านการ Normalize เป็นตัววัดการเปลี่ยนแปลง
โดยการรวบรวมการเปลี่ยนแปลงในระดับ Token DCU จะคำนวณความคึกคักของแต่ละเลเยอร์แบบไดนามิก และจัดสรรงบประมาณการอัปเดตทั้งหมดตามสัดส่วนให้กับเลเยอร์ที่มีการเปลี่ยนแปลงมากที่สุด
2. หน้าต่างการอัปเดตบังคับ (แก้ปัญหาการติดหล่ม):
หาก Token ถูกจัดลำดับความสำคัญต่ำและไม่ได้อัปเดต คุณลักษณะของมันจะคงที่ ทำให้เมื่อคำนวณในเลเยอร์ถัดไป ค่าการเปลี่ยนแปลงจะเป็น 0 ซึ่งนำไปสู่ Token ที่ “ติดค้าง (Stuck in the mud)” ข้ามเลเยอร์
ด้วยเหตุนี้ ตามหลักการของ Locality DCU จึงแนะนำหน้าต่างการอัปเดตบังคับ (Mandatory Update Window) ที่มีขนาดคงที่ เพื่อให้แน่ใจว่า Token ที่สำคัญและพื้นที่โดยรอบจะถูกบังคับให้อัปเดตแคช จึงรับประกันว่าบริบทที่สำคัญจะตอบสนองต่อการเปลี่ยนแปลงในพื้นที่
APD: การถอดรหัสแบบขนานแบบปรับตัว
เพื่อตอบสนองต่อลักษณะที่ความเชื่อมั่นของ Token ผันผวนตามขั้นตอนการถอดรหัส APD จึงแนะนำกลไกการปรับเทียบเกณฑ์แบบไดนามิก โดยกำหนดเกณฑ์การปลด Mask เฉพาะสำหรับแต่ละ Token:
1. การปรับเกณฑ์ตามความเข้มข้นของความเชื่อมั่น:
โดยการคำนวณความแตกต่างระหว่างความน่าจะเป็นสูงสุดและสูงสุดอันดับสองของการกระจายการคาดการณ์ของ Token (ความเข้มข้น) สำหรับ Token ที่มีการกระจายตัวสูง (มีแนวโน้มสูงที่จะไม่เปลี่ยนแปลงอีก) จะลดเกณฑ์ลงเพื่อให้ตรึงได้เร็วขึ้น สำหรับ Token ที่มีการกระจายตัวกระจาย จะเพิ่มเกณฑ์เพื่อป้องกันการตัดสินผิดพลาด
2. ผสานความไม่เสถียรทางเวลา:
รวมระยะทางโคไซน์ของการกระจายความน่าจะเป็นระหว่างขั้นตอนที่อยู่ติดกัน เพื่อวัดความผันผวนของการคาดการณ์ในอดีตของ Token นั้น หากการคาดการณ์ไม่เสถียรอย่างยิ่ง จะใช้บทลงโทษเกณฑ์ที่เข้มงวดยิ่งขึ้นเพื่อป้องกันการถอดรหัสก่อนเวลาอันควร
ผลการทดลอง
Dynamic-dLLM ได้รับการประเมินอย่างครอบคลุมบนโมเดลภาษาขนาดใหญ่แบบแพร่กระจายกระแสหลัก 3 ตัว และชุดข้อมูลที่ท้าทาย 5 ชุด
จะเห็นได้ว่า:
-
การเร่งความเร็วและการรักษาประสิทธิภาพ: ดังแสดงในตารางที่ 1, 2 และ 3 ไม่ว่าจะเป็น LLaDA-8B-Instruct หรือ Dream-v0-7B-Instruct Dynamic-dLLM (และเวอร์ชันที่จับคู่กับการถอดรหัสแบบขนาน) ล้วนนำหน้าโซลูชัน dLLM-Cache, dKV-Cache และ Fast-dLLM ในขณะที่รักษาหรือเพิ่มความแม่นยำเล็กน้อย TPS เฉลี่ยเพิ่มขึ้นถึง 2.5x~3.2x
-
ความสามารถในการสรุปทั่วไปข้ามโมเดล: บน LLaDA-1.5 อัตราเร่งของงาน GSM8k สูงถึง 4.46x (37.02 TPS เทียบกับ 8.30 TPS) อัตราเร่งของโมเดล Dream ก็สูงถึง 3.91x เช่นกัน ซึ่งพิสูจน์ความสามารถของวิธีการนี้ในการสรุปทั่วไปต่อความแตกต่างทางสถาปัตยกรรม
นอกจากนี้ การทดลองแบบ Ablation ยังแสดงให้เห็นถึงผลกระทบของการแลกเปลี่ยนระหว่างไฮเปอร์พารามิเตอร์ที่สำคัญต่อความแม่นยำและปริมาณงาน พร้อมทั้งพิสูจน์ว่าเกณฑ์แบบไดนามิกเมื่อเทียบกับเกณฑ์ตายตัวสามารถลดขั้นตอนการอนุมานได้อีกประมาณ 30% โดยไม่สูญเสียจุดประสิทธิภาพ
โดยสรุป นักวิจัยสังเกตเห็นอย่างเฉียบแหลมว่าในระหว่างการอนุมานของ dLLM ที่สร้างแบบไม่ใช้ Autoregressive การอัปเดตคุณลักษณะและความเชื่อมั่นมีการเปลี่ยนแปลงแบบไดนามิกอย่างรุนแรงตาม “เลเยอร์” และ “ขั้นตอน” ในขณะที่เฟรมเวิร์กการเร่งความเร็วที่มีอยู่มองข้ามสิ่งนี้ ทำให้เกิดการสูญเสียประสิทธิภาพและการคำนวณที่ซ้ำซ้อน
และผลงานของบทความนี้สามารถสรุปได้ดังนี้:
1. เผยข้อจำกัดของกลยุทธ์การเร่งความเร็วแบบกฎตายตัวที่มีอยู่: ค้นพบว่ากฎการเปลี่ยนแปลงแบบไดนามิกระหว่างเลเยอร์และขั้นตอนการถอดรหัสของ dLLMs จะลดประสิทธิภาพของเฟรมเวิร์กแคชแบบคงที่
2. เสนอเฟรมเวิร์กการเร่งความเร็วแบบไม่ต้องฝึกอบรม Dynamic-dLLM: ผสานการอัปเดตแคชแบบไดนามิก (DCU) และการถอดรหัสแบบขนานแบบปรับตัว (APD) อย่างชาญฉลาด เพื่อแก้ปัญหาการจัดสรรพลังการคำนวณในเลเยอร์และการตัดสินความเชื่อมั่นแบบไดนามิกที่ผิดพลาด
3. ประสิทธิภาพที่ยอดเยี่ยมแบบ Plug-and-Play: บรรลุประสิทธิภาพ SOTA ที่สอดคล้องกันบนโมเดลแพร่กระจายโอเพนซอร์สกระแสหลักและการทดสอบเกณฑ์มาตรฐานหลายมิติ ในขณะที่รักษาความแม่นยำของโมเดลไว้ ก็สามารถเร่งการอนุมานได้มากกว่า 3 เท่าโดยเฉลี่ย ซึ่งขจัดอุปสรรคสำหรับการปรับใช้จริงของ dLLMs ที่มีความหน่วงต่ำ
ลิงก์บทความ: https://openreview.net/forum?id=SdnkB5pGbq
ลิงก์โค้ด: https://github.com/TianyiWu233/DYNAMIC-DLLM
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33641
