แคชแบบไดนามิก + การถอดรหัสแบบปรับตัวได้ ทีมวิจัยจากมหาวิทยาลัยฮาร์บินและหัวเว่ยร่วมกันเสนอกรอบการเร่งความเร็ว dLLM ที่ไม่ต้องฝึกอบรม เพิ่มความเร็วสูงสุดถึง 4.48 เท่า

4 days ago • การอนุมานโมเดลขนาดใหญ่ • 46 views

ทีม Dynamic-dLLM ส่งบทความ

Quantum Bit | WeChat Official Account QbitAI

ในด้านการสร้างข้อความ โมเดลภาษาขนาดใหญ่แบบแพร่กระจาย (dLLMs) กำลังแสดงศักยภาพมหาศาล
แต่ในขณะเดียวกัน ก็ต้องเผชิญกับปัญหาคอขวดด้านการคำนวณที่รุนแรง —

ด้วยเหตุนี้ ทีมวิจัยจากมหาวิทยาลัยฮาร์บินแห่งเทคโนโลยี (เซินเจิ้น) ร่วมกับหัวเว่ย และสถาบันเหอเถาเซินเจิ้น จึงได้เสนอเฟรมเวิร์กการเร่งความเร็วแบบไม่ต้องฝึกอบรม Dynamic-dLLM

แตกต่างจากโซลูชันการเร่งความเร็ว dLLM กระแสหลัก (เช่น dLLM-Cache, Fast-dLLM) ซึ่งอาศัยแคชแบบคงที่หรือกลยุทธ์การถอดรหัสแบบขนานที่มีเกณฑ์ตายตัว Dynamic-dLLM ผสานการจัดสรรงบประมาณแคชแบบไดนามิก (DCU) และการถอดรหัสแบบขนานแบบปรับตัว (APD) อย่างชาญฉลาด ทำให้สามารถรักษาประสิทธิภาพที่ดีและเพิ่มอัตราเร่งอย่างมีนัยสำคัญ

บนโมเดลภาษาขนาดใหญ่แบบแพร่กระจายที่เป็นตัวแทนหลายตัวและเกณฑ์มาตรฐานหลักที่เชื่อถือได้ Dynamic-dLLM ทำผลงานได้ถึงระดับ SOTA

โดยเฉพาะอย่างยิ่ง ในงาน GSM8k ของโมเดล LLaDA-8B-Instruct Dynamic-dLLM ทำอัตราเร่งปริมาณงานได้ถึง 4.48 เท่า (จาก 8.32 TPS เป็น 37.29 TPS) โดยแทบไม่สูญเสียความแม่นยำ และทำอัตราเร่งเฉลี่ยข้ามงานได้มากกว่า 3 เท่า

ต่อไปนี้คือรายละเอียดเพิ่มเติม

ภูมิหลังการวิจัย

เฟรมเวิร์กการเร่งความเร็ว dLLMs ที่มีอยู่พยายามใช้คุณลักษณะระดับกลางจากขั้นตอนก่อนหน้าซ้ำ (เช่น Query, Key, Value) โดยสมมติว่าคุณลักษณะของขั้นตอนที่อยู่ติดกันมีความคล้ายคลึงกันสูง อย่างไรก็ตาม กลยุทธ์การเร่งความเร็วแบบคงที่นี้เผชิญกับปัญหาสำคัญสองประการ:

1. ความต้องการอัปเดตแคชในแต่ละเลเยอร์แตกต่างกันอย่างมาก:
ในการถอดรหัสจริง คุณลักษณะในเลเยอร์ตื้นจะเปลี่ยนแปลงอย่างช้าๆ ในขณะที่เลเยอร์ลึกจะเปลี่ยนแปลงอย่างรวดเร็ว สัดส่วนของ Token ที่ต้องอัปเดตแคชจะเพิ่มขึ้นแบบโมโนโทนิกตามจำนวนเลเยอร์ที่เพิ่มขึ้น กลยุทธ์การอัปเดตแคชแบบเดียวกันทำให้สิ้นเปลืองพลังการคำนวณอย่างมาก

2. การถอดรหัสแบบขนานที่มีเกณฑ์ตายตัวขัดขวางประสิทธิภาพ:
การถอดรหัสแบบขนานจะตรึง Token (Unmask) เมื่อความเชื่อมั่นของ Token เกินเกณฑ์ที่ตั้งไว้
แต่ในขั้นตอนแรกๆ Token ที่มีความเชื่อมั่นสูงสุดมักไม่ใช่ผลลัพธ์สุดท้าย เกณฑ์ตายตัวจะทำให้เกิด “คำมั่นสัญญาก่อนเวลาอันควร” ซึ่งนำไปสู่การสะสมข้อผิดพลาด ในขณะที่ Token ที่มีการกระจายตัวสูงมาก ก็จะเสียขั้นตอนการคำนวณโดยเปล่าประโยชน์เพราะความเชื่อมั่นสัมบูรณ์ไม่ถึงเกณฑ์

ดังที่แสดงในรูปด้านบน ความคล้ายคลึงของคุณลักษณะ Token และความต้องการอัปเดตในเลเยอร์และขั้นตอนต่างๆ แตกต่างกันอย่างมีนัยสำคัญ รูป (e) แสดงปรากฏการณ์ที่การใช้เกณฑ์ตายตัวทำให้ผู้สมัครที่ถูกต้องที่มีศักยภาพถูกทิ้งอย่างผิดพลาด

สิ่งนี้พิสูจน์ถึงความจำเป็นในการปรับให้สอดคล้องกับลักษณะไดนามิกในระดับเลเยอร์และขั้นตอนของโมเดลอย่างไดนามิก

ผสาน DCU และ APD เพื่อการเร่งความเร็วแบบไดนามิกสูงสุด

DCU: การอัปเดตแคชแบบไดนามิก

เพื่อตอบสนองต่อลักษณะไดนามิกที่แตกต่างกันของคุณลักษณะ Token ระหว่างเลเยอร์ DCU จึงใช้การจัดสรรงบประมาณแคชแบบปรับตัว:

1. การจัดสรรงบประมาณแบบปรับตัวตามเลเยอร์:
โดยไม่ต้องคำนวณเวกเตอร์ Value ที่มีต้นทุนสูงซ้ำ DCU ใช้ระยะทางโคไซน์ระหว่างขั้นตอนที่อยู่ติดกันโดยตรงจากอินพุต Token ที่ผ่านการ Normalize เป็นตัววัดการเปลี่ยนแปลง
โดยการรวบรวมการเปลี่ยนแปลงในระดับ Token DCU จะคำนวณความคึกคักของแต่ละเลเยอร์แบบไดนามิก และจัดสรรงบประมาณการอัปเดตทั้งหมดตามสัดส่วนให้กับเลเยอร์ที่มีการเปลี่ยนแปลงมากที่สุด

2. หน้าต่างการอัปเดตบังคับ (แก้ปัญหาการติดหล่ม):
หาก Token ถูกจัดลำดับความสำคัญต่ำและไม่ได้อัปเดต คุณลักษณะของมันจะคงที่ ทำให้เมื่อคำนวณในเลเยอร์ถัดไป ค่าการเปลี่ยนแปลงจะเป็น 0 ซึ่งนำไปสู่ Token ที่ “ติดค้าง (Stuck in the mud)” ข้ามเลเยอร์
ด้วยเหตุนี้ ตามหลักการของ Locality DCU จึงแนะนำหน้าต่างการอัปเดตบังคับ (Mandatory Update Window) ที่มีขนาดคงที่ เพื่อให้แน่ใจว่า Token ที่สำคัญและพื้นที่โดยรอบจะถูกบังคับให้อัปเดตแคช จึงรับประกันว่าบริบทที่สำคัญจะตอบสนองต่อการเปลี่ยนแปลงในพื้นที่

APD: การถอดรหัสแบบขนานแบบปรับตัว

เพื่อตอบสนองต่อลักษณะที่ความเชื่อมั่นของ Token ผันผวนตามขั้นตอนการถอดรหัส APD จึงแนะนำกลไกการปรับเทียบเกณฑ์แบบไดนามิก โดยกำหนดเกณฑ์การปลด Mask เฉพาะสำหรับแต่ละ Token:

1. การปรับเกณฑ์ตามความเข้มข้นของความเชื่อมั่น:
โดยการคำนวณความแตกต่างระหว่างความน่าจะเป็นสูงสุดและสูงสุดอันดับสองของการกระจายการคาดการณ์ของ Token (ความเข้มข้น) สำหรับ Token ที่มีการกระจายตัวสูง (มีแนวโน้มสูงที่จะไม่เปลี่ยนแปลงอีก) จะลดเกณฑ์ลงเพื่อให้ตรึงได้เร็วขึ้น สำหรับ Token ที่มีการกระจายตัวกระจาย จะเพิ่มเกณฑ์เพื่อป้องกันการตัดสินผิดพลาด

2. ผสานความไม่เสถียรทางเวลา:
รวมระยะทางโคไซน์ของการกระจายความน่าจะเป็นระหว่างขั้นตอนที่อยู่ติดกัน เพื่อวัดความผันผวนของการคาดการณ์ในอดีตของ Token นั้น หากการคาดการณ์ไม่เสถียรอย่างยิ่ง จะใช้บทลงโทษเกณฑ์ที่เข้มงวดยิ่งขึ้นเพื่อป้องกันการถอดรหัสก่อนเวลาอันควร

ผลการทดลอง

Dynamic-dLLM ได้รับการประเมินอย่างครอบคลุมบนโมเดลภาษาขนาดใหญ่แบบแพร่กระจายกระแสหลัก 3 ตัว และชุดข้อมูลที่ท้าทาย 5 ชุด

จะเห็นได้ว่า:

การเร่งความเร็วและการรักษาประสิทธิภาพ: ดังแสดงในตารางที่ 1, 2 และ 3 ไม่ว่าจะเป็น LLaDA-8B-Instruct หรือ Dream-v0-7B-Instruct Dynamic-dLLM (และเวอร์ชันที่จับคู่กับการถอดรหัสแบบขนาน) ล้วนนำหน้าโซลูชัน dLLM-Cache, dKV-Cache และ Fast-dLLM ในขณะที่รักษาหรือเพิ่มความแม่นยำเล็กน้อย TPS เฉลี่ยเพิ่มขึ้นถึง 2.5x~3.2x
ความสามารถในการสรุปทั่วไปข้ามโมเดล: บน LLaDA-1.5 อัตราเร่งของงาน GSM8k สูงถึง 4.46x (37.02 TPS เทียบกับ 8.30 TPS) อัตราเร่งของโมเดล Dream ก็สูงถึง 3.91x เช่นกัน ซึ่งพิสูจน์ความสามารถของวิธีการนี้ในการสรุปทั่วไปต่อความแตกต่างทางสถาปัตยกรรม

นอกจากนี้ การทดลองแบบ Ablation ยังแสดงให้เห็นถึงผลกระทบของการแลกเปลี่ยนระหว่างไฮเปอร์พารามิเตอร์ที่สำคัญต่อความแม่นยำและปริมาณงาน พร้อมทั้งพิสูจน์ว่าเกณฑ์แบบไดนามิกเมื่อเทียบกับเกณฑ์ตายตัวสามารถลดขั้นตอนการอนุมานได้อีกประมาณ 30% โดยไม่สูญเสียจุดประสิทธิภาพ

โดยสรุป นักวิจัยสังเกตเห็นอย่างเฉียบแหลมว่าในระหว่างการอนุมานของ dLLM ที่สร้างแบบไม่ใช้ Autoregressive การอัปเดตคุณลักษณะและความเชื่อมั่นมีการเปลี่ยนแปลงแบบไดนามิกอย่างรุนแรงตาม “เลเยอร์” และ “ขั้นตอน” ในขณะที่เฟรมเวิร์กการเร่งความเร็วที่มีอยู่มองข้ามสิ่งนี้ ทำให้เกิดการสูญเสียประสิทธิภาพและการคำนวณที่ซ้ำซ้อน

และผลงานของบทความนี้สามารถสรุปได้ดังนี้:

1. เผยข้อจำกัดของกลยุทธ์การเร่งความเร็วแบบกฎตายตัวที่มีอยู่: ค้นพบว่ากฎการเปลี่ยนแปลงแบบไดนามิกระหว่างเลเยอร์และขั้นตอนการถอดรหัสของ dLLMs จะลดประสิทธิภาพของเฟรมเวิร์กแคชแบบคงที่

2. เสนอเฟรมเวิร์กการเร่งความเร็วแบบไม่ต้องฝึกอบรม Dynamic-dLLM: ผสานการอัปเดตแคชแบบไดนามิก (DCU) และการถอดรหัสแบบขนานแบบปรับตัว (APD) อย่างชาญฉลาด เพื่อแก้ปัญหาการจัดสรรพลังการคำนวณในเลเยอร์และการตัดสินความเชื่อมั่นแบบไดนามิกที่ผิดพลาด

3. ประสิทธิภาพที่ยอดเยี่ยมแบบ Plug-and-Play: บรรลุประสิทธิภาพ SOTA ที่สอดคล้องกันบนโมเดลแพร่กระจายโอเพนซอร์สกระแสหลักและการทดสอบเกณฑ์มาตรฐานหลายมิติ ในขณะที่รักษาความแม่นยำของโมเดลไว้ ก็สามารถเร่งการอนุมานได้มากกว่า 3 เท่าโดยเฉลี่ย ซึ่งขจัดอุปสรรคสำหรับการปรับใช้จริงของ dLLMs ที่มีความหน่วงต่ำ

ลิงก์บทความ: https://openreview.net/forum?id=SdnkB5pGbq
ลิงก์โค้ด: https://github.com/TianyiWu233/DYNAMIC-DLLM

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง