Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM

คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, ความสนใจแบบเบาบาง, การเติมล่วงหน้าแบบแบ่งกลุ่ม, การเลือก KV, การเร่งการอนุมาน

ไม่ต้องฝึกฝน ไม่ต้องพึ่งฮาร์ดแวร์เฉพาะ ใช้คู่ KV เพียง 12% ก็ได้ผลลัพธ์ใกล้เคียงกับความสนใจแบบเต็ม — นี่คืออัลกอริทึมความสนใจแบบเบาบางใหม่จาก Qualcomm AI Research

ในปีที่ผ่านมา การประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่ (LLM) อย่างแพร่หลาย ทำให้ประสิทธิภาพการอนุมานกลายเป็นปัจจัยสำคัญที่จำกัดการนำไปใช้งาน โดยเฉพาะในขั้นตอนการเติมล่วงหน้า — ซึ่งเป็นขั้นที่โมเดลต้องประมวลผลคำสั่งป้อนเข้าแบบทีเดียวทั้งหมด และเริ่มต้นแคช KV — เป็นขั้นที่มีภาระการคำนวณหนักที่สุด จากสถิติ ขั้นตอนนี้มักใช้เวลามากกว่า 70% ของเวลาการอนุมานทั้งหมด บน CPU, GPU ระดับผู้บริโภค และอุปกรณ์ Edge ต่างๆ เนื่องจากทรัพยากรการคำนวณและหน่วยความจำมีจำกัด ปัญหานี้จึงเด่นชัดยิ่งขึ้น

เพื่อบรรเทาความกดดันจากลำดับที่ยาว เทคนิคการเติมล่วงหน้าแบบแบ่งกลุ่มจึงถูกนำมาใช้อย่างแพร่หลายในอุตสาหกรรม: แบ่งลำดับป้อนออกเป็นกลุ่มย่อยๆ แล้วประมวลผลทีละกลุ่ม แม้ว่าวิธีนี้จะช่วยปรับปรุงการจัดตารางงานและการใช้หน่วยความจำ แต่เนื่องจากกลไกความสนใจของ Transformer มีความซับซ้อนแบบกำลังสอง ค่าใช้จ่ายในการคำนวณจึงยังคงสูงมาก

ส่วนแผนการเร่งความเร็วที่มีอยู่ ส่วนใหญ่เป็นวิธีการความสนใจแบบเบาบาง ซึ่งแบ่งออกเป็นสองแนวทางหลัก:
* การทำให้เบาบางตามรูปแบบตายตัว: มักพึ่งพาเคอร์เนลฮาร์ดแวร์เฉพาะ ทำให้การย้ายไปใช้บนแพลตฟอร์มอื่นทำได้ยาก
* การเลือกแบบไดนามิกตามคำถาม: มีประสิทธิภาพเมื่อสร้างคำถามเดียว แต่ในขั้นตอนการเติมล่วงหน้าที่ต้องจัดการกับหลายคำถามพร้อมกัน ประสิทธิภาพจะลดลงอย่างเห็นได้ชัด

Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM
ตารางที่ 4 | การเปรียบเทียบความซับซ้อนด้านเวลาการทำงานและความซับซ้อนด้านหน่วยความจำของวิธีการความสนใจแบบเบาบางประเภทต่างๆ ตารางนี้วัดประสิทธิภาพเชิงทฤษฎีของ QUOKA โดยใช้ (จำนวนหัวคีย์-ค่า) แทนที่ (จำนวนหัวคำถาม) ของวิธีอื่นๆ ลดค่าใช้จ่ายในการคำนวณและหน่วยความจำลงอย่างมาก ความซับซ้อนเชิงเส้นกำกับดีกว่า SampleAttention, Loki ฯลฯ อย่างมีนัยสำคัญ ให้การสนับสนุนเชิงทฤษฎีสำหรับการปรับใช้ที่มีประสิทธิภาพโดยไม่ขึ้นกับฮาร์ดแวร์

แล้วมีวิธีไหนบ้างที่สามารถลดปริมาณการคำนวณลงอย่างมาก ในขณะที่ยังคงความแม่นยำของโมเดล และยังสามารถปรับใช้บนฮาร์ดแวร์ต่างๆ ได้อย่างง่ายดาย?

Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM
* QUOKA: QUERY-ORIENTED KV SELECTION FOR EFFICIENT LLM PREFILL
* Query-oriented KV selection for efficient Attention
* https://arxiv.org/pdf/2602.08722

Qualcomm AI Research ได้เสนอ อัลกอริทึมความสนใจแบบเบาบาง QUOKA ที่มุ่งเน้นคำถาม ออกแบบมาเพื่อเร่งการอนุมานการเติมล่วงหน้าแบบแบ่งกลุ่มสำหรับแบบจำลองภาษาขนาดใหญ่ (LLM) วิธีนี้ ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ บรรลุการคำนวณความสนใจที่มีความซับซ้อนต่ำกว่ากำลังสองผ่านการสำรวจคุณลักษณะทางเรขาคณิตของคำถามและคีย์ มีเป้าหมายเพื่อแก้ปัญหาคอขวดความล่าช้าสูงในขั้นตอนการเติมล่วงหน้าของ LLM อย่างมีประสิทธิภาพ

วิธีการความสนใจแบบเบาบางที่มีอยู่ ต้องพึ่งพาเคอร์เนลเฉพาะทำให้การย้ายไปใช้ทำได้ยาก หรือประสิทธิภาพลดลงอย่างมากในสถานการณ์การเติมล่วงหน้าที่มีหลายคำถาม ในขณะที่การเติมล่วงหน้าแบบแบ่งกลุ่มยังคงมีต้นทุนการคำนวณสูงเนื่องจากความซับซ้อนแบบกำลังสองของความสนใจ

Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM
รูปที่ 1 | ภาพรวมการเติมล่วงหน้าแบบแบ่งกลุ่มของ QUOKA (a) การเติมล่วงหน้าแบบแบ่งกลุ่มโดยใช้ QUOKA: คำสั่งที่มี 6 โทเค็นถูกแบ่งออกเป็น 3 กลุ่ม กลุ่มละ 2 โทเค็น แต่ละกลุ่มจะถูกเลือกย่อยแคชคีย์-ค่าโดย QUOKA ก่อน จากนั้นจึงป้อนแคชที่ถูกทำให้กระชับเข้าสู่เคอร์เนลความสนใจแบบหนาแน่น (b) การเลือกคีย์-ค่าโดยใช้ QUOKA: ขั้นแรกกรองคำถามโดยใช้ความไม่เหมือนกันโคไซน์ จากนั้นใช้ความคล้ายคลึงโคไซน์ระหว่างคำถาม-คีย์เพื่อกรองคีย์ รูปนี้แสดงขั้นตอนหลักของ QUOKA อย่างชัดเจน การเติมล่วงหน้าแบบแบ่งกลุ่มเหมาะกับสถานการณ์ป้อนเข้าที่ยาว การเลือกคีย์-ค่าผ่านการคำนวณความคล้ายคลึงโคไซน์สองชั้น ทั้งรับประกันความเกี่ยวข้องและทำให้ข้อมูลกระชับ แก้ปัญหาความซับซ้อนแบบกำลังสองของการคำนวณความสนใจในการเติมล่วงหน้าแบบแบ่งกลุ่มแบบดั้งเดิม เป็นรากฐานสำหรับการเพิ่มประสิทธิภาพในขั้นต่อไป

QUOKA ตั้งอยู่บนการค้นพบหลัก — คำถามที่มีความคล้ายคลึงโคไซน์ต่ำกับคำถามเฉลี่ยจะมีปฏิสัมพันธ์ที่แข็งแกร่งกับคีย์จำนวนมากขึ้น และออกแบบกลยุทธ์สามขั้นตอนตามนี้: การเลือกย่อยคำถาม การให้คะแนนความคล้ายคลึงโคไซน์ การรวมกลุ่มแบบรับรู้กลุ่ม วิธีนี้รักษาคำถามที่มีข้อมูลสูง วัดความเกี่ยวข้องระหว่างคำถาม-คีย์ผ่านความคล้ายคลึงโคไซน์ รวมการรวมแบบสูงสุดและแบบเฉลี่ยเพื่อรักษาปฏิสัมพันธ์สำคัญและปรับให้เข้ากับสถาปัตยกรรม GQA ตามลำดับ และใช้เฉพาะการดำเนินการพีชคณิตเชิงเส้นมาตรฐานเท่านั้น ซึ่งเข้ากันได้กับเคอร์เนลความสนใจแบบหนาแน่นหลัก

การทดลองได้รับการตรวจสอบบนเกณฑ์มาตรฐานบริบทยาวหลายประเภท เช่น Needle-In-A-Haystack, LongBench:
* รักษาความแม่นยำ: QUOKA ลดการใช้คู่ KV ลง 88% ความแม่นยำใกล้เคียงกับความสนใจแบบหนาแน่น ดีกว่าวิธีการแบบเบาบางที่มีอยู่อย่างมีนัยสำคัญ
* เร่งความเร็วอย่างเห็นได้ชัด: บน GPU ของ NVIDIA บรรลุการเร่งความเร็วความสนใจ 5 เท่า ลดเวลาสำหรับโทเค็นแรก 3 เท่า บน Intel Xeon CPU เร่งความเร็วได้เกือบ 7 เท่า
* ความสามารถในการปรับตัวทั่วไปที่แข็งแกร่ง: แสดงผลดีใน หลายโมเดล เช่น Llama3, Qwen3 และสถาปัตยกรรม MoE, GQA มีความแข็งแกร่งต่อไฮเปอร์พารามิเตอร์สูง และสามารถปรับใช้ในขั้นตอนการสร้างได้ ในงานการให้เหตุผล Math500 ผลการดำเนินงานดีกว่าวิธีการแบบเบาบางเฉพาะสำหรับการสร้าง

QUOKA ให้โซลูชันที่มีประสิทธิภาพสำหรับการเร่งการอนุมาน LLM ในสภาพแวดล้อมที่มีทรัพยากรจำกัด ในอนาคต สามารถเพิ่มประสิทธิภาพประสิทธิภาพการคำนวณได้โดยการสำรวจความเบาบางของแชนเนล

คำถามสำคัญ

คำถามที่หนึ่ง: เกี่ยวกับสมมติฐานหลักและความสามารถในการปรับตัวทั่วไปของวิธี QUOKA

ในเอกสารวิจัยชี้ให้เห็นว่าประสิทธิผลของวิธี QUOKA ตั้งอยู่บนการสังเกตที่สำคัญ: “คำถามที่มีความคล้ายคลึงโคไซน์ต่ำกับคำถามเฉลี่ยจะมีปฏิสัมพันธ์ที่แข็งแกร่งกับคีย์จำนวนมากขึ้น และมีส่วนสำคัญต่อคะแนนความสนใจสุดท้ายมากกว่า” การสังเกตนี้ได้รับการยืนยันบนโมเดลเช่น Llama แต่นี่เป็นจริงสำหรับสถาปัตยกรรม LLM ทุกประเภท (เช่น MoE, โครงสร้างที่ไม่ใช่ Transformer) และข้อมูลป้อนเข้าทุกประเภท (เช่นโค้ด, การให้เหตุผลทางคณิตศาสตร์, ข้อมูลป้อนเข้าแบบหลายรูปแบบ) หรือไม่? หากการกระจายตัวของคำถามในโมเดลหรืองานบางอย่างไม่สอดคล้องกับคุณลักษณะทางเรขาคณิตนี้ QUOKA จะล้มเหลวหรือไม่? เอกสารไม่ได้วิเคราะห์ความไวต่อหัวความสนใจที่ต่างกัน จำนวนชั้น หรือขนาดโมเดลอย่างเป็นระบบ นี่หมายความว่าข้อได้เปรียบ “ไม่ขึ้นกับฮาร์ดแวร์” ของ QUOKA แลกมาด้วยการเสียความสามารถในการปรับตัวตามโครงสร้างหรือไม่?

สมมติฐานหลักมีประสิทธิภาพ แต่ความสามารถในการปรับตัวทั่วไปมีขอบเขต ได้รับการยืนยันแล้วในหลายสถาปัตยกรรม

การสังเกตหลักของ QUOKA — นั่นคือ “คำถามที่ผิดปกติ” ที่มีความคล้ายคลึงโคไซน์ต่ำกับคำถามเฉลี่ยเป็นตัวกำหนดความสนใจ — มาจากการวิเคราะห์เชิงประจักษ์เกี่ยวกับคุณลักษณะทางเรขาคณิตของความสนใจใน LLM สมัยใหม่ ดังแสดงในรูปที่ 2

Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM
รูปที่ 2 | การสังเกตเชิงประจักษ์จากชั้นที่ 0 หัวความสนใจที่ 11 ของโมเดล Llama 3.2-3B-Instruct: (a) แผนภาพความสนใจ A; (b) การแสดงภาพ PCA ของคำถาม (Q) และคีย์ (K) แสดงว่าคำถามที่มีค่า Sq สูงจะอยู่ใกล้กับกลุ่มคีย์มากขึ้น; (c) แผนภาพกระจายของ Sq กับ maxₖ(A) แสดงว่าคำถามที่มีค่า Sq สูงจะมีปฏิสัมพันธ์กับคีย์ที่แข็งแกร่งกว่า รูปนี้ยืนยันการสังเกตหลักของ QUOKA ค่า Sq กลายเป็นตัวบ่งชี้สำคัญสำหรับกรองคำถามสำคัญ คุณลักษณะการมีปฏิสัมพันธ์ที่แข็งแกร่งของคำถามที่มีค่า Sq สูงทำให้สามารถแทนที่คำถามที่ซ้ำซ้อนได้ ให้การสนับสนุนเชิงประจักษ์สำหรับขั้นตอนการเลือกย่อยคำถาม รับประกันว่าหลังจากทำให้กระชับแล้วยังคงรักษาข้อมูลความสนใจหลักไว้ได้

การสังเกตนี้ได้รับการยืนยันบนตระกูลโมเดล “ถอดรหัสเท่านั้น” หลักหลายตระกูล เช่น Llama, Qwen, GPT-OSS เอกสารระบุชัดเจนว่าวิธีนี้แสดงผลดีบนการเข้ารหัสตำแหน่ง RoPE/NoPE, สถาปัตยกรรม MoE และความสนใจคำถามแบบกลุ่ม (GQA) ซึ่งให้หลักฐานโดยตรงสำหรับข้ออ้าง “การปรับตัวทั่วไปข้ามสถาปัตยกรรม” นี่แสดงให้เห็นว่า【คุณลักษณะทางเรขาคณิต】นี้น่าจะเป็นปรากฏการณ์ทั่วไปที่เกิดขึ้นในกลไกความสนใจของ Transformer แบบหนาแน่นหรือแบบ MoE สมัยใหม่ ไม่ใช่เรื่องบังเอิญของโมเดลเดียว

อย่างไรก็ตาม ความสามารถในการปรับตัวทั่วไปนี้มีขอบเขตที่ชัดเจน ผู้เขียนยอมรับว่าวิธีของพวกเขาพึ่งพาความเบาบางที่มีอยู่ในเมทริกซ์ความสนใจ และได้รับการปรับให้เหมาะสมสำหรับโมเดลข้อความสถาปัตยกรรมถอดรหัสเป็นหลัก สำหรับสถาปัตยกรรมที่แตกต่างไปโดยสิ้นเชิง เช่น โมเดลเข้ารหัสล้วนหรือโมเดลที่ไม่ใช่ Transformer หรือสำหรับรูปแบบข้อมูลป้อนเข้าที่รูปแบบความสนใจอาจแตกต่างไปโดยสิ้นเชิง เช่น ภาพ เสียง สมมติฐานนี้ได้รับการทดสอบหรือไม่ยังไม่ชัดเจน นอกจากนี้ เอกสารไม่ได้วิเคราะห์ความแตกต่างของคุณลักษณะนี้ระหว่างหัวความสนใจที่ต่างกันอย่างเป็นระบบ แม้ว่า “การรวมกลุ่มแบบรับรู้กลุ่ม” จะจัดการกับ GQA แต่ระดับการพึ่งพา “คำถามที่ผิดปกติ” ของชั้นที่ต่างกัน หัวที่ต่างกันอาจแตกต่างกัน กลยุทธ์การเลือกย่อยแบบเดียวกันอาจไม่ใช่คำตอบที่ดีที่สุดสำหรับทุกหัว ดังนั้น ข้อได้เปรียบ “ไม่ขึ้นกับฮาร์ดแวร์” ของ QUOKA จริงๆ แล้วตั้งอยู่บนความรู้ก่อนทางเรขาคณิตของความสนใจที่โมเดลข้อความ LLM หลักในปัจจุบันมีร่วมกัน สำหรับโมเดลที่อยู่นอกเหนือขอบเขตนี้ ประสิทธิผลของมันจำเป็นต้องได้รับการประเมินใหม่

คำถามที่สอง: เกี่ยวกับประสิทธิภาพจริงและค่าใช้จ่ายของระบบในการปรับใช้ QUOKA ตามจริง

ผู้เขียนอ้างว่า QUOKA บรรลุอัตราการเร่งความเร็วที่โดดเด่น (สูงสุด 7 เท่า) บนฮาร์ดแวร์หลายประเภท (GPU, CPU) และ “ไม่ต้องฝึกฝน, เข้ากันได้กับไลบรารีพีชคณิตเชิงเส้นมาตรฐาน” อย่างไรก็ตาม QUOKA จำเป็นต้องดำเนินการขั้นตอนเพิ่มเติมในแต่ละครั้งที่ประมวลผลกลุ่ม: การเลือกคำถาม, การคำนวณความคล้ายคลึงโคไซน์, การรวมกลุ่ม ขั้นตอนเหล่านี้แม้จะมีเวลาซับซ้อนต่ำ แต่ในระบบจริงอาจนำมาซึ่งค่าใช้จ่ายที่ไม่สามารถมองข้ามได้: ค่าใช้จ่ายในการเข้าถึงหน่วยความจำ, ค่าใช้จ่ายในการทำนายสาขา และความล่าช้าในการซิงโครไนซ์เธรด โดยเฉพาะบนอุปกรณ์ Edge หรือสภาพแวดล้อมที่มีแบนด์วิธต่ำ การดำเนินการเพิ่มเติมเหล่านี้จะนำมาซึ่งการลดความล่าช้าแบบ end-to-end จริงหรือไม่? เอกสารขาดการวิเคราะห์ผลกระทบร่วมกับเทคนิคการเพิ่มประสิทธิภาพอื่นๆ ในระบบจริง (เช่น FlashAttention, การบีบอัด KV Cache) นี่หมายความว่า QUOKA อาจเผชิญกับ “ต้นทุนที่ซ่อนอยู่” ในการรวมระบบหรือไม่?

ค่าใช้จ่ายเพิ่มเติมสามารถควบคุมได้ การทดสอบจริงนำมาซึ่งการเร่งความเร็วสุทธิ แต่การทำงานร่วมกับการเพิ่มประสิทธิภาพระดับระบบยังคงเป็นปัญหาที่เปิดกว้าง

Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM
ตารางที่ 4 | การเปรียบเทียบความซับซ้อนด้านเวลาการทำงานและความซับซ้อนด้านหน่วยความจำของวิธีการความสนใจแบบเบาบางประเภทต่างๆ ตารางนี้วัดประสิทธิภาพเชิงทฤษฎีของ QUOKA โดยใช้ (จำนวนหัวคีย์-ค่า) แทนที่ (จำนวนหัวคำถาม) ของวิธีอื่นๆ ลดค่าใช้จ่ายในการคำนวณและหน่วยความจำลงอย่างมาก ความซับซ้อนเชิงเส้นกำกับดีกว่า SampleAttention, Loki ฯลฯ อย่างมีนัยสำคัญ ให้การสนับสนุนเชิงทฤษฎีสำหรับการปรับใช้ที่มีประสิทธิภาพโดยไม่ขึ้นกับฮาร์ดแวร์

QUOKA แน่นอนว่ามีการแนะนำขั้นตอนเพิ่มเติม เช่น การเลือกคำถาม การทำให้เป็นมาตรฐาน และการคำนวณความคล้ายคลึงโคไซน์ อย่างไรก็ตาม เอกสารพิสูจน์ผ่านการออกแบบอัลกอ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22961

Like (0)
Previous 2026年2月11日 pm8:33
Next 2026年2月12日 am6:52

相关推荐