เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด

2026年2月16日 pm2:20 • ข่าวสารอุตสาหกรรม AI • 193 views

คำสำคัญ: การหาปริมาณแบบไตรภาค การทำให้เบาบางแบบละเอียด โครงสร้างการเบาบาง 3:4 กับดักน้ำหนัก ซินแนปส์ตกค้างแบบแอนนีล

การนำโมเดลภาษาขนาดใหญ่ (LLM) ไปใช้งานกำลังเผชิญกับความขัดแย้งพื้นฐาน: ความขัดแย้งระหว่างขนาดโมเดลที่ขยายใหญ่ขึ้นอย่างต่อเนื่องกับทรัพยากรฮาร์ดแวร์ปลายทางที่มีจำกัด แม้การอนุมานบนคลาวด์จะมีประสิทธิภาพสูง แต่ปัญหาด้านความเป็นส่วนตัวของข้อมูล ความล่าช้าของเครือข่าย และต้นทุนการบริการก็เด่นชัดขึ้นเรื่อยๆ การผลักดัน LLM ไปยังอุปกรณ์เอดจ์จึงเป็นแนวโน้มที่หลีกเลี่ยงไม่ได้

ในบรรดาเทคนิคการบีบอัดโมเดลต่างๆ การหาปริมาณน้ำหนัก ได้รับความสนใจเป็นพิเศษเนื่องจากลดขนาดโมเดลและต้นทุนการคำนวณได้โดยตรง อย่างไรก็ตาม วิธีการหาปริมาณที่มีอยู่ส่วนใหญ่ (เช่น GPTQ, AWQ, QLoRA) ได้รับการปรับให้เหมาะสมสำหรับ GPU ระดับเซิร์ฟเวอร์ ซึ่งพึ่งพาพรีมิทีฟฮาร์ดแวร์ที่ซับซ้อน เช่น การคำนวณแบบผสมความแม่นยำ ทำให้ยากต่อการทำงานอย่างมีประสิทธิภาพบนฮาร์ดแวร์เอดจ์และโมบายล์ที่หลากหลาย

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด

Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification
https://arxiv.org/pdf/2601.07892
โค้ด: https://github.com/Tencent/AngelSlim

การหาปริมาณแบบไตรภาค นำเสนอทางออกที่น่าสนใจ: โดยจำกัดน้ำหนักให้อยู่ในเซต {+1, 0, -1} ร่วมกับเอนจินการอนุมานแบบตารางค้นหา (Lookup Table, LUT) สามารถแปลงการคูณแบบทศนิยมที่ใช้ทรัพยากรสูงเป็นการดำเนินการบวกที่มีประสิทธิภาพ ความเป็นมิตรกับฮาร์ดแวร์โดยธรรมชาตินี้ทำให้มันเป็นตัวเลือกที่เหมาะสำหรับการใช้งานบนอุปกรณ์เอดจ์

1.58 บิตคือจำนวนบิตขั้นต่ำทางทฤษฎีของการหาปริมาณแบบไตรภาค (น้ำหนักมีสามค่า) ซึ่งคำนวณจากสูตรทฤษฎีสารสนเทศ: สอดคล้องกับสถานะไม่ต่อเนื่อง 3 สถานะ จำนวนบิตที่ต้องการคือ log₂(3) ≈ 1.58 บิต

อย่างไรก็ตาม ฮาร์ดแวร์จริงเนื่องจากข้อกำหนดการจัดแนว จะใช้วิธีการแพ็คจริงเช่น 1.67 บิต, 2 บิต เป็นต้น ซึ่งมีปัญหาพื้นฐานของการสูญเสียบิต โดยเฉพาะ:
* กลยุทธ์ 2-บิต: เติมแต่ละค่าไตรภาคให้เป็น 2 บิต แม้จะรักษาความเป็นระเบียบของการคำนวณและการจัดแนว SIMD แต่ก็ทำให้บิตสูญเปล่า (ความกว้างบิตจริง 2 บิต เทียบกับทฤษฎี 1.58 บิต)
* กลยุทธ์ 1.67-บิต: แพ็คน้ำหนัก 3 ตัวลงใน 5 บิต เมื่อเทียบกับกลยุทธ์ 2-บิต (น้ำหนัก 1 ตัวใช้ 2 บิต) แม้จะลดความกว้างบิต แต่ได้นำความไร้ประสิทธิภาพทางคณิตศาสตร์ที่รุนแรงมาใช้ – หน่วย SIMD ของตัวเร่งความเร็วฮาร์ดแวร์สมัยใหม่ได้รับการปรับให้เหมาะสมสำหรับการจัดกลุ่มตัวถูกดำเนินการที่เป็นกำลังสอง ซึ่งการจัดกลุ่มดังกล่าวทำให้ฮาร์ดแวร์สามารถโหลดและคำนวณข้อมูลแบบขนานได้ ทำให้การใช้กำลังการคำนวณสูงสุด แต่การจัดกลุ่ม 3 ทางของ 1.67-บิตเป็นโครงสร้างที่ไม่ใช่กำลังสอง ซึ่งเป็นโหมดที่ไม่จัดแนวกับฮาร์ดแวร์ ไม่สามารถปรับให้เข้ากับตรรกะขนานดั้งเดิมของ SIMD ได้ โหมดที่ไม่จัดแนวนี้กลับนำภาระงานเพิ่มเติมจำนวนมากมา เช่น การสับเปลี่ยนบิต (Shuffle) การแยกและจัดกลุ่มข้อมูลใหม่ ส่งผลให้ความเร็วในการอนุมานช้ากว่ากลยุทธ์ 2-บิต

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด
รูปที่ 2 | (ซ้าย) กลยุทธ์ 2 บิต แพ็คแต่ละน้ำหนักเป็น 2 บิตเพื่อรักษาการจัดแนว ทำให้บิตสูญเปล่าจำนวนมาก (กลาง) กลยุทธ์ 1.67 บิต แพ็คน้ำหนัก 3 ตัวเป็น 5 บิต นำโหมด 3 ทางที่ไม่เข้ากันกับ SIMD มาใช้ ทำให้ความเร็วช้าลง (ขวา) Sherry ของเราใช้การเบาบาง 3:4 แพ็คน้ำหนัก 4 ตัวเป็น 5 บิต นำโหมด 4 ทางที่เข้ากันกับ SIMD มาใช้ ทำให้ได้ความกว้างบิตที่ต่ำกว่า 1.25 บิต และความเร็วในการอนุมานที่เร็วกว่า รายละเอียดเพิ่มเติมดูรูปที่ 9

เฟรมเวิร์ก Sherry ที่นำเสนอในบทความนี้ โดยการแนะนำการเบาบางโครงสร้างแบบละเอียด 3:4 โดยที่ 4 แทนจำนวนน้ำหนักทั้งหมดในบล็อกการเบาบางแบบมีโครงสร้าง และ 3 แทนจำนวนน้ำหนักไตรภาคที่ไม่ใช่ศูนย์ (±1) ที่ถูกเก็บไว้ในบล็อกนั้น น้ำหนักที่เหลือ 1 ตัวถูกกำหนดให้เป็น 0 ซึ่งเป็นการออกแบบที่เหมาะสมที่สุดเฉพาะสำหรับการเบาบางแบบมีโครงสร้าง N:M ในการหาปริมาณแบบไตรภาค

จึงทำให้ได้ความกว้างบิตที่มีประสิทธิภาพ 1.25 บิต และจัดแนวกับ SIMD ได้อย่างสมบูรณ์ พร้อมกันนี้ได้เสนอกลไกซินแนปส์ตกค้างแบบแอนนีล Arenas ซึ่งแก้ปัญหา “กับดักน้ำหนัก” ในการฝึกแบบเบาบางไตรภาค ทำให้ได้ประสิทธิภาพระดับ SOTA บนโมเดล LLaMA-3.2 และนำมาซึ่งการประหยัดบิต 25% และการเร่งความเร็วการอนุมาน 10%

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด
ตารางที่ 1 | การเปรียบเทียบประสิทธิภาพของ Sherry ภายใต้วิธีการหาปริมาณแบบไตรภาคต่างๆ ตารางนี้เปรียบเทียบประสิทธิภาพของ Sherry กับวิธีการหาปริมาณแบบไตรภาคต่างๆ บนโมเดล LLaMA-3.2-1B และ 3B ในการประเมินห้าข้อวัดเบนช์มาร์กแบบซีโร่ช็อต (ARC-e, ARC-c, HelS, PIQA, WinG) ผลลัพธ์ที่ดีที่สุดถูกทำเครื่องหมายด้วยสีม่วง ผลลัพธ์รองที่ดีที่สุดถูกทำเครื่องหมายด้วยสีน้ำเงิน ผลลัพธ์ความแม่นยำครึ่ง (BF16) แสดงด้วยสีเทาเป็นข้อมูลอ้างอิง ผลการทดลองทั้งหมดเป็นค่าเฉลี่ยจากการทดลองสามครั้งด้วยเมล็ดสุ่มอิสระ ตารางนี้เป็นการเปรียบเทียบประสิทธิภาพหลักของ Sherry กับวิธีการหาปริมาณแบบไตรภาคหลัก ครอบคลุมขนาดโมเดล 1B และ 3B วัดจริงห้าข้อวัดการอนุมานแบบซีโร่ช็อตคลาสสิก ผลลัพธ์แสดงว่า Sherry 1.25 บิต บนโมเดล 1B มีความแม่นยำเท่ากับวิธีการ SOTA 1.67 บิต Tequila โดยมีคะแนนเฉลี่ย 0.519 เท่ากัน บนโมเดล 3B ต่ำกว่าเพียง 0.009 แต่ประหยัดบิตได้ 25% เมื่อเทียบกับวิธีการหาปริมาณแบบคงที่และแบบเรียนรู้ได้แบบดั้งเดิม Sherry มีข้อได้เปรียบด้านประสิทธิภาพที่เด่นชัดภายใต้บิตต่ำ ซึ่งยืนยันประสิทธิผลของโครงสร้างการเบาบาง 3:4 และโมดูล Arenas

ประเด็นสำคัญ

ประเด็นที่หนึ่ง: ความเหมาะสมสูงสุดของโหมดการเบาบาง 3:4 มีความเป็นสากลหรือไม่?

โหมดการเบาบางแบบละเอียด 3:4 ที่ผู้เขียนเสนอทำให้ได้ความกว้างบิต 1.25 บิต และอ้างว่ามันเป็นคำตอบที่ดีที่สุดสำหรับเอนจินแบบ LUT โหมดการเบาบางนี้จะยังคง “เหมาะสมที่สุด” ในทุกสถานการณ์หรือไม่? ตัวอย่างเช่น เมื่อขนาดโมเดลขยายใหญ่ขึ้นอีก (เช่น 70B+) หรือสถาปัตยกรรมฮาร์ดแวร์ต่างกัน (เช่น รองรับเทนเซอร์คอร์ที่ยืดหยุ่นกว่า) 3:4 จะกลายเป็นคอขวดที่จำกัดความสามารถในการแสดงออกหรือไม่?

ในบทความ ความเหมาะสมสูงสุดของโหมดการเบาบาง 3:4 ได้รับการพิสูจน์จากข้อจำกัดฮาร์ดแวร์เฉพาะ: ข้อกำหนดการจัดแนว SIMD ต้องการให้ขนาดบล็อก M เป็นกำลังสอง ข้อจำกัดความจุ LUT จำกัดบิตดัชนีไม่เกิน 4 บิต และความเบาบางต้องต่ำกว่า 50% (นั่นคือ ความหนาแน่น ≥50%) ข้อจำกัดความเบาบางมาจากข้อสรุปหลักของการวิจัยคลาสสิกเกี่ยวกับการหาปริมาณแบบไตรภาค (Zhu et al., 2016): เมื่อความเบาบางของโมเดลไตรภาคเกิน 50% (นั่นคือ ความหนาแน่น < 50%) ความสามารถในการแสดงออกของโมเดลจะลดลงอย่างรุนแรง นี่เป็นเพราะน้ำหนักไตรภาคเองมีเพียงสามสถานะ {+1, 0, -1} ซึ่งมีความสามารถในการแสดงออกต่ำกว่าน้ำหนักความแม่นยำเต็มมาก หากบังคับให้น้ำหนักมากกว่าครึ่งเป็น 0 จะทำให้โมเดลสูญเสียความสามารถหลักในการจับลักษณะข้อมูลโดยตรง ส่งผลให้ประสิทธิภาพงานลดลงอย่างมาก ภายใต้ข้อจำกัดข้างต้น M=4 และ N=3 เป็นการผสมผสานที่เหมาะสมที่สุด
* M แทนจำนวนองค์ประกอบทั้งหมดในบล็อกน้ำหนักต่อเนื่อง เป็นขนาดบล็อกของโหมดการเบาบาง
* N แทนจำนวนน้ำหนักไตรภาคที่ไม่ใช่ศูนย์ (±1) ที่ถูกเก็บไว้ในบล็อกน้ำหนักขนาด M น้ำหนักที่เหลือ M-N ตัวถูกกำหนดให้เป็น 0 เป็นจำนวนองค์ประกอบที่ไม่ใช่ศูนย์ของโหมดการเบาบาง

การผสมผสานนี้ใช้ 5 บิต (1 บิตเครื่องหมาย + 4 บิตดัชนี) อย่างเต็มที่โดยใช้ LUT 2^4 รายการ พร้อมกันนี้ยังรักษาความหนาแน่น 75% ได้รับการพิสูจน์ว่าเป็น “คำตอบที่ดีที่สุดเฉพาะที่” สำหรับเอนจินการอนุมานแบบ LUT

อย่างไรก็ตาม ผู้เขียนยอมรับอย่างชัดเจนในส่วน Limitation ว่าการประเมินของพวกเขา [จำกัดเฉพาะ] โมเดลขนาดต่ำกว่า 3B เท่านั้น ความเหมาะสมสำหรับขนาดที่ใหญ่กว่า (เช่น 70B+) [ยังไม่] ได้รับการยืนยัน
* เมื่อขนาดโมเดลขยายใหญ่ขึ้น การกระจายน้ำหนักและพลวัตเกรเดียนต์อาจเปลี่ยนแปลง โหมดการเบาบางคงที่ 3:4 อาจกลายเป็นคอขวดของความสามารถในการแสดงออก – ตัวอย่างเช่น หากต้องการความจุที่สูงขึ้น อาจต้องเพิ่มความหนาแน่นหรือผ่อนคลายข้อจำกัดการจัดแนว
* นอกจากนี้ หากฮาร์ดแวร์รองรับเทนเซอร์คอร์ที่ยืดหยุ่นกว่า เช่น เทนเซอร์คอร์แบบเบาบางดั้งเดิมของ NVIDIA รองรับ 2:4 แล้ว 3:4 อาจไม่สามารถใช้หน่วยเร่งความเร็วเฉพาะเหล่านั้นได้โดยตรง ส่งผลให้ประสิทธิภาพไม่เท่ากับโซลูชันที่ปรับแต่งสำหรับฮาร์ดแวร์

ดังนั้น ความเหมาะสมสูงสุดของ 3:4 ไม่ใช่สากล แต่เป็นการประนีประนอมในการออกแบบสำหรับฮาร์ดแวร์เอดจ์เฉพาะและเอนจินการอนุมานแบบ LUT บทความเองก็ชี้ให้เห็นว่าในอนาคตจำเป็นต้องตรวจสอบเพิ่มเติมบน GPU ระดับเซิร์ฟเวอร์ ซึ่งบ่งชี้ว่าขอบเขตการใช้งานมีข้อจำกัด

ประเด็นที่สอง: ต้นทุนการฝึกของ Arenas คุ้มค่าหรือไม่?

กลไก Arenas แก้ปัญหา “กับดักน้ำหนัก” โดยการแนะนำเรซิดวลความแม่นยำเต็มที่สามารถลดลงได้ แต่ต้นทุนการคำนวณในขั้นตอนการฝึกเพิ่มขึ้นอย่างเห็นได้ชัด ความซับซ้อนในการฝึกนี้จะหักล้างข้อได้เปรียบด้านประสิทธิภาพในขั้นตอนการอนุมานในการใช้งานจริงหรือไม่? โดยเฉพาะสำหรับอุปกรณ์เอดจ์ที่มีทรัพยากรจำกัด มันคุ้มค่าจริงๆ ที่จะจ่ายต้นทุนเช่นนี้ในขั้นตอนการฝึกหรือไม่?

กลไก Arenas แนะนำเรซิดวลความแม่นยำเต็มในขั้นตอนการฝึก ซึ่งเพิ่มต้นทุนการคำนวณและหน่วยความจำอย่างแน่นอน แต่ผู้เขียนเน้นในบทความว่านี่เป็นต้นทุนการฝึกครั้งเดียว และเรซิดวลหายไปอย่างสมบูรณ์ในขั้นตอนการอนุมาน (แอนนีลถึง 0) ดังนั้นจึงไม่มีผลกระทบต่อการใช้งาน เป้าหมายหลักของการออกแบบนี้คือเพื่อให้แน่ใจว่าการหาปริมาณแบบไตรภาคและโครงสร้างการเบาบางจะลู่เข้าอย่างมั่นคง โดยจ่ายต้นทุนเพิ่มเติมเฉพาะในกระบวนการฝึกเท่านั้น ขั้นตอนการอนุมานจะกลับสู่รูปแบบน้ำหนักไตรภาคที่เบาและเป็นมิตรกับฮาร์ดแวร์อย่างสมบูรณ์ ไม่เพิ่มภาระการจัดเก็บและการคำนวณใดๆ บนอุปกรณ์เอดจ์ จึงทำให้เกิดความสมดุลที่ดีระหว่างความแม่นยำของโมเดลและประสิทธิภาพการใช้งาน สำหรับอุปกรณ์เอดจ์ที่มีทรัพยากรจำกัด ประสิทธิภาพการอนุมานเป็นจุดสนใจหลัก ในขณะที่การฝึกมักจะเสร็จสิ้นบนคลาวด์

ผู้เขียนทดลองแสดงให้เห็นว่า Arenas ช่วยเพิ่มประสิทธิภาพโมเดลอย่างมีนัยสำคัญ (เช่น ค่าอันดับที่มีประสิทธิภาพฟื้นจาก <750 กลับมาใกล้ระดับความแม่นยำเต็ม) ทำให้โมเดล 1.25-บิต บรรลุหรือแม้แต่เหนือความแม่นยำ SOTA 1.67-บิต ในขณะที่ความเร็วการอนุมานเพิ่มขึ้น 10%~18% การประนีประนอมระหว่างความแม่นยำและประสิทธิภาพนี้เป็นประโยชน์อย่างยิ่งสำหรับการใช้งานบนเอดจ์: การลงทุนฝึกครั้งเดียวแลกกับการประหยัดการจัดเก็บและการคำนวณถาวร

นอกจากนี้ การจัดตารางแอนนีลที่ควบคุมได้ของ Arenas (เช่น การลดลงแบบโคไซน์) อนุญาตให้ค่อยๆ ลบเรซิดวลออกในภายหลังของการฝึก เพื่อหลีกเลี่ยงผลกระทบเชิงลบต่อความเสถียรของการลู่เข้า

ดังนั้น แม้จะมีต้นทุนการฝึกอยู่ แต่ผลประโยชน์ด้านประสิทธิภาพและการเพิ่มประสิทธิภาพการอนุมานที่นำมานั้นคุ้มค่าอย่างสมบูรณ์ โดยเฉพาะอย่างยิ่งเหมาะสำหรับสถานการณ์เอดจ์ที่ต้องการการอนุมานต้นทุนต่ำในระยะยาว ข้อจำกัดในบทความยังกล่าวถึงว่าสำหรับนักวิจัยที่มีงบประมาณการฝึกจำกัด ต้นทุนนี้จำเป็นต้องนำมาพิจารณาด้วย แต่ไม่ได้ปฏิเสธความจำเป็นของมัน

หนึ่ง. พื้นหลังและนิยามปัญหา

1.1 รูปแบบทางคณิตศาสตร์ของการหาปริมาณแบบไตรภาค

เพื่อให้เข้าใจนวัตกรรมของ Sherry จำเป็นต้องเข้าใจแก่นแท้ทางคณิตศาสตร์ของการหาปริมาณแบบไตรภาคอย่างแม่นยำ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22918