1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

7 hours ago • การอนุมานโมเดลขนาดใหญ่ • 25 views

คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด

เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด

ความสำเร็จของสถาปัตยกรรม Transformer ส่วนใหญ่มาจากกลไกความสนใจ (Attention) ที่ทรงพลัง ซึ่งสามารถจับความสัมพันธ์ระหว่างสองตำแหน่งใดๆ ในลำดับได้ อย่างไรก็ตาม ความสามารถนี้มาพร้อมกับต้นทุน: ความซับซ้อนด้านเวลาและพื้นที่ในการคำนวณความสนใจเพิ่มขึ้นเป็นกำลังสองตามความยาวของลำดับ ในงานด้านการมองเห็น เมื่อประมวลผลภาพความละเอียดสูง (เช่น 1024×1024) นี่หมายถึงต้นทุนการคำนวณและการใช้หน่วยความจำที่มหาศาล ซึ่งกลายเป็นคอขวดสำคัญที่จำกัดการนำโมเดลไปใช้งานจริง

เพื่อก้าวข้ามคอขวดนี้ อุตสาหกรรมได้สำรวจเส้นทางต่างๆ มากมาย รวมถึงความสนใจแบบเบาบาง (Sparse Attention) และความสนใจเชิงเส้น (Linear Attention) ในระดับสถาปัตยกรรม, FlashAttention ในระดับฮาร์ดแวร์, และการควอนไทซ์โมเดล (Model Quantization) ในระดับความแม่นยำเชิงตัวเลข ในจำนวนนี้ การควอนไทซ์โมเดล ซึ่งเร่งความเร็วการคำนวณและประหยัดหน่วยความจำโดยการบีบอัดเลขทศนิยมความแม่นยำสูง (เช่น FP32) ให้เป็นจำนวนเต็มความแม่นยำต่ำ (เช่น INT8) เป็นวิธีที่มีประสิทธิภาพมากในทางปฏิบัติ อย่างไรก็ตาม การควอนไทซ์โมดูลความสนใจ โดยเฉพาะการคูณเมทริกซ์ภายในนั้น เผชิญกับความท้าทายเฉพาะตัว — มันมีหน้าที่คำนวณความคล้ายคลึงระหว่างโทเค็นแบบไดนามิก และไวต่อการสูญเสียความแม่นยำอย่างยิ่ง

แล้วเราสามารถผลักดันการควอนไทซ์กลไกความสนใจไปสู่ขีดสุดได้หรือไม่? เราสามารถใช้ 1 บิต นั่นคือแทนที่แต่ละค่าด้วยเพียง 0 หรือ 1 เพื่อแทนที่การคำนวณเลขทศนิยมที่ซับซ้อนเดิมๆ ได้หรือไม่ เพื่อเปลี่ยนกฎเกณฑ์ตั้งแต่พื้นฐาน? นี่ฟังดูบ้าบิ่น เพราะการบีบอัดข้อมูลลงเหลือ 1 บิต หมายถึงการสูญเสียข้อมูลมหาศาล มันจะไม่ทำให้ประสิทธิภาพของโมเดลดิ่งเหวอย่างรวดเร็วหรือ?

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

ทีมวิจัยจากมหาวิทยาลัยโพลีเทคนิคฮ่องกงและ OPPO Research Institute ได้ให้คำตอบที่น่าตื่นเต้นในบทความล่าสุด “BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers”: ไม่เพียงแต่ทำได้เท่านั้น แต่ยังสามารถรักษาหรือแม้แต่แซงหน้าประสิทธิภาพของความแม่นยำเต็ม (Full Precision) พร้อมทั้งเร่งความเร็วได้เร็วกว่า FlashAttention2 ถึง 2 เท่า!

แก่นหลัก: บทความชี้ให้เห็นว่า หัวใจของกลไกความสนใจอยู่ที่การจับความสัมพันธ์เชิงความคล้ายคลึงระหว่างคำถาม (Query) และกุญแจ (Key) ไม่ใช่ค่าตัวเลขที่แม่นยำ

ผ่านการพิสูจน์ทางทฤษฎี พวกเขาแปลงการวัดความคล้ายคลึงแบบดอทโปรดัคต์ (Dot Product) เดิมที่ใช้เลขทศนิยมอย่างชาญฉลาดให้เป็นการวัดระยะแฮมมิง (Hamming Distance) หรือโคไซน์ของมุมในพื้นที่ไบนารี ที่สำคัญกว่านั้น ทฤษฎีบทที่ 1 ที่ผู้เขียนเสนอ เผยให้เห็นว่าค่าคาดหวังของเอาต์เตอร์โปรดัคต์ (Outer Product) ของ Query และ Key หลังการแปลงเป็นไบนารี มีความสัมพันธ์เชิงเส้นที่เรียบง่ายกับเมทริกซ์ความแปรปรวนร่วม (Covariance Matrix) ภายใต้การกระจายตัวแบบเกาส์เซียนดั้งเดิม ซึ่งหมายความว่าการแสดงผลแบบไบนารียังคงรักษาโครงสร้างทางสถิติของข้อมูลดั้งเดิมไว้ นี่เป็นรากฐานทางทฤษฎีที่มั่นคงสำหรับความสนใจแบบ 1 บิต

จากแนวคิดนี้ BinaryAttention จึงถือกำเนิดขึ้น มันไม่เพียงแต่แปลงการคำนวณความคล้ายคลึงให้เป็นไบนารีโดยสมบูรณ์ แต่ยังชดเชยการสูญเสียข้อมูลโดยการแนะนำไบแอสที่เรียนรู้ได้ และทำการควอนไทซ์น้ำหนักความสนใจและค่า (Value) ในขั้นตอนถัดไปที่ 8 บิต เพื่อให้เกิดการเร่งความเร็วแบบเอนด์ทูเอนด์ที่เป็นมิตรกับฮาร์ดแวร์

ข้อมูลการทดลองสนับสนุนข้อโต้แย้งของพวกเขาอย่างมีน้ำหนัก:
* ความเร็ว: บน GPU A100 ความเร็วหลักของ BinaryAttention เร็วกว่า FlashAttention2 มากกว่า 2 เท่า ที่ความละเอียดสูง 1024×1024 ปริมาณงานการอนุมานแบบเอนด์ทูเอนด์เพิ่มสูงขึ้นถึง 1.5 เท่า
* ความแม่นยำ: ในงานจำแนก ImageNet โมเดล BinaryAttention-Base ทำได้ ความแม่นยำ Top-1 ที่ 82.04% แซงหน้า DeiT-Base ความแม่นยำเต็ม (81.8%) ในงานตรวจจับวัตถุและแบ่งส่วนอินสแตนซ์บน COCO BinaryAttention ก็แสดงประสิทธิภาพที่เทียบเคียงหรือแซงหน้าเบสไลน์ความแม่นยำเต็มเช่นกัน

แล้ว BinaryAttention ทำอย่างไรให้ “ทั้งเร็วและดี” ภายใต้การบีบอัดสุดขีดที่ 1 บิต? ต่อไป เราจะเจาะลึกรายละเอียดทางเทคนิคของมันเพื่อหาคำตอบ

2. นวัตกรรมหลักของ BinaryAttention: การสร้างความคล้ายคลึงขึ้นใหม่ในพื้นที่ไบนารี

หัวใจของ BinaryAttention อยู่ที่การแปลงการคำนวณแบบทศนิยมในความสนใจมาตรฐาน โดยเฉพาะการคำนวณความคล้ายคลึง QK ที่ใช้การคำนวณมากที่สุด ให้เป็นการคำนวณแบบบิตที่ประสิทธิภาพสูง ผ่านการออกแบบที่ประณีต วิธีการทั้งหมดประกอบด้วยสามส่วนหลัก: การแสดงผลแบบไบนารีพร้อมการปรับสเกล, การเสริมด้วยไบแอส, และการควอนไทซ์แบบผสมของน้ำหนักความสนใจและค่า (Value) ไดอะแกรมด้านล่างแสดงขั้นตอนนี้อย่างชัดเจน

2.1 รากฐานทางทฤษฎี: ทำไม 1 บิตจึงเป็นไปได้?

ก่อนการนำไปปฏิบัติจริง บทความได้เริ่มต้นด้วยการพิสูจน์ความเป็นไปได้ของการแปลง Query (Q) และ Key (K) ให้เป็นไบนารีจากมุมมองทางทฤษฎี

ความคล้ายคลึงในความสนใจมาตรฐานถูกกำหนดโดยดอทโปรดัคต์ ( QK^T ) บทความเสนอสองมุมมองในการพิจารณาดอทโปรดัคต์นี้ใหม่:

มุมมองระยะทาง: หากทำการทำให้เป็นมาตรฐาน L2 (L2 Normalization) บน Q และ K ดอทโปรดัคต์จะมีความสัมพันธ์เชิงเส้นกับกำลังสองของระยะทางแบบยุคลิด ดังนั้น ความสนใจแบบ Softmax โดยพื้นฐานแล้วคือการหาผลรวมถ่วงน้ำหนักโดยอิงตามระยะทางแบบยุคลิด
มุมมองทิศทาง: ดอทโปรดัคต์ยังเท่ากับผลคูณของขนาด (Magnitude) กับค่าโคไซน์ ภายใต้การทำให้เป็นมาตรฐาน L2 ค่าสัมประสิทธิ์ความสนใจจะเป็นสัดส่วนกับความคล้ายคลึงแบบโคไซน์ นั่นคือขึ้นอยู่กับทิศทางเท่านั้น

เมื่อแปลง Q และ K ให้เป็นไบนารีเป็น ( tilde{Q} ) และ ( tilde{K} ) ดอทโปรดัคต์หลังการแปลงเป็นไบนารีจะสัมพันธ์โดยตรงกับระยะแฮมมิงระหว่างพวกมัน ซึ่งหมายความว่าในพื้นที่ระยะแฮมมิงหลังการแปลงเป็นไบนารี ค่าสัมประสิทธิ์ความสนใจสามารถแสดงเป็น ( exp(-text{Hamming Distance}) ) ซึ่งสอดคล้องกับรูปแบบในพื้นที่ยุคลิดดั้งเดิม 更重要的是 การแปลงนี้ยังคงรักษาข้อมูลทิศทางจากพื้นที่ดั้งเดิมได้อย่างสมบูรณ์

ผลงานทางทฤษฎีหลักของบทความคือทฤษฎีบทที่ 1 ซึ่งสนับสนุนมุมมองนี้อย่างแข็งแกร่งจากมุมมองทางสถิติ ทฤษฎีบทที่ 1 ระบุว่า สมมติว่า Query ( Q ) และ Key ( K ) มีการกระจายตัวร่วมกันแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์ และมีเมทริกซ์ความแปรปรวนร่วมเป็น ( Sigma ) ดังนั้น ค่าคาดหวังของเอาต์เตอร์โปรดัคต์หลังการแปลงเป็นไบนารี ( tilde{Q}tilde{K}^T ) คือ:
[
mathbb{E}[tilde{Q}tilde{K}^T] = frac{2}{pi} arcsin(Sigma)
]
การตีความโดยสังเขปของทฤษฎีบทนี้คือ: แม้จะทำการควอนไทซ์ Q และ K อย่างสุดขีดที่ 1 บิต ค่าคาดหวังของเอาต์เตอร์โปรดัคต์ของการแสดงผลแบบไบนารีของพวกมัน ยังคงสามารถสะท้อนโครงสร้างความแปรปรวนร่วมระหว่าง Q และ K ดั้งเดิมได้อย่างแม่นยำผ่านฟังก์ชัน ( arcsin ) ที่เรียบง่าย สิ่งนี้รับประกันว่าการแสดงผลแบบไบนารีสามารถรักษาข้อมูลสถิติที่สำคัญของข้อมูลดั้งเดิมไว้ได้

2.2 การแสดงผลแบบไบนารีพร้อมการปรับสเกล: จากเครื่องหมายสู่ขนาด

จากหลักประกันทางทฤษฎี BinaryAttention เริ่มต้นด้วยการแปลง Q และ K ให้เป็นไบนารี แต่สิ่งที่มันทำไม่ใช่แค่ฟังก์ชันเครื่องหมาย ( text{sign}(cdot) ) ง่ายๆ แต่เป็นการแปลงเป็นไบนารีพร้อมการปรับสเกล:
[
tilde{Q} = alpha_Q cdot text{sign}(Q – mu_Q), quad tilde{K} = alpha_K cdot text{sign}(K – mu_K)
]
โดยที่ ( mu_Q ) และ ( mu_K ) คือค่าเฉลี่ยของ Q และ K ที่คำนวณตามมิติของโทเค็นและมิติของแชนเนล ตามลำดับ ( alpha_Q ) และ ( alpha_K ) คือปัจจัยการปรับสเกลที่สอดคล้องกัน

การแนะนำปัจจัยการปรับสเกลทั้งสองนี้มีความสำคัญอย่างยิ่ง หากไม่มีพวกมัน เวกเตอร์หลังการแปลงเป็นไบนารีจะสามารถอยู่บนไฮเปอร์สเฟียร์หน่วยเท่านั้น สูญเสียข้อมูลขนาดของเวกเตอร์ดั้งเดิมไป ในขณะที่ปัจจัยการปรับสเกลทำหน้าที่เป็น “การชดเชยพลังงาน” ทำให้การแสดงผลแบบไบนารีสามารถประมาณการกระจายตัวของ Q และ K ดั้งเดิมได้ดีขึ้น การทดลองแบบแยกส่วน (Ablation Study) ยืนยันว่า การไม่ใช้ปัจจัยการปรับสเกลจะนำไปสู่การลดลงของความแม่นยำอย่างเห็นได้ชัด

หลังจากการแปลงเป็นไบนารีพร้อมการปรับสเกล การคำนวณความคล้ายคลึงระหว่าง Q และ K ( tilde{Q}tilde{K}^T ) สามารถดำเนินการได้อย่างมีประสิทธิภาพสูงผ่านการคำนวณแบบบิตของ XNOR + popcount ซึ่งเป็นข้อได้เปรียบหลักของการคำนวณแบบไบนารี

2.3 การเสริมด้วยไบแอส: ฉีดข้อมูลโครงสร้างเข้าสู่พื้นที่ไบนารี

แม้ว่าการแปลงเป็นไบนารีจะรักษาข้อมูลทิศทางและความสัมพันธ์ทางสถิติไว้ได้ แต่ก็หลีกเลี่ยงไม่ได้ที่จะสูญเสียความแตกต่างของขนาดที่ละเอียดอ่อนในดอทโปรดัคต์ดั้งเดิม สิ่งนี้อาจทำให้การกระจายตัวของน้ำหนักความสนใจที่คำนวณได้ “สม่ำเสมอ” เกินไป (ความน่าจะเป็นหลัง Softmax ใกล้เคียงกับการกระจายตัวแบบสม่ำเสมอ) และทำให้แยกแยะโทเค็นที่สำคัญและไม่สำคัญได้ยาก

เพื่อแก้ปัญหานี้ BinaryAttention ได้แนะนำเทอมไบแอส ( B ):
[
text{Attention}(Q, K, V) = text{Softmax}left( frac{tilde{Q}tilde{K}^T}{sqrt{d}} + B right) V
]
เทอมไบแอส ( B ) นี้สามารถเรียนรู้ได้ มันฉีดข้อมูลโครงสร้างเข้าสู่เมทริกซ์ความคล้ายคลึงของความสนใจหลังการแปลงเป็นไบนารี ช่วยให้โมเดลกู้คืนหรือเสริมความสามารถในการโฟกัสไปยังบริเวณที่สำคัญ ป้องกันไม่ให้การกระจายตัวของความสนใจ “พังทลาย” กลายเป็นการกระจายตัวแบบสม่ำเสมอที่ไร้ประสิทธิภาพ

เทอมไบแอสนี้ทำหน้าที่เป็น “ตัวปรับแก้” สำหรับเพิ่มความสามารถในการแสดงผลของการกระจายตัวของความสนใจหลังการแปลงเป็นไบนารี การนำไปปฏิบัตินั้นมีหลายทางเลือก:
* เมทริกซ์ที่เรียนรู้ได้แบบหนาแน่น: เรียนรู้ค่าไบแอสอิสระสำหรับแต่ละคู่ Query-Key เพื่อเพิ่มอันดับ (Rank) ของเมทริกซ์ความคล้ายคลึงในพื้นที่ไบนารี
* ไบแอสที่ไวต่อตำแหน่ง: เช่น ใช้การเข้ารหัสตำแหน่งสัมพัทธ์ (Relative Positional Encoding) ที่ใช้กันทั่วไปใน Transformer โดยตรง เพื่อฉีดข้อมูลโครงสร้างเชิงพื้นที่เข้าสู่การคำนวณความสนใจ
* ไบแอสที่รับรู้บริบท: สร้างไบแอสแบบไดนามิกตามเนื้อหาของ Query และ Key

ในการทดลอง ผู้เขียนใช้ไบแอสตำแหน่งสัมพัทธ์ที่เรียนรู้ได้

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer
ตารางที่ 5: การทดลองแบบแยกส่วนบน ImageNet-1K ด้วยสถาปัตยกรรม DeiT สำหรับการแสดงผลแบบไบนารีพร้อมการปรับสเกล, การเสริมด้วยไบแอส, และกลยุทธ์การกลั่นตัวเอง (Self-Distillation) ของ BinaryAttention

จากผลการทดลองแบบแยกส่วนในตารางที่ 5 จะเห็นได้ว่าหลังจากเพิ่มไบแอส ความแม่นยำของโมเดล DeiT-T และ DeiT-S เพิ่มขึ้น 0.44% และ 0.27% ตามลำดับ ซึ่งพิสูจน์ประสิทธิภาพของมัน สำหรับโมเดลที่มีพารามิเตอร์มากกว่า (DeiT-B) ผลกำไรที่ได้จากไบแอสค่อนข้างน้อย ซึ่งสอดคล้องกับสัญชาตญาณ: มิติที่ใหญ่กว่าของโมเดลเองสามารถรักษาข้อมูลโครงสร้างที่อุดมสมบูรณ์กว่าในพื้นที่ไบนารีได้

2.4 การควอนไทซ์แบบผสม: บรรลุการเร่งความเร็วแบบเอนด์ทูเอนด์

หลังจากแปลงการคำนวณความคล้ายคลึง QK ให้เป็นไบนารีแล้ว BinaryAttention ยังทำการควอนไทซ์น้ำหนักความสนใจ A และค่า V ที่ 8 บิตต่อไป เพื่อให้เกิดการเร่งความ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง