
ด้วยความยาวบริบทที่รองรับโดยโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ (MLLM) ที่เพิ่มขึ้นอย่างต่อเนื่อง อินพุตภาพความละเอียดสูงและวิดีโอแบบยาวจะสร้างโทเค็นภาพ (Token) มากกว่าข้อความอย่างมาก ภายใต้ข้อจำกัดของความซับซ้อนในการคำนวณกำลังสองของกลไกความสนใจตนเอง (Self-Attention) โทเค็นภาพจำนวนมหาศาลเหล่านี้ได้กลายเป็นคอขวดของประสิทธิภาพการอนุมานของโมเดลอย่างรวดเร็ว
งานวิจัยที่มีอยู่มักใช้การตัดแต่งแบบก้าวหน้า (Progressive Pruning) เพื่อลดโทเค็นภาพ แต่ส่วนใหญ่ใช้กลยุทธ์การตัดแต่งที่ตายตัว และไม่ได้พิจารณาความแตกต่างของหน้าที่ในการประมวลผลข้อมูลหลายรูปแบบในระดับชั้นต่างๆ ของ MLLM อย่างครบถ้วน
จากการวิเคราะห์ลึกของกระแสข้อมูลภายใน MLLM บทความนี้พบว่าหน้าที่การประมวลผลในระดับชั้นต่างๆ มีความแตกต่างอย่างมีนัยสำคัญ: ชั้นตื้น主要负责รับผิดชอบในการส่งผ่านคุณลักษณะภาพ ชั้นกลาง承担ภารกิจการผสานข้ามรูปแบบ ในขณะที่ชั้นลึก则มุ่งเน้นไปที่การบูรณาการความหมายและการอนุมาน การส่งผ่านและการวิวัฒนาการของข้อมูลภาพระหว่างชั้นของโมเดลแสดงให้เห็นถึงความไม่สม่ำเสมออย่างชัดเจน
จากข้อสังเกตข้างต้น ทีมงานของเสิ่น เสี่ยวหยู จาก Ningbo Eastern Institute of Technology (Ningbo Digital Twin Research Institute) ได้เสนอวิธีการ HiDrop วิธีการนี้ผ่านการออกแบบหลักสามประการ ได้แก่ การฉีดล่าช้า (Late Injection), การตัดแต่งแบบพีระมิดเว้า (Concave Pyramid Pruning) และ การออกก่อนกำหนด (Early Exit) เพื่อสร้างกลยุทธ์การบีบอัดโทเค็นภาพที่สอดคล้องกับหน้าที่ของระดับชั้นโมเดล
ผลการทดลองแสดงให้เห็นว่าในสภาวะที่บีบอัดโทเค็นภาพประมาณ 90% HiDrop ยังคงรักษาประสิทธิภาพของโมเดลดั้งเดิมได้ 98.3% และทำให้เกิดการเร่งความเร็วการฝึก 1.72 เท่า และการเร่งความเร็วการเติมล่วงหน้า (Pre-filling) 2.2 เท่า

รูปที่ 1: การเปรียบเทียบกลยุทธ์การตัดแต่งโทเค็นภาพที่แตกต่างกัน FastV และ TwigVLM ทำการตัดแต่งในระยะเริ่มต้นที่ชั้นตื้น PDrop ใช้การตัดแต่งในอัตราส่วนเดียวกันในทุกชั้น ในขณะที่ HiDrop ปรับเปลี่ยนแบบไดนามิกตามหน้าที่ของระดับชั้น: การฉีดล่าช้าที่ชั้นตื้น การตัดแต่งแบบไม่สม่ำเสมอที่ชั้นกลาง และการลบโทเค็นที่เหลือออกก่อนกำหนดที่ชั้นลึก จึงช่วยลดต้นทุนการคำนวณได้อย่างมีนัยสำคัญในขณะที่ยังคงประสิทธิภาพไว้
บทความนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว
* ชื่อบทความ: HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
* ลิงก์บทความ: https://arxiv.org/pdf/2602.23699
* ที่เก็บโค้ด: https://github.com/EIT-NLP/HiDrop
การค้นพบหลัก: เปิดเผยกลไกไดนามิกของการประมวลผลข้อมูลภายใน MLLM
เพื่อทำความเข้าใจอย่างลึกซึ้งว่า MLLM ประมวลผลและบูรณาการข้อมูลภาพอย่างไร ผู้เขียนได้วิเคราะห์กระบวนการวิวัฒนาการของการแสดงแทนโมเดลในระดับชั้นต่างๆ วิธีการเฉพาะรวมถึง: การคำนวณความคล้ายคลึงโคไซน์ของการแสดงแทนในแต่ละรูปแบบระหว่างชั้น เพื่อวัดการเปลี่ยนแปลงของการแสดงแทนภายในรูปแบบ; ในขณะเดียวกัน ตรวจสอบการเปลี่ยนแปลงของการฝังข้อความคำสั่งคงที่เมื่อจับคู่กับภาพที่แตกต่างกัน เพื่อประเมินความแรงของอิทธิพลข้ามรูปแบบของข้อมูลภาพต่อการแสดงข้อความ

รูปที่ 2: พลวัตของการแสดงแทนข้อมูลในแต่ละชั้นของ MLLM ภาพซ้ายแสดงกระบวนการปรับแต่งการแสดงแทนภายในรูปแบบทีละชั้น ภาพขวาสะท้อนความแรงของการโต้ตอบข้ามรูปแบบระหว่างภาพและภาษา
- ชั้นตื้น: ภาพซ้ายแสดงให้เห็นว่า การแสดงแทนโทเค็นภาพในชั้นตื้นมีความคล้ายคลึงกันในตัวเองสูง และมีการเปลี่ยนแปลงเพียงเล็กน้อยระหว่างชั้นที่ต่อเนื่องกันเท่านั้น ซึ่งบ่งชี้ว่าโมเดลภาษาขนาดใหญ่ (LLM) ในขั้นตอนนี้มีการประมวลผลข้อมูลภาพที่สามารถละเลยได้ ภาพขวาแสดงให้เห็นว่า การฝังข้อความของคำสั่งคงที่ในชั้นตื้นยังคงเกือบไม่เปลี่ยนแปลงสำหรับภาพที่แตกต่างกัน ซึ่งบ่งชี้ว่าการผสานข้ามรูปแบบที่มีความหมายยังไม่เกิดขึ้น ดังนั้น ชั้นตื้นจึงทำหน้าที่เป็นช่องทางส่งผ่านข้อมูลภาพเป็นหลัก รับผิดชอบในการส่งผ่านคุณลักษณะไปยังชั้นที่ลึกกว่า แทนที่จะเป็นการประมวลผลความหมายที่แท้จริง
- ชั้นกลาง: แตกต่างจากชั้นตื้น ชั้นกลางกลายเป็นขั้นตอนสำคัญของการผสานข้ามรูปแบบ ในเวลานี้ ข้อมูลภาพเริ่มมีอิทธิพลอย่างมีนัยสำคัญต่อการแสดงข้อความ ซึ่งบ่งชี้ว่าโมเดลกำลังบูรณาการข้อมูลภาพและภาษาโดยสมัครใจ เพื่อทำให้การจัดตำแหน่งความหมายสมบูรณ์ การวิเคราะห์เพิ่มเติมพบว่ากระบวนการผสานนี้มีความเบาบางอย่างชัดเจน: มีเพียงโทเค็นภาพสำคัญจำนวนน้อยเท่านั้นที่มีอิทธิพลชี้ขาดต่อการแสดงข้อความ ในขณะที่โทเค็นจำนวนมากค่อนข้างซ้ำซ้อน ดังนั้น ชั้นกลางจึงกลายเป็นขั้นตอนสำคัญในการบีบอัดโทเค็นภาพ
- ชั้นลึก: เมื่อการผสานข้ามรูปแบบเสร็จสิ้นโดยพื้นฐานที่ชั้นกลางแล้ว โมเดลเข้าสู่ขั้นตอนที่เน้นการอนุมานความหมายเชิงนามธรรมเป็นหลัก ในเวลานี้ อิทธิพลโดยตรงของข้อมูลภาพต่อการแสดงข้อความค่อยๆ ลดลง โมเดลพึ่งพาการแสดงความหมายที่ผสานแล้วมากขึ้นเพื่อการอนุมานระดับสูง

รูปที่ 3: การวิเคราะห์ความเบาบางของโทเค็นภาพในชั้นกลาง ภาพซ้าย: เส้นโค้งการบีบอัดโทเค็นภาพภายใต้ค่า p ที่แตกต่างกัน ค่า p ที่ต่ำกว่าสอดคล้องกับการตัดแต่งที่แรงกว่า ภาพขวา: แม้ในอัตราการบีบอัดสูง ประสิทธิภาพของโมเดลยังคงมีเสถียรภาพ ซึ่งบ่งชี้ว่ากลยุทธ์การตัดแต่งนี้มีความแข็งแกร่งที่ดี
โดยสรุป การประมวลผลข้อมูลของ MLLM แสดงให้เห็นถึงโครงสร้างระดับชั้นที่ชัดเจน: ชั้นตื้นส่งผ่านข้อมูล ชั้นกลางทำการผสาน และชั้นลึกรับผิดชอบการอนุมาน การค้นพบนี้ให้พื้นฐานที่สำคัญสำหรับการออกแบบกลยุทธ์การบีบอัดโทเค็นภาพที่มีเหตุผลมากขึ้น
วิธีการหลัก: กลยุทธ์การบีบอัดแบบสามขั้นตอนที่สอดคล้องกับระดับชั้นของ HiDrop
จากการวิเคราะห์พลวัตของการประมวลผลข้อมูลระดับชั้นของ MLLM ผู้เขียนได้เสนอเฟรมเวิร์ก HiDrop เฟรมเวิร์กนี้ผ่านกลยุทธ์การบีบอัดโทเค็นภาพที่สอดคล้องกับโครงสร้างระดับชั้นของโมเดล ทำให้สามารถลดต้นทุนการคำนวณได้อย่างมีนัยสำคัญในขณะที่รับประกันประสิทธิภาพ ดังแสดงในรูปที่ 4 HiDrop แบ่งการประมวลผลโทเค็นภาพออกเป็นสามขั้นตอน ได้แก่ ชั้นตื้น ชั้นกลาง และชั้นลึก และออกแบบกลยุทธ์การบีบอัดที่แตกต่างกันสำหรับแต่ละขั้นตอน เพื่อให้การจัดสรรทรัพยากรการคำนวณสอดคล้องกับกระบวนการประมวลผลข้อมูลจริง

รูปที่ 4: ภาพรวมของเฟรมเวิร์ก HiDrop (a) แผนภาพเฟรมเวิร์ก: ชั้นตื้นมุ่งเน้นการอนุมานที่ไม่เกี่ยวข้องกับภาพ ชั้นกลางตัดแต่งโทเค็นที่ซ้ำซ้อนผ่านโครงการหลายขั้นตอนแบบพีระมิดเว้า ชั้นลึกทำให้การออกจากภาพก่อนกำหนดเป็นจริง (b) การเปรียบเทียบระหว่างตัวดำเนินการ Hard Top-k และตัวดำเนินการ Differentiable Top-k ตัวหลังทำให้การเลือกแบบปรับตัวได้และรักษาข้อมูลได้ดีกว่า
-
ชั้นตื้น: การฉีดภาพล่าช้า (Late Injection)
จากการวิเคราะห์ ชั้นตื้นมีการประมวลผลข้อมูลภาพที่จำกัด โทเค็นภาพส่วนใหญ่ถูกส่งผ่านไปยังชั้นที่ลึกกว่าแบบแพสซีฟ ดังนั้น HiDrop จะไม่ฉีดโทเค็นภาพทันทีที่อินพุตโมเดล แต่จะเลื่อนการนำเข้าไปยังชั้นที่ลึกกว่า ซึ่งเป็นจุดเริ่มต้นของการผสานข้ามรูปแบบ ตำแหน่งการฉีดถูกระบุผ่านจุดต่ำสุดเฉพาะที่ในเส้นโค้งความคล้ายคลึงกันระหว่างชั้นของการแสดงแทนภาพ (รูปที่ 2) เนื่องจากชั้นตื้นไม่รับผิดชอบภารกิจการผสาน การฉีดล่าช้านี้สามารถลดปริมาณการคำนวณได้ในขณะที่แทบไม่ส่งผลกระทบต่อประสิทธิภาพ -
ชั้นกลาง: การตัดแต่งแบบพีระมิดเว้า (Concave Pyramid Pruning)
ชั้นกลางเป็นขั้นตอนสำคัญของการผสานข้ามรูปแบบ และการมีส่วนร่วมของโทเค็นภาพแสดงให้เห็นถึงความเบาบาง HiDrop ใช้กลยุทธ์การตัดแต่งแบบพีระมิดเว้าที่รุนแรง ในขั้นตอนนี้ เพื่อลดโทเค็นภาพในลักษณะที่เร่งด่วนก่อนแล้วค่อยผ่อนคลาย และแนะนำตัวดำเนินการ Differentiable Top-k เพื่อทำให้การเลือกแบบปรับตัวได้ เป็นการลดต้นทุนการคำนวณในขณะที่ยังคงข้อมูลสำคัญไว้
เพื่อกำหนดตำแหน่งระดับชั้นสำหรับการตัดแต่ง ผู้เขียนได้เสนอตัวชี้วัดความคล้ายคลึงกันของความสนใจภาพระหว่างชั้น (Inter-Layer Visual Attention Similarity, ILVAS) โดยวัดความเสถียรของความสนใจโทเค็นภาพระหว่างชั้นที่อยู่ติดกันเพื่อระบุชั้นที่เหมาะสมสำหรับการกรอง และกำหนดตำแหน่งการตัดแต่งในชั้นกลางตามจุดสุดขั้วเฉพาะที่ของเส้นโค้ง ILVAS -
ชั้นลึก: การออกจากภาพก่อนกำหนด (Early Exit)
เมื่อการผสานข้ามรูปแบบเสร็จสิ้นโดยพื้นฐานที่ชั้นกลางแล้ว โมเดลเข้าสู่ขั้นตอนการอนุมานความหมายระดับสูง อิทธิพลของโทเค็นภาพลดลงอย่างมีนัยสำคัญ ดังนั้น HiDrop จึงลบโทเค็นภาพที่เหลือออกก่อนกำหนดที่ชั้นลึก ทำให้ชั้นต่อๆ ไปประมวลผลเฉพาะการแสดงความหมายที่ผสานแล้วเท่านั้น
ตำแหน่งการออกถูกกำหนดผ่านการวิเคราะห์หน้ากากจากลึกไปตื้น โดยเลือกจุดที่ประสิทธิภาพมีแนวโน้มคงที่ เพื่อลดการคำนวณความสนใจในชั้นลึก เมื่อรวมกับการฉีดล่าช้าที่ชั้นตื้นและการออกก่อนกำหนดที่ชั้นลึก HiDrop จริงๆ แล้วสร้างหน้าต่างการประมวลผลภาพที่โฟกัส โดยรวมการคำนวณโทเค็นภาพไว้ที่ชั้นกลาง การทดลองแยกส่วนแสดงให้เห็นว่ากลยุทธ์การระบุหน้าต่างนี้สามารถทำให้เกิดการแลกเปลี่ยนระหว่างประสิทธิภาพและประสิทธิผลที่ดี
นอกจากนี้ HiDrop ได้ทำการปรับปรุงเพื่อแก้ไขความท้าทายในการนำไปใช้ที่เกิดจากการเลือกโทเค็นแบบไดนามิก เช่น การใช้การเข้ารหัสตำแหน่งแบบถาวร เพื่อรักษาความสม่ำเสมอของตำแหน่ง การรักษาความเข้ากันได้กับ FlashAttention และการลดเวลาเติมล่วงหน้าลงอีกผ่านการแยกการคำนวณภาพแบบขนาน
ผลการทดลอง: อัตราการบีบอัดที่สูงขึ้น ประสิทธิภาพที่ดีกว่า ประสิทธิภาพที่ดีกว่า

ในการทดสอบมาตรฐานหลายรูปแบบหลายชุด HiDrop ยังคงรักษาประสิทธิภาพที่ยอดเยี่ยมภายใต้อัตราการบีบอัดที่สูงขึ้น ผลการทดลองแสดงให้เห็นว่าเมื่ออัตราการบีบอัดอยู่ที่ 88.9% ยังคงรักษาประสิทธิภาพดั้งเดิมได้ 98.3%; แม้อัตราการบีบอัดเพิ่มขึ้นเป็น 91.7% ประสิทธิภาพของมันยังดีกว่าผลการแสดงของ PDrop ที่อัตราการบีบอัด 88.9% ซึ่งแสดงให้เห็นถึงการแลกเปลี่ยนระหว่างการบีบอัดและประสิทธิภาพที่ดีกว่า

นอกจากรักษาประสิทธิภาพแล้ว HiDrop ยังเพิ่มประสิทธิภาพการคำนวณอย่างมีนัยสำคัญอีกด้วย วิธีการนี้ลดจำนวนโทเค็นภาพโดยเฉลี่ยลงประมาณ 90% ลดปริมาณการดำเนินการทศนิยม (FLOPs) ในการอนุมานลงอย่างมาก บนโมเดล LLaVA-1.5-7B HiDrop ทำให้เกิดการเร่งความเร็วการฝึกประมาณ 1.7 เท่า และการเร่งความเร็วการเติมล่วงหน้า 2.2 เท่า
สรุป
บทความนี้เริ่มจากพลวัตของการประมวลผลข้อมูลภายในโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ เปิดเผยความแตกต่างของหน้าที่ของข้อมูลภาพในชั้นเครือข่ายที่แตกต่างกัน และตามนั้นได้เสนอเฟรมเวิร์กการบีบอัด HiDrop ผลการทดลองแสดงให้เห็นว่า HiDrop ยังคงรักษาประสิทธิภาพที่ใกล้เคียงกับโมเดลดั้งเดิมได้ในขณะที่ทำให้อัตราการบีบอัดโทเค็นภาพสูงมาก และเพิ่มประสิทธิภาพการฝึกและการอนุมานอย่างมีนัยสำคัญ งานวิจัยนี้แสดงให้เห็นว่าการเข้าใจโครงสร้างของกระแสข้อมูลภายในโมเดลเป็นทิศทางที่สำคัญสำหรับการออกแบบโมเดลหลายรูปแบบที่มีประสิทธิภาพ
แนะนำผู้เขียน
ผู้เขียนคนแรก อู๋ เฮ่า เป็นผู้ช่วยวิจัยของทีมเสิ่น เสี่ยวหยู ที่ Ningbo Eastern Institute of Technology / Ningbo Digital Twin (Eastern Institute of Technology) Research Institute ทิศทางการวิจัยคือการบีบอัดโมเดลขนาดใหญ่แบบหลายรูปแบบและโมเดลขนาดใหญ่แบบสตรีมมิ่ง ผลงานวิจัยของเขาได้รับการตีพิมพ์ในบทความหลายฉบับในการประชุมระดับสูง เช่น ICLR, CVPR, ECCV โดยหนึ่งในนั้นได้รับการคัดเลือกเข้าชิงรางวัลบทความยอดเยี่ยม

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/27041
