คำสำคัญ: การตัดแต่งโทเค็นภาพ, โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ, การฝึกฝนที่มีประสิทธิภาพ, ความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน, การฝึกฝนแบบสองโหมด
ในปีที่ผ่านมา โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบได้ก้าวหน้าอย่างมากในงานต่างๆ เช่น การบรรยายภาพ, การถามตอบเชิงภาพ, การระบุตำแหน่งภาพ, และการให้เหตุผลแบบหลายรูปแบบ ทำให้กลายเป็นทิศทางการวิจัยที่สำคัญในสาขาปัญญาประดิษฐ์ อย่างไรก็ตาม เมื่อขนาดโมเดลขยายใหญ่ขึ้นอย่างต่อเนื่องและความละเอียดของอินพุตภาพเพิ่มสูงขึ้น ต้นทุนการฝึกฝนของ MLLMs ก็เพิ่มขึ้นอย่างรวดเร็ว กลายเป็นคอขวดสำคัญที่จำกัดการพัฒนาและการประยุกต์ใช้
วิธีการเพิ่มประสิทธิภาพแบบดั้งเดิมส่วนใหญ่เน้นที่ การบีบอัดโมเดล, การปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพ และ การต่อยอดตัวเข้ารหัสภาพ แต่กลับมองข้ามปัจจัยสำคัญอีกประการหนึ่ง นั่นคือ จำนวนโทเค็นภาพ
ในโมเดลหลายรูปแบบทั่วไป ภาพหนึ่งภาพจะถูกเข้ารหัสเป็นโทเค็นภาพหลายร้อยหรือหลายพันโทเค็น โทเค็นเหล่านี้ เมื่อรวมกับกลไกความสนใจตนเองในโมเดลภาษาขนาดใหญ่ จะสร้างความซับซ้อนในการคำนวณแบบกำลังสอง ทำให้กระบวนการฝึกฝนใช้เวลานานและทรัพยากรมาก

- ชื่อบทความวิจัย: Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning
- ลิงก์บทความวิจัย: https://arxiv.org/pdf/2602.03815
- ที่เก็บโค้ด: https://github.com/dingkun-zhang/DualSpeed
จากงานวิจัยล่าสุดของมหาวิทยาลัยฮาร์บินและมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง งานวิจัยที่ก้าวล้ำชื่อ “Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning” ได้เสนอวิธีแก้ปัญหาที่สร้างสรรค์: กรอบการฝึกฝนแบบสองความเร็ว DualSpeed
กรอบ DualSpeed แก้ปัญหาข้างต้นผ่านการฝึกฝนร่วมกันแบบสองโหมดเร็ว-ช้า
* โหมดเร็วเป็นโหมดการฝึกฝนหลัก ผนวกวิธีการตัดแต่งโทเค็นภาพที่มีอยู่เป็นปลั๊กอินเพื่อลดโทเค็นภาพ และแนะนำ ตัวแยกโหมดที่เรียนรู้ได้ เพื่อชี้นำโมเดลให้ปรับตัวกับอินพุตที่ถูกตัดแต่งแล้ว
* โหมดช้าเป็นโหมดเสริม ฝึกฝนโดยใช้ลำดับภาพเต็มรูปแบบเพื่อรับประกันความสอดคล้องระหว่างการฝึกฝนและการอนุมาน พร้อมทั้งใช้การเรียนรู้จากตัวเองเพื่อเรียนรู้จากโหมดเร็วที่ได้รับการฝึกฝนอย่างเต็มที่ เพื่อเพิ่มประสิทธิภาพการฝึกฝน

รูปที่ 3 | ภาพรวมกรอบ DualSpeed กรอบนี้ประกอบด้วยโหมดเร็วและโหมดช้า โดยทั้งสองโหมดจะสลับกันแบบสุ่มระหว่างมินิแบทช์ต่างๆ โหมดเร็วเป็นโหมดหลักเพื่อเพิ่มประสิทธิภาพการฝึกฝนให้สูงสุด โหมดช้าเป็นโหมดเสริมเพื่อรับประกันความสอดคล้องระหว่างการฝึกฝนและการอนุมาน วิธีการตัดแต่งโทเค็นภาพต่างๆ สามารถเชื่อมต่อเป็นปลั๊กอินกับกรอบ DualSpeed ได้ รูปภาพแสดงกลไกการทำงานของโหมดคู่ DualSpeed โดยละเอียด: โหมดเร็วลดโทเค็นภาพผ่านการเชื่อมต่อ VTP และฝึกฝนอย่างมีประสิทธิภาพด้วยการสูญเสียเอนโทรปีไขว้ โหมดช้าฝึกฝนด้วยลำดับภาพเต็มรูปแบบ และยังแนะนำการเรียนรู้จากตัวเอง โดยใช้โหมดเร็วเป็นโมเดลครูเพื่อเพิ่มประสิทธิภาพการเรียนรู้ ทั้งสองโหมดใช้ค่าน้ำหนัก LLM ร่วมกัน และสลับตามความน่าจะ ใช้ประโยชน์จากโหมดเร็วเพื่อเพิ่มความเร็วในการฝึกฝน และพึ่งพาโหมดช้าเพื่อหลีกเลี่ยงความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน ทำให้ได้ทั้งประสิทธิภาพและประสิทธิผล
ผลการทดลองแสดงว่า DualSpeed เร่งความเร็วการฝึกฝนได้ 2.1 เท่า บน LLaVA-1.5 และเร่งความเร็วได้สูงถึง 4.0 เท่า บน LLaVA-NeXT และยังคงประสิทธิภาพไว้มากกว่า 99% ในแบบทดสอบมาตรฐานภาษา-ภาพทั้ง 9 แบบ
งานวิจัยยังยืนยันความสามารถในการปรับใช้ของวิธีการ VTP ต่างๆ ยืนยันว่าโทเค็นภาพประมาณ 90% มีความซ้ำซ้อนในการฝึกฝน และกรอบงานมีความแข็งแกร่งที่ดีต่อพารามิเตอร์หลัก กรอบงานนี้เป็นครั้งแรกที่ผนวก VTP เข้ากับกระบวนการฝึกฝน MLLMs ได้อย่างมีประสิทธิภาพ โดยคำนึงถึงทั้งประสิทธิภาพการฝึกฝนและความเสถียรของประสิทธิภาพ เป็นทางออกที่เป็นไปได้สำหรับการฝึกฝนโมเดลหลายรูปแบบความละเอียดสูงอย่างมีประสิทธิภาพ

รูปที่ 1 | DualSpeed สามารถเร่งความเร็วการฝึกฝนโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบได้อย่างมีนัยสำคัญ ในขณะที่รับประกันว่าประสิทธิภาพจะไม่ลดลง สามารถเร่งความเร็วการฝึกฝนได้สูงสุด 4.0 เท่า และประสิทธิภาพแทบไม่สูญเสียเลย รูปภาพนี้แสดงข้อได้เปรียบหลักของกรอบ DualSpeed อย่างชัดเจน ในการฝึกฝน MLLMs วิธีการแบบดั้งเดิมมักเผชิญกับปัญหาที่ยากจะได้ทั้งความเร็วและประสิทธิภาพ ในขณะที่ DualSpeed ผ่านความร่วมมือของโหมดคู่เร็ว-ช้า ในขณะที่ลดจำนวนโทเค็นภาพเพื่อเพิ่มประสิทธิภาพการฝึกฝน ก็ใช้โหมดช้ารับประกันความสอดคล้องระหว่างการฝึกฝนและการอนุมาน สุดท้ายจึงบรรลุทั้งการเร่งความเร็วการฝึกฝนและการรักษาประสิทธิภาพ เป็นทางออกที่มีประสิทธิภาพสำหรับการฝึกฝน MLLMs ขนาดใหญ่
ศูนย์ ปัญหาสำคัญ
ปัญหาที่หนึ่ง: ตัวแยกโหมด: เป็นวิธีแก้ปัญหาพื้นฐานหรือเป็นการปกปิดพฤติกรรม?
DualSpeed ใช้ “ตัวแยกโหมด” เพื่อสลับระหว่างโหมดเร็วและช้า แต่ กลไกนี้โดยพื้นฐานแล้วอาศัยคำนำหน้าแบบนุ่มที่เรียนรู้ได้เพื่อชี้นำโมเดลให้ตอบสนองต่อความยาวอินพุตที่ต่างกัน นี่หมายความว่าโมเดลเพียงแค่เรียนรู้ที่จะ “สลับพฤติกรรม” ตามการมีอยู่หรือไม่มีของคำนำหน้า แทนที่จะเรียนรู้การแสดงลักษณะภายในที่สามารถประมวลผลลำดับที่ถูกตัดแต่งและลำดับเต็มรูปแบบได้จริงหรือไม่? หากลบตัวแยกโหมดออก โมเดลจะยังคงความสามารถในการให้เหตุผลกับลำดับเต็มรูปแบบได้หรือไม่? สิ่งนี้สะท้อนว่าวิธีการแก้ปัญหาความไม่ตรงกันระหว่างการฝึกฝนและการอนุมานได้จริง หรือเพียงแค่ใช้สัญญาณภายนอกปกปิดปัญหา
ตัวแยกโหมด: “นั่งร้าน” ในการฝึกฝน และตัวเลือกได้ในการอนุมาน
ตัวแยกโหมดเป็นหนึ่งในการออกแบบหลักของกรอบ DualSpeed ผ่านคำนำหน้าแบบนุ่มที่เรียนรู้ได้ มันชี้นำโมเดลให้เปิดใช้งาน “โหมดรับรู้เร็ว” เมื่อประมวลผล ลำดับที่ถูกตัดแต่ง และไม่ใช้คำนำหน้านี้เมื่อประมวลผล ลำดับเต็มรูปแบบ เพื่อสลับไปยังโหมดอื่น จากกลไก มันเทียบเท่ากับการให้ “สัญญาณสวิตช์” ที่แยกประเภทอินพุตจากภายนอกโมเดล
อย่างไรก็ตาม การทดลองแสดงให้เห็นว่า หาก ลบตัวแยกโหมดออกทั้งหมด ในการอนุมาน ประสิทธิภาพของโมเดลบนลำดับเต็มรูปแบบจะไม่ได้รับผลกระทบเกือบทั้งหมด (99.61%) และประสิทธิภาพบนลำดับที่ถูกตัดแต่งก็ลดลงเพียงเล็กน้อย (จาก 98.12% เป็น 98.10%) นี่แสดงว่า:
- โมเดลได้ทำให้ความเข้าใจที่แข็งแกร่งต่อลำดับเต็มรูปแบบเป็นส่วนภายใน ความสามารถหลักไม่ขึ้นกับคำแนะนำภายนอก
- ตัวแยกโหมดในการฝึกฝนทำหน้าที่เป็น “นั่งร้าน” เป็นหลัก ช่วยให้โมเดลแยกแยะการกระจายตัวของอินพุตสองประเภทได้ชัดเจน ป้องกันการสับสนในการเรียนรู้ แต่ตัวมันเองไม่ใช่สิ่งจำเป็นในการอนุมาน
ดังนั้น DualSpeed ไม่ใช่แค่การปกปิดปัญหา แต่ ผ่านการชี้นำการฝึกฝนที่มีโครงสร้าง ทำให้โมเดลสามารถจัดการความสามารถในการประมวลผลทั้งสองโหมดได้พร้อมกัน และสุดท้ายทำให้กลายเป็นการแสดงลักษณะที่เป็นเอกภาพ การที่ประสิทธิภาพยังคงอยู่หลังจากลบตัวแยกโหมดออก เป็นหลักฐานเชิงประจักษ์ว่าวิธีนี้แก้ปัญหาความไม่ตรงกันระหว่างการฝึกฝนและการอนุมานได้สำเร็จ
การสำรวจความเป็นสากล: ขอบเขตของสถาปัตยกรรมและงาน
การทดลองในบทความวิจัยส่วนใหญ่ยึดตามโมเดลตระกูล LLaVA (ตัวเข้ารหัสภาพคือ CLIP-ViT) เพื่อยืนยันประสิทธิผลของ DualSpeed ในรูปแบบภาพ คำถามธรรมชาติคือ: วิธีการนี้ มีความเป็นสากลที่กว้างขวางกว่าหรือไม่? ตัวอย่างเช่น เมื่อเปลี่ยนเป็นตัวเข้ารหัสภาพที่มีสถาปัตยกรรมต่างกัน (เช่น DETR ที่ใช้การสืบค้นวัตถุ หรือ Swin Transformer ที่ใช้กลไกความสนใจแบบหน้าต่างลำดับชั้น) หรือโปรเจคเตอร์หลายรูปแบบที่ซับซ้อนมากขึ้น กลไกความร่วมมือของโหมดเร็ว-ช้าและการเรียนรู้จากตัวเองยังคงมีประสิทธิภาพหรือไม่? โดยเฉพาะในงานที่มีพลวัตสูง เช่น การทำความเข้าใจวิดีโอ รูปแบบความซ้ำซ้อนของโทเค็นภาพในมิติเวลาและพื้นที่แตกต่างจากภาพอย่างมีนัยสำคัญ การออกแบบกลยุทธ์การตัดแต่งและตัวแยกโหมดของ DualSpeed จำเป็นต้องปรับเปลี่ยนหรือไม่?
จากการวิเคราะห์หลักการ ความเป็นสากลสามารถสำรวจได้จากสองมิติ:
| มิติ | การวิเคราะห์เนื้อหา |
| :— | :— |
| ความแตกต่างของตัวเข้ารหัสภาพ | หากเปลี่ยนเป็นตัวเข้ารหัสเช่น DETR หรือ Swin Transformer วิธีการสร้างโทเค็นและรูปแบบความซ้ำซ้อนเชิงพื้นที่อาจแตกต่างจาก ViT มาตรฐาน เกณฑ์การตัดแต่งโทเค็นที่ DualSpeed อาศัย (เช่น เกณฑ์ตามความหลากหลาย) อาจต้องปรับให้เหมาะกับการกระจายตัวลักษณะของตัวเข้ารหัสที่ต่างกัน แต่ กรอบการฝึกฝนแบบสองโหมดเร็ว-ช้าเองมีความสามารถในการถ่ายโอน |
| ความสามารถในการขยายงาน | ในงานเช่น การทำความเข้าใจวิดีโอ โทเค็นภาพมีความซ้ำซ้อนทั้งในมิติเวลาและพื้นที่ กลยุทธ์การตัดแต่งในปัจจุบันเน้นที่มิติพื้นที่เป็นหลัก หากต้องการขยายไปยังสาขาวิดีโอ จำเป็นต้องพิจารณาการตัดแต่งในมิติเวลา (เช่น การตัดแต่งโทเค็นข้ามเฟรม) ในขณะเดียวกัน ตัวแยกโหมดอาจต้องเสริมเพื่อแยกแยะบริบทเวลาและพื้นที่ อย่างไรก็ตาม แนวคิดหลักของการฝึกฝนแบบสองโหมดและการเรียนรู้จากตัวเองยังคงมีคุณค่าในการชี้นำ เพียงแต่ต้องปรับเปลี่ยนตามโครงสร้างเวลา |
โดยสรุป แนวคิดหลักของ DualSpeed – การฝึกฝนแบบสองโหมดเพื่อให้ได้ทั้งประสิทธิภาพและความสอดคล้องของประสิทธิภาพ – ไม่ขึ้นกับสถาปัตยกรรม แต่ส่วนประกอบการนำไปใช้เฉพาะ (เช่น เกณฑ์การตัดแต่ง การออกแบบตัวแยกโหมด) จำเป็นต้องปรับให้เหมาะกับลักษณะโทเค็นของตัวเข้ารหัสภาพและความต้องการของงาน ในอนาคตจำเป็นต้องมีการยืนยันอย่างเป็นระบบบนสถาปัตยกรรมมากขึ้น (เช่น Video-LLaMA, InternVL) และงานที่มีพลวัต เพื่อประเมินความเป็นสากลอย่างครอบคลุม
หนึ่ง คอขวดประสิทธิภาพการฝึกฝน MLLM และศักยภาพของการตัดแต่งโทเค็นภาพ
1.1 สถาปัตยกรรมพื้นฐานของโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ
โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบมักประกอบด้วยส่วนประกอบหลักสามส่วน:
- ตัวเข้ารหัสภาพ: แปลงอินพุตภาพดั้งเดิม (เช่น ภาพ เฟรมวิดีโอ) เป็นลำดับโทเค็นภาพ
- โปรเจคเตอร์หลายรูปแบบ: แมปโทเค็นภาพไปยังพื้นที่คุณลักษณะข้อความ
- โมเดลภาษาขนาดใหญ่: ประมวลผลโทเค็นภาพและข้อความอย่างเป็นเอกภาพ ดำเนินงานความเข้าใจข้ามรูปแบบและการสร้าง
ตัวอย่างเช่น LLaVA-1.5 ใช้ CLIP-ViT-L/14 เป็นตัวเข้ารหัสภาพ แปลงภาพความละเอียด 336×336 เป็นโทเค็นภาพ 576 โทเค็น ส่วนโมเดลความละเอียดสูงเช่น LLaVA-NeXT สามารถสร้างโทเค็นภาพได้มากถึง 2880 โทเค็นต่อภาพ โทเค็นภาพเหล่านี้เมื่อรวมกับกลไกความสนใจตนเองของโมเดลภาษาขนาดใหญ่ จะสร้างความซับซ้อนในการคำนวณ O(n²) โดยที่ n คือจำนวนโทเค็นทั้งหมด
1.2 ปัญหาความซ้ำซ้อนของโทเค็นภาพ
งานวิจัยแสดงว่าโทเค็นภาพทั้งหมดไม่สำคัญต่อความเข้าใจหลายรูปแบบ โทเค็นจำนวนมากสอดคล้องกับพื้นที่ที่ซ้ำซ้อนหรือมีข้อมูลต่ำ เช่น:
- พื้นหลังที่สม่ำเสมอ
- พื้นผิวที่ซ้ำกัน
- พื้นที่รายละเอียดที่ไม่เกี่ยวข้อง
โทเค็นที่ซ้ำซ้อนเหล่านี้ไม่เพียงเพิ่มภาระการคำนวณ แต่ยังอาจนำเสียงรบกวนเข้ามา ซึ่งส่งผลต่อประสิทธิภาพการเรียนรู้ของโมเดล เทคโนโลยีการตัดแต่งโทเค็นภาพพัฒนาขึ้นจากความเข้าใจนี้ มัน ระบุและลบโทเค็นที่ซ้ำซ้อนแบบไดนามิก ทำให้เพิ่มประสิทธิภาพได้อย่างมีนัยสำคัญในขั้นตอนการอนุมาน
1.3 ความท้าทายของความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน
แม้ว่า VTP จะแสดงผลดีในขั้นตอนการอนุมาน แต่การนำไปใช้โดยตรงในขั้นตอนการฝึกฝนกลับเผชิญกับความท้าทายพื้นฐาน: ความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน กล่าวคือ เมื่อโมเดลได้รับการฝึกฝนเฉพาะบนลำดับภาพที่ถูกตัดแต่ง มันจะยากที่จะให้เหตุผลอย่างมีประสิทธิภาพบนลำดับภาพเต็มรูปแบบที่ไม่ได้ถูกตัดแต่ง
ความไม่ตรงกันนี้อาจมาจากความแตกต่างหลายด้าน:
- ความแตกต่างของความยาวลำดับ: ลำดับที่ถูกตัดแต่งสั้นกว่าลำดับเต็มรูปแบบมาก
- ความแตกต่างของความหนาแน่นข้อมูล: ลำดับที่ถูกตัดแต่งมีความหนาแน่นข้อมูลสูงกว่า
- ความแตกต่างของโครงสร้างพื้นที่: การตัดแต่งอาจทำลายความสัมพันธ์ทางทอพอโลยีดั้งเดิม

รูปที่ 2 | แผนภาพแสดงช่องว่างประสิทธิภาพที่เกิดจากความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน ตามทฤษฎี เนื่องจากการตัดแต่งทำให้สู
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23026
