ไม่ต้องจับคู่ภาพกับข้อความ การจัดเรียงทางเรขาคณิตปลดล็อกกระบวนทัศน์ใหม่ในการฝึกฝนโมเดลขนาดใหญ่หลายรูปแบบ
ในการวิจัยและพัฒนาของโมเดลขนาดใหญ่หลายรูปแบบ (MLLM) มีฉันทามติมายาวนานว่า: หากไม่มีคู่ภาพ-ข้อความ (Image-Text Pairs) ก็จะไม่มีขีดความสามารถหลายรูปแบบ เพื่อฝึกโมเดลให้เข้าใจภาพ อุตสาหกรรมมักต้องใช้เงินมหาศาลในการรวบรวมภาพจำนวนมาก และสร้างคำอธิบายข้อความคุณภาพสูงสำหรับแต่ละภาพ ข้อมูลคู่ที่มีการควบคุมอย่างเข้มงวดนี้ ถูกมองว่าเป็นรากฐานของการฝึกหลายรูปแบบเสมอมา

อย่างไรก็ตาม งานวิจัยล่าสุดชื่อ ReVision จากสถาบันเช่น มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง (กวางโจว) และมหาวิทยาลัยแห่งชาติสิงคโปร์ ได้เสนอข้อสรุปที่ขัดกับสัญชาตญาณ: ในขั้นตอนการฝึกฝนล่วงหน้าของโมเดลขนาดใหญ่หลายรูปแบบ ซึ่งพึ่งพาข้อมูลขนาดใหญ่มาก ความสัมพันธ์แบบคู่อันมีค่าเหล่านั้นไม่ใช่สิ่งจำเป็น
รากฐานทางทฤษฎี: ทำไม “การจัดเรียงคุณลักษณะ” จึงสามารถแทนที่ “การจับคู่” ได้?
ก่อนจะเจาะลึกรายละเอียดทางเรขาคณิต ต้องชัดเจนก่อนว่าวิธีการ ReVision ตั้งอยู่บนเงื่อนไขใด วิธีนี้ไม่สามารถใช้กับตัวแยกคุณลักษณะอิสระสองตัวใดก็ได้ แต่ถูกสร้างขึ้นอย่างเคร่งครัดบนพื้นฐานของพื้นที่คุณลักษณะร่วม ที่สร้างขึ้นโดยการเรียนรู้แบบเปรียบเทียบหลายรูปแบบ (เช่น CLIP, SigLIP)

- การฝึกล่วงหน้าได้สร้าง ‘ความสอดคล้องของโครงสร้างเชิงความหมาย’: โมเดลแบบหอคอยคู่ที่ผ่านการฝึกฝนล่วงหน้าด้วยข้อมูลมหาศาล ผ่านการสูญเสียแบบเปรียบเทียบ (เช่น InfoNCE) ได้ทำการแมปภาพและข้อความไปยังพื้นที่ฝังตัวมิติสูงเดียวกันแล้ว ในพื้นที่นี้ แม้ว่าการกระจายตัวของคุณลักษณะของรูปแบบต่างๆ จะยังไม่ทับซ้อนกันโดยสมบูรณ์ แต่พวกมันมีโครงสร้างเชิงความหมายที่สอดคล้องกันในระดับสูง นั่นคือ: การฝังตัวทางภาพและข้อความที่แสดงความหมายเดียวกัน มีความสัมพันธ์ระยะทางสัมพัทธ์กับแนวคิดเชิงความหมายอื่นๆ ที่สอดคล้องกัน
- แก่นแท้ของช่องว่างระหว่างรูปแบบคือการเคลื่อนที่ทางเรขาคณิตที่เป็นระบบ: การวิจัยพบว่า ปรากฏการณ์ที่ไม่ทับซ้อนกันระหว่างการกระจายตัวของภาพและข้อความไม่ได้เป็นความวุ่นวายแบบสุ่ม แต่เป็นการเคลื่อนที่ที่เป็นระบบ ซึ่งหมายความว่าทั้งสองมีข้อผิดพลาดทางเรขาคณิตหลักๆ คือ การหมุน การย่อขยาย และการเลื่อนตำแหน่ง
สรุป: เนื่องจากการเรียนรู้แบบเปรียบเทียบได้แก้ไขปัญหาความสัมพันธ์เชิงความหมายแล้ว ความท้าทายที่เหลืออยู่คือเพียงการไม่จัดเรียงของการกระจายตัวทางเรขาคณิต ดังนั้น จึงไม่จำเป็นต้องพึ่งพาข้อมูลคู่ราคาแพงเพื่อเรียนรู้ความหมายใหม่ แต่เพียงแค่ใช้ข้อมูลทางสถิติจากข้อมูลที่ไม่ใช่คู่ เพื่อแก้ไขการกระจายตัวของคุณลักษณะข้อความ (ค่าเฉลี่ยและความแปรปรวนร่วม) ให้จัดเรียงกับคุณลักษณะทางเรขาคณิตของคุณลักษณะภาพ ก็สามารถทำให้เกิดการแลกเปลี่ยนความหมายข้ามรูปแบบได้
เจาะลึกรายละเอียดพื้นฐาน: ความจริงทางเรขาคณิตของช่องว่างระหว่างรูปแบบ
เมื่อเพียงแค่ต้องแก้ไขการเคลื่อนที่ทางเรขาคณิต แล้วการเคลื่อนที่นี้มีรูปร่างเป็นอย่างไร? ทำไมจึงไม่จำเป็นต้องมีข้อมูลคู่? การวิจัย ReVision พบว่า ความเข้าใจในอดีตเกี่ยวกับช่องว่างระหว่างรูปแบบ มีข้อผิดพลาดทางเรขาคณิตที่สำคัญ
ความเข้าใจผิดในอดีต: สมมติฐานแบบไอโซทรอปิก
วิธีการในอดีตแม้จะยอมรับการมีอยู่ของช่องว่างระหว่างรูปแบบ แต่โดยปกติมักจะสมมติอย่างง่ายๆ ว่าข้อผิดพลาดนี้มีความสม่ำเสมอ — นั่นคือช่องว่างเหมือนทรงกลมสมบูรณ์ (ไอโซทรอปิก) การแก้ไขตามสมมติฐานนี้มักจะแก้ไขเฉพาะการเคลื่อนที่ของจุดศูนย์กลาง แต่กลับละเลยความแตกต่างของโครงสร้างภายใน ส่งผลให้ข้อมูลความหมายระดับละเอียดถูกเจือจาง
การค้นพบใหม่: โครงสร้างแบบแอนไอโซทรอปิกภายใต้กรอบอ้างอิงคงที่
ทีม ReVision ผ่านทฤษฎีช่องว่างระหว่างรูปแบบกรอบคงที่ ได้แยกโครงสร้างปรากฏการณ์นี้ใหม่ในระดับจุลภาค ในระบบอ้างอิงคงที่ ช่องว่างระหว่างรูปแบบสามารถถูกแยกออกเป็นสองส่วนได้อย่างแม่นยำ:
- ความเบี่ยงเบนที่เสถียร: นี่ไม่ใช่แค่การเคลื่อนที่ของตำแหน่งศูนย์กลาง แต่ยังรวมถึงการเคลื่อนที่ที่เป็นระบบที่เกิดจากการหมุนของสเปซย่อย
- เศษเหลือแบบแอนไอโซทรอปิก: นี่คือการค้นพบที่สำคัญ ความผันผวนภายในช่องว่างไม่ใช่ทรงกลม แต่ถูกยืดออกเหมือนทรงรี (แอนไอโซทรอปิก)
- ในสเปซย่อยที่เกี่ยวข้องกับความหมาย ความผันผวนเหล่านี้มีความสัมพันธ์สูงกับทิศทางเกรเดียนต์เชิงความหมาย ซึ่งเป็นตัว承载ข้อมูลหลัก
- ในสเปซย่อยที่ตั้งฉากกัน สัญญาณรบกวนและการเบี่ยงเบนกระจายตัวในแนวตั้งฉาก หากบังคับใช้สัญญาณรบกวนทรงกลมจำลอง จะเกิดการเคลื่อนที่หลอน ทำให้ทิศทางการฉายของคุณลักษณะผิดพลาด
สรุป: ในพื้นที่คุณลักษณะร่วมที่ได้จากการฝึกฝนล่วงหน้าแบบการเรียนรู้เปรียบเทียบ ช่องว่างระหว่างรูปแบบไม่ได้ไร้ระเบียบ แต่เป็นโครงสร้างทางเรขาคณิตที่มีอัตราส่วนและทิศทางเฉพาะตัว หากสามารถจำลองรูปร่างแอนไอโซทรอปิกนี้ได้อย่างแม่นยำ ก็จะสามารถจำลองการกระจายตัวของคุณลักษณะภาพได้
ความก้าวหน้าหลัก: ทำลายพันธนาการข้อมูล “หนึ่งต่อหนึ่ง”
จากความเข้าใจที่แม่นยำเกี่ยวกับรูปร่างทางเรขาคณิตของช่องว่างระหว่างรูปแบบ ทีมวิจัยได้พบเส้นทางที่จะหลีกเลี่ยงข้อมูลคู่ราคาแพงในขั้นตอนการฝึกฝนล่วงหน้า
ตรรกะหลัก: ใช้คุณลักษณะที่จัดเรียงทางเรขาคณิตแล้ว ในการฝึกโมเดล สมมติฐานเบื้องต้นนี้สอดคล้องกับสัญชาตญาณทางเรขาคณิต: สำหรับโมเดลขนาดใหญ่ มันไม่ได้ “มอง” ภาพโดยตรง แต่ประมวลผลการกระจายตัวของคุณลักษณะ หากสามารถดึงคุณลักษณะทางสถิติทางเรขาคณิตของข้อมูลภาพผ่านวิธีการทางคณิตศาสตร์ และมอบกฎเกณฑ์เหล่านี้ให้กับข้อมูลข้อความล้วนๆ ข้อความนั้นในพื้นที่คุณลักษณะก็จะถูก “ปลอมแปลง” ให้เป็นภาพ
เงื่อนไขเบื้องต้น: สถิติแทนที่การจับคู่ เมื่อตรรกะข้างต้นเป็นจริง ข้อมูลคู่ภาพ-ข้อความที่มีการควบคุมเข้มงวดก็ไม่ใช่สิ่งจำเป็นสำหรับการฝึกฝนล่วงหน้าอีกต่อไป เพียงแค่ต้องเป็นไปตามเงื่อนไขต้นทุนต่ำสองประการ:
1. ข้อความที่ไม่ใช่คู่จำนวนมหาศาล: ให้ความรู้ความหมายที่หลากหลาย
2. การกระจายตัวทางสถิติของภาพที่ไม่ใช่คู่: ให้ “แม่พิมพ์ทางเรขาคณิต” ของพื้นที่ภาพ
สรุป: ตราบใดที่เข้าใจกฎการกระจายตัวทางสถิติของภาพ ก็สามารถแปลงข้อมูลข้อความใดๆ ให้เป็นสัญญาณภาพป้อนเข้าสู่โมเดลได้ทางคณิตศาสตร์ สิ่งนี้ทำให้สามารถใช้ข้อมูลข้อความราคาถูก จำลองกระบวนการฝึกฝนทางภาพราคาแพงได้
ทำได้อย่างไร? การแทนที่รูปแบบด้วย “การเติมเต็มด้วยรูปทรง”

ทีมวิจัยได้เสนอชุดกลยุทธ์การจัดเรียงทางเรขาคณิตชื่อ ReAlign:
ขั้นตอนที่หนึ่ง: การจัดเรียงจุดยึด
แก้ไขการเคลื่อนที่ตำแหน่งพื้นฐาน คำนวณจุดศูนย์ถ่วง (ค่าเฉลี่ย) ของข้อมูลภาพในพื้นที่คุณลักษณะ และเลื่อนตำแหน่งศูนย์กลางของข้อมูลข้อความไปยังจุดนั้น เพื่อกำจัดความเบี่ยงเบนอันดับหนึ่ง
ขั้นตอนที่สอง: การจัดเรียงร่องรอย
นี่คือขั้นตอนสำคัญสำหรับแอนไอโซทรอปิก ไม่ได้ฉีดสัญญาณรบกวนทรงกลมอีกต่อไป แต่ตามรูปร่างทางเรขาคณิตโดยรวม (ร่องรอย) ที่เปิดเผยโดยเมทริกซ์ความแปรปรวนร่วมของคุณลักษณะภาพ ผ่านการแปลงแบบแอฟฟีนเชิงเส้นเพื่อยืดและหมุนคุณลักษณะข้อความ สิ่งนี้รับประกันว่าคุณลักษณะข้อความในขณะที่รักษาโครงสร้างความหมายของตัวเองไว้ จะสามารถจำลองเศษเหลือแอนไอโซทรอปิกของคุณลักษณะภาพได้อย่างสมบูรณ์
ขั้นตอนที่สาม: การจัดเรียงจุดศูนย์กลางมวล
เพื่อกำจัดการเคลื่อนที่หลอน ที่เกิดขึ้นเมื่อฉายไปยังไฮเปอร์สเฟียร์หน่วย ทำการแก้ไขชัดเจนครั้งที่สอง เพื่อให้แน่ใจว่าคุณลักษณะถูกจัดเรียงอย่างแม่นยำบนแมนิโฟลด์สุดท้าย
ผลลัพธ์: หลังจากการเปลี่ยนแปลงชุดนี้ คุณลักษณะของข้อความล้วนๆ ในแง่คุณสมบัติทางคณิตศาสตร์ ได้เข้าใกล้คุณลักษณะภาพจริงอย่างไม่จำกัด กระบวนการทั้งหมดไม่ต้องการการมีส่วนร่วมของภาพจริง และไม่ต้องการข้อมูลคู่ใดๆ ที่ถูกติดป้ายกำกับด้วยมือ
ทำไม “ข้อความที่ไม่ใช่คู่” กลับมีข้อได้เปรียบมากกว่า?
เมื่อเป้าหมายคือให้โมเดลเรียนรู้การมองภาพ ทำไมไม่ใช้คู่ภาพ-ข้อความโดยตรง แต่ต้องอ้อมไปใช้ข้อความล้วนๆ? นี่คือการค้นพบที่พลิกโฉมของ ReVision: ในขนาดข้อมูลที่มากพอ ความสัมพันธ์แบบคู่ของข้อมูลไม่ใช่ประเด็นสำคัญอีกต่อไป ความหนาแน่นของความรู้ในข้อมูลต่างหากที่เป็นแกนหลัก
1. 突破数据瓶颈
ข้อมูลคู่ภาพ-ข้อความคุณภาพสูงมีจำกัดและมีต้นทุนการทำความสะอาดสูงมาก ในขณะที่ข้อมูลข้อความที่ไม่ใช่คู่มีเกือบไม่จำกัด ข้อความยาวบนอินเทอร์เน็ต เช่น หนังสือ เอกสารวิชาการ ล้วนสามารถแปลงผ่าน ReVision เป็นเชื้อเพลิงสำหรับการฝึกโมเดลหลายรูปแบบได้
2. ข้อได้เปรียบด้านความลึกของความรู้
คำอธิบายข้อความในคู่ภาพ-ข้อความแบบดั้งเดิมมักค่อนข้างสั้น มีข้อมูลความหมายจำกัด ในขณะที่ข้อความยาวที่ไม่ใช่คู่ที่ใช้ในการศึกษานี้ สามารถบรรจุความหมายและความรู้เกี่ยวกับโลกที่หลากหลายและลึกซึ้งกว่า เมื่อโมเดลเรียนรู้แนวคิดทางภาพผ่านข้อความเหล่านี้ มันไม่ได้เรียนรู้เพียงแค่คุณลักษณะพื้นผิว แต่ยังรวมถึงความรู้ที่ซับซ้อนและตรรกะการให้เหตุผลที่อยู่เบื้องหลัง
3. ประสิทธิภาพต่อราคาที่สุดยอด
ผลการทดลองน่าตื่นเต้น: โมเดลที่ฝึกฝนล่วงหน้าด้วยข้อความล้วนๆ 2 ล้านชิ้นที่ผ่านการแปลง ReAlign มีประสิทธิภาพเหนือกว่าโมเดลฐานที่ฝึกฝนล่วงหน้าด้วยคู่ภาพ-ข้อความจริง 1 ล้านคู่ ที่สำคัญกว่านั้น ต้นทุนข้อมูลการฝึกฝนล่วงหน้าของแบบแรกมีเพียง 74% ของแบบหลัง


สรุป
การปรากฏตัวของ ReVision ได้เปิดเส้นทางใหม่สำหรับการฝึกฝนล่วงหน้าของโมเดลขนาดใหญ่หลายรูปแบบ มันพิสูจน์ว่าเราไม่จำเป็นต้องถูกพันธนาการด้วยข้อมูลคู่ ตราบใดที่เข้าใจแก่นแท้ทางเรขาคณิตของช่องว่างระหว่างรูปแบบอย่างถ่องแท้ ใช้พลังของสถิติ ทรัพยากรข้อความล้วนๆ จำนวนมหาศาลก็สามารถกลายเป็นตำราภาพที่ดีที่สุด ไม่ต้องติดป้ายกำกับราคาแพง ไม่ต้องจับคู่หนึ่งต่อหนึ่ง ตราบใดที่มีข้อความ AI ก็สามารถเรียนรู้ที่จะเข้าใจโลกนี้ได้
ทรัพยากรที่เกี่ยวข้อง
- ที่อยู่บทความวิจัย:
https://arxiv.org/abs/2602.07026 - ที่เก็บโค้ด:
https://github.com/Yu-xm/ReVision.git - หน้าเอกสาร HuggingFace:
https://huggingface.co/papers/2602.07026
การอภิปรายและข้อเสนอแนะ
ยินดีต้อนรับการแบ่งปันความคิดเห็นและความคิดของคุณในส่วนความคิดเห็น
— จบ —

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23735
