ReVision Breakthrough: การจัดเรียงทางเรขาคณิตปลดล็อกกระบวนทัศน์ใหม่ในการฝึกโมเดลขนาดใหญ่หลายรูปแบบโดยไม่ต้องจับคู่ภาพและข้อความ

18 hours ago • การฝึกโมเดลขนาดใหญ่ • 24 views

ไม่ต้องจับคู่ภาพกับข้อความ การจัดเรียงทางเรขาคณิตปลดล็อกกระบวนทัศน์ใหม่ในการฝึกฝนโมเดลขนาดใหญ่หลายรูปแบบ

ในการวิจัยและพัฒนาของโมเดลขนาดใหญ่หลายรูปแบบ (MLLM) มีฉันทามติมายาวนานว่า: หากไม่มีคู่ภาพ-ข้อความ (Image-Text Pairs) ก็จะไม่มีขีดความสามารถหลายรูปแบบ เพื่อฝึกโมเดลให้เข้าใจภาพ อุตสาหกรรมมักต้องใช้เงินมหาศาลในการรวบรวมภาพจำนวนมาก และสร้างคำอธิบายข้อความคุณภาพสูงสำหรับแต่ละภาพ ข้อมูลคู่ที่มีการควบคุมอย่างเข้มงวดนี้ ถูกมองว่าเป็นรากฐานของการฝึกหลายรูปแบบเสมอมา

ReVision Breakthrough: การจัดเรียงทางเรขาคณิตปลดล็อกกระบวนทัศน์ใหม่ในการฝึกโมเดลขนาดใหญ่หลายรูปแบบโดยไม่ต้องจับคู่ภาพและข้อความ

อย่างไรก็ตาม งานวิจัยล่าสุดชื่อ ReVision จากสถาบันเช่น มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง (กวางโจว) และมหาวิทยาลัยแห่งชาติสิงคโปร์ ได้เสนอข้อสรุปที่ขัดกับสัญชาตญาณ: ในขั้นตอนการฝึกฝนล่วงหน้าของโมเดลขนาดใหญ่หลายรูปแบบ ซึ่งพึ่งพาข้อมูลขนาดใหญ่มาก ความสัมพันธ์แบบคู่อันมีค่าเหล่านั้นไม่ใช่สิ่งจำเป็น

รากฐานทางทฤษฎี: ทำไม “การจัดเรียงคุณลักษณะ” จึงสามารถแทนที่ “การจับคู่” ได้?

ก่อนจะเจาะลึกรายละเอียดทางเรขาคณิต ต้องชัดเจนก่อนว่าวิธีการ ReVision ตั้งอยู่บนเงื่อนไขใด วิธีนี้ไม่สามารถใช้กับตัวแยกคุณลักษณะอิสระสองตัวใดก็ได้ แต่ถูกสร้างขึ้นอย่างเคร่งครัดบนพื้นฐานของพื้นที่คุณลักษณะร่วม ที่สร้างขึ้นโดยการเรียนรู้แบบเปรียบเทียบหลายรูปแบบ (เช่น CLIP, SigLIP)

การฝึกล่วงหน้าได้สร้าง ‘ความสอดคล้องของโครงสร้างเชิงความหมาย’: โมเดลแบบหอคอยคู่ที่ผ่านการฝึกฝนล่วงหน้าด้วยข้อมูลมหาศาล ผ่านการสูญเสียแบบเปรียบเทียบ (เช่น InfoNCE) ได้ทำการแมปภาพและข้อความไปยังพื้นที่ฝังตัวมิติสูงเดียวกันแล้ว ในพื้นที่นี้ แม้ว่าการกระจายตัวของคุณลักษณะของรูปแบบต่างๆ จะยังไม่ทับซ้อนกันโดยสมบูรณ์ แต่พวกมันมีโครงสร้างเชิงความหมายที่สอดคล้องกันในระดับสูง นั่นคือ: การฝังตัวทางภาพและข้อความที่แสดงความหมายเดียวกัน มีความสัมพันธ์ระยะทางสัมพัทธ์กับแนวคิดเชิงความหมายอื่นๆ ที่สอดคล้องกัน
แก่นแท้ของช่องว่างระหว่างรูปแบบคือการเคลื่อนที่ทางเรขาคณิตที่เป็นระบบ: การวิจัยพบว่า ปรากฏการณ์ที่ไม่ทับซ้อนกันระหว่างการกระจายตัวของภาพและข้อความไม่ได้เป็นความวุ่นวายแบบสุ่ม แต่เป็นการเคลื่อนที่ที่เป็นระบบ ซึ่งหมายความว่าทั้งสองมีข้อผิดพลาดทางเรขาคณิตหลักๆ คือ การหมุน การย่อขยาย และการเลื่อนตำแหน่ง

สรุป: เนื่องจากการเรียนรู้แบบเปรียบเทียบได้แก้ไขปัญหาความสัมพันธ์เชิงความหมายแล้ว ความท้าทายที่เหลืออยู่คือเพียงการไม่จัดเรียงของการกระจายตัวทางเรขาคณิต ดังนั้น จึงไม่จำเป็นต้องพึ่งพาข้อมูลคู่ราคาแพงเพื่อเรียนรู้ความหมายใหม่ แต่เพียงแค่ใช้ข้อมูลทางสถิติจากข้อมูลที่ไม่ใช่คู่ เพื่อแก้ไขการกระจายตัวของคุณลักษณะข้อความ (ค่าเฉลี่ยและความแปรปรวนร่วม) ให้จัดเรียงกับคุณลักษณะทางเรขาคณิตของคุณลักษณะภาพ ก็สามารถทำให้เกิดการแลกเปลี่ยนความหมายข้ามรูปแบบได้

เจาะลึกรายละเอียดพื้นฐาน: ความจริงทางเรขาคณิตของช่องว่างระหว่างรูปแบบ

เมื่อเพียงแค่ต้องแก้ไขการเคลื่อนที่ทางเรขาคณิต แล้วการเคลื่อนที่นี้มีรูปร่างเป็นอย่างไร? ทำไมจึงไม่จำเป็นต้องมีข้อมูลคู่? การวิจัย ReVision พบว่า ความเข้าใจในอดีตเกี่ยวกับช่องว่างระหว่างรูปแบบ มีข้อผิดพลาดทางเรขาคณิตที่สำคัญ

ความเข้าใจผิดในอดีต: สมมติฐานแบบไอโซทรอปิก

วิธีการในอดีตแม้จะยอมรับการมีอยู่ของช่องว่างระหว่างรูปแบบ แต่โดยปกติมักจะสมมติอย่างง่ายๆ ว่าข้อผิดพลาดนี้มีความสม่ำเสมอ — นั่นคือช่องว่างเหมือนทรงกลมสมบูรณ์ (ไอโซทรอปิก) การแก้ไขตามสมมติฐานนี้มักจะแก้ไขเฉพาะการเคลื่อนที่ของจุดศูนย์กลาง แต่กลับละเลยความแตกต่างของโครงสร้างภายใน ส่งผลให้ข้อมูลความหมายระดับละเอียดถูกเจือจาง

การค้นพบใหม่: โครงสร้างแบบแอนไอโซทรอปิกภายใต้กรอบอ้างอิงคงที่

ทีม ReVision ผ่านทฤษฎีช่องว่างระหว่างรูปแบบกรอบคงที่ ได้แยกโครงสร้างปรากฏการณ์นี้ใหม่ในระดับจุลภาค ในระบบอ้างอิงคงที่ ช่องว่างระหว่างรูปแบบสามารถถูกแยกออกเป็นสองส่วนได้อย่างแม่นยำ:

ความเบี่ยงเบนที่เสถียร: นี่ไม่ใช่แค่การเคลื่อนที่ของตำแหน่งศูนย์กลาง แต่ยังรวมถึงการเคลื่อนที่ที่เป็นระบบที่เกิดจากการหมุนของสเปซย่อย
เศษเหลือแบบแอนไอโซทรอปิก: นี่คือการค้นพบที่สำคัญ ความผันผวนภายในช่องว่างไม่ใช่ทรงกลม แต่ถูกยืดออกเหมือนทรงรี (แอนไอโซทรอปิก)
- ในสเปซย่อยที่เกี่ยวข้องกับความหมาย ความผันผวนเหล่านี้มีความสัมพันธ์สูงกับทิศทางเกรเดียนต์เชิงความหมาย ซึ่งเป็นตัว承载ข้อมูลหลัก
- ในสเปซย่อยที่ตั้งฉากกัน สัญญาณรบกวนและการเบี่ยงเบนกระจายตัวในแนวตั้งฉาก หากบังคับใช้สัญญาณรบกวนทรงกลมจำลอง จะเกิดการเคลื่อนที่หลอน ทำให้ทิศทางการฉายของคุณลักษณะผิดพลาด

สรุป: ในพื้นที่คุณลักษณะร่วมที่ได้จากการฝึกฝนล่วงหน้าแบบการเรียนรู้เปรียบเทียบ ช่องว่างระหว่างรูปแบบไม่ได้ไร้ระเบียบ แต่เป็นโครงสร้างทางเรขาคณิตที่มีอัตราส่วนและทิศทางเฉพาะตัว หากสามารถจำลองรูปร่างแอนไอโซทรอปิกนี้ได้อย่างแม่นยำ ก็จะสามารถจำลองการกระจายตัวของคุณลักษณะภาพได้

ความก้าวหน้าหลัก: ทำลายพันธนาการข้อมูล “หนึ่งต่อหนึ่ง”

จากความเข้าใจที่แม่นยำเกี่ยวกับรูปร่างทางเรขาคณิตของช่องว่างระหว่างรูปแบบ ทีมวิจัยได้พบเส้นทางที่จะหลีกเลี่ยงข้อมูลคู่ราคาแพงในขั้นตอนการฝึกฝนล่วงหน้า

ตรรกะหลัก: ใช้คุณลักษณะที่จัดเรียงทางเรขาคณิตแล้ว ในการฝึกโมเดล สมมติฐานเบื้องต้นนี้สอดคล้องกับสัญชาตญาณทางเรขาคณิต: สำหรับโมเดลขนาดใหญ่ มันไม่ได้ “มอง” ภาพโดยตรง แต่ประมวลผลการกระจายตัวของคุณลักษณะ หากสามารถดึงคุณลักษณะทางสถิติทางเรขาคณิตของข้อมูลภาพผ่านวิธีการทางคณิตศาสตร์ และมอบกฎเกณฑ์เหล่านี้ให้กับข้อมูลข้อความล้วนๆ ข้อความนั้นในพื้นที่คุณลักษณะก็จะถูก “ปลอมแปลง” ให้เป็นภาพ

เงื่อนไขเบื้องต้น: สถิติแทนที่การจับคู่ เมื่อตรรกะข้างต้นเป็นจริง ข้อมูลคู่ภาพ-ข้อความที่มีการควบคุมเข้มงวดก็ไม่ใช่สิ่งจำเป็นสำหรับการฝึกฝนล่วงหน้าอีกต่อไป เพียงแค่ต้องเป็นไปตามเงื่อนไขต้นทุนต่ำสองประการ:
1. ข้อความที่ไม่ใช่คู่จำนวนมหาศาล: ให้ความรู้ความหมายที่หลากหลาย
2. การกระจายตัวทางสถิติของภาพที่ไม่ใช่คู่: ให้ “แม่พิมพ์ทางเรขาคณิต” ของพื้นที่ภาพ

สรุป: ตราบใดที่เข้าใจกฎการกระจายตัวทางสถิติของภาพ ก็สามารถแปลงข้อมูลข้อความใดๆ ให้เป็นสัญญาณภาพป้อนเข้าสู่โมเดลได้ทางคณิตศาสตร์ สิ่งนี้ทำให้สามารถใช้ข้อมูลข้อความราคาถูก จำลองกระบวนการฝึกฝนทางภาพราคาแพงได้

ทำได้อย่างไร? การแทนที่รูปแบบด้วย “การเติมเต็มด้วยรูปทรง”

ทีมวิจัยได้เสนอชุดกลยุทธ์การจัดเรียงทางเรขาคณิตชื่อ ReAlign:

ขั้นตอนที่หนึ่ง: การจัดเรียงจุดยึด

แก้ไขการเคลื่อนที่ตำแหน่งพื้นฐาน คำนวณจุดศูนย์ถ่วง (ค่าเฉลี่ย) ของข้อมูลภาพในพื้นที่คุณลักษณะ และเลื่อนตำแหน่งศูนย์กลางของข้อมูลข้อความไปยังจุดนั้น เพื่อกำจัดความเบี่ยงเบนอันดับหนึ่ง

ขั้นตอนที่สอง: การจัดเรียงร่องรอย

นี่คือขั้นตอนสำคัญสำหรับแอนไอโซทรอปิก ไม่ได้ฉีดสัญญาณรบกวนทรงกลมอีกต่อไป แต่ตามรูปร่างทางเรขาคณิตโดยรวม (ร่องรอย) ที่เปิดเผยโดยเมทริกซ์ความแปรปรวนร่วมของคุณลักษณะภาพ ผ่านการแปลงแบบแอฟฟีนเชิงเส้นเพื่อยืดและหมุนคุณลักษณะข้อความ สิ่งนี้รับประกันว่าคุณลักษณะข้อความในขณะที่รักษาโครงสร้างความหมายของตัวเองไว้ จะสามารถจำลองเศษเหลือแอนไอโซทรอปิกของคุณลักษณะภาพได้อย่างสมบูรณ์

ขั้นตอนที่สาม: การจัดเรียงจุดศูนย์กลางมวล

เพื่อกำจัดการเคลื่อนที่หลอน ที่เกิดขึ้นเมื่อฉายไปยังไฮเปอร์สเฟียร์หน่วย ทำการแก้ไขชัดเจนครั้งที่สอง เพื่อให้แน่ใจว่าคุณลักษณะถูกจัดเรียงอย่างแม่นยำบนแมนิโฟลด์สุดท้าย

ผลลัพธ์: หลังจากการเปลี่ยนแปลงชุดนี้ คุณลักษณะของข้อความล้วนๆ ในแง่คุณสมบัติทางคณิตศาสตร์ ได้เข้าใกล้คุณลักษณะภาพจริงอย่างไม่จำกัด กระบวนการทั้งหมดไม่ต้องการการมีส่วนร่วมของภาพจริง และไม่ต้องการข้อมูลคู่ใดๆ ที่ถูกติดป้ายกำกับด้วยมือ

ทำไม “ข้อความที่ไม่ใช่คู่” กลับมีข้อได้เปรียบมากกว่า?

เมื่อเป้าหมายคือให้โมเดลเรียนรู้การมองภาพ ทำไมไม่ใช้คู่ภาพ-ข้อความโดยตรง แต่ต้องอ้อมไปใช้ข้อความล้วนๆ? นี่คือการค้นพบที่พลิกโฉมของ ReVision: ในขนาดข้อมูลที่มากพอ ความสัมพันธ์แบบคู่ของข้อมูลไม่ใช่ประเด็นสำคัญอีกต่อไป ความหนาแน่นของความรู้ในข้อมูลต่างหากที่เป็นแกนหลัก

1. 突破数据瓶颈

ข้อมูลคู่ภาพ-ข้อความคุณภาพสูงมีจำกัดและมีต้นทุนการทำความสะอาดสูงมาก ในขณะที่ข้อมูลข้อความที่ไม่ใช่คู่มีเกือบไม่จำกัด ข้อความยาวบนอินเทอร์เน็ต เช่น หนังสือ เอกสารวิชาการ ล้วนสามารถแปลงผ่าน ReVision เป็นเชื้อเพลิงสำหรับการฝึกโมเดลหลายรูปแบบได้

2. ข้อได้เปรียบด้านความลึกของความรู้

คำอธิบายข้อความในคู่ภาพ-ข้อความแบบดั้งเดิมมักค่อนข้างสั้น มีข้อมูลความหมายจำกัด ในขณะที่ข้อความยาวที่ไม่ใช่คู่ที่ใช้ในการศึกษานี้ สามารถบรรจุความหมายและความรู้เกี่ยวกับโลกที่หลากหลายและลึกซึ้งกว่า เมื่อโมเดลเรียนรู้แนวคิดทางภาพผ่านข้อความเหล่านี้ มันไม่ได้เรียนรู้เพียงแค่คุณลักษณะพื้นผิว แต่ยังรวมถึงความรู้ที่ซับซ้อนและตรรกะการให้เหตุผลที่อยู่เบื้องหลัง

3. ประสิทธิภาพต่อราคาที่สุดยอด

ผลการทดลองน่าตื่นเต้น: โมเดลที่ฝึกฝนล่วงหน้าด้วยข้อความล้วนๆ 2 ล้านชิ้นที่ผ่านการแปลง ReAlign มีประสิทธิภาพเหนือกว่าโมเดลฐานที่ฝึกฝนล่วงหน้าด้วยคู่ภาพ-ข้อความจริง 1 ล้านคู่ ที่สำคัญกว่านั้น ต้นทุนข้อมูลการฝึกฝนล่วงหน้าของแบบแรกมีเพียง 74% ของแบบหลัง

สรุป

การปรากฏตัวของ ReVision ได้เปิดเส้นทางใหม่สำหรับการฝึกฝนล่วงหน้าของโมเดลขนาดใหญ่หลายรูปแบบ มันพิสูจน์ว่าเราไม่จำเป็นต้องถูกพันธนาการด้วยข้อมูลคู่ ตราบใดที่เข้าใจแก่นแท้ทางเรขาคณิตของช่องว่างระหว่างรูปแบบอย่างถ่องแท้ ใช้พลังของสถิติ ทรัพยากรข้อความล้วนๆ จำนวนมหาศาลก็สามารถกลายเป็นตำราภาพที่ดีที่สุด ไม่ต้องติดป้ายกำกับราคาแพง ไม่ต้องจับคู่หนึ่งต่อหนึ่ง ตราบใดที่มีข้อความ AI ก็สามารถเรียนรู้ที่จะเข้าใจโลกนี้ได้

ทรัพยากรที่เกี่ยวข้อง

ที่อยู่บทความวิจัย: https://arxiv.org/abs/2602.07026
ที่เก็บโค้ด: https://github.com/Yu-xm/ReVision.git
หน้าเอกสาร HuggingFace: https://huggingface.co/papers/2602.07026

การอภิปรายและข้อเสนอแนะ

ยินดีต้อนรับการแบ่งปันความคิดเห็นและความคิดของคุณในส่วนความคิดเห็น

— จบ —

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23735

Like (0)

0 0

GPT-5.4 รั่วไหล? รีเควสต์ดึงโค้ดเผยโมเดลใหม่ หน้าต่างบริบท 2 ล้านโทเค็นอาจเป็นจริง

Previous 18 hours ago

CEO ของ Cursor ประกาศว่า AI Programming เข้าสู่ “ยุคที่สาม”: Agent บนคลาวด์ทำงานขนาดใหญ่ได้ด้วยตัวเอง บทบาทของนักพัฒนาจากการเขียนโค้ดเปลี่ยนไปเป็นผู้จัดการโรงงาน

Next 18 hours ago

การฝึกโมเดลขนาดใหญ่

มาตรฐานการตรวจรับคุณภาพชุดข้อมูลการฝึกอบรม AI ฉบับแรกของประเทศ เปิดรับสมัครหน่วยงานและผู้เชี่ยวชาญเพื่อร่วมร่าง สร้างบรรทัดฐานใหม่ในการส่งมอบข้อมูล

มาตรฐานการตรวจรับคุณภาพชุดข้อมูลฝึกอบรม AI ฉบับแรกของประเทศ เปิดรับสมัครหน่วยงานและผู้เชี่ยวชาญร่วมร่าง เพื่อสร้างบรรทัดฐานใหม่ในการส่งมอบข้อมูล กุมภาพันธ์ 2026 สำนักงานข้อมูลแห่งช…

1 day ago
22000
การฝึกโมเดลขนาดใหญ่

ที

งานวิจัยที่ก้าวล้ำของทีม Kaiming He: GeoPT ใช้การฝึกฝนล่วงหน้าด้วยไดนามิกสังเคราะห์ ทำให้ AI เรียนรู้กฎฟิสิกส์ด้วยตัวเอง ประหยัดข้อมูลจำลองได้ถึง 60% ทรัพย์สิน 3D แบบสถิตขาดข้อมูลไ…

5 days ago
105000
การฝึกโมเดลขนาดใหญ่

Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง

ในกระบวนทัศน์การฝึกอบรมโมเดลขนาดใหญ่และเอเจนต์จำนวนมาก มีแนวทาง “เน้นผลลัพธ์สุดท้าย” ที่แพร่หลาย: ให้รางวัลเพียงตามความถูกต้องของคำตอบสุดท้ายเท่านั้น ถ้าถูกต้องก็ได้คะแ…

2026年2月20日
50000
การฝึกโมเดลขนาดใหญ่

การก้าวข้ามคอขวดการสื่อสารระหว่าง GPU หลายตัว: AutoOverlap บรรลุการทับซ้อนการคำนวณ-การสื่อสารระดับบล็อกแบบละเอียด เร่งความเร็วสูงสุด 4.7 เท่า

คำสำคัญ: การทับซ้อนการคำนวณ-การสื่อสาร การจัดตารางแบบบล็อก คอมไพเลอร์แบบกระจาย GPU Triton งานหลาย GPU บรรลุการทับซ้อนเชิงลึกของการคำนวณและการสื่อสารภายในเคอร์เนลเดียวผ่านการจัดตารา…

2026年2月23日
67000