ความสามารถที่พุ่งพรวดของโมเดลพื้นฐาน เกิดจากการฝึกฝนล่วงหน้าด้วยข้อความปริมาณมหาศาล อย่างไรก็ตาม ข้อความเป็นเพียงการแสดงเชิงนามธรรมของมนุษย์ต่อโลกแห่งความเป็นจริง เป็นการบีบอัดข้อมูลที่สูญเสียข้อมูลบางส่วน
อ้างอิง “นิทานเปรียบเทียบถ้ำ” ของเพลโต: แบบจำลองภาษาถนัดในการอธิบายเงาบนผนัง แต่ไม่เคยเห็นวัตถุที่ทอดเงาเลย พวกมันเก่งในการจับสัญลักษณ์ แต่ยากที่จะเข้าใจกฎ โครงสร้าง และเหตุผลที่มีความเที่ยงตรงสูงในโลกกายภาพ
นอกจากข้อจำกัดเชิงปรัชญานี้แล้ว ยังมีคอขวดในทางปฏิบัติอีกด้วย นั่นคือข้อมูลข้อความคุณภาพสูงมีจำกัด และกำลังค่อยๆ หมดลง ในทางตรงกันข้าม โลกแห่งภาพให้แหล่งสัญญาณที่เกือบจะไร้ขีดจำกัด บันทึกพลวัตดั้งเดิมที่สุดของความเป็นจริง ซึ่งสิ่งเหล่านี้เป็นสิ่งที่ภาษายากที่จะแสดงออกได้อย่างครบถ้วน
ดังนั้น เส้นทางการพัฒนาของอนาคตจำเป็นต้องก้าวออกจากโลกของ “เงา” และสร้างแบบจำลองความเป็นจริงโดยตรง
เพื่อจุดประสงค์นี้ นักวิจัยจาก Meta และมหาวิทยาลัยนิวยอร์กหันไปใช้ การฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียว: ไม่มองสัญญาณภาพเป็นเพียงอินพุตเสริมอีกต่อไป แต่ถือว่ามันเท่าเทียมกับภาษา เป็น “พลเมืองชั้นหนึ่ง” ในโมเดล

- ชื่อบทความวิจัย: Beyond Language Modeling: An Exploration of Multimodal Pretraining
- ที่อยู่บทความวิจัย: https://arxiv.org/pdf/2603.03276v1
ผู้เขียนหลักของบทความนี้คือ Shengbang Tong, Divid Fan และ John Nguyen โดยมี Yann LeCun และ Xie Saining (谢赛宁) ร่วมด้วย
ปัจจุบัน แผนที่การวิจัยของการฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียวยังไม่ชัดเจน แม้ว่าจะมีการศึกษาที่พยายามก้าวข้ามการฝึกฝนล่วงหน้าด้วยภาษาเพียงอย่างเดียว แต่พื้นที่การออกแบบทั้งหมดเต็มไปด้วยตัวแปรที่รบกวนซึ่งกันและกัน วิธีการส่วนใหญ่ยังคงพึ่งพาโมเดลภาษาที่ฝึกฝนล่วงหน้าแล้วเพื่อเริ่มต้น โดยมีเป้าหมายหลักคือรักษาความสามารถทางภาษาดั้งเดิม และทำให้โมเดลปรับตัวเข้ากับงานหลายรูปแบบ
อย่างไรก็ตาม ความรู้จำนวนมหาศาลที่มีอยู่แล้วในโมเดลภาษาเหล่านี้จะรบกวนการทดลอง ทำให้ผู้วิจัยตัดสินได้ยากว่าความสามารถของโมเดลนั้นมาจากการฝึกฝนแบบรวมเป็นหนึ่งเดียวเอง หรือสืบทอดมาจากการฝึกฝนล่วงหน้าด้วยภาษา ดังนั้น กลไกการเรียนรู้พื้นฐานที่สุดระหว่างภาพและภาษา และกฎการขยายขนาดของมัน ยังขาดความเข้าใจที่ชัดเจนจนถึงทุกวันนี้
บทความนี้มีเป้าหมายเพื่อให้ความรู้เชิงประจักษ์ที่ชัดเจนยิ่งขึ้นในสาขานี้ โดยมุ่งเน้นการวิจัยไปที่ขั้นตอนการฝึกฝนล่วงหน้าที่ก่อให้เกิดความสามารถหลักของโมเดล
ในด้านวิธีการ นักวิจัยฝึกโมเดลแบบรวมเป็นหนึ่งเดียวตั้งแต่เริ่มต้น โดยใช้เฟรมเวิร์ก Transfusion:
* สำหรับภาษาใช้ การทำนาย next-token
* สำหรับภาพใช้ การสร้างแบบจำลองแบบแพร่กระจาย (diffusion modeling)
ข้อมูลการฝึกครอบคลุมข้อความ วิดีโอ คู่ภาพ-ข้อความ และข้อมูลวิดีโอที่มีเงื่อนไขการกระทำ พร้อมกันนี้ การวิจัยได้ออกแบบการทดลองที่ควบคุมได้หลายชุดเพื่อแยกตัวแปรสำคัญ และประเมินบนระบบงานที่ครอบคลุม ตั้งแต่ความสามารถทางภาษา ความเข้าใจและการสร้างภาพ ไปจนถึงความสามารถในการวางแผนในโมเดลโลก
มิติการวิจัยที่เฉพาะเจาะจงมีดังนี้:
- การแสดงภาพ: ประเมินหลายวิธี ตั้งแต่ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) การแสดงเชิงความหมาย ไปจนถึงพิกเซลดิบ ผลลัพธ์แสดงให้เห็นว่าตัวเข้ารหัสอัตโนมัติแบบแสดง (RAE) เป็นวิธีแสดงภาพที่ดีที่สุด (ส่วนที่ 3)
- ข้อมูล: ศึกษาการผสมผสานข้อมูลหลายแบบ การทดลองพบว่าการรบกวนระหว่างรูปแบบต่างๆ มีน้อยมาก บางครั้งแม้แต่สร้างผลเชิงบวกร่วมกัน (ส่วนที่ 4)
- การสร้างแบบจำลองโลก: ขยายการประเมินไปยังสถานการณ์โมเดลโลกนำทาง โดยแสดงการกระทำเป็นโทเค็นข้อความ การทดลองแสดงให้เห็นว่าความสามารถในการทำนายทางกายภาพของโมเดลส่วนใหญ่มาจากการฝึกฝนล่วงหน้าหลายรูปแบบทั่วไป (เช่น ข้อมูลวิดีโอ) ไม่ใช่ข้อมูลเฉพาะโดเมน (ส่วนที่ 5)
- การออกแบบโครงสร้าง: ศึกษาแนวทางการออกแบบโครงสร้าง MoE ภายใต้กรอบแบบรวมเป็นหนึ่งเดียว สังเกตว่าโมเดลจะก่อตัวเป็นโครงสร้างที่มีทั้งการแยกและรวมรูปแบบอย่างเป็นธรรมชาติระหว่างการฝึก (ส่วนที่ 6)
- กฎการขยายขนาด: ได้รับกฎการขยายขนาดของภาพและภาษาผ่านการทดลอง IsoFLOP ผลลัพธ์พบว่ามีความไม่สมมาตรในการขยายขนาด: งานด้านภาพต้องการขนาดข้อมูลที่สูงกว่าภาษาอย่างชัดเจน ในขณะเดียวกัน โครงสร้าง MoE สามารถลดช่องว่างนี้ได้อย่างมีประสิทธิภาพ (ส่วนที่ 7)
การแสดงภาพในการฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียว
การศึกษานี้เปรียบเทียบตัวเข้ารหัสภาพสามประเภท:
* ตระกูล VAE: รวมถึง SD-VAE ของ Stable Diffusion และ FLUX.1
* ตัวเข้ารหัสเชิงความหมาย: รวมถึงตัวเข้ารหัสที่ฝึกด้วยการกำกับดูแลภาษาและตัวเข้ารหัสที่ฝึกด้วยการกำกับดูแลตนเอง
* พิกเซลดิบ: ใช้พิกเซลเป็นอินพุตโดยตรง
ผลการทดลองที่เกี่ยวข้องแสดงในรูปที่ 4

- ประสิทธิภาพข้อความ: ไม่ว่าจะใช้การแสดงภาพแบบใด ความสับสนของข้อความของโมเดลก็เทียบเท่ากับค่าเบสไลน์ข้อความล้วน บางครั้งอาจดีกว่าเล็กน้อย (อินพุตพิกเซลดิบแสดงผลดีที่สุด) ความแตกต่างมีจำกัดมาก แสดงว่าการฝึกฝนล่วงหน้าหลายรูปแบบไม่ทำลายความสามารถทางภาษาอย่างมีนัยสำคัญ
- การสร้างและความเข้าใจภาพ: ตัวเข้ารหัสเชิงความหมายทำงานได้ดีกว่าตัวเข้ารหัสแบบ VAE อย่างต่อเนื่องในงานความเข้าใจและการสร้างภาพ ตัวอย่างเช่น SigLIP 2 ทำงานได้ดีกว่า FLUX.1 ทั้งในแบบทดสอบมาตรฐาน VQA และการสร้างภาพ (เช่น DPGBench และ GenEval)
ผลลัพธ์นี้สอดคล้องกับการค้นพบของ RAE: การแสดงภาพมิติสูงมีผลอย่างน้อยเทียบเท่าหรือดีกว่าการแสดงแฝงมิติต่ำของ VAE ในงานสร้าง สิ่งนี้ชี้ให้เห็นว่าตัวเข้ารหัสภาพแบบรวมเป็นหนึ่งเดียวเพียงตัวเดียวก็เพียงพอที่จะรองรับงานความเข้าใจและการสร้างภาพพร้อมกัน การทดลองต่อๆ ไปใช้ SigLIP 2 เป็นตัวเข้ารหัสภาพเริ่มต้น
ข้อเสนอแนะ 1: การใช้ตัวเข้ารหัสภาพแบบ RAE เดียว (เช่น SigLIP 2) สามารถแสดงผลได้ดีเยี่ยมในงานความเข้าใจและการสร้างภาพพร้อมกัน ทำให้โครงสร้างโมเดลง่ายขึ้น และไม่ทำลายประสิทธิภาพข้อความ
ทำความเข้าใจผลกระทบของข้อมูล
การฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียวจำเป็นต้องใช้ข้อมูลทั้งหมดที่มี แต่บทบาทของข้อมูลแต่ละประเภทยังไม่ชัดเจน เพื่อสำรวจปัญหานี้ ทีมวิจัยได้ศึกษาการผสมผสานข้อมูลที่เป็นตัวแทนสามแบบ:
1. ข้อความ + วิดีโอ (วิดีโอดิบที่ไม่มีคำอธิบายประกอบข้อความ)
2. ข้อความ + MetaCLIP (คู่ภาพ-ข้อความ)
3. ข้อความ + วิดีโอ + MetaCLIP + การกระทำ (ทั้งหมดข้างต้น + วิดีโอที่มีเงื่อนไขการกระทำ)
โมเดลหลายรูปแบบทั้งหมดได้รับการฝึกฝนบนโทเค็นประมาณ 1 ล้านล้านโทเค็น (ข้อความ 520,000 ล้านโทเค็น + ข้อมูลหลายรูปแบบ 520,000 ล้านโทเค็น) และเปรียบเทียบกับค่าเบสไลน์ข้อความล้วนที่ฝึกบนข้อความ 520,000 ล้านโทเค็น
ผลลัพธ์แสดงดังรูปด้านล่าง การวิจัยพบว่าการผสมผสาน “ข้อความ+วิดีโอ” ให้ค่าความสับสนที่ดีที่สุดในชุดข้อมูลผสมทั้งหมดบนชุดตรวจสอบ DCLM และคลังข้อความภายใน Notes บน DCLM ยังดีกว่าเบสไลน์ข้อความล้วนอีกด้วย สิ่งนี้ชี้ให้เห็นว่า: ข้อมูลวิดีโออย่างน้อยก็เข้ากันได้กับการสร้างแบบจำลองภาษา หรืออาจเป็นประโยชน์ด้วยซ้ำ ภาพเองไม่ใช่สาเหตุหลักของการแข่งขันระหว่างรูปแบบ

ในทางกลับกัน “ข้อความ+MetaCLIP” แสดงค่าความสับสนที่แย่ที่สุดในชุดข้อมูลผสมทั้งหมด ในขณะที่ “ข้อความ+วิดีโอ+MetaCLIP+การกระทำ” มีการลดลงเพียงเล็กน้อยเมื่อเทียบกับเบสไลน์ข้อความล้วน แสดงว่าข้อมูลวิดีโอและเส้นทางการกระทำเป็นส่วนเสริมของข้อความ
ทีมวิจัยคาดการณ์ว่าการลดลงของประสิทธิภาพข้อความเกิดจากการเปลี่ยนแปลงการกระจายตัวของข้อความเนื่องจากการแนะนำคำอธิบายภาพ นอกจากนี้ยังสังเกตเห็นว่าในชุดข้อมูลผสมทั้งหมด เมื่อเทียบกับเบสไลน์ข้อความล้วน ค่าความสับสนบนคลังข้อความ Notes ซึ่งมีความเบี่ยงเบนจากการกระจายตัวสูงกว่า ลดลงทั้งหมด แต่แนวโน้มสัมพัทธ์ยังคงเหมือนเดิม สิ่งนี้ชี้ให้เห็นว่าการฝึกฝนล่วงหน้าหลายรูปแบบอาจนำมาซึ่งการแลกเปลี่ยนเล็กน้อยในความสามารถในการสรุปทั่วไปของข้อความ
ข้อเสนอแนะ 2: ใช้ข้อมูลหลายรูปแบบ (เช่น วิดีโอ คู่ภาพ-ข้อความ) ในการฝึก ข้อมูลภาพไม่ลดความสามารถในการสร้างแบบจำลองภาษา และข้อมูลการฝึกฝนล่วงหน้าที่หลากหลายสามารถนำมาซึ่งผลเชิงบวกร่วมกันสำหรับงานปลายน้ำ (เช่น การสร้างแบบจำลองโลกและ VQA)
มุ่งสู่การสร้างแบบจำลองโลกในโมเดลหลายรูปแบบแบบรวมเป็นหนึ่งเดียว
จากข้อสังเกตที่ว่า “ภาษาและภาพเป็นส่วนเสริมซึ่งกันและกัน และการฝึกฝนล่วงหน้าหลายรูปแบบสามารถปรับปรุงความสามารถในการตอบคำถามด้วยภาพได้อย่างมีนัยสำคัญ” ทีมวิจัยได้สำรวจเพิ่มเติมว่า: โดยไม่ต้องปรับเปลี่ยนโครงสร้างโมเดล โมเดลหลายรูปแบบสามารถขยายไปยังงาน “การสร้างแบบจำลองโลก” ได้หรือไม่
ทีมวิจัยใช้การตั้งค่าโมเดลโลกนำทาง ซึ่งงานหลักคือการทำนายสถานะภาพถัดไปภายใต้เงื่อนไขของสถานะบริบทปัจจุบันและการกระทำนำทาง:

ต่างจากวิธีการก่อนหน้านี้ที่เข้ารหัสการกระทำนำทางเป็นเวกเตอร์ต่อเนื่องเฉพาะทาง การวิจัยนี้แสดงการกระทำเป็นโทเค็นข้อความมาตรฐานโดยตรง ทำให้งานสามารถแสดงออกเป็นปัญหาในการทำนาย “ภาพ + ข้อความ → ภาพ” แบบรวมเป็นหนึ่งเดียว และสามารถดำเนินการได้โดยตรงในโมเดลหลายรูปแบบแบบรวมเป็นหนึ่งเดียว ดังแสดงในรูปด้านล่าง วิธีนี้ไม่จำเป็นต้องแนะนำอะแดปเตอร์เฉพาะสำหรับการกระทำหรือปรับเปลี่ยนโครงสร้างโมเดลใดๆ


ความสามารถในการสร้างแบบจำลองโลกมาจากการฝึกฝนล่วงหน้าหลายรูปแบบ
ปัญหาสำคัญประการหนึ่งคือ: ความสามารถที่มีประสิทธิภาพในการสร้างแบบจำลองโลกนั้น ขึ้นอยู่กับข้อมูลนำทางเฉพาะโดเมินเป็นหลัก หรือมาจากความสามารถหลายรูปแบบที่กว้างขวางมากขึ้น?
เพื่อยืนยันประเด็นนี้ ทีมวิจัยเปรียบเทียบโมเดลสองแบบ:
* โมเดล A: ฝึกด้วยโทเค็นโมเดลโลกนำทาง 50,000 ล้านโทเค็น และข้อมูลหลายรูปแบบ 50,000 ล้านโทเค็น (ข้อความ, MetaCLIP, วิดีโอที่มีคำอธิบายประกอบข้อความ หรือวิดีโอล้วน)
* โมเดล B: โมเดลเบสไลน์ที่ฝึกด้วยข้อมูลโมเดลโลกนำทาง 50,000 ล้านโทเค็นเท่านั้น
ผลการทดลองแสดงดังรูปด้านล่าง การขยายข้อมูลเฉพาะโดเมนจาก 50,000 ล้านเป็น 100,000 ล้านโทเค็นแม้จะนำมาซึ่งการปรับปรุงบางส่วน แต่ผลของการฝึกฝนล่วงหน้าหลายรูปแบบมีนัยสำคัญมากกว่า

โดยเฉพาะอย่างยิ่ง การเพิ่มข้อมูลวิดีโอล้วนนำมาซึ่งการปรับปรุงมากที่สุด แต่รูปแบบอื่นๆ ทั้งหมด รวมถึง MetaCLIP และข้อความ มีประโยชน์ สิ่งนี้ชี้ให้เห็นว่าความสามารถในการสร้างแบบจำลองโลกขึ้นอยู่กับความรู้ที่ได้รับจากการฝึกฝนล่วงหน้าหลายรูปแบบมากกว่า ไม่ใช่ข้อมูลเฉพาะโดเมน ซึ่งสอดคล้องกับข้อสรุปของการวิจัยก่อนหน้านี้
ความสามารถในการสร้างแบบจำลองโลกสามารถถ่ายโอนจากการฝึกฝนทั่วไปได้
เพื่อวิเคราะห์แหล่งที่มาของความสามารถเพิ่มเติม ทีมวิจัยได้ทำการทดลองตัดออก: ภายใต้งบประมาณการฝึกทั้งหมดคงที่ที่ 200,000 ล้านโทเค็น ปรับสัดส่วนของข้อมูลโมเดลโลกนำทาง
ผลลัพธ์แสดงดังรูปด้านล่าง ประสิทธิภาพของโมเดลอิ่มตัวอย่างรวดเร็วตามปริมาณข้อมูลในโดเมนที่เพิ่มขึ้น ต้องการข้อมูลในโดเมนเพียง 1% ก็สามารถบรรลุประสิทธิภาพที่สามารถแข่งขันได้อย่างมาก การเพิ่มสัดส่วนต่อไปให้ผลตอบแทนน้อยมาก

การค้นพบนี้เสริมสมมติฐานต่อไปนี้: ความสามารถเช่นการนำทางและการตอบคำถามด้วยภาพส่วนใหญ่มาจากการฝึกฝนล่วงหน้าหลายรูปแบบทั่วไป ต้องการข้อมูลในโดเมินเพียงเล็กน้อยเพื่อกระตุ้นอย่างมีประสิทธิภาพ
การค้นพบหลัก: การฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียวสามารถปลดล็อกความสามารถในการสร้างแบบจำลองโลก เพียงแค่แสดงการกระทำเป็นโทเค็นข้อความ โดยไม่ต้องปรับเปลี่ยนโครงสร้างโมเดล ความสามารถที่เกี่ยวข้องสามารถเกิดขึ้นเองตามธรรมชาติผ่านการฝึกฝนทั่วไป และต้องการข้อมูลเฉพาะโดเมินเพียงน้อยนิด
การออกแบบโครงสร้างหลายรูปแบบแบบรวมเป็นหนึ่งเดียว
ในการทดลองเบื้องต้น แค่เปลี่ยนเครือข่ายฟีดฟอร์เวิร์ดที่แชร์ร่วมกันเป็นเครือข่ายฟีดฟอร์เวิร์ดเฉพาะรูปแบบก็ได้ผลลัพธ์ที่โดดเด่นแล้ว ซึ่งพิสูจน์ว่าการแยกความจุในระดับปานกลางมีศักยภาพ อย่างไรก็ตาม การจัดสรรความจุโดยเฉลี่ยอาจไม่ใช่การกำหนด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24815
