ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

ความสามารถที่พุ่งพรวดของโมเดลพื้นฐาน เกิดจากการฝึกฝนล่วงหน้าด้วยข้อความปริมาณมหาศาล อย่างไรก็ตาม ข้อความเป็นเพียงการแสดงเชิงนามธรรมของมนุษย์ต่อโลกแห่งความเป็นจริง เป็นการบีบอัดข้อมูลที่สูญเสียข้อมูลบางส่วน

อ้างอิง “นิทานเปรียบเทียบถ้ำ” ของเพลโต: แบบจำลองภาษาถนัดในการอธิบายเงาบนผนัง แต่ไม่เคยเห็นวัตถุที่ทอดเงาเลย พวกมันเก่งในการจับสัญลักษณ์ แต่ยากที่จะเข้าใจกฎ โครงสร้าง และเหตุผลที่มีความเที่ยงตรงสูงในโลกกายภาพ

นอกจากข้อจำกัดเชิงปรัชญานี้แล้ว ยังมีคอขวดในทางปฏิบัติอีกด้วย นั่นคือข้อมูลข้อความคุณภาพสูงมีจำกัด และกำลังค่อยๆ หมดลง ในทางตรงกันข้าม โลกแห่งภาพให้แหล่งสัญญาณที่เกือบจะไร้ขีดจำกัด บันทึกพลวัตดั้งเดิมที่สุดของความเป็นจริง ซึ่งสิ่งเหล่านี้เป็นสิ่งที่ภาษายากที่จะแสดงออกได้อย่างครบถ้วน

ดังนั้น เส้นทางการพัฒนาของอนาคตจำเป็นต้องก้าวออกจากโลกของ “เงา” และสร้างแบบจำลองความเป็นจริงโดยตรง

เพื่อจุดประสงค์นี้ นักวิจัยจาก Meta และมหาวิทยาลัยนิวยอร์กหันไปใช้ การฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียว: ไม่มองสัญญาณภาพเป็นเพียงอินพุตเสริมอีกต่อไป แต่ถือว่ามันเท่าเทียมกับภาษา เป็น “พลเมืองชั้นหนึ่ง” ในโมเดล

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

  • ชื่อบทความวิจัย: Beyond Language Modeling: An Exploration of Multimodal Pretraining
  • ที่อยู่บทความวิจัย: https://arxiv.org/pdf/2603.03276v1

ผู้เขียนหลักของบทความนี้คือ Shengbang Tong, Divid Fan และ John Nguyen โดยมี Yann LeCun และ Xie Saining (谢赛宁) ร่วมด้วย

ปัจจุบัน แผนที่การวิจัยของการฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียวยังไม่ชัดเจน แม้ว่าจะมีการศึกษาที่พยายามก้าวข้ามการฝึกฝนล่วงหน้าด้วยภาษาเพียงอย่างเดียว แต่พื้นที่การออกแบบทั้งหมดเต็มไปด้วยตัวแปรที่รบกวนซึ่งกันและกัน วิธีการส่วนใหญ่ยังคงพึ่งพาโมเดลภาษาที่ฝึกฝนล่วงหน้าแล้วเพื่อเริ่มต้น โดยมีเป้าหมายหลักคือรักษาความสามารถทางภาษาดั้งเดิม และทำให้โมเดลปรับตัวเข้ากับงานหลายรูปแบบ

อย่างไรก็ตาม ความรู้จำนวนมหาศาลที่มีอยู่แล้วในโมเดลภาษาเหล่านี้จะรบกวนการทดลอง ทำให้ผู้วิจัยตัดสินได้ยากว่าความสามารถของโมเดลนั้นมาจากการฝึกฝนแบบรวมเป็นหนึ่งเดียวเอง หรือสืบทอดมาจากการฝึกฝนล่วงหน้าด้วยภาษา ดังนั้น กลไกการเรียนรู้พื้นฐานที่สุดระหว่างภาพและภาษา และกฎการขยายขนาดของมัน ยังขาดความเข้าใจที่ชัดเจนจนถึงทุกวันนี้

บทความนี้มีเป้าหมายเพื่อให้ความรู้เชิงประจักษ์ที่ชัดเจนยิ่งขึ้นในสาขานี้ โดยมุ่งเน้นการวิจัยไปที่ขั้นตอนการฝึกฝนล่วงหน้าที่ก่อให้เกิดความสามารถหลักของโมเดล

ในด้านวิธีการ นักวิจัยฝึกโมเดลแบบรวมเป็นหนึ่งเดียวตั้งแต่เริ่มต้น โดยใช้เฟรมเวิร์ก Transfusion:
* สำหรับภาษาใช้ การทำนาย next-token
* สำหรับภาพใช้ การสร้างแบบจำลองแบบแพร่กระจาย (diffusion modeling)

ข้อมูลการฝึกครอบคลุมข้อความ วิดีโอ คู่ภาพ-ข้อความ และข้อมูลวิดีโอที่มีเงื่อนไขการกระทำ พร้อมกันนี้ การวิจัยได้ออกแบบการทดลองที่ควบคุมได้หลายชุดเพื่อแยกตัวแปรสำคัญ และประเมินบนระบบงานที่ครอบคลุม ตั้งแต่ความสามารถทางภาษา ความเข้าใจและการสร้างภาพ ไปจนถึงความสามารถในการวางแผนในโมเดลโลก

มิติการวิจัยที่เฉพาะเจาะจงมีดังนี้:

  1. การแสดงภาพ: ประเมินหลายวิธี ตั้งแต่ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) การแสดงเชิงความหมาย ไปจนถึงพิกเซลดิบ ผลลัพธ์แสดงให้เห็นว่าตัวเข้ารหัสอัตโนมัติแบบแสดง (RAE) เป็นวิธีแสดงภาพที่ดีที่สุด (ส่วนที่ 3)
  2. ข้อมูล: ศึกษาการผสมผสานข้อมูลหลายแบบ การทดลองพบว่าการรบกวนระหว่างรูปแบบต่างๆ มีน้อยมาก บางครั้งแม้แต่สร้างผลเชิงบวกร่วมกัน (ส่วนที่ 4)
  3. การสร้างแบบจำลองโลก: ขยายการประเมินไปยังสถานการณ์โมเดลโลกนำทาง โดยแสดงการกระทำเป็นโทเค็นข้อความ การทดลองแสดงให้เห็นว่าความสามารถในการทำนายทางกายภาพของโมเดลส่วนใหญ่มาจากการฝึกฝนล่วงหน้าหลายรูปแบบทั่วไป (เช่น ข้อมูลวิดีโอ) ไม่ใช่ข้อมูลเฉพาะโดเมน (ส่วนที่ 5)
  4. การออกแบบโครงสร้าง: ศึกษาแนวทางการออกแบบโครงสร้าง MoE ภายใต้กรอบแบบรวมเป็นหนึ่งเดียว สังเกตว่าโมเดลจะก่อตัวเป็นโครงสร้างที่มีทั้งการแยกและรวมรูปแบบอย่างเป็นธรรมชาติระหว่างการฝึก (ส่วนที่ 6)
  5. กฎการขยายขนาด: ได้รับกฎการขยายขนาดของภาพและภาษาผ่านการทดลอง IsoFLOP ผลลัพธ์พบว่ามีความไม่สมมาตรในการขยายขนาด: งานด้านภาพต้องการขนาดข้อมูลที่สูงกว่าภาษาอย่างชัดเจน ในขณะเดียวกัน โครงสร้าง MoE สามารถลดช่องว่างนี้ได้อย่างมีประสิทธิภาพ (ส่วนที่ 7)

การแสดงภาพในการฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียว

การศึกษานี้เปรียบเทียบตัวเข้ารหัสภาพสามประเภท:
* ตระกูล VAE: รวมถึง SD-VAE ของ Stable Diffusion และ FLUX.1
* ตัวเข้ารหัสเชิงความหมาย: รวมถึงตัวเข้ารหัสที่ฝึกด้วยการกำกับดูแลภาษาและตัวเข้ารหัสที่ฝึกด้วยการกำกับดูแลตนเอง
* พิกเซลดิบ: ใช้พิกเซลเป็นอินพุตโดยตรง

ผลการทดลองที่เกี่ยวข้องแสดงในรูปที่ 4

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

  • ประสิทธิภาพข้อความ: ไม่ว่าจะใช้การแสดงภาพแบบใด ความสับสนของข้อความของโมเดลก็เทียบเท่ากับค่าเบสไลน์ข้อความล้วน บางครั้งอาจดีกว่าเล็กน้อย (อินพุตพิกเซลดิบแสดงผลดีที่สุด) ความแตกต่างมีจำกัดมาก แสดงว่าการฝึกฝนล่วงหน้าหลายรูปแบบไม่ทำลายความสามารถทางภาษาอย่างมีนัยสำคัญ
  • การสร้างและความเข้าใจภาพ: ตัวเข้ารหัสเชิงความหมายทำงานได้ดีกว่าตัวเข้ารหัสแบบ VAE อย่างต่อเนื่องในงานความเข้าใจและการสร้างภาพ ตัวอย่างเช่น SigLIP 2 ทำงานได้ดีกว่า FLUX.1 ทั้งในแบบทดสอบมาตรฐาน VQA และการสร้างภาพ (เช่น DPGBench และ GenEval)

ผลลัพธ์นี้สอดคล้องกับการค้นพบของ RAE: การแสดงภาพมิติสูงมีผลอย่างน้อยเทียบเท่าหรือดีกว่าการแสดงแฝงมิติต่ำของ VAE ในงานสร้าง สิ่งนี้ชี้ให้เห็นว่าตัวเข้ารหัสภาพแบบรวมเป็นหนึ่งเดียวเพียงตัวเดียวก็เพียงพอที่จะรองรับงานความเข้าใจและการสร้างภาพพร้อมกัน การทดลองต่อๆ ไปใช้ SigLIP 2 เป็นตัวเข้ารหัสภาพเริ่มต้น

ข้อเสนอแนะ 1: การใช้ตัวเข้ารหัสภาพแบบ RAE เดียว (เช่น SigLIP 2) สามารถแสดงผลได้ดีเยี่ยมในงานความเข้าใจและการสร้างภาพพร้อมกัน ทำให้โครงสร้างโมเดลง่ายขึ้น และไม่ทำลายประสิทธิภาพข้อความ

ทำความเข้าใจผลกระทบของข้อมูล

การฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียวจำเป็นต้องใช้ข้อมูลทั้งหมดที่มี แต่บทบาทของข้อมูลแต่ละประเภทยังไม่ชัดเจน เพื่อสำรวจปัญหานี้ ทีมวิจัยได้ศึกษาการผสมผสานข้อมูลที่เป็นตัวแทนสามแบบ:
1. ข้อความ + วิดีโอ (วิดีโอดิบที่ไม่มีคำอธิบายประกอบข้อความ)
2. ข้อความ + MetaCLIP (คู่ภาพ-ข้อความ)
3. ข้อความ + วิดีโอ + MetaCLIP + การกระทำ (ทั้งหมดข้างต้น + วิดีโอที่มีเงื่อนไขการกระทำ)

โมเดลหลายรูปแบบทั้งหมดได้รับการฝึกฝนบนโทเค็นประมาณ 1 ล้านล้านโทเค็น (ข้อความ 520,000 ล้านโทเค็น + ข้อมูลหลายรูปแบบ 520,000 ล้านโทเค็น) และเปรียบเทียบกับค่าเบสไลน์ข้อความล้วนที่ฝึกบนข้อความ 520,000 ล้านโทเค็น

ผลลัพธ์แสดงดังรูปด้านล่าง การวิจัยพบว่าการผสมผสาน “ข้อความ+วิดีโอ” ให้ค่าความสับสนที่ดีที่สุดในชุดข้อมูลผสมทั้งหมดบนชุดตรวจสอบ DCLM และคลังข้อความภายใน Notes บน DCLM ยังดีกว่าเบสไลน์ข้อความล้วนอีกด้วย สิ่งนี้ชี้ให้เห็นว่า: ข้อมูลวิดีโออย่างน้อยก็เข้ากันได้กับการสร้างแบบจำลองภาษา หรืออาจเป็นประโยชน์ด้วยซ้ำ ภาพเองไม่ใช่สาเหตุหลักของการแข่งขันระหว่างรูปแบบ

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

ในทางกลับกัน “ข้อความ+MetaCLIP” แสดงค่าความสับสนที่แย่ที่สุดในชุดข้อมูลผสมทั้งหมด ในขณะที่ “ข้อความ+วิดีโอ+MetaCLIP+การกระทำ” มีการลดลงเพียงเล็กน้อยเมื่อเทียบกับเบสไลน์ข้อความล้วน แสดงว่าข้อมูลวิดีโอและเส้นทางการกระทำเป็นส่วนเสริมของข้อความ

ทีมวิจัยคาดการณ์ว่าการลดลงของประสิทธิภาพข้อความเกิดจากการเปลี่ยนแปลงการกระจายตัวของข้อความเนื่องจากการแนะนำคำอธิบายภาพ นอกจากนี้ยังสังเกตเห็นว่าในชุดข้อมูลผสมทั้งหมด เมื่อเทียบกับเบสไลน์ข้อความล้วน ค่าความสับสนบนคลังข้อความ Notes ซึ่งมีความเบี่ยงเบนจากการกระจายตัวสูงกว่า ลดลงทั้งหมด แต่แนวโน้มสัมพัทธ์ยังคงเหมือนเดิม สิ่งนี้ชี้ให้เห็นว่าการฝึกฝนล่วงหน้าหลายรูปแบบอาจนำมาซึ่งการแลกเปลี่ยนเล็กน้อยในความสามารถในการสรุปทั่วไปของข้อความ

ข้อเสนอแนะ 2: ใช้ข้อมูลหลายรูปแบบ (เช่น วิดีโอ คู่ภาพ-ข้อความ) ในการฝึก ข้อมูลภาพไม่ลดความสามารถในการสร้างแบบจำลองภาษา และข้อมูลการฝึกฝนล่วงหน้าที่หลากหลายสามารถนำมาซึ่งผลเชิงบวกร่วมกันสำหรับงานปลายน้ำ (เช่น การสร้างแบบจำลองโลกและ VQA)

มุ่งสู่การสร้างแบบจำลองโลกในโมเดลหลายรูปแบบแบบรวมเป็นหนึ่งเดียว

จากข้อสังเกตที่ว่า “ภาษาและภาพเป็นส่วนเสริมซึ่งกันและกัน และการฝึกฝนล่วงหน้าหลายรูปแบบสามารถปรับปรุงความสามารถในการตอบคำถามด้วยภาพได้อย่างมีนัยสำคัญ” ทีมวิจัยได้สำรวจเพิ่มเติมว่า: โดยไม่ต้องปรับเปลี่ยนโครงสร้างโมเดล โมเดลหลายรูปแบบสามารถขยายไปยังงาน “การสร้างแบบจำลองโลก” ได้หรือไม่

ทีมวิจัยใช้การตั้งค่าโมเดลโลกนำทาง ซึ่งงานหลักคือการทำนายสถานะภาพถัดไปภายใต้เงื่อนไขของสถานะบริบทปัจจุบันและการกระทำนำทาง:

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

ต่างจากวิธีการก่อนหน้านี้ที่เข้ารหัสการกระทำนำทางเป็นเวกเตอร์ต่อเนื่องเฉพาะทาง การวิจัยนี้แสดงการกระทำเป็นโทเค็นข้อความมาตรฐานโดยตรง ทำให้งานสามารถแสดงออกเป็นปัญหาในการทำนาย “ภาพ + ข้อความ → ภาพ” แบบรวมเป็นหนึ่งเดียว และสามารถดำเนินการได้โดยตรงในโมเดลหลายรูปแบบแบบรวมเป็นหนึ่งเดียว ดังแสดงในรูปด้านล่าง วิธีนี้ไม่จำเป็นต้องแนะนำอะแดปเตอร์เฉพาะสำหรับการกระทำหรือปรับเปลี่ยนโครงสร้างโมเดลใดๆ

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง
ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

ความสามารถในการสร้างแบบจำลองโลกมาจากการฝึกฝนล่วงหน้าหลายรูปแบบ

ปัญหาสำคัญประการหนึ่งคือ: ความสามารถที่มีประสิทธิภาพในการสร้างแบบจำลองโลกนั้น ขึ้นอยู่กับข้อมูลนำทางเฉพาะโดเมินเป็นหลัก หรือมาจากความสามารถหลายรูปแบบที่กว้างขวางมากขึ้น?

เพื่อยืนยันประเด็นนี้ ทีมวิจัยเปรียบเทียบโมเดลสองแบบ:
* โมเดล A: ฝึกด้วยโทเค็นโมเดลโลกนำทาง 50,000 ล้านโทเค็น และข้อมูลหลายรูปแบบ 50,000 ล้านโทเค็น (ข้อความ, MetaCLIP, วิดีโอที่มีคำอธิบายประกอบข้อความ หรือวิดีโอล้วน)
* โมเดล B: โมเดลเบสไลน์ที่ฝึกด้วยข้อมูลโมเดลโลกนำทาง 50,000 ล้านโทเค็นเท่านั้น

ผลการทดลองแสดงดังรูปด้านล่าง การขยายข้อมูลเฉพาะโดเมนจาก 50,000 ล้านเป็น 100,000 ล้านโทเค็นแม้จะนำมาซึ่งการปรับปรุงบางส่วน แต่ผลของการฝึกฝนล่วงหน้าหลายรูปแบบมีนัยสำคัญมากกว่า

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

โดยเฉพาะอย่างยิ่ง การเพิ่มข้อมูลวิดีโอล้วนนำมาซึ่งการปรับปรุงมากที่สุด แต่รูปแบบอื่นๆ ทั้งหมด รวมถึง MetaCLIP และข้อความ มีประโยชน์ สิ่งนี้ชี้ให้เห็นว่าความสามารถในการสร้างแบบจำลองโลกขึ้นอยู่กับความรู้ที่ได้รับจากการฝึกฝนล่วงหน้าหลายรูปแบบมากกว่า ไม่ใช่ข้อมูลเฉพาะโดเมน ซึ่งสอดคล้องกับข้อสรุปของการวิจัยก่อนหน้านี้

ความสามารถในการสร้างแบบจำลองโลกสามารถถ่ายโอนจากการฝึกฝนทั่วไปได้

เพื่อวิเคราะห์แหล่งที่มาของความสามารถเพิ่มเติม ทีมวิจัยได้ทำการทดลองตัดออก: ภายใต้งบประมาณการฝึกทั้งหมดคงที่ที่ 200,000 ล้านโทเค็น ปรับสัดส่วนของข้อมูลโมเดลโลกนำทาง

ผลลัพธ์แสดงดังรูปด้านล่าง ประสิทธิภาพของโมเดลอิ่มตัวอย่างรวดเร็วตามปริมาณข้อมูลในโดเมนที่เพิ่มขึ้น ต้องการข้อมูลในโดเมนเพียง 1% ก็สามารถบรรลุประสิทธิภาพที่สามารถแข่งขันได้อย่างมาก การเพิ่มสัดส่วนต่อไปให้ผลตอบแทนน้อยมาก

ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง

การค้นพบนี้เสริมสมมติฐานต่อไปนี้: ความสามารถเช่นการนำทางและการตอบคำถามด้วยภาพส่วนใหญ่มาจากการฝึกฝนล่วงหน้าหลายรูปแบบทั่วไป ต้องการข้อมูลในโดเมินเพียงเล็กน้อยเพื่อกระตุ้นอย่างมีประสิทธิภาพ

การค้นพบหลัก: การฝึกฝนล่วงหน้าหลายรูปแบบแบบรวมเป็นหนึ่งเดียวสามารถปลดล็อกความสามารถในการสร้างแบบจำลองโลก เพียงแค่แสดงการกระทำเป็นโทเค็นข้อความ โดยไม่ต้องปรับเปลี่ยนโครงสร้างโมเดล ความสามารถที่เกี่ยวข้องสามารถเกิดขึ้นเองตามธรรมชาติผ่านการฝึกฝนทั่วไป และต้องการข้อมูลเฉพาะโดเมินเพียงน้อยนิด

การออกแบบโครงสร้างหลายรูปแบบแบบรวมเป็นหนึ่งเดียว

ในการทดลองเบื้องต้น แค่เปลี่ยนเครือข่ายฟีดฟอร์เวิร์ดที่แชร์ร่วมกันเป็นเครือข่ายฟีดฟอร์เวิร์ดเฉพาะรูปแบบก็ได้ผลลัพธ์ที่โดดเด่นแล้ว ซึ่งพิสูจน์ว่าการแยกความจุในระดับปานกลางมีศักยภาพ อย่างไรก็ตาม การจัดสรรความจุโดยเฉลี่ยอาจไม่ใช่การกำหนด


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24815

Like (0)
Previous 2 days ago
Next 1 day ago

相关推荐