บิดาแห่ง GAN เอียน กู๊ดเฟลโลว์ ร่วมกับคริส แมนนิงก์ ผู้บุกเบิก NLP ออกมาแสดงความเห็นอย่างหนักแน่น: การแสดงเชิงสัญลักษณ์และข้อมูลเกม คือเส้นทางที่ดีที่สุดในการสร้างโมเดลโลกหลายรูปแบบ

2026年3月8日 am8:36 • วิศวกรรมโมเดลขนาดใหญ่ • 212 views

เอียน กู๊ดเฟลโลว์ ผู้ที่เงียบหายไปนาน ในที่สุดก็ปรากฏตัวอีกครั้ง

นักวิจัยผู้เสนอแนวคิด Generative Adversarial Networks (GAN) คนนี้ เคยเป็นผู้เปิดฉากคลื่นลูกแรกของเทคโนโลยีสร้างสรรค์ด้วย AI อย่างแท้จริง แต่ในการแข่งขัน AI สร้างสรรค์ยุคใหม่ที่ถูกขับเคลื่อนโดยโมเดลขนาดใหญ่ในช่วงไม่กี่ปีมานี้ เสียงของกู๊ดเฟลโลว์กลับไม่ค่อยได้ยินนัก

จนกระทั่งเมื่อไม่นานมานี้ เขาได้ร่วมกับคริส แมนนิง ผู้บุกเบิกด้าน NLP และคนอื่นๆ ตีพิมพ์บทความหนึ่ง ซึ่งสำรวจเส้นทางใหม่ในการสร้างแบบจำลองโลกหลายรูปแบบ (Multimodal World Model)

บิดาแห่ง GAN เอียน กู๊ดเฟลโลว์ ร่วมกับคริส แมนนิงก์ ผู้บุกเบิก NLP ออกมาแสดงความเห็นอย่างหนักแน่น: การแสดงเชิงสัญลักษณ์และข้อมูลเกม คือเส้นทางที่ดีที่สุดในการสร้างโมเดลโลกหลายรูปแบบ

ผู้เขียนทั้งสามของบทความคือ:
* เอียน กู๊ดเฟลโลว์: ผู้บุกเบิกยุคโมเดลสร้างสรรค์ เสนอ GAN ในปี 2014 เปิดฉากคลื่นลูกแรกของการสร้างภาพด้วย AI
* คริส แมนนิง: ผู้บุกเบิกด้าน NLP ศาสตราจารย์มหาวิทยาลัยสแตนฟอร์ด หนึ่งในนักวิชาการที่มีอิทธิพลมากที่สุดในสาขาการประมวลภาษาธรรมชาติ มีบทบาทสำคัญในการพัฒนารุ่นภาษาโมเดลขนาดใหญ่มาโดยตลอด
* ฟาน-ยุน ซัน: ผู้ร่วมก่อตั้งและซีอีโอของ Moonlake AI งานวิจัยมุ่งเน้นไปที่แบบจำลองโลกหลายรูปแบบ

พวกเขาเสนอในบทความว่า การใช้การแสดงเชิงสัญลักษณ์ และข้อมูลจากโลกเสมือนในเกม อาจเป็นเส้นทางที่ดีที่สุดในการสร้างแบบจำลองโลกหลายรูปแบบที่มีเงื่อนไขการกระทำ แบบจำลองประเภทนี้สามารถรองรับการทำนายและการวางแผนสำหรับงานที่มีลำดับเวลายาวได้อย่างน่าเชื่อถือ

เมื่อมนุษย์และสัตว์อื่นๆ อาศัยอยู่ในโลก พวกเขาสามารถรับรู้ถึงสิ่งที่กำลังเกิดขึ้นรอบตัว แต่สิ่งที่มนุษย์ทำนั้นมากกว่าแค่การสังเกต: ผู้คนยังสามารถคาดการณ์พฤติกรรมที่อาจเกิดขึ้นต่อไปของสิ่งมีชีวิตหรือวัตถุอื่นๆ ในสิ่งแวดล้อม และวางแผนการกระทำของตนเองตามนั้นเพื่อบรรลุเป้าหมายบางอย่าง การจะทำงานที่ซับซ้อนเหล่านี้ให้สำเร็จได้ จำเป็นต้องมีแบบจำลองโลกที่มีประสิทธิภาพ

ที่เรียกว่าแบบจำลองโลก หมายถึงโมเดลที่สามารถแสดงวิธีการทำงานของสิ่งแวดล้อม รวมถึงพลวัตการเปลี่ยนแปลงและโครงสร้างเชิงเหตุผลภายในสิ่งแวดล้อมนั้น ในกรอบการเรียนรู้แบบเสริมแรง (Reinforcement Learning) แบบจำลองโลกถูกใช้เพื่อประมาณฟังก์ชันการเปลี่ยนสถานะของสิ่งแวดล้อม นั่นคือการทำนายความน่าจะเป็นของสถานะโลกถัดไป เมื่อดำเนินการบางอย่างในสถานะปัจจุบัน

ด้วยแบบจำลองโลก เราสามารถทำนาย วางแผน ให้เหตุผล และดำเนินการโดยอิงจากแบบจำลองทางจิต (Mental Model) ของพฤติกรรมโลก โดยไม่จำเป็นต้องสังเกตผลของการกระทำผ่านการโต้ตอบโดยตรงกับโลกจริงทุกครั้ง

อย่างไรก็ตาม มนุษย์ไม่สามารถเข้าถึงสถานะที่แท้จริงของโลกโดยตรง สิ่งที่เราได้รับคือการสังเกตเพียงบางส่วนของสถานะจริง กล่าวอีกนัยหนึ่งคือ มนุษย์มักจะเข้าใจและดำเนินการในโลกนี้ภายใต้เงื่อนไขข้อมูลที่ไม่สมบูรณ์

ผู้คนใช้วิธีการที่แตกต่างกันในการสังเกตหรือวัดโลก และใช้รูปแบบที่แตกต่างกัน (Modalities) ในการสร้างแบบจำลองโลก ตัวอย่างเช่น รุ่นภาษาโมเดลขนาดใหญ่สามารถเรียนรู้รูปแบบของแบบจำลองโลกแฝงได้ผ่านข้อความเพียงอย่างเดียว อย่างไรก็ตาม โลกที่เราอาศัยอยู่ไม่ได้เป็นเพียงข้อความเท่านั้น แต่ยังรวมถึงรูปแบบการรับรู้ต่างๆ เช่น การมองเห็น เสียง การสัมผัส เป็นต้น ดังนั้น ผู้เขียนจึงเน้นพูดถึงแบบจำลองโลกหลายรูปแบบ

ในการสร้างแบบจำลองโลกหลายรูปแบบ จำเป็นต้องตอบคำถามสำคัญสองข้อก่อน: เหตุใดจึงต้องสร้าง และจะได้ข้อมูลฝึกอบรมที่สามารถขยายขนาดได้อย่างไร

เหตุใดจึงต้องสร้างแบบจำลองโลก?
เป้าหมายคือการบรรลุความสามารถของ AI ที่สามารถปลดปล่อยคุณค่าทางเศรษฐกิจมหาศาล งานในโลกแห่งความเป็นจริงมักต้องการความเข้าใจว่าการกระทำสร้างผลลัพธ์อย่างไรในมิติเวลา ไม่ใช่แค่การจดจำรูปแบบ สิ่งสำคัญคือการเข้าใจความสัมพันธ์เชิงเหตุผล ผู้เขียนเชื่อว่าความสามารถในการให้เหตุผลเชิงสาเหตุในสภาพแวดล้อมหลายรูปแบบ เป็นหนึ่งในความสามารถหลักที่สำคัญที่สุดในการไปสู่ปัญญาประดิษฐ์ทั่วไปแบบมีตัวตน (Embodied AGI)

หลายคนเมื่อพูดถึงแบบจำลองโลกหลายรูปแบบมักนึกถึงโมเดลสร้างวิดีโอเป็นอันดับแรก โมเดลประเภทนี้สามารถสร้างฉากที่มีภาพสมจริงได้ แต่โดยพื้นฐานแล้ว พวกมันกำลังพยายามสร้างแบบจำลองความสัมพันธ์ระดับพิกเซลระหว่างเฟรมวิดีโอต่อเนื่องกัน วิธีนี้ไม่จำเป็นต้องสามารถจับโครงสร้างเชิงเหตุผลของโลกได้อย่างแท้จริง และเนื่องจากขาดชั้นนามธรรมและโครงสร้างเชิงความหมาย จึงมักมีประสิทธิภาพและต้นทุนต่ำ การศึกษาบางชิ้นยังชี้ให้เห็นว่า แม้แต่โมเดลที่ทันสมัยที่สุดในปัจจุบัน ก็ยังคงเกิดข้อผิดพลาดในการเข้าใจทางกายภาพหรือเชิงพื้นที่ได้

หากเป้าหมายคือการวางแผนสำหรับการกระทำ เราจำเป็นต้องมีมุมมองพิกเซลความละเอียดสูงเพื่อสร้างแบบจำลองโลกจริงๆ หรือ? ผู้เขียนเชื่อว่าในงานจำนวนมากที่มีคุณค่าทางเศรษฐกิจนั้น ไม่จำเป็นต้องมีข้อมูลภาพที่ละเอียดเช่นนี้ เมื่อมนุษย์ประมวลผลข้อมูลภาพ มักจะทำในลักษณะจากบนลงล่างและขับเคลื่อนโดยงาน อาศัยการแสดงเชิงนามธรรมระดับวัตถุ ในสถานการณ์ส่วนใหญ่ ข้อมูลบางส่วนร่วมกับความเข้าใจเชิงความหมายก็เพียงพอแล้ว

แล้วมนุษย์มีลักษณะพิเศษอะไรในการเข้าใจโลก? สิ่งสำคัญคือเราพัฒนาเครื่องมือทางปัญญา ที่สำคัญที่สุดคือภาษาธรรมชาติ และต่อมาคือการแสดงเชิงสัญลักษณ์ต่างๆ (เช่น คณิตศาสตร์และภาษาการเขียนโปรแกรม) เครื่องมือเหล่านี้สามารถช่วยให้มนุษย์ทำการสรุปเชิงนามธรรมต่อโลกด้วยวิธีที่มีประสิทธิภาพมากขึ้น และแสดงความสัมพันธ์เชิงเหตุผลได้อย่างแม่นยำ พวกมันไม่เพียงแต่ทำให้มนุษย์สามารถให้เหตุผลเกี่ยวกับปัจจัยที่สำคัญจริงๆ ในโลกได้อย่างมีประสิทธิภาพมากขึ้น แต่ยังทำให้เราสามารถสื่อสารและทำงานร่วมกันผ่านภาษาได้

ที่สำคัญยิ่งไปกว่านั้น เครื่องมือและการสรุปเชิงนามธรรมสามารถทำให้โมเดลมุ่งความสามารถในการแสดงไปที่องค์ประกอบของโลกที่ส่งผลต่อการตัดสินใจอย่างแท้จริง ดังนั้นจึงมีข้อได้เปรียบทั้งในด้านประสิทธิภาพข้อมูลและการคำนวณ แทนที่จะพยายามสร้างโลกทั้งใบขึ้นมาใหม่ผ่านข้อมูลประสาทสัมผัสดิบ การใช้การสรุปเชิงนามธรรมในระดับความหมายสามารถนำไปสู่ความเข้าใจและการดำเนินการที่ทรงพลังและมีประสิทธิภาพมากขึ้น วิธีการแสดงนี้มีลักษณะกะทัดรัดสูง ทำให้โมเดลสามารถทำนายและให้เหตุผลได้อย่างมีประสิทธิภาพ แม้ในงานที่มีช่วงเวลายาวนาน

จะได้ข้อมูลฝึกอบรมที่สามารถขยายขนาดได้อย่างไร?
ข้อมูลเป็นปัจจัยที่สำคัญที่สุดในการสร้างโมเดลที่มีประสิทธิภาพ ปัจจุบัน แบบจำลองโลกภาพส่วนใหญ่ที่ก้าวหน้าอยู่ยังคงเป็นแบบอิงพิกเซล และมักไม่มีความสามารถเงื่อนไขการกระทำ มีข้อมูลวิดีโอจำนวนมหาศาลบนอินเทอร์เน็ต แต่ข้อมูลที่บันทึกการกระทำเองและผลลัพธ์ของมันนั้นหายากมาก และนี่คือกุญแจสำคัญในการเข้าใจผลของการกระทำ

ปัจจุบันยังมีการศึกษาบางส่วนที่พยายามทำให้โมเดลโลกพิกเซลมีความสามารถเงื่อนไขการกระทำ แต่ผู้เขียนเชื่อว่า เส้นทางที่มีประสิทธิภาพด้านข้อมูลและการคำนวณมากกว่าคือการใช้การสรุปเชิงนามธรรมของซอฟต์แวร์เพื่อสร้างโลกสังเคราะห์ที่หลากหลายเพื่อเสริมการฝึกโมเดล สภาพแวดล้อมสังเคราะห์เหล่านี้ยังสามารถเป็นแหล่งข้อมูลสำคัญสำหรับการฝึกแบบจำลองโลกเงื่อนไขการกระทำได้

กลไกการสรุปเชิงนามธรรมสามารถช่วยให้โมเดลบรรลุประสิทธิภาพที่สูงขึ้นด้วยข้อมูลที่น้อยลง ปัจจุบัน การสรุปเชิงนามธรรมประเภทนี้ส่วนใหญ่แสดงออกเป็นการแสดงเชิงสัญลักษณ์ (Symbolic Representations) เช่น รหัสและภาษาธรรมชาติ สัญลักษณ์เหล่านี้สามารถรับได้ผ่านอินเทอร์เฟซการรวบรวมข้อมูลที่สามารถขยายขนาดได้สูง เช่น คอมพิวเตอร์และอุปกรณ์ป้อนข้อมูล (คีย์บอร์ด เมาส์ ฯลฯ) ในเวลาเดียวกัน การแสดงเชิงสัญลักษณ์ยังสะดวกต่อการควบคุมที่ละเอียดและมีประสิทธิภาพของมนุษย์ เนื่องจากพวกมันเป็นอินเทอร์เฟซธรรมชาติสำหรับการแสดงความตั้งใจของมนุษย์ ดังนั้นจึงสามารถสร้างวงจรข้อมูลที่รวมทั้งการกระทำ (Actions) และการสังเกต (Observations) สำหรับสภาพแวดล้อมจำลองที่ต้องการการดำเนินการโดยมนุษย์ อินเทอร์เฟซการโต้ตอบที่มีประสิทธิภาพเป็นสิ่งจำเป็น และอินเทอร์เฟซนี้มักจะถูกนำมาใช้อย่างเป็นธรรมชาติที่สุดผ่านระบบสัญลักษณ์ เช่น ภาษามนุษย์และรหัสซอฟต์แวร์

นอกจากนี้ ผู้เขียนเน้นย้ำว่าการสร้างแบบจำลองโลกที่ประสบความสำเร็จไม่สามารถแยกออกจากเส้นทางที่สามารถบรรลุการพัฒนาตนเองเชิงพาณิชย์ได้อย่างยั่งยืน ความสามารถของโมเดลจะก้าวหน้าต่อไปได้ก็ต่อเมื่อแรงจูงใจเชิงพาณิชย์ผลักดันการผลิตข้อมูลและการปรับปรุงโมเดลอย่างต่อเนื่อง รูปแบบที่คล้ายกันนี้ได้รับการยืนยันแล้วในหลายสาขา เช่น หน่วยวัดความเฉื่อย (IMU) ในสมาร์ทโฟนที่ผลักดันการพัฒนาทางเทคโนโลยีที่เกี่ยวข้อง และการพัฒนาอย่างรวดเร็วของรุ่นภาษาโมเดลขนาดใหญ่ในสาขาการประมวลภาษาธรรมชาติ

ดังนั้น ผู้เขียนจึงเสนอให้เริ่มสร้างแบบจำลองโลกหลายรูปแบบจากโลกดิจิทัล สื่อเชิงโต้ตอบที่ตัวแทนคือเกม สามารถให้แรงจูงใจในการมีส่วนร่วมที่ชัดเจน (เช่น ความบันเทิง) และมีอินเทอร์เฟซการรวบรวมข้อมูลที่สามารถขยายขนาดได้ (คีย์บอร์ด เมาส์) ทำให้ข้อมูลสามารถสะสมได้อย่างเป็นธรรมชาติ เส้นทางนี้มีแนวโน้มที่จะนำไปสู่โมเดลที่ครบถ้วนในที่สุด: ไม่เพียงแต่สามารถสร้างสภาพแวดล้อม แต่ยังสามารถใช้ฝึกและควบคุมตัวแทนอัจฉริยะแบบมีตัวตนใดๆ ไม่ว่าจะอยู่ในโลกเสมือนหรือโลกแห่งความเป็นจริง ปัจจุบันมีสัญญาณบ่งชี้ว่าความสามารถในการปรับใช้ข้ามสภาพแวดล้อมนี้กำลังปรากฏขึ้นทีละน้อย

บทความยังชี้ให้เห็นว่านี่ไม่ใช่การปฏิเสธคุณค่าของพิกเซลในฐานะวิธีการแสดงโลก และไม่หมายความว่าในอนาคตจะมีเพียงรูปแบบการแสดงโลกแบบเดียวเท่านั้น สิ่งสำคัญคือการออกแบบแบบจำลองโลกควรหมุนรอบกลยุทธ์ (Policy) ที่เราต้องการเรียนรู้จากมัน และใช้วิธีการและเครื่องมือการสรุปเชิงนามธรรมที่เหมาะสม เพื่อให้โมเดลมุ่งเน้นไปที่ปัจจัยสภาพแวดล้อมที่ส่งผลต่อการตัดสินใจอย่างแท้จริง ดังนั้นจึงสามารถสร้างสมดุลที่ดีขึ้นระหว่างประสิทธิภาพข้อมูลและประสิทธิภาพการคำนวณ

หากเป้าหมายคือการเข้าใจความสัมพันธ์เชิงเหตุผลในสภาพแวดล้อมหลายรูปแบบ ไม่ว่าแบบจำลองโลกจะถูกนำไปใช้ในโลกเสมือนหรือโลกกายภาพ จำเป็นต้องให้ความสำคัญกับคุณสมบัติสำคัญหลายประการก่อน เช่น: การรักษาความสอดคล้องของสถานะเชิงพื้นที่และกายภาพในระยะเวลายาว และสามารถขับเคลื่อนวิวัฒนาการของสถานะโลก สะท้อนผลที่ตามมาของการกระทำอย่างแท้จริง

บทความสรุปว่านี่คือทิศทางที่กำลังสำรวจและสร้างอยู่ในปัจจุบัน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง