การปฏิวัติกระบวนทัศน์ AI: จากทำนายคำถัดไปสู่ทำนายสถานะทางกายภาพถัดไป

2026年2月4日 pm6:58 • ข่าวสารอุตสาหกรรม AI • 178 views

อีกหนึ่งยักษ์ใหญ่เตรียมปฏิวัติกระบวนทัศน์เทคโนโลยี AI ที่มีอยู่ในปัจจุบัน

ในเช้ามืดวันนี้ Jim Fan (Fan Linxi) นักวิทยาศาสตร์วิจัยอาวุโสของ Nvidia และหัวหน้าทีมหุ่นยนต์ ได้เผยแพร่บทความเรื่อง “กระบวนทัศน์การฝึกก่อนรุ่นที่สอง” ซึ่งจุดประกายการอภิปรายในชุมชนการเรียนรู้ของเครื่อง

การปฏิวัติกระบวนทัศน์ AI: จากทำนายคำถัดไปสู่ทำนายสถานะทางกายภาพถัดไป

Jim Fan ชี้ให้เห็นว่าในปัจจุบันโมเดล AI ที่เป็นตัวแทนของโมเดลภาษาขนาดใหญ่ (LLM) ส่วนใหญ่ใช้พื้นฐานจาก “การทำนายคำถัดไป” กระบวนทัศน์รุ่นแรกนี้แม้จะประสบความสำเร็จอย่างมาก แต่เมื่อนำไปประยุกต์ใช้ในโลกกายภาพกลับพบปัญหา “เข้ากับสภาพแวดล้อมไม่ได้” อย่างชัดเจน

สำหรับมุมมองนี้ Xie Saining ผู้ช่วยศาสตราจารย์มหาวิทยาลัยนิวยอร์กและนักวิทยาศาสตร์วิจัยของ Google DeepMind ก็เห็นพ้องด้วย

การปฏิวัติกระบวนทัศน์ AI: จากทำนายคำถัดไปสู่ทำนายสถานะทางกายภาพถัดไป

แล้วกระบวนทัศน์การฝึกก่อนรุ่นที่สองควรมีลักษณะอย่างไร? ลองมาดูเนื้อหาทั้งหมดของ Jim Fan กันก่อน:

“การทำนายคำถัดไป” เคยเป็นกระบวนทัศน์การฝึกก่อนรุ่นแรก และตอนนี้เรากำลังอยู่ในช่วงเปลี่ยนผ่านสู่กระบวนทัศน์ที่สอง: การสร้างแบบจำลองโลก (World Modeling) หรือ “การทำนายสถานะทางกายภาพถัดไป”

มีน้อยคนที่ตระหนักถึงผลกระทบอันลึกซึ้งของการเปลี่ยนแปลงครั้งนี้ น่าเสียดายที่กรณีการใช้งานแบบจำลองโลกที่คนทั่วไปรู้จักมากที่สุดในปัจจุบันเป็นเพียงขยะวิดีโอ AI (และขยะเกมที่กำลังจะมาถึง) แต่ผมเชื่อมั่นอย่างเต็มใจว่า ปี 2026 จะเป็นปีเริ่มต้นที่ “แบบจำลองโลกขนาดใหญ่” (Large World Models, LWMs) จะวางรากฐานที่แท้จริงให้กับวิทยาการหุ่นยนต์และ AI แบบหลายรูปแบบในวงกว้าง

ในบริบทนี้ ผมให้นิยาม “การสร้างแบบจำลองโลก” ว่า: ภายใต้ข้อจำกัดของการกระทำเฉพาะเจาะจง ให้ทำนายสถานะทางกายภาพของโลกที่สมเหตุสมผลในครั้งถัดไป (หรือในช่วงเวลาต่อเนื่อง) โมเดลสร้างวิดีโอเป็นตัวอย่างหนึ่งของการนำไปใช้ โดย “สถานะถัดไป” คือชุดของเฟรม RGB (ปกติ 8-10 วินาที หรือยาวได้ถึงหลายนาที) และ “การกระทำ” คือคำอธิบายข้อความเกี่ยวกับสิ่งที่ควรทำ กระบวนการฝึกเกี่ยวข้องกับการสร้างแบบจำลองการเปลี่ยนแปลงในอนาคตจากพิกเซลวิดีโอนับพันล้านชั่วโมง

ในแก่นแท้แล้ว แบบจำลองโลกวิดีโอคือเครื่องมือจำลองทางฟิสิกส์และเอนจิ้นเรนเดอร์ที่สามารถเรียนรู้ได้ พวกมันจับ “ข้อเท็จจริงตรงข้าม” (counterfactuals) ซึ่งเป็นคำศัพท์ระดับสูงที่หมายถึงการให้เหตุผลว่าอนาคตจะวิวัฒนาการแตกต่างกันอย่างไรเมื่อมีการกระทำที่ต่างกัน แบบจำลองโลกวางภาพเป็นอันดับแรกโดยพื้นฐาน

ในทางตรงกันข้าม โมเดลภาษาภาพ (VLMs) โดยธรรมชาติแล้วเป็น “ภาษานำ” ตั้งแต่ต้นแบบแรกเริ่ม (เช่น LLaVA) ตรรกะการเล่าเรื่องแทบไม่เปลี่ยนแปลง: ข้อมูลภาพเข้าผ่านตัวเข้ารหัส จากนั้นถูกส่งไปยังโครงข่ายหลักภาษา เมื่อเวลาผ่านไป ตัวเข้ารหัสได้รับการปรับปรุง โครงสร้างเรียบง่ายขึ้น และภาพพยายามที่จะเป็น “ดั้งเดิม” มากขึ้น (เช่น โมเดล omni) แต่มันยังคงเหมือน “พลเมืองชั้นสอง” ที่ด้อยกว่ามากในด้านขนาดทางกายภาพ เมื่อเทียบกับพลังที่อุตสาหกรรมสร้างให้กับโมเดลภาษาขนาดใหญ่ (LLMs) ตลอดหลายปีที่ผ่านมา

เส้นทางนี้สะดวก เพราะเรารู้ว่า LLM สามารถขยายขนาดได้ สัญชาตญาณด้านโครงสร้าง การออกแบบสูตรข้อมูล และการทดสอบมาตรฐาน (เช่น VQA) ของเราถูกปรับให้เหมาะสมกับภาษาอย่างสูง

สำหรับ AI ทางกายภาพ ปี 2025 เคยถูกครอบงำโดยโมเดล VLA (ภาพ-ภาษา-การกระทำ): การต่อเดคอเดอร์การเคลื่อนไหวมอเตอร์หุ่นยนต์เข้ากับจุดตรวจสอบ VLM ที่ฝึกมาก่อนอย่างแข็งกระด้าง นี่คือ “LVA” จริงๆ: ลำดับความสำคัญคือ ภาษา > ภาพ > การกระทำ เช่นเดียวกัน เส้นทางนี้สะดวก เพราะเราชำนาญในสูตรการฝึก VLM

อย่างไรก็ตาม พารามิเตอร์ส่วนใหญ่ใน VLM ถูกจัดสรรให้กับความรู้ (เช่น “พิกเซลกลุ่มนี้คือแบรนด์โคคา-โคล่า”) ไม่ใช่ฟิสิกส์ (เช่น “หากคุณทำขวดโค้กหก ของเหลวจะกระจายเป็นคราบสีน้ำตาล ทำให้ผ้าปูโต๊ะสีขาวสกปรก และทำลายมอเตอร์”) VLA ออกแบบมาให้เก่งในการค้นหาความรู้ แต่กลับ “หัวหนัก” ในที่ผิด การออกแบบต่อเชื่อมหลายขั้นตอนนี้ยังขัดกับความปรารถนาของผมในความเรียบง่ายและสง่างาม

จากมุมมองทางชีววิทยา ภาพเป็นผู้ควบคุมการคำนวณของเยื่อหุ้มสมองของเรา ประมาณหนึ่งในสามของเยื่อหุ้มสมองถูกจัดสรรให้กับการประมวลผลข้อมูลพิกเซลในบริเวณท้ายทอย ขมับ และข้างขม่อม ในทางตรงกันข้าม ภาษาพึ่งพาพื้นที่ที่ค่อนข้างกะทัดรัด ภาพเป็นช่องทางแบนด์วิธสูงที่เชื่อมต่อสมอง ระบบการเคลื่อนไหว และโลกกายภาพ มันปิด “วงจรประสาทสัมผัส-การเคลื่อนไหว” นี่คือวงจรหลักที่สุดในการแก้ปัญหาหุ่นยนต์ และกระบวนการนี้ไม่จำเป็นต้องใช้ภาษาเลย

ธรรมชาติให้หลักฐานการมีอยู่แก่เรา: สิ่งมีชีวิตที่มีความฉลาดทางกายภาพสูงมากแต่ความสามารถทางภาษาน้อยมาก – ลิงเอป

ผมเคยเห็นลิงเอปขับรถกอล์ฟ เปลี่ยนผ้าเบรกด้วยไขควงเหมือนช่างมนุษย์ ความสามารถในการเข้าใจภาษาของพวกมันอาจเทียบไม่ได้กับ BERT หรือ GPT-1 แต่ทักษะทางกายภาพของพวกมันเหนือกว่าหุ่นยนต์ที่ทันสมัยที่สุดในปัจจุบัน ลิงเอปอาจไม่มีโมเดลภาษาที่ทรงพลัง แต่พวกมันมีแน่นอนว่าแผนที่จิตใจ “ถ้า… จะเกิดอะไรขึ้น” ที่แข็งแกร่งมาก: นั่นคือโลกกายภาพทำงานอย่างไร และจะตอบสนองต่อการแทรกแซงของพวกมันอย่างไร

ยุคของการสร้างแบบจำลองโลกมาถึงแล้ว และมันเต็มไปด้วยรสชาติของ “บทเรียนอันขมขื่น” ดังที่ศาสตราจารย์ Jitendra Malik จากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ มักเตือนเราพวก “ผู้บูชาขนาด” ว่า: “การเรียนรู้ภายใต้การดูแลคือฝิ่นของนักวิจัย AI” เนื้อหาทั้งหมดของ YouTube และการเกิดขึ้นของแว่นตาอัจฉริยะ จะจับภาพสตรีมภาพดิบของโลกกายภาพที่มีขนาดใหญ่กว่าข้อความทั้งหมดในประวัติศาสตร์มนุษย์

เราจะได้เห็นการฝึกก่อนรุ่นแบบใหม่: สถานะโลกถัดไปอาจไม่จำกัดอยู่แค่ภาพ RGB การเคลื่อนไหวในพื้นที่ 3D การรับรู้ภายในร่างกาย และการรับรู้สัมผัสเพิ่งเริ่มต้น

เราจะได้เห็นการให้เหตุผลแบบใหม่: “โซ่ความคิด” ที่เกิดขึ้นในพื้นที่ภาพ ไม่ใช่พื้นที่ภาษา คุณสามารถจินตนาการว่าวัตถุเคลื่อนที่และชนกันอย่างไรโดยการจำลองรูปทรงเรขาคณิตและจุดสัมผัส เพื่อแก้ปริศนาทางฟิสิกส์ โดยไม่ต้องแปลงเป็นสตริง ภาษาเป็นเพียงคอขวด เป็นนั่งร้าน ไม่ใช่รากฐาน

เราจะเผชิญกับกล่องคำถามพานโดร่าแบบใหม่: แม้จะมีแบบจำลองอนาคตที่สมบูรณ์แบบ คำสั่งการกระทำควรถูกถอดรหัสอย่างไร? การสร้างพิกเซลใหม่เป็นเป้าหมายที่ดีที่สุดจริงหรือ หรือเราควรเข้าสู่อีกพื้นที่แฝงหนึ่ง? เราต้องการข้อมูลหุ่นยนต์มากแค่ไหน การขยายขนาดการควบคุมระยะไกลยังเป็นคำตอบมาตรฐานหรือไม่? หลังจากผ่านการสำรวจเหล่านี้แล้ว เรากำลังก้าวสู่ “ช่วงเวลา GPT-3” ของวงการหุ่นยนต์ในที่สุดหรือไม่?

Ilya ถูกต้องในที่สุด AGI ยังไม่บรรจบกัน เรากลับสู่ “ยุคแห่งการวิจัย” ไม่มีอะไรที่น่าตื่นเต้นไปกว่าการท้าทายหลักการแรก

การครุ่นคิดของ Jim Fan ต่อสถานการณ์ปัจจุบันและการตัดสินอนาคต ได้รับการยอมรับจากผู้ใช้ออนไลน์จำนวนมากในส่วนความคิดเห็นเช่นกัน

การปฏิวัติกระบวนทัศน์ AI: จากทำนายคำถัดไปสู่ทำนายสถานะทางกายภาพถัดไป