ผู้เชี่ยวชาญ NVIDIA ทำนาย: การสร้างแบบจำลองโลกจะแทนที่การทำนายคำศัพท์ เปิดยุคใหม่ของการฝึกฝน AI ล่วงหน้า

2026年2月5日 am11:31 • ข่าวสารอุตสาหกรรม AI • 193 views

henry ส่งจาก 凹非寺

ควอนตัมบิต | บัญชี WeChat QbitAI

หลังจาก “การทำนายคำถัดไป” การสร้างแบบจำลองโลกจะกลายเป็นกระบวนทัศน์การฝึกล่วงหน้าใหม่

นี่คือการประเมินล่าสุดจาก Jim Fan หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA

ผู้เชี่ยวชาญ NVIDIA ทำนาย: การสร้างแบบจำลองโลกจะแทนที่การทำนายคำศัพท์ เปิดยุคใหม่ของการฝึกฝน AI ล่วงหน้า

เขาเชื่อว่า ปี 2026 จะเป็นปีแรกที่โมเดลโลกขนาดใหญ่ (Large World Models) จะวางรากฐานที่แท้จริงให้กับสาขาหุ่นยนต์และ AI แบบมัลติโมดัลในความหมายกว้าง

Xie Saining ได้รีทวีตแสดงความเห็นด้วยทันที: “มองย้อนกลับไปก็เห็นได้ชัด”

ในบทความยาวนี้ Jim Fan ได้อภิปรายถึงคำจำกัดความและการประยุกต์ใช้โมเดลโลก โดยเน้นเป็นพิเศษเกี่ยวกับการพัฒนาในสาขา Physical AI พร้อมทั้งมองไปที่รูปแบบใหม่ของการให้เหตุผล:

การสร้างแบบจำลองโลก คือการทำนายสถานะโลกถัดไปที่สมเหตุสมผล (หรือสถานะในช่วงเวลาที่ยาวนานกว่า) ภายใต้เงื่อนไขของการกระทำหนึ่ง
กระแสหลักของโมเดลโลกในปัจจุบันมุ่งเน้นไปที่สาขาวิดีโอ AI และปี 2026 จะเห็นการระเบิดของ Physical AI
โมเดลโลกต้องการเป้าหมายการฝึกล่วงหน้าที่กว้างขึ้น: สถานะโลกถัดไปไม่ควรมีเพียง RGB แต่ต้องครอบคลุมการเคลื่อนไหว 3D, การรับรู้ร่างกาย และการสัมผัส
จะเกิดรูปแบบใหม่ของการให้เหตุผล: โซ่ความคิดในพื้นที่ภาพ แทนที่จะเป็นโซ่ความคิดในพื้นที่ภาษา

กระบวนทัศน์การฝึกล่วงหน้าที่สอง

การทำนายคำถัดไปเคยเป็นกระบวนทัศน์การฝึกล่วงหน้าแรก และตอนนี้เรากำลังประสบกับการเปลี่ยนแปลงกระบวนทัศน์ครั้งที่สอง: การสร้างแบบจำลองโลก หรือ “การทำนายสถานะทางกายภาพถัดไป”

มีน้อยคนที่เข้าใจความหมายอันลึกซึ้งของการเปลี่ยนแปลงนี้อย่างแท้จริง ฉันมั่นใจอย่างยิ่งที่จะพูดว่า: ปี 2026 จะเป็นปีที่โมเดลโลกขนาดใหญ่วางรากฐานที่แท้จริงครั้งแรกให้กับสาขาหุ่นยนต์ และ AI แบบมัลติโมดัลในความหมายกว้าง

ในบริบทนี้ ฉันให้นิยามการสร้างแบบจำลองโลกว่า: การทำนายสถานะโลกถัดไปที่สมเหตุสมผล (หรือสถานะในช่วงเวลาที่ยาวนานกว่า) ภายใต้เงื่อนไขของการกระทำหนึ่ง

โมเดลสร้างวิดีโอเป็นรูปแบบการนำไปใช้รูปแบบหนึ่ง โดยที่ “สถานะถัดไป” คือชุดของเฟรม RGB และ “การกระทำ” คือข้อความที่อธิบายสิ่งที่ต้องทำ กระบวนการฝึกคือการสร้างแบบจำลองการเปลี่ยนแปลงของพิกเซลวิดีโอในอนาคตจากวิดีโอนับพันล้านชั่วโมง โดยพื้นฐานแล้ว โมเดลโลกวิดีโอคือเครื่องจำลองฟิสิกส์และเอนจิ้นเรนเดอร์ที่เรียนรู้ได้

พวกมันสามารถจับภาพสถานการณ์สมมติ นั่นคือการทำนายว่าอนาคตอาจแตกต่างกันอย่างไรหากดำเนินการต่างไป – นี่คือการให้เหตุผล โมเดลโลกมีศูนย์กลางอยู่ที่ภาพเป็นพื้นฐาน

ในทางตรงกันข้าม โมเดลภาษาภาพมีศูนย์กลางอยู่ที่ภาษาเป็นพื้นฐาน ตั้งแต่ต้นแบบแรกสุด เส้นทางโดยรวมก็เหมือนกัน: ภาพเข้าสู่ตัวเข้ารหัส จากนั้นถูกส่งไปยังโครงข่ายหลักภาษา เมื่อเวลาผ่านไป ตัวเข้ารหัสได้รับการปรับปรุงอย่างต่อเนื่อง สถาปัตยกรรมเรียบง่ายขึ้น ภาพพยายามที่จะเป็น “ดั้งเดิม” มากขึ้น อย่างไรก็ตาม ภาพยังคงเป็นพลเมืองชั้นสอง ไม่สามารถเทียบได้กับความสามารถของโมเดลภาษาขนาดใหญ่ที่สร้างขึ้นในสาขานี้มาหลายปี

สำหรับ Physical AI ปี 2025 ถูกครอบงำโดยโมเดลภาษาภาพการกระทำ: การเชื่อมต่อตัวถอดรหัสการกระทำของหุ่นยนต์เข้ากับโมเดลภาษาภาพที่ฝึกล่วงหน้าแล้ว พูดอย่างเคร่งครัด มัน更像是 “ภาษา > ภาพ > การกระทำ” ลดหลั่นลงมา

การออกแบบโมเดลภาษาภาพการกระทำมีความแข็งแกร่งในการค้นหาความรู้ แต่การจัดสรรความสามารถทางกายภาพไม่เพียงพอ การออกแบบที่ต่อเชื่อมหลายขั้นตอนยังขัดกับความชอบของฉันที่มีต่อความเรียบง่ายและสง่างาม

จากมุมมองทางชีววิทยา ภาพครอบงำการคำนวณของเยื่อหุ้มสมองของเรา ประมาณหนึ่งในสามของเยื่อหุ้มสมองถูกใช้เพื่อประมวลผลพิกเซล ในทางตรงกันข้าม ภาษาขึ้นอยู่กับพื้นที่ที่ค่อนข้างกะทัดรัด ภาพเป็นช่องทางที่มีแบนด์วิธสูงสุดที่เชื่อมต่อสมอง ระบบการเคลื่อนไหว และโลกทางกายภาพของเรา มันปิด “วงจรการรับรู้-การเคลื่อนไหว” ซึ่งเป็นวงจรที่หุ่นยนต์ต้องการแก้ไขมากที่สุด และไม่จำเป็นต้องมีภาษาคั่นกลาง

ธรรมชาติให้ตัวอย่างที่น่าเชื่อถือที่สุดแก่เรา: ปัญญาทางกายภาพที่มีความคล่องแคล่วสูงแทบไม่ขึ้นกับภาษา – ลิง พวกมันมีความเข้าใจภาษาที่จำกัด แต่ทักษะทางกายภาพของพวกมันเกินกว่าหุ่นยนต์ที่ล้ำสมัยที่สุดของเราในปัจจุบัน ลิงอาจไม่มีโมเดลภาษาที่ดี แต่พวกมันมีอย่างชัดเจนซึ่งการแสดงทางจิตที่แข็งแกร่งสำหรับ “จะเกิดอะไรขึ้นถ้า…”: นั่นคือความเข้าใจว่าสภาพทางกายภาพทำงานอย่างไร และจะตอบสนองอย่างไรภายใต้การแทรกแซงของพวกมัน

ยุคของการสร้างแบบจำลองโลกมาถึงแล้ว

วิดีโอจำนวนมหาศาลบน YouTube และการเกิดขึ้นของแว่นตาอัจฉริยะ จะจับภาพโลกในรูปแบบสตรีมภาพดิบที่เกินกว่าขนาดการฝึกข้อความมาก เราจะเห็นรูปแบบใหม่ของการฝึกล่วงหน้า: สถานะโลกถัดไปจะไม่เพียงประกอบด้วย RGB – การเคลื่อนไหวเชิงพื้นที่ 3D, การรับรู้ร่างกาย และการรับรู้สัมผัสเพิ่งเริ่มต้นเท่านั้น

เราจะเห็นรูปแบบใหม่ของการให้เหตุผล: โซ่ความคิดในพื้นที่ภาพ แทนที่จะเป็นโซ่ความคิดในพื้นที่ภาษา คุณสามารถแก้ปริศนาทางกายภาพโดยการจำลองความสัมพันธ์ทางเรขาคณิตและการสัมผัส จินตนาการว่าวัตถุเคลื่อนที่และชนกันอย่างไร โดยไม่ต้องแปลเป็นสตริง ภาษาเป็นคอขวด เป็นนั่งร้าน ไม่ใช่รากฐาน

เราจะเผชิญกับความท้าทายใหม่ๆ มากมาย: แม้ว่าการจำลองในอนาคตจะสมบูรณ์แบบ แต่การกระทำควรถูกถอดรหัสอย่างไร? การสร้างพิกเซลใหม่จริงๆ เป็นเป้าหมายที่ดีที่สุด หรือควรเข้าสู่พื้นที่แฝงอื่น? ต้องการข้อมูลหุ่นยนต์มากแค่ไหน? การขยายการควบคุมระยะไกลยังคงเป็นไปได้หรือไม่? หลังจากทำสิ่งเหล่านี้แล้ว เราจะได้เห็นช่วงเวลาที่เทียบเท่า GPT-3 ในสาขาหุ่นยนต์ในที่สุดหรือไม่?

โมเดลโลกในฐานะกระบวนทัศน์ใหม่

โดยรวมแล้ว บทความใหม่นี้สามารถมองได้ว่าเป็นการขยายและพัฒนาจุดที่สามใน สรุปปลายปี 2025 ด้านหุ่นยนต์ ของ Jim Fan ในตอนนั้น เขาเสนอว่า: เส้นทางที่อิงตามโมเดลภาษาภาพ โดยพื้นฐานแล้วให้บริการภาษาและความรู้เป็นหลัก ไม่ใช่โลกทางกายภาพเอง

ในเวลานั้น เขาได้พูดปัญหาอย่างตรงไปตรงมาแล้ว: พารามิเตอร์ของโมเดลภาษาภาพมุ่งเน้นไปที่ภาษาและความรู้ ไม่ใช่โลกทางกายภาพ ตัวเข้ารหัสภาพจะทิ้งรายละเอียดอย่างแข็งขันระหว่างการฝึก แต่การควบคุมหุ่นยนต์กลับพึ่งพารายละเอียดเหล่านี้ ดังนั้น โมเดลภาษาภาพการกระทำจะไม่ได้รับการปรับปรุงตามธรรมชาติเมื่อโมเดลภาษาภาพขยายตัว และบทความยาวล่าสุดเกี่ยวกับการสร้างแบบจำลองโลกนี้ สามารถมองได้ว่าเป็นการขยายและการคิดเพิ่มเติมอย่างเป็นระบบของ Jim Fan ต่อการประเมินนี้

สำหรับมุมมองของเขา ผู้เชี่ยวชาญในอุตสาหกรรมและผู้ใช้อินเทอร์เน็ตก็ได้แสดงความคิดเห็นเช่นกัน

Jack Parker-Holder หัวหน้าทีมร่วมของ Genie 3 และหัวหน้าทีมโมเดลโลกจาก Google DeepMind ได้แชร์ความเข้าใจของเขาเกี่ยวกับสถานการณ์การประยุกต์ใช้โมเดลโลกด้วยเช่นกัน:

โมเดลโลกเป็นคลาสใหม่ของโมเดลพื้นฐานโดยตัวมันเอง พวกมันให้บริการทั้งสื่อเชิงโต้ตอบ (โมเดลวิดีโอ) และ AGI ที่มีตัวตน โมเดลโลกเป็นสะพานเชื่อมระหว่างสองขอบเขต: เสมือนและกายภาพ ค่าที่แท้จริงของพวกมันอยู่ที่ความสามารถในการปรับตัวข้ามงานและข้ามโดเมน

กล่าวอีกนัยหนึ่ง เช่นเดียวกับที่ โมเดลภาษาขนาดใหญ่ในฐานะโมเดลพื้นฐานสามารถเขียนโปรแกรมและแก้ปัญหาคณิตศาสตร์ได้ เมื่อนำมาใช้กับโมเดลโลก การสร้างวิดีโอและการควบคุมที่มีตัวตนก็สามารถเข้ากันได้ และผู้เล่นเช่น Google, NVIDIA ฯลฯ ก็กำลังวางแผนพร้อมกันในด้านเกมเสมือน วิดีโอ และหุ่นยนต์ทางกายภาพ

อย่างไรก็ตาม Arsalan Mousavian อดีตหัวหน้าฝ่ายวิจัยหุ่นยนต์ของ NVIDIA ได้เตือนว่า:

นี่เป็นวิสัยทัศน์ที่ยอดเยี่ยมสำหรับโมเดลโลกขนาดใหญ่ แต่การก้าวกระโดดจากพิกเซลสู่ฟิสิกส์ยังคงสูงชัน

เพื่อให้โมเดลโลกเป็นโครงกระดูกหลักที่เชื่อถือได้สำหรับการสร้างการกระทำ ยังต้องแก้ไขปัญหาต่อไปนี้:

ความสม่ำเสมอทางเรขาคณิต: รับประกันว่าการเคลื่อนที่และความคงที่ของวัตถุเป็นไปตามหลักฟิสิกส์
การรักษาอัตลักษณ์: หลีกเลี่ยงการทำนายหลอนข้ามเอนทิตี เช่น หุ่นยนต์ A กลายเป็นหุ่นยนต์ B ในระหว่างกระบวนการทำนาย
ความเร็วในการให้เหตุผล: ลดความล่าช้าแบบวนซ้ำแบบเรียลไทม์ โมเดลโลกขนาดใหญ่ใช้การคำนวณมากและมีความล่าช้าสูง ในขณะที่หุ่นยนต์ต้องการการตอบสนองความถี่สูง
การสุ่มตัวอย่างการกระทำ: โมเดลโลกสามารถทำนายผลลัพธ์ได้ แต่เรายังคงต้องสุ่มตัวอย่างการกระทำ

ในแง่ของปริมาณข้อมูลและความต้องการการคำนวณ เป้าหมายนี้จะทำให้การขยายนโยบายการกระทำในปัจจุบันดูอ่อนโยนโดยเปรียบเทียบ

นอกจากนี้ การให้เหตุผลทางภาพที่ Jim Fan กล่าวถึงยังก่อให้เกิดการอภิปรายอย่างกว้างขวาง:

การให้เหตุผลไม่จำเป็นต้องพึ่งพาภาษาเสมอไป – การจำลองภาพ (เรขาคณิต, การสัมผัส, การเคลื่อนไหว) สามารถประกอบเป็นกระบวนการให้เหตุผลได้ด้วยตัวมันเอง

หุ่นยนต์เป็นเวทีที่สมบูรณ์แบบสำหรับโมเดลพื้นฐานที่มีศูนย์กลางอยู่ที่ภาพ ปี 2026 จะเป็นปีของเอเจนต์แบบมัลติโมดัลและแบบโต้ตอบหลายรอบ (หุ่นยนต์/CUA) และผู้ชนะในการแข่งขันนี้จะต้องให้ความสำคัญกับโหมดภาพมากขึ้นในเกม

การเปรียบเทียบกับลิงนั้นเหมาะสมมาก เราหลงใหลในภาษามากจนลืมไปว่าความสามารถในการดำเนินการที่คล่องแคล่วไม่จำเป็นต้องมีคำศัพท์มากมาย ปี 2026 อาจเป็นปีที่เทคโนโลยีหุ่นยนต์หยุดพึ่งพาโมเดลภาษาในที่สุด และหันไปสร้างระบบดั้งเดิมแทน

และนอกเหนือจากการเดิมพันเส้นทางเทคโนโลยีโมเดลโลกของยักษ์ใหญ่เช่น NVIDIA, Google แล้ว ระดับธุรกิจก็กำลังก้าวหน้าอย่างรวดเร็วเช่นกัน

หนึ่งสัปดาห์ก่อน Li Fei-Fei ผู้ก่อตั้ง World Labs กำลังระดมทุนรอบใหม่ด้วยมูลค่าประมาณ 5 หมื่นล้านดอลลาร์ โดยมีขนาดสูงสุดถึง 500 ล้านดอลลาร์

ในเวลาเดียวกัน LeCun ผู้ก่อตั้ง AMI Labs (Advanced Machine Intelligence, AMI) ก็ดึงดูดนักลงทุนที่มีศักยภาพรวมถึง Cathay Innovation โดยมีข่าวลือว่ามูลค่าการระดมทุนอาจสูงถึง 3.5 หมื่นล้านดอลลาร์