โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

การแปลโดย Machine Heart

คุณคงเคยได้ยินคำว่า “World Model” ในหลายๆ ที่แล้ว มันปรากฏในวงการสร้างวิดีโอ บางครั้งก็ปรากฏในวงการหุ่นยนต์ที่มีกายภาพ ความหมายของมันก็แตกต่างกันไป ดูเหมือนจะเป็นแนวคิดที่แตกต่างกันโดยสิ้นเชิง

ทำไมถึงเกิดความแตกต่างนี้? คำตอบซ่อนอยู่ในประวัติศาสตร์ของคำนี้

เมื่อเร็วๆ นี้ Henry Yin และ Naomi Xia จาก MoE Capital ได้เขียนบล็อกเชิงลึก ซึ่งจัดระบบแนวคิด “World Model” สองสายการวิจัยที่ดำเนินมาอย่างอิสระเป็นเวลาหลายสิบปีเบื้องหลังแนวคิดนี้: สายหนึ่งคือการสำรวจของชุมชน Reinforcement Learning ตั้งแต่ปี 1990 ที่ให้ “ตัวแทนฝันในจินตนาการ” และอีกสายหนึ่งคือการเรียนรู้ฟิสิกส์จากวิดีโอของมนุษย์จำนวนมหาศาลของชุมชน Computer Vision ที่ “เรียนรู้จากการดู” จนกระทั่งระหว่างปี 2024 ถึง 2025 สองสายนี้จึงมาบรรจบกันอย่างแท้จริง และให้กำเนิดสิ่งที่เราเรียกกันทุกวันนี้ว่า “Video World Model”

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

บทความยังได้แยกแยะขีดความสามารถที่แท้จริงของ World Model ในปัจจุบันอย่างละเอียด: ตั้งแต่การจำลองการขับขี่อัตโนมัติที่นำไปใช้ในสภาพแวดล้อมการผลิตจริง ไปจนถึงการประเมินนโยบายหุ่นยนต์ที่มีอนาคตสดใส และการควบคุมหุ่นยนต์โดยตรงที่ยังไม่ได้รับการพิสูจน์อย่างเพียงพอ ผู้เขียนได้ให้การตัดสินสถานะทางเทคนิคในปัจจุบันที่หาได้ยาก และยอมรับอย่างตรงไปตรงมาว่าวุฒิภาวะของวงการ AI หุ่นยนต์ทั้งหมดนั้นยังอยู่ในช่วงเริ่มต้นมากกว่าที่การระดมทุนมูลค่า 1 หมื่นล้านดอลลาร์จะบ่งชี้

ในขณะเดียวกัน บทความยังได้วิเคราะห์เชิงลึกถึงภูมิทัศน์เชิงกลยุทธ์เบื้องหลังงานเลี้ยงทุนนี้: NVIDIA กำลังสร้าง “คูเมือง CUDA” สำหรับยุค AI ทางกายภาพผ่านโอเพนซอร์สแบบครบวงจร; Yann LeCun วางเดิมพันกับสถาปัตยกรรม JEPA ที่หลีกเลี่ยงการทำนายพิกเซลโดยสิ้นเชิง; และโมเดลธงล่าสุดของ Physical Intelligence ได้รวมส่วนประกอบ World Model ไว้ภายในอย่างเงียบๆ เส้นแบ่งระหว่างสองแนวทางนี้กำลังเลือนลางเร็วขึ้น

Machine Heart แปลบทความนี้เพื่อให้ผู้อ่านได้เพลิดเพลิน

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

  • ชื่อต้นฉบับ: The Model That Dreams the World (โมเดลที่ฝันถึงโลก)
  • ลิงก์บล็อก: https://moe-capital.com/blog-home/the-model-that-dreams-the-world

1. คำที่ถูกใช้อย่างพร่ำเพรื่อที่สุดในวงการ AI

มาดูกันก่อนว่า World Model สามารถทำอะไรได้บ้าง

หุ่นยนต์ตัวหนึ่งไม่เคยเห็นเชือกผูกรองเท้า และไม่เคยมีใครควบคุมมันจากระยะไกลเพื่อแก้เชือกผูกรองเท้า แต่หุ่นยนต์ตัวนี้ก้มลง คว้าเชือกผูกรองเท้า แล้วดึงมันออกมา มันประสบความสำเร็จ เพราะมันผ่านการฝึกฝนจากโมเดลที่ดูวิดีโอของมนุษย์ใช้มือจับสิ่งของต่างๆ เป็นเวลาหลายพันชั่วโมง เรียนรู้กฎการเคลื่อนที่ของวัตถุเมื่อถูกดึง บิด หรือผลัก และสามารถคาดเดาสิ่งที่จะเกิดขึ้นต่อไปได้ก่อนที่จะลงมือทำ หุ่นยนต์ฝึกฝนซ้ำแล้วซ้ำเล่าในจินตนาการของมัน ก่อนที่จะสัมผัสกับความเป็นจริง

นี่คือคำมั่นสัญญาของ World Model: โมเดลที่เข้าใจโลกทางกายภาพอย่างลึกซึ้งพอที่จะทำนายสิ่งที่จะเกิดขึ้นต่อไป และดำเนินการตามนั้น ไม่ใช่โมเดลภาษาที่อธิบายโลกด้วยคำพูด หรือเครื่องสร้างวิดีโอที่สร้างภาพ แต่เป็นโมเดลที่เข้าใจวิธีการทำงานของสิ่งต่างๆ อย่างแท้จริง

ในช่วง 18 เดือนที่ผ่านมา มีเงินมากกว่า 1 หมื่นล้านดอลลาร์หลั่งไหลเข้าสู่แนวคิดนี้ Yann LeCun ออกจาก Meta เพื่อสร้างโมเดลดังกล่าว; Danijar Hafner (ซึ่งซีรีส์ Dreamer เป็นงานที่มีอิทธิพลมากที่สุดในด้าน Reinforcement Learning แบบใช้โมเดล) ก็ออกจาก DeepMind เพื่อนำไป商业化; NVIDIA เปิดชุดระบบที่เกี่ยวข้องทั้งหมดเป็นโอเพนซอร์ส; OpenAI ปิด Sora โดยระบุว่าการปิดครั้งนี้คือการเปลี่ยนไปสู่ “การจำลองโลกหุ่นยนต์” และเพียงสามสัปดาห์ต่อมา หัวหน้าทีมนี้ก็ลาออกจากบริษัท

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

สิ่งเหล่านี้ถูกเรียกว่า World Model แต่ไม่ใช่สิ่งเดียวกัน

อย่างไรก็ตาม สิ่งที่ถูกขนานนามว่า “World Model” ส่วนใหญ่ไม่ใช่ World Model ที่แท้จริงเลย คำศัพท์นี้ปัจจุบันครอบคลุมถึงเครื่องสร้างวิดีโอ, เครื่องจักรแห่งความฝันของ Reinforcement Learning, ตัวเรียนรู้การแสดงผลเชิงนามธรรม และโมเดลพื้นฐานการทำนายการกระทำ สายการวิจัยอิสระสองสายเพิ่งมาบรรจบกัน และร่วมกันให้กำเนิดสิ่งที่เราเรียกทุกวันนี้ว่า “Video World Model” การบรรจบกันนี้เกิดขึ้นได้อย่างไร และผลลัพธ์นั้นได้ผลจริงหรือไม่ นี่คือสิ่งที่บทความนี้จะสำรวจ

ทำไมต้องตอนนี้? สองสิ่งเกิดขึ้นพร้อมกัน

ประการแรก โมเดลวิดีโอแบบโต้ตอบมีมาตั้งแต่ปี 2024 (เช่น Genie, GameNGen) แต่ในตอนนั้นเป็นเพียงต้นแบบที่แคบ มาถึงปี 2025 ความก้าวหน้าสองอย่าง (AR-DiT และ Self Forcing) ทำให้สามารถดัดแปลงโมเดลพื้นฐานวิดีโอคุณภาพสูงทั่วไปให้โต้ตอบได้และทำงานแบบเรียลไทม์ได้ สิ่งนี้ทำให้ Video World Model เปลี่ยนจากการวิจัยเป็นโครงสร้างพื้นฐานที่ใช้งานได้จริง

ประการที่สอง วงการหุ่นยนต์ประสบปัญหาขาดแคลนข้อมูลมาโดยตลอด และเมื่ออุตสาหกรรมเริ่มฝึกโมเดลพื้นฐาน ความกระหายนี้ก็ทวีคูณขึ้นหลายเท่าตัว โมเดลพื้นฐานหุ่นยนต์ที่ดีที่สุดในปัจจุบันฝึกฝนจากข้อมูลควบคุมระยะไกลประมาณ 10,000 ชั่วโมง แต่การควบคุมระยะไกลมีต้นทุนสูง เก็บข้อมูลช้า และมีความหลากหลายจำกัด World Model นำเสนออีกเส้นทางหนึ่ง: ฝึกฝนล่วงหน้าบนวิดีโอของมนุษย์ที่มีอยู่หลายล้านชั่วโมงก่อน แล้วจึงปรับแต่งด้วยข้อมูลหุ่นยนต์จำนวนเล็กน้อย

อย่างไรก็ตาม จำเป็นต้องมีสติ วุฒิภาวะของวงการ AI หุ่นยนต์ทั้งหมดนั้นต่ำกว่าที่ขนาดการระดมทุนบ่งชี้มาก การปรับใช้ในการผลิตส่วนใหญ่ในปัจจุบันอาศัย Vision-Language-Action Model (VLA) มากกว่า World Model บริสุทธิ์ ถึงแม้ VLA ชั้นนำอย่าง Pi-0.7 ของ Physical Intelligence ก็เริ่มรวม World Model ขนาดเล็กสำหรับการวางแผนเป้าหมายย่อยแล้ว

World Model แสดงผลลัพธ์ที่แข็งแกร่งในสถานการณ์เฉพาะ เช่น DreamDojo บรรลุการประเมินนโยบายที่เกือบสมบูรณ์แบบ DreamGen บรรลุการสรุปทั่วไปจากข้อมูลน้อยมาก; แต่งานปฏิบัติการทั่วไปยังคงเป็นปัญหาที่ยังแก้ไม่ได้สำหรับทุกวิธี

2. การบรรจบกันของสองเส้นทาง

สิ่งที่เราเรียกทุกวันนี้ว่า “Video World Model” เกิดจากสายการวิจัยอิสระสองสายที่พัฒนาควบคู่กันมานานหลายสิบปี และมาบรรจบกันในที่สุดระหว่างปี 2024 ถึง 2025

เส้นทาง A: เรียนรู้ที่จะฝัน (Reinforcement Learning World Model, 1990—2025)

แนวคิดที่ว่า “ตัวแทนควรสร้างแบบจำลองสภาพแวดล้อมภายใน” มีมาก่อน Deep Learning เสียอีก Kenneth Craik เสนอในปี 1943 ในหนังสือ The Nature of Explanation ว่ามนุษย์พกพา “แบบจำลองขนาดเล็ก” ของความเป็นจริงไว้ในใจ เพื่อคาดการณ์สิ่งที่จะเกิดขึ้น ในปี 1990 Jürgen Schmidhuber ตีพิมพ์ Making the World Differentiable ทำให้แนวคิดนี้เป็นทางการสำหรับโครงข่ายประสาทเทียม: ตัวแทนควรเรียนรู้แบบจำลองสภาพแวดล้อมที่สามารถหาอนุพันธ์ได้ และใช้มันวางแผนการกระทำ แนวคิดนี้เงียบหายไปเกือบสามสิบปี

ในปี 2018 David Ha และ Schmidhuber ปลุกมันขึ้นมาอีกครั้งด้วยบทความชื่อ World Models และเว็บไซต์แบบโต้ตอบ worldmodels.github.io ให้คุณได้เห็น AI ตัวแทนกำลังฝัน

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

ด้านซ้าย: สภาพแวดล้อมการแข่งรถจริง ด้านขวา: ความฝันของตัวแทนที่มีต่อมัน ความเบลอคือจุดสำคัญ นั่นคือภาพที่ World Model จินตนาการ

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

สถาปัตยกรรม V+M+C ของ Ha & Schmidhuber (2018) ในโหมดความฝัน (ภาพขวา) สภาพแวดล้อมถูกตัดการเชื่อมต่อ ตัวแทนฝึกฝนในจินตนาการของมันเองทั้งหมด

สถาปัตยกรรมนี้แบ่งเป็นสามโมดูล: VAE (Variational Autoencoder) บีบอัดพิกเซลเป็นเวกเตอร์แฝง; MDN-RNN ทำนายพลวัตในพื้นที่แฝงนั้นในรูปแบบการแจกแจงความน่าจะเป็น; และตัวควบคุมขนาดเล็กที่ฝึกฝนในกระบวนการขยายในจินตนาการทั้งหมด ตัวแทนฝึกฝนในความฝันของตัวเอง จากนั้นถูกนำไปใช้ในโลกแห่งความจริง และมันก็ประสบความสำเร็จ ได้รับการยืนยันใน Car Racing และ VizDoom แนวคิดได้รับการพิสูจน์แล้ว

จากนั้น Danijar Hafner ใช้เวลาหกปีในการเจาะลึกแนวคิดเดียวกันนี้ด้วยสถาปัตยกรรมที่แตกต่างกัน สถาปัตยกรรม RSSM ของเขา (PlaNet, 2019) รวมความทรงจำที่แน่นอนเข้ากับความไม่แน่นอนแบบสุ่ม แก้ปัญหาการแสดงผลขั้นพื้นฐาน ซีรีส์ Dreamer ขยายจากการควบคุมต่อเนื่องอย่างง่าย (V1, 2020) ไปจนถึง Atari ระดับมนุษย์ (V2, 2021) และครอบคลุมเกณฑ์มาตรฐานมากกว่า 150 รายการด้วยพารามิเตอร์ชุดเดียว รวมถึงการขุดเพชรใน Minecraft ตั้งแต่เริ่มต้น (V3, ตีพิมพ์ใน Nature ปี 2025) Dreamer 4 (ปลายปี 2025) เปลี่ยนแกนหลักแบบวนซ้ำเป็น Transformer ทำให้เร็วขึ้น 25 เท่า DayDreamer (2022) นำไปใช้กับหุ่นยนต์จริง: หุ่นยนต์สี่ขาเรียนรู้การเดินตั้งแต่เริ่มต้นในเวลาเพียงหนึ่งชั่วโมง

值得一提的是 MuZero ของ DeepMind (2020) เดินเส้นทางที่แตกต่าง: มันเรียนรู้ World Model ที่ทำนายเฉพาะรางวัลและมูลค่า โดยไม่สร้างผลลัพธ์การสังเกตขึ้นมาใหม่ มันสร้างแบบจำลองเฉพาะสิ่งที่เกี่ยวข้องกับการตัดสินใจ และพิชิตหมากล้อม หมากรุก และ Atari โดยไม่ต้องสร้างพิกเซลแม้แต่เฟรมเดียว ซึ่งแตกต่างจากปรัชญาของ Dreamer ที่ใช้การสร้างผลลัพธ์การสังเกตขึ้นมาใหม่เป็นสัญญาณการฝึกฝน แต่แนวคิดหลักเหมือนกัน: จินตนาการถึงอนาคตที่เป็นไปได้ เลือกการกระทำที่ดีที่สุด

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

DreamerV3 เก็บเพชรใน Minecraft ตั้งแต่เริ่มต้น โดยไม่มีการสาธิตหรือการปรับแต่งรางวัล

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

หุ่นยนต์สี่ขาของ DayDreamer เรียนรู้การเดินผ่านการโต้ตอบกับโลกแห่งความจริงเพียงหนึ่งชั่วโมง

สิ่งที่ถูกต้องของเส้นทางการวิจัยนี้คือแนวคิดหลัก: เรียนรู้พลวัตของสภาพแวดล้อม, ซ้อมอนาคตในจินตนาการ, ฝึกนโยบายจากการจำลองเสมือนเพื่อแทนที่การโต้ตอบกับโลกแห่งความจริงที่มีราคาแพง, การปรับเงื่อนไขการกระทำ และประสิทธิภาพของตัวอย่าง แนวคิดพื้นฐานเหล่านี้ได้รับการสืบทอดโดย Video World Model ทั้งหมดในปัจจุบัน

อย่างไรก็ตาม สิ่งที่มันทำไม่ได้คือการสรุปทั่วไปข้ามสภาพแวดล้อม ตัวแทน Dreamer สามารถถึงระดับมนุษย์ในเกม Atari เกมเดียว แต่ถ้าจะเรียนรู้เกมถัดไป ต้องเริ่มต้นใหม่ทั้งหมด โมเดลเหล่านี้มีขนาดเล็กมาก (พารามิเตอร์ระดับล้าน) “ความฝัน” ที่พวกมันสร้างขึ้นเป็นเวกเตอร์นามธรรมที่มนุษย์ไม่สามารถตีความได้ และต้องใช้การฝึกซ้ำหลายพันครั้งเฉพาะงาน แนวคิดถูกต้อง แต่ขนาดผิด


เส้นทาง B: เรียนรู้จากการดู (2016—2025)

ในขณะเดียวกัน สายการวิจัยอีกสายหนึ่งกำลังซึมซับความรู้จากวิดีโออย่างเงียบๆ มันผ่านการพัฒนาหลายขั้นตอน แต่ละขั้นตอนทำให้วิดีโอมีคุณค่ามากขึ้นสำหรับการเรียนรู้ของหุ่นยนต์

ระยะที่ 1: วางแผนด้วยการทำนายวิดีโอ (2016—2018)

Oh และคณะ (2015) แสดงการทำนายวิดีโอแบบมีเงื่อนไขการกระทำในเกม Atari Finn และคณะ (2016) นำไปใช้กับหุ่นยนต์จริงที่เบิร์กลีย์: พวกเขาฝึกโมเดลเพื่อทำนายภาพที่กล้องจะจับได้หลังจากดำเนินการบางอย่าง จากนั้นวางแผนโดยเลือกการกระทำที่ทำนายสถานะในอนาคตใกล้เคียงกับเป้าหมายมากที่สุด วิธีนี้ใช้ได้กับงานผลักวัตถุอย่างง่าย แต่การทำนายเสื่อมลงอย่างรวดเร็วหลังจากไม่กี่เฟรม ภาพเบลอ ช่วงเวลาสั้นเกินไปที่จะจัดการกับการปฏิบัติการที่ซับซ้อน

ระยะที่ 2: เรียนรู้การแสดงผลจากวิดีโอของมนุษย์ (2020—2022)

การเปลี่ยนแปลงทางความคิดที่สำคัญเกิดขึ้น แทนที่จะทำนายวิดีโอโดยตรง ให้ใช้วิดีโอของมนุษย์เพื่อเรียนรู้การแสดงผลทางภาพที่สามารถถ่ายโอนไปยังงานหุ่นยนต์ R3M (Nair และคณะ, 2022) เป็นผลงานที่ก้าวล้ำในระยะนี้: ตัวเข้ารหัสภาพที่ฝึกฝนล่วงหน้าบนชุดข้อมูล Ego4D Ego4D ประกอบด้วยวิดีโอมุมมองบุคคลที่หนึ่งหลายพันชั่วโมงของการทำอาหาร ทำความสะอาด และจัดการวัตถุ ตัวเข้ารหัสเรียนรู้ที่จะบีบอัดภาพจากกล้องเป็นเวกเตอร์ขนาดกะทัดรัด จับข้อมูลประจำตัวของวัตถุ ความสัมพันธ์เชิงพื้นที่ และคุณสมบัติที่เกี่ยวข้องกับการหยิบจับ ในขณะที่กรองรายละเอียดที่ไม่เกี่ยวข้อง เช่น สีผนังและเงา แขนกล Franka ที่ใช้คุณสมบัติ R3M เรียนรู้งานปฏิบัติการด้วยการสาธิตเพียง 20 ครั้ง ซึ่งน้อยกว่าที่จำเป็นหากไม่มีการฝึกฝนล่วงหน้า

ในช่วงเวลาเดียวกัน VPT ของ OpenAI (2022) แสดงให้เห็นว่าการฝึกฝนล่วงหน้าด้วยวิดีโอขนาดอินเทอร์เน็ตมีประสิทธิภาพในการเรียนรู้การกระทำเช่นกัน: โมเดลที่ฝึกฝนล่วงหน้าบนวิดีโอเกม Minecraft YouTube 70,000 ชั่วโมง สามารถปรับแต่งเป็นตัวแทนที่มีความสามารถด้วยการสาธิตเพียงเล็กน้อย นี่เป็นระบบแรกที่พิสูจน์ว่าวิดีโอที่ไม่มีป้ายกำกับจำนวนมหาศาลสามารถนำไปสู่พฤติกรรมที่มีความสามารถในงานลำดับที่ซับซ้อน

EgoMimic (Kareer และคณะ, ICRA 2025) ผลักดันแนวคิดนี้ไปไกลยิ่งขึ้น: มันไม่เพียงใช้วิดีโอของมนุษย์เพื่อเรียนรู้การแสดงผล แต่ยังใช้วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์เป็นข้อมูลสาธิตจริง และฝึกนโยบายแบบครบวงจรบนข้อมูลมนุษย์และหุ่นยนต์พร้อมกัน ข้อมูลท่าทางของมนุษย์ช่วยเพิ่มประสิทธิภาพงานได้ 34% ถึง 228% และทำให้สามารถสรุปทั่วไปกับวัตถุและสภาพแวดล้อมใหม่ได้

แต่วิธีการเหล่านี้ก็มีเพดาน การแสดงผลที่ดีขึ้นและข้อมูลสาธิตมากขึ้นช่วยได้ แต่วิดีโอของมนุษย์เป็นเพียงข้อมูลการฝึกนโยบาย ไม่ใช่เครื่องจำลองที่สามารถฝึกซ้ำได้

ระยะที่ 3: การสร้างวิดีโอขนาดใหญ่ (2022—2024)

การก้าวกระโดดด้านคุณภาพมาจากการประยุกต์ใช้ Diffusion Model ในวิดีโอ: Make-A-Video ของ Meta (2022), Imagen Video ของ Google (2022) และผู้สืบทอด Diffusion Transformer สามารถสร้างวิดีโอคุณภาพสูงที่ต่อเนื่องกันตามเวลาในขนาดใหญ่

Sora (OpenAI, กุมภาพันธ์ 2024) เป็นจุดเปลี่ยน หลังจากฝึกฝนบนวิดีโออินเทอร์เน็ตจำนวนมหาศาล ภาพที่มันสร้างขึ้นดูเหมือนจะเป็นไปตามกฎฟิสิกส์: วัตถุตกลงมา แสงกระจาย กล้องติดตามอย่างสมจริง Veo ของ Google ตามมาด้วยคุณภาพที่เทียบเท่า OpenAI นิยาม Sora ว่าเป็น “World Simulator”

แต่ Sora ไม่สามารถโต้ตอบได้ มันใช้กลไก Attention แบบสองทิศทาง: ทุกเฟรมเห็นเฟรมอื่นทั้งหมดพร้อมกัน คุณไม่สามารถใส่การกระทำระหว่างการสร้างได้ มันคือภาพยนตร์ ไม่ใช่เกม

การมีส่วนร่วมของสายงานที่สมบูรณ์นี้คือ: พิสูจน์ว่าวิดีโอของมนุษย์มีความรู้ทางฟิสิกส์ที่ถ่ายโอนได้ (R3M, VPT), บรรลุการสร้างที่สมจริงในขนาดใหญ่ (Sora, Veo) และความหลากหลายทางภาพจากข้อมูลขนาดอินเทอร์เน็ต

สิ่งที่มันทำไม่ได้ก่อนการหลอมรวมคือ: ตอบสนองต่อการกระทำแบบเรียลไทม์ มันไม่สามารถรองรับวงจรปิดที่หุ่นยนต์ต้องการ: กระทำ, เห็นผลลัพธ์, ตอบสนอง มันไม่สามารถสร้างวิดีโอที่มีเงื่อนไขเป็นการกระทำเฉพาะได้ เป็นเพียงวิดีโอที่ดูสมเหตุสมผล


การหลอมรวม (2024—2025)

ทั้งสองชุมชนต่างมีสิ่งที่อีกฝ่ายขาด ชุมชน Reinforcement Learning มีการปรับเงื่อนไขการกระทำ แต่ขาดความสามารถในการสรุปทั่วไป; ชุมชนวิดีโอมีขนาดและความสมจริง แต่ไม่มีปฏิสัมพันธ์ ระหว่างปี 2024 ถึง 2026 งานหลายชิ้นได้เชื่อมช่องว่างนี้:

Genie (DeepMind, 2024—2025) นำเสนอ Latent Action Model: วิธีการเรียนรู้สภาพแวดล้อมแบบโต้ตอบจากวิดีโอที่ไม่มีป้ายกำกับ โมเดลสังเกตสองเฟรมต่อเนื่อง บีบอัด “สิ่งที่เปลี่ยนแปลง” เป็นเวกเตอร์ขนาดเล็ก และค้นพบพื้นที่การกระทำโดยไม่ต้องมีใครติดป้ายกำกับการกระทำ Genie 1 (กุมภาพันธ์ 2024) เป็นการพิสูจน์แนวคิดที่ความละเอียด 160×90, 1 เฟรมต่อวินาที Genie 2 (ธันวาคม 2024) ขยายเป็น 720p ที่สมจริง โดยคงความต่อเนื่องได้ 10 ถึง 60 วินาที Genie 3 (สิงหาคม 2025) ถึง 24 เฟรมต่อวินาทีที่ 720p โดยคงความต่อเนื่องได้หลายนาที แต่มันสร้างเฟรม 2D ไม่ใช่เรขาคณิต 3D และมีต้นทุนการทำงานประมาณ 100 ดอลลาร์ต่อชั่วโมง

UniSim (Sherry Yang และคณะ, รางวัลบทความดีเด่น ICLR 2024) เดินเส้นทางตรงกันข้าม: มันฝึกนโยบาย Reinforcement Learning อย่างสมบูรณ์ภายใน Video World Model จากนั้นถ่ายโอนไปยังหุ่นยนต์จริงด้วยอัตราความสำเร็จ 81% งานก่อนหน้านี้ (SimPLe, 2020) เคยฝึก Reinforcement Learning ภายในโมเดลวิดีโอการเรียนรู้ใน Atari แต่ UniSim เป็นระบบแรกที่ใช้ Diffusion Model วิดีโอคุณภาพสูงและพิสูจน์ว่าสามารถถ่ายโอนแบบ Zero-shot ไปยังหุ่นยนต์จริงได้

ความก้าวหน้าทางเทคนิคสองอย่างโดยทีมของ Xun Huang ขจัดอุปสรรคที่เหลือ AR-DiT / CausVid (CVPR 2025) ดัดแปลง Diffusion Model วิดีโอให้เป็นแบบ Autoregressive และ Causal ซึ่งเป็นข้อกำหนดเบื้องต้นสำหรับการโต้ตอบ: แทนที่จะสร้างทุกเฟรมพร้อมกัน ให้สร้างทีละเฟรมตามลำดับ โดยมีเงื่อนไขเป็นการกระทำปัจจุบันและเฟรมที่ผ่านมา Self Forcing (NeurIPS 2025) แก้ปัญหาความเร็วในภายหลัง โดยบีบอัดการลดสัญญาณรบกวน 35 ขั้นตอนเหลือ 4 ขั้นตอน ทำให้สามารถสร้างแบบโต้ตอบแบบเรียลไทม์สำหรับโมเดลวิดีโอทั่วไปเป็นครั้งแรก

DreamGen (NVIDIA, พฤษภาคม 2025) พิสูจน์ว่า Video World Model สามารถปลดล็อกความสามารถในการสรุปทั่วไปของหุ่นยนต์ด้วยข้อมูลจริงเพียงเล็กน้อย วิธีการดังนี้: ปรับแต่งโมเดลสร้างวิดีโอบนวิดีโอหุ่นยนต์จริงจำนวนเล็กน้อย (รวมถึงภาพจากกล้องข้อมือ) จากนั้นใช้คำสั่งภาษาเพื่อให้มันสร้างวิดีโอสังเคราะห์ของหุ่นยนต์ทำงานที่ไม่เคยทำมาก่อน Inverse Dynamics Model แยกคำสั่งมอเตอร์จากวิดีโอสังเคราะห์เหล่านี้ สร้างข้อมูลการฝึกโดยไม่ต้องควบคุมระยะไกล หุ่นยนต์ Humanoid ที่มีการสาธิตการหยิบและวางเพียงครั้งเดียว สามารถทำงานใหม่ 22 อย่างในสภาพแวดล้อมที่ไม่เคยเห็น นี่เป็นหลักฐานที่แข็งแกร่งชิ้นแรกที่แสดงว่าการหลอมรวมสามารถสร้างคุณค่าที่เป็นรูปธรรมให้กับหุ่นยนต์

ผลงานที่รวบรวมทุกอย่าง: DreamDojo และ DreamZero (NVIDIA, กุมภาพันธ์ 2026)

  • DreamDojo: โมเดลพื้นฐานวิดีโอที่ฝึกฝนล่วงหน้าบนวิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์ 44,711 ชั่วโมง, ปรับเงื่อนไขการกระทำผ่านพื้นที่การกระทำแฝงที่เรียนรู้, กลั่นด้วย Self Forcing เพื่อให้ทำงานแบบเรียลไทม์, สามารถประเมินนโยบายหุ่นยนต์ด้วยค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน r=0.995 กับผลลัพธ์โลกแห่งความจริง
  • DreamZero ก้าวไปอีกขั้น โดยทำนายวิดีโอในอนาคตและการกระทำของมอเตอร์หุ่นยนต์ร่วมกันในการส่งต่อครั้งเดียว

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

ประเพณีการวิจัยสองสายที่พัฒนาควบคู่กันมาตั้งแต่ปี 1990 และ 2010 เริ่มหลอมรวมกันประมาณปี 2024-2025 ประเพณี Reinforcement Learning (สีน้ำเงิน) นำการปรับเงื่อนไขการกระทำและกลไกความฝันมาให้ ส่วนประเพณีการสร้างวิดีโอ (สีม่วง) มีส่วนสนับสนุนความสามารถในการสร้างที่สมจริงและการสนับสนุนข้อมูลขนาดอินเทอร์เน็ต

ชุมชน Reinforcement Learning นำการปรับเงื่อนไขการกระทำและแนวคิด “การฝัน” มาให้; ชุมชนวิดีโอนำการสร้างที่สมจริงและข้อมูลขนาดอินเทอร์เน็ตมาให้ ผลลัพธ์นี้สืบทอดทางสถาปัตยกรรมจากการสร้างวิดีโอ และสืบทอดทางจิตวิญญาณจาก Reinforcement Learning World Model


แล้ว World Model ต้องการอะไรกันแน่?

ไม่ใช่ทุกโมเดลวิดีโอที่เป็น World Model Xun Huang ผู้ร่วมสร้างสถาปัตยกรรม Diffusion แบบ Autoregressive ที่ใช้ในหลายระบบดังกล่าว เสนอคุณสมบัติห้าประการที่แยก World Model ออกจากเครื่องสร้างวิดีโอ:

  • Causality: เวลาไหลไปข้างหน้าเท่านั้น การสร้างวิดีโอแบบสองทิศทางละเมิดสิ่งนี้ เป็นข้อจำกัดที่เข้มงวด
  • Interactivity: ตอบสนองต่อการกระทำแบบเรียลไทม์ หากไม่มี มันก็เป็นแค่ภาพยนตร์ ไม่ใช่การจำลอง เป็นข้อจำกัดที่เข้มงวด
  • Persistence: คงความต่อเนื่องเป็นระยะเวลานาน โมเดลส่วนใหญ่ในปัจจุบันคงอยู่ได้ไม่กี่วินาที; Genie 3 ทำได้หลายนาที; ระบบที่คงที่ได้หลายชั่วโมงยังไม่มีอยู่
  • Real-time: เร็วพอที่จะตอบสนองความต้องการของแอปพลิเคชัน ระดับสูงสุดในปัจจุบัน: 10—30 เฟรมต่อวินาที
  • Physical Accuracy: ปฏิบัติตามกฎฟิสิกส์ของโลกแห่งความจริง นี่คือคุณสมบัติที่ทำได้ยากที่สุดและเป็นที่ถกเถียงมากที่สุด

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

เทคโนโลยีการสร้างวิดีโอ (ภาพซ้าย) จะส่งออกเฟรมภาพทั้งหมดในครั้งเดียว ภาพสวยงาม แต่ขาดความสามารถในการโต้ตอบ ในทางตรงกันข้าม Video World Model (ภาพขวา) ใช้วิธีการสร้างทีละเฟรม โดยแต่ละเฟรมที่ส่งออกจะขึ้นอยู่กับคำสั่งการกระทำเฉพาะ อย่างแรกเปรียบเสมือนภาพยนตร์ที่ผลิตมาอย่างดี ส่วนอย่างหลังเปรียบเสมือนเกมที่สามารถโต้ตอบได้

ความเป็นเหตุเป็นผลและการโต้ตอบเป็นแบบไบนารี หากไม่มีสองสิ่งนี้ ก็ไม่สามารถเรียกว่า World Model ได้ ส่วนคุณสมบัติอีกสามประการที่เหลือจะแสดงเป็นลักษณะสเปกตรัมต่อเนื่อง

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

การเปรียบเทียบระบบต่างๆ ในห้ามิติคุณสมบัติ: ความเป็นเหตุเป็นผลและการโต้ตอบเป็นข้อจำกัดที่เข้มงวดและไม่สามารถต่อรองได้ ส่วนอีกสามคุณสมบัติเป็นของสเปกตรัมที่สามารถวัดปริมาณได้

  1. สถานการณ์การใช้งานจริงของ World Model

การจัดลำดับความพร้อมของกรณีการใช้งานต่างๆ (จากพร้อมที่สุดไปยังมีแนวโน้มมากที่สุด)

การจำลองการขับขี่อัตโนมัติเป็นทิศทางการใช้งานที่พร้อมที่สุดในปัจจุบัน บริษัทอย่าง Wayve (GAIA World Model มูลค่า 1.2 พันล้านดอลลาร์ในรอบ Series D) และ Waymo ใช้ World Model แบบเรียนรู้เพื่อสร้างสถานการณ์การขับขี่ที่หลากหลายสำหรับการทดสอบนโยบาย เกณฑ์การตัดสินหลักคือ: สามารถสังเคราะห์สถานการณ์การขับขี่ที่สมจริงและหลากหลายเพื่อทดสอบความเครียดของนโยบายการขับขี่อัตโนมัติและค้นพบกรณีขอบได้หรือไม่? สิ่งนี้ไม่ต้องการความแม่นยำทางฟิสิกส์ 100% แต่ต้องการความสมจริงทางภาพและพฤติกรรมที่เพียงพอที่จะกระตุ้นให้เกิดสถานการณ์รุนแรง แอปพลิเคชันนี้ได้รับการตรวจสอบในสภาพแวดล้อมการผลิตแล้ว

ความบันเทิงและเกมตามมาติดๆ และอาจเป็นสาขาที่มีการสาธิตที่ชัดเจนที่สุดในขณะนี้ Oasis ของ Decart เป็นเกมที่เล่นได้คล้าย Minecraft ที่สร้างแบบเรียลไทม์โดย World Model ที่อัตรา 20 เฟรมต่อวินาที และเปิดให้ทดลองเล่นแล้ว Genie 3 สามารถสร้างสภาพแวดล้อมที่สำรวจได้ที่ความละเอียด 720p และ 24 เฟรมต่อวินาที GameNGen สามารถรัน Doom บนโครงข่ายประสาทเทียมที่ 20 เฟรมต่อวินาที xAI ของ Musk ประกาศแผนที่จะเปิดตัวเกมที่ใช้ World Model ภายในสิ้นปี 2026 (ยังไม่มีการสาธิต) เกมมีความต้องการความแม่นยำทางฟิสิกส์ค่อนข้างต่ำ: ตราบใดที่ประสบการณ์น่าดึงดูด ผู้เล่นมักจะทนต่อความไม่สมจริงได้ในระดับหนึ่ง แต่ต้นทุนการให้บริการยังคงสูง: ต้นทุนการดำเนินงานของ Genie 3 อยู่ที่ประมาณ 100 ดอลลาร์ต่อชั่วโมง

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

Doom ที่ทำงานบนโครงข่ายประสาทเทียมทั้งหมด ด้วยอัตราเฟรมมากกว่า 20 FPS (GameNGen)

โมเดลโลก: การเดิมพันทุนหลายหมื่นล้านในวงการ AI จุดบรรจบสูงสุดของสองสายการวิจัย

สภาพแวดล้อม Genie 3 สามารถนำทางแบบเรียลไทม์ที่ 24 FPS, 720p

การประเมินนโยบายเป็นการแสดงคุณค่าที่ชัดเจนที่สุดในวงการหุ่นยนต์เมื่อเร็วๆ นี้ DreamDojo บรรลุค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน r=0.995 ระหว่างการทำนายกับอัตราความสำเร็จของนโยบายในโลกแห่งความจริง ในทางปฏิบัติ หมายความว่าคุณสามารถจัดอันดับนโยบายผู้สมัคร 20 รายการภายใน World Model โดยไม่ต้องทำการทดลองในโลกแห่งความจริงที่มีราคาแพง 20 ครั้ง และผลการจัดอันดับจะสอดคล้องกับความเป็นจริงเกือบทั้งหมด เทียบเท่ากับการเปลี่ยน World Model ให้เป็นสภาพแวดล้อมการทดสอบ ซึ่งเป็นการทดสอบหน่วยสำหรับพฤติกรรมของหุ่นยนต์

การสร้างข้อมูลการฝึกสังเคราะห์มีแนวโน้มที่ดี แต่มูลค่าส่วนเพิ่มยังไม่ชัดเจน DreamGen (NVIDIA, 2025) แสดงให้เห็นหุ่นยนต์ Humanoid ที่มีการสาธิตควบคุมระยะไกลเพียงครั้งเดียว ทำงานใหม่ 22 อย่างในสภาพแวดล้อมที่ไม่เคยเห็น โดยได้รับความช่วยเหลือจากข้อมูลสังเคราะห์ที่สร้างโดย Video World Model อย่างไรก็ตาม แม้แต่นักวิจัยที่สร้างระบบเหล่านี้ก็ยอมรับว่าการปรับปรุงนี้ไม่มีนัยสำคัญ: มีการปรับปรุง แต่ยังห่างไกลจากการก้าวกระโดดที่วงการคาดหวัง ปัญหาคือ สัญญาณที่ข้อมูลวิดีโอสังเคราะห์ให้มานั้น มีค่ามากกว่าสิ่งที่ข้อมูลควบคุมระยะไกลเพิ่มเติมหรือการเพิ่มข้อมูลที่ดีกว่าจะให้ได้จริงหรือไม่

การเรียนรู้อย่างมีประสิทธิภาพด้วยตัวอย่างได้รับการตรวจสอบในสภาพแวดล้อมที่มีการควบคุม DayDreamer (2022) แสดงให้เห็นหุ่นยนต์สี่ขาเรียนรู้การเดินตั้งแต่เริ่มต้นจากการโต้ตอบกับโลกแห่งความจริงเพียงหนึ่งชั่วโมง เนื่องจาก Dreamer World Model สามารถจำลองการฝึกซ้อมหลายพันครั้งระหว่างการลองจริงแต่ละครั้ง อย่างไรก็ตาม สิ่งนี้ยังไม่ได้รับการตรวจสอบในวงกว้างในสภาพแวดล้อมการผลิต

การควบคุมหุ่นยนต์โดยตรงเป็นข้อกล่าวอ้างที่กล้าหาญที่สุด และเป็นข้อที่ได้รับการตรวจสอบน้อยที่สุด DreamZero ทำนายวิดีโอในอนาคตและการกระทำของมอเตอร์ร่วมกันในการส่งต่อครั้งเดียว และอ้างว่ามีการปรับปรุงการสรุปทั่วไป 2 เท่าเมื่อเทียบกับเกณฑ์มาตรฐาน VLA แต่นี่เป็นเพียงบทความเดียว และมาจากทีมที่สร้างระบบนี้เอง


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35038

Like (0)
Previous 7 hours ago
Next 7 hours ago

相关推荐