- หลังเทศกาลตรุษจีน บริษัทใหม่ AMI ของผู้ได้รับรางวัลทัวริง หยาง ลี่คุน ประกาศระดมทุนรอบเมล็ดพันธุ์ (seed round) สำเร็จ 1.03 พันล้านดอลลาร์ สร้างสถิติการระดมทุนสำหรับบริษัท AI ในยุโรป
- ก่อนหน้านี้ไม่นาน World Labs ที่ก่อตั้งโดย หยวน เฟยเฟย ก็ประกาศระดมทุนได้ 1 พันล้านดอลลาร์เช่นกัน
- ต้นสัปดาห์นี้ Jijia Shijie ได้รับการระดมทุนหลายหมื่นล้านหยวน มูลค่าการประเมินสูงกว่าแสนล้านหยวน
- เมื่อวานนี้ Alibaba เปิดตัวโมเดลโลก “HappyOyster”
- วันนี้ Qunhe Technology ขึ้นระฆังเปิดตลาดที่ตลาดหลักทรัพย์ฮ่องกง
จุดสนใจร่วมที่บริษัทเหล่านี้แข่งขันกันคือ “โมเดลโลก” (World Model) ซึ่งเป็นสนามแข่งเกิดใหม่ หยาง ลี่คุน เคยกล่าวตรงๆ ว่า: “โมเดลภาษาขนาดใหญ่เป็นทางตันบนเส้นทางสู่ปัญญาประดิษฐ์ขั้นสูงสุด (Superintelligence)” มุมมองนี้ไม่ได้ปฏิเสธคุณค่าของโมเดลภาษาขนาดใหญ่ทั้งหมด แต่หมายถึงข้อจำกัดเฉพาะบนเส้นทางสู่ปัญญาประดิษฐ์ทั่วไป (AGI) ความเข้าใจง่ายๆ คือ: ChatGPT สามารถเขียนโค้ด แก้ปัญหาได้ แต่ไม่จำเป็นต้องเข้าใจกฎพื้นฐานของโลกกายภาพ มันสามารถอธิบาย “แอปเปิ้ลตกพื้น” ได้อย่างลื่นไหล แต่หากถามลึกลงไปว่าแอปเปิ้ลตกเพราะอะไร มันอาจเพียงแค่ทวนข้อความ ไม่ได้เข้าใจแรงโน้มถ่วงอย่างแท้จริง สาเหตุรากฐานอยู่ที่ข้อมูลฝึกของโมเดลภาษาขนาดใหญ่คือข้อความสองมิติจากอินเทอร์เน็ต ในขณะที่โลกแห่งความเป็นจริงเป็นสามมิติ ต่อเนื่อง และเต็มไปด้วยกฎทางฟิสิกส์ นี่คือเหตุผลที่โมเดลโลกกลายเป็นทิศทางการวิจัยแนวหน้าที่ต้องทุ่มเท攻克
อย่างไรก็ตาม แม้ว่า “โมเดลโลก” จะกลายเป็นคำฮิต แต่แวดวงอุตสาหกรรมยังไม่มีความเห็นตรงกันเกี่ยวกับความหมายที่ชัดเจน ทิศทางการวิจัยแตกต่างกันไป: บางแห่งเน้นการทำนายวิดีโอ บางแห่งมุ่งมั่นสร้างฉาก 3 มิติ บางแห่งสร้างแพลตฟอร์มจำลอง และบางแห่ง切入โดยตรงจากประสาทวิทยาศาสตร์ Zhuokai Zhao นักวิทยาศาสตร์วิจัยของ Meta แชร์ “ห้าสายใหญ่” ของโมเดลโลกที่เขาสรุปไว้บนแพลตฟอร์ม X

ห้าสายใหญ่นี้คืออะไร? บทความนี้จะอธิบายและขยายความโดยอ้างอิงกรอบทวีตของ Zhao ร่วมกับข้อมูลจากหลายแหล่ง
สาย JEPA: ปรัชญา “การทำนายเชิงนามธรรม” ของหยาง ลี่คุน
JEPA ย่อมาจาก Joint-Embedding Predictive Architecture (สถาปัตยกรรมการทำนายแบบฝังร่วม) เสนอโดยหยาง ลี่คุนและคณะ แก่นความคิดคือให้ AI เรียนรู้กฎการทำงานของโลกผ่าน “การสังเกต” เหมือนมนุษย์ แทนที่จะท่องจำพิกเซลหรือคำอย่างเคร่งครัด ตัวอย่างเช่น AI ไม่จำเป็นต้องจำตำแหน่งใบไม้ทุกใบ แค่เข้าใจกฎที่ว่า “ลมจะพัดใบไม้ร่วง” ก็พอ
ในมุมมองของหยาง ลี่คุน โมเดลเช่น Sora โดยพื้นฐานแล้วกำลังทำ “การทำนายพิกเซลต่อพิกเซลสำหรับเฟรมถัดไป” ซึ่งเขาคิดว่าเป็นไปไม่ได้ในทางฟิสิกส์ — เราไม่สามารถทำนายเส้นทางการร่วงของใบไม้ทุกใบในโลกที่เต็มไปด้วยความสุ่มได้อย่างแม่นยำ วิธีแก้ของ JEPA คือ: ยกเลิกการทำนายระดับพิกเซล หันมาทำนายใน “พื้นที่การแทนค่า” (representation space) เชิงนามธรรมแทน

กล่าวโดยเจาะจง JEPA ใช้ตัวเข้ารหัส (encoder) แปลงวิดีโอเป็นการแสดงทางคณิตศาสตร์เชิงนามธรรม (คือพื้นที่แฝง latent space) ก่อน จากนั้นทำนาย “สิ่งที่จะเกิดขึ้นต่อไป” ในพื้นที่นี้ ตัวอย่างเช่น ทำนายผลลัพธ์ระยะยาวที่สอดคล้องกับกฎฟิสิกส์ว่า “ลูกบอลจะกลิ้งตกจากโต๊ะ” โดยตรง แทนที่จะสร้างภาพการกลิ้งของลูกบอลทีละเฟรม V-JEPA 2 เป็นผลงาน代表作 ของแนวทางนี้ โมเดลที่มีพารามิเตอร์ 1.2 พันล้านตัวนี้ ผ่านการฝึกล่วงหน้าจากวิดีโอไร้ป้ายกำกับ 1 ล้านชั่วโมง สิ่งที่น่าทึ่งคือ ต้องการข้อมูลการเคลื่อนไหวของหุ่นยนต์เพียง 62 ชั่วโมง ก็สามารถวางแผนงานแบบ zero-shot ได้ อัตราความสำเร็จในการจัดการวัตถุที่ไม่คุ้นเคยในสภาพแวดล้อมที่ไม่คุ้นเคยสูงถึง 65-80% ในทางตรงกันข้าม วิธีการเรียนรู้หุ่นยนต์แบบดั้งเดิมมักต้องการข้อมูลสาธิตหลายพันชั่วโมง

หยาง ลี่คุนเคยกล่าวว่า หากการแทนค่าดีพอ ก็ไม่จำเป็นต้องฝึกใหม่ตั้งแต่ต้นสำหรับทุกงาน อย่างไรก็ตาม หลังจากก่อตั้งบริษัท AMI ผู้ได้รับรางวัลทัวริงคนนี้ก็ต้องเผชิญความเป็น现实เช่นกัน เขายอมรับว่า ผลิตภัณฑ์เชิงพาณิชย์ของ AMI อาจต้องใช้เวลาอีกหลายปีกว่าจะออกสู่ตลาด นี่เป็นการลงทุนระยะยาว แต่ทุนก็愿意下注 AMI ได้รับการระดมทุนรอบแรกมากกว่า 1 พันล้านดอลลาร์แล้ว โดยมีนักลงทุนครอบคลุมบริษัทยักษ์ใหญ่ในอุตสาหกรรมและข้ามอุตสาหกรรมมากมาย

สายปัญญาประจำพื้นที่ (Spatial Intelligence): เส้นทาง “การสร้างใหม่สามมิติ” ของหยวน เฟยเฟย
หากสาย JEPA ให้ความสำคัญกับการทำนายใน “มิติเวลา” แล้ว World Labs ที่ก่อตั้งโดยหยวน เฟยเฟย ก็มุ่งเน้นอีกมิติหนึ่ง: “การสร้างพื้นที่ใหม่” (spatial reconstruction) ทั้งสองแยกทางกันตั้งแต่ตรรกะพื้นฐาน
JEPA เชื่อว่าแก่นกลางของความฉลาดคือการให้เหตุผลเชิงสาเหตุในระดับนามธรรม ทำนายลำดับเหตุการณ์ ดังนั้นจึงไม่追求รายละเอียดระดับพิกเซลมากเกินไป ในขณะที่จุดเริ่มต้นของหยวน เฟยเฟยอยู่ที่ ความฉลาดที่แท้จริงต้องการความเข้าใจที่ชัดเจน (explicit understanding) ต่อโลกสามมิติ รวมถึงโครงสร้างเรขาคณิต ข้อมูลความลึก และตำแหน่งสัมพัทธ์ระหว่างวัตถุ

พูดง่ายๆ คือ JEPA มุ่งให้ AI เข้าใจกฎที่ว่า “ลูกบอลจะกลิ้งตกจากโต๊ะ” ในขณะที่ World Labs มุ่งมั่นให้ AI เข้าใจว่า “โต๊ะสูงแค่ไหน ลูกบอลอยู่ตำแหน่งใด ระยะห่างระหว่างพื้นกับโต๊ะเป็นเท่าใด” อันแรกสนใจตรรกะของเหตุการณ์ อันหลังสนใจโครงสร้างของพื้นที่
ความแตกต่างนี้สะท้อนโดยตรงในรูปแบบผลิตภัณฑ์ World Labs เปิดตัวผลิตภัณฑ์แรก Marble ในเดือนพฤศจิกายน 2025 ผู้ใช้ป้อนข้อความ รูปภาพ วิดีโอ หรือภาพร่าง 3 มิติหยาบๆ สิ่งที่ Marble ส่งออกไม่ใช่วิดีโอ แต่เป็นโลก 3 มิติที่แก้ไขได้ นำทางได้ และส่งออกได้ ผู้ใช้สามารถหมุนมุมมอง ย้ายวัตถุ เปลี่ยนแสง และสามารถส่งออกผลลัพธ์เป็นรูปแบบ Gaussian Splatting, Triangular Mesh หรือวิดีโอ เพื่อใช้ในเครื่องยนต์เช่น Unreal Engine หรือ Unity โดยตรง

รายละเอียดทางเทคนิคที่สำคัญคือ: โมเดลสร้างวิดีโอจำนวนมากโดยพื้นฐานแล้วคือการ “เล่าเรื่อง” ทีละเฟรม ระหว่างเฟรมขาดการ支撑โครงสร้าง 3 มิติที่เป็นเอกภาพ ในขณะที่ฉาก 3 มิติที่สร้างโดย Marble มี “ความสม่ำเสมอของพื้นที่” (spatial consistency) โดยพื้นฐานแล้วรักษาการแสดงพื้นที่จริงไว้ ทำให้โลกมีความเสถียรเมื่อเปลี่ยนมุมมอง
การ配置ทีมของ World Labs ก็เน้นเส้นทางทางเทคนิคของพวกเขา: ผู้ร่วมก่อตั้ง Ben Mildenhall เป็นผู้ประดิษฐ์ Neural Radiance Fields (NeRF) ซึ่งเป็นเทคโนโลยีที่ปฏิรูปวงการสร้างใหม่ 3 มิติในการมองเห็นด้วยคอมพิวเตอร์ อีกผู้ร่วมก่อตั้ง Christoph Lassner เป็นผู้เชี่ยวชาญด้านกราฟิกส์ 3 มิติ ทีมแบบนี้กำหนดให้ World Labs เดินเส้นทาง “3 มิติแบบชัดเจน” (explicit 3D) แทนที่จะอนุมานความสัมพันธ์สามมิติจากวิดีโอ 2 มิติ
กุมภาพันธ์ 2026 World Labs ประกาศระดมทุน 1 พันล้านดอลลาร์สำเร็จ นักลงทุนรวมถึง NVIDIA, AMD และ Autodesk Marble เปิดให้ผู้ใช้ทั่วไปและสถานการณ์เชิงพาณิชย์ใช้งานแล้ว และถูกนำไปใช้โดยสตูดิโอภาพยนตร์และนักพัฒนาเกม
อย่างไรก็ตาม Marble ในปัจจุบันก็มีข้อจำกัด โลก 3 มิติที่สร้างอาจเกิดการบิดเบือนทางภาพหรือ “ภาพหลอน” หลังจากสำรวจอย่างต่อเนื่อง ซึ่งแตกต่างจากเส้นทาง JEPA ที่追求 “เข้าใจกฎฟิสิกส์”: World Labs ถนัดในการสร้างใหม่ “รูปลักษณ์สถิต” ของพื้นที่ แต่ความเข้าใจต่อ “เหตุการณ์พลวัต” ในพื้นที่ยังค่อนข้างอ่อน หยวน เฟยเฟยก็ยอมรับว่า Marble เป็นเพียงก้าวแรก เป้าหมายสูงสุดของเธอคือการบรรลุ “ปัญญาประจำพื้นที่” (spatial intelligence) นั่นคือ AI ไม่เพียงแต่เข้าใจโครงสร้างฉาก แต่ยังสามารถให้เหตุผล วางแผน และโต้ตอบในนั้นได้ เส้นทางนี้มีทิศทางชัดเจน แต่ยาวไกลและยากลำบาก
ขายน้ำขายพลั่ว: NVIDIA ในฐานะผู้จัดหาโครงสร้างพื้นฐาน
สามเส้นทางข้างต้น各有各的技术理想 แต่ต่างเผชิญปัญหา现实เดียวกัน: การฝึกโมเดลโลกต้องการข้อมูลและพลังคำนวณที่ใหญ่มาก ใครจะจัดหาเงื่อนไขพื้นฐานเหล่านี้? แพลตฟอร์ม Cosmos ของ NVIDIA กำลังตอบคำถามนี้ ตำแหน่งของมันชัดเจน: ฉันจะจัดหาเครื่องมือสร้างโมเดลโลก

Cosmos ประกอบด้วยองค์ประกอบหลักดังนี้:
* Cosmos Curator: สามารถประมวลผลข้อมูลวิดีโอ 20 ล้านชั่วโมงภายใน 14 วัน เร่งการฝึกโมเดลโลกได้ ในขณะที่แผนการแบบ CPU ดั้งเดิมต้องใช้เวลามากกว่า 3 ปีในการประมวลผลข้อมูลขนาดเท่ากัน
* Tokenizer ภาพ: เหมือนที่โมเดลภาษาขนาดใหญ่ตัดคำเป็น “โทเค็น” (token) เพื่อประมวลผล โมเดลโลกต้องการตัดเฟรมวิดีโอเป็นการแสดงค่าที่คำนวณได้ Tokenizer ของ Cosmos มีอัตราการบีบอัดสูงกว่าแผนการในอุตสาหกรรม 8 เท่า รองรับสัดส่วนและระยะเวลาวิดีโอหลากหลาย สามารถจัดการรูปแบบต่างๆ ตั้งแต่มุมมองบุคคลที่หนึ่งของหุ่นยนต์ไปจนถึงเลนส์ fisheye ของรถยนต์ขับเคลื่อนอัตโนมัติ
* ตระกูลโมเดลฝึกล่วงหน้า: นี่เป็นส่วนประกอบที่สำคัญที่สุด รวมถึง Cosmos Predict ที่รับผิดชอบการทำนายสถานะอนาคตของสิ่งแวดล้อม โมเดลจำลอง Cosmos Transfer ที่ถ่ายโอนการจำลองไปสู่ความเป็นจริง และโมเดลการให้เหตุผล Cosmos Reason ที่รับผิดชอบให้หุ่นยนต์วางแผน โมเดลฝึกล่วงหน้าเหล่านี้เผยแพร่ผ่านใบอนุญาตเปิด (open license) ให้ผู้พัฒนาดาวน์โหลดฟรี

หลังจากเปิดตัวในงาน CES เดือนมกราคม 2025 Cosmos พัฒนาอย่างรวดเร็ว ปัจจุบันโมเดลจำลองและโมเดลการให้เหตุผลของมันวิวัฒนาการสู่รุ่นที่สองแล้ว ส่วนโมเดล Predict ถึงรุ่น 2.5 แล้ว Xpeng Motors ใช้ Cosmos ในการจำลองการขับขี่อัตโนมัติ บริษัทหุ่นยนต์ชั้นนำในซิลิคอนวัลเลย์เช่น Figure AI ก็ใช้มันสร้างข้อมูลฝึกเช่นกัน
เบื้องหลังนี้ยังเป็นกลยุทธ์คลาสสิกของ NVIDIA: ล็อก生态ฮาร์ดแวร์ผ่านซอฟต์แวร์เปิดฟรี การใช้ Cosmos ฝึกโมเดลโลก ในที่สุดยังต้องพึ่งพาแพลตฟอร์มฮาร์ดแวร์เช่น H, Jetson และ生态 CUDA ของ NVIDIA คำกล่าวของหวง เหรินซุนในงาน CES คือ: โมเดลพื้นฐานโลก (World Foundation Model) สำหรับ AI ทางกายภาพ ก็เหมือนโมเดลภาษาขนาดใหญ่สำหรับ Generative AI เขาลงเดิมพันว่า โมเดลโลกจะเหมือนโมเดลภาษาขนาดใหญ่ กลายเป็นสนามแข่งที่ใหญ่และนำการเปลี่ยนแปลง และ NVIDIA ต้องทำให้แน่ใจว่า ไม่ว่าใครจะชนะในที่สุด มือที่ถืออยู่คือ “พลั่วของตระกูล N”
สาย Active Inference: “พวกนอกรีต” จากประสาทวิทยาศาสตร์
ไม่ใช่ทุกคนที่เดินเส้นทางหลักของ deep learning เพื่อบรรลุโมเดลโลก บนสนามแข่งนี้ยังมี “พวกนอกรีต” อีกคน: Karl Friston หัวหน้านักวิทยาศาสตร์ของบริษัทตัวแทน Verses เขามาจากสาขาประสาทวิทยาศาสตร์ เป็นผู้เสนอ “หลักการพลังงานอิสระ” (Free Energy Principle) มีชื่อเสียงสูงมากในแวดวงวิชาการ

แก่นทฤษฎีนี้คือ: พฤติกรรมของระบบชีวภาพทั้งหมด โดยพื้นฐานแล้วกำลังทำสิ่งเดียวกัน — สร้างการทำนายต่อโลกภายนอกอย่างต่อเนื่อง จากนั้นดำเนินการเพื่อลดความคลาดเคลื่อนระหว่างการทำนายกับความเป็นจริง (คือ “ความประหลาดใจ” หรือ surprise)
นี่แตกต่างจากแนวคิด AI หลักอย่างไร?
* การเรียนรู้แบบเสริมแรง (หลัก): ตรรกะ核心คือ “เพิ่มรางวัลให้สูงสุด” ตั้งเป้าหมายให้ AI หาแผนที่ดีที่สุดผ่านการลองผิดลองถูก
* การอนุมานเชิงรุก (ฟริสตัน): การ追求核心คือ “ลดความประหลาดใจ” หรือ “ลดความไม่แน่นอนให้น้อยที่สุด”
อุปมาที่เข้าใจง่าย: การเรียนรู้แบบเสริมแรงเหมือนลาที่ถูกแครอทนำทาง ก้าวไปสู่รางวัล การอนุมานเชิงรุกเหมือนนักเดินทางในเมืองที่ไม่คุ้นเคย ค่อยๆ แก้ไขแผนที่ในใจของตัวเอง พยายามคาดการณ์ทางแยกถัดไปอย่างแม่นยำ อันแรกถูกขับเคลื่อนโดยเป้าหมาย อันหลังถูกขับเคลื่อนโดยความอยากรู้และความไม่แน่นอน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30830
