หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำโลกมาแทน การควบคุมระยะไกลจะถูกกำจัด

VLA ตายแล้ว โมเดลการกระทำโลกมาแทน การควบคุมระยะไกลตายแล้ว ข้อมูลเซ็นเซอร์ของมนุษย์จงเจริญ

ในงาน Sequoia AI Ascent 2026 ปีนี้ จิม แฟน ใช้เวลาเพียง 20 นาทีสั้นๆ เพื่อจัด “พิธีอำลา” สองครั้งติดต่อกันให้กับอุตสาหกรรมหุ่นยนต์

ครั้งแรก ส่ง VLA ที่ครอบงำสาขาหุ่นยนต์ที่มีกายภาพ (Embodied AI) มาเกือบสามปี ครั้งที่สอง ส่งเทคโนโลยีการควบคุมระยะไกลที่ผู้คนคิดว่าจะคงอยู่ต่อไปอีกหลายปี

ในฐานะหัวหน้าฝ่ายธุรกิจหุ่นยนต์ของ NVIDIA ปีที่แล้ว จิม แฟน ยังคงพูดบนเวทีเดียวกันเกี่ยวกับวิธีที่หุ่นยนต์จะผ่านการทดสอบ แต่ปีนี้ หัวข้อของเขาเปลี่ยนไปเป็น—

กระบวนทัศน์เก่าตายอย่างไร กระบวนทัศน์ใหม่จะเติบโตอย่างไร

ในมุมมองของเขา กระบวนทัศน์ใหม่นี้จำเป็นต้อง借鉴ความสำเร็จของ LLM เป็นอย่างมาก

การฝึกอบรมล่วงหน้าเพื่อจำลองสถานะโลกถัดไป สอดคล้องกับการทำนายโทเค็นถัดไปของ LLM

การปรับแต่งการกระทำเพื่อปรับเทียบส่วนที่มีค่าสำหรับหุ่นยนต์จริง สอดคล้องกับการปรับแต่งแบบมีผู้สอน

สุดท้าย การเรียนรู้แบบเสริมกำลังทำให้สำเร็จในขั้นสุดท้าย

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ในช่วงที่ผ่านมา NVIDIA ได้เผยแพร่ผลงานวิจัยชุดหนึ่ง เช่น EgoScale, DreamDojo, Dream Zero ซึ่งเกือบจะกำหนดทิศทางการพัฒนาของหุ่นยนต์ที่มีกายภาพในปี 2026 เพียงลำพัง

และในการบรรยายที่ชื่อว่า “Robotics: Endgame” นี้ ได้รวบรวมแก่นแท้ของความคิดล่าสุดของจิม แฟน เกี่ยวกับ VLA, World Model, Teleoperation, UMI, Egocentric, Simulation, Scaling Law ในสาขาหุ่นยนต์ ซึ่งน่าสนใจอย่างยิ่ง

ต่อไปนี้เป็นบทสรุปประเด็นสำคัญของการบรรยาย:

  • VLA ตายแล้ว WAM จะเป็นกระบวนทัศน์การฝึกอบรมล่วงหน้าแบบใหม่
  • ในอีกหนึ่งถึงสองปีข้างหน้า สัดส่วนของการควบคุมระยะไกลจะลดลงจนแทบไม่มีความสำคัญ “อาหารหลัก” ของหุ่นยนต์จะกลายเป็นวิดีโอจากมุมมองบุคคลที่หนึ่ง และกระบวนทัศน์ข้อมูลทั้งหมดจะเปลี่ยนไปเป็น Sensorized Human Data (ข้อมูลเซ็นเซอร์ของมนุษย์)
  • วิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์ประสบความสำเร็จในการเปิดเผยกฎการปรับขนาด (scaling law) ในสาขาหุ่นยนต์ NVIDIA จะทุ่มเทอย่างเต็มที่ให้กับวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์
  • พลังการคำนวณ = สภาพแวดล้อม = ข้อมูล
  • แผนผังเทคโนโลยีของหุ่นยนต์เหลือเพียงสามความสำเร็จที่ต้องปลดล็อค: การทดสอบทัวริงทางกายภาพ (ภายใน 2-3 ปี), Physical API, Physical Auto Research ซึ่งคาดว่าจะปลดล็อคทั้งหมดได้ภายในปี 2040

ต่อไปนี้เป็นเนื้อหาการบรรยายเต็มรูปแบบ

(เพื่อความสะดวกในการอ่าน ได้มีการปรับปรุงและตัดทอนอย่างเหมาะสม)

พันธมิตรหุ่นยนต์: เกมสุดท้าย

ในวันฤดูร้อนของปี 2016 ผมอยู่ในสำนักงานที่เรานั่งอยู่ตอนนี้ มีชายคนหนึ่งสวมแจ็กเก็ตหนังมันวาว แขนแข็งแรง ถาดโลหะขนาดใหญ่

เขาเขียนบนนั้นว่า: ถึงทีม Elon และ OpenAI ถึงอนาคตของการคำนวณและมนุษยชาติ ผมจะแสดงให้คุณเห็น DGX1 เครื่องแรกของโลก

นั่นเป็นครั้งแรกที่ผมได้พบกับ Jensen Huang และเช่นเดียวกับเด็กฝึกงานที่ดีคนอื่นๆ ผมรีบต่อคิวเพื่อเซ็นชื่อ

คุณหาเจอไหม? ชื่อของผมอยู่ที่นี่ และชื่อของ Andrej Karpathy

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ตอนนั้น ผมไม่รู้เลยว่าผมกำลังจะเจออะไร และสิ่งที่เกิดขึ้นต่อมา ไม่มีใครจะบรรยายได้ดีไปกว่า Ilya เอง:

ถ้าคุณเชื่อในการเรียนรู้เชิงลึก มันก็จะเชื่อในตัวคุณ

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

แน่นอน ความเชื่อของพวกเขาในการเรียนรู้เชิงลึกได้感染พวกเราทุกคน

ฟังก์ชันสามขั้นตอน หกปี นั่นคือเส้นทางทั้งหมดของเราจนถึงวันนี้

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ขั้นตอนแรก (2020), การฝึกอบรมล่วงหน้า GPT-3 การทำนายโทเค็นถัดไป (next token prediction) ส่วนใหญ่เป็นการเรียนรู้กฎไวยากรณ์ ทำความเข้าใจโครงสร้างภาษา จำลองวิธีการ展开ของความคิด รหัส และสตริง

ขั้นตอนที่สอง (2022), InstructGPT (คำสั่ง GPT) ปรับเทียบการจำลองผ่านการปรับแต่งแบบมีผู้สอนเพื่อให้สามารถทำงานจริง หรือใช้การเรียนรู้แบบเสริมกำลังเพื่อ超越การเรียนรู้แบบเลียนแบบ

ขั้นตอนที่สาม (2026), การวิจัยอัตโนมัติ (autoresearch) เร่งวงจรทั้งหมดให้เร็วขึ้น เหนือความสามารถของมนุษย์

ดังที่ Andrej กล่าว ความพยายามทั้งหมดกำลังเร่งไปสู่เป้าหมายสุดท้าย สำหรับ LMS (Language Model Systems) พวกเขาอยู่ในช่วงสุดท้าย

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

พูดตามตรง ผมอิจฉามาก ดูรอยยิ้มของ Andrej ก็รู้ว่าเขามีความสุขแค่ไหน

ทีมโมเดลภาษากำลัง享受ช่วงเวลาสูงสุดของพวกเขา พวกเขากำลังพัฒนา AGI (ปัญญาประดิษฐ์ทั่วไป) อย่างรวดเร็ว และเรียกสิ่งที่สร้างขึ้นระหว่างทางว่า “mythos”

แล้วทำไมคนที่ทำงานหุ่นยนต์ถึงไม่สามารถสนุกแบบนั้นได้ล่ะ?

ในฐานะนักวิทยาศาสตร์ที่มีความภาคภูมิใจ ผม复制แนวคิดของพวกเขาและตั้งชื่อใหม่ว่า “Great Parallel”

เรา不再จำลองสตริง แต่จำลองสถานะโลกทางกายภาพถัดไป (next physical world state) จากนั้นปรับเทียบส่วนที่มีค่าสำหรับหุ่นยนต์จริงในการจำลองผ่านการปรับแต่งการกระทำ (action finetuning) และให้การเรียนรู้แบบเสริมกำลังทำให้สำเร็จในขั้นสุดท้าย

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

Great Parallel คือการ复制กลยุทธ์ที่ประสบความสำเร็จของโมเดลภาษา ถ้าสู้พวกเขาไม่ได้ ก็เข้าร่วมกับพวกเขา

บทต่อไปก็มาถึงแล้ว—พันธมิตรหุ่นยนต์: เกมสุดท้าย (Robotics: The End Game)

ขอโทษที ผมอดเล่นตลกเล็กน้อยไม่ได้ กล้วยสนุกมาก ขอบคุณ Hassabis

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

จะเล่นเกมสุดท้ายอย่างไร? สรุปได้สองประเด็น: กลยุทธ์โมเดล (model strategy) และกลยุทธ์ข้อมูล (data strategy)

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

มาดูกลยุทธ์โมเดลก่อน สามปีที่ผ่านมา โมเดล Visual-Language-Action (VLA) ครอบงำ โมเดลอย่าง Pi และ Gr00t ก็อยู่ในหมวดนี้เช่นกัน

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

เราสมมติว่าการฝึกอบรมล่วงหน้าทำโดย VLM (Visual Language Model) จากนั้นเพิ่ม action head เข้าไป

แต่ในความเป็นจริง โมเดลเหล่านี้คือ LVA (Language Visual Action) พารามิเตอร์ส่วนใหญ่ใช้สำหรับภาษา ทำให้ภาษาเป็นแกนหลัก รองลงมาคือภาพและการกระทำ

ใน VLA ภาษาเป็นพลเมืองชั้นหนึ่ง ภาพและการกระทำ只能靠边站

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ในด้านการออกแบบ VLA เชี่ยวชาญในการเข้ารหัสความรู้และคำนาม แต่表现ไม่ดีในด้านฟิสิกส์และคำกริยา ค่อนข้าง “หัวหนักเท้าเบา”

ผมชอบตัวอย่างใน论文 VLA ต้นฉบับ (RT-2) ที่สุด คือการย้ายโค้กไปยังรูปภาพของ Taylor Swift

มันไม่เคยเห็นเธอมาก่อน แต่สามารถ generalize ได้ แต่นั่นไม่ใช่ความสามารถในการฝึกอบรมล่วงหน้าที่เราต้องการ

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

แล้วกระบวนทัศน์การฝึกอบรมล่วงหน้าที่สองคืออะไร?

เราเชื่อว่ากระบวนทัศน์การฝึกอบรมล่วงหน้าที่สองควรจะสวยงามมาก แต่น่าเสียดายที่มันกลายเป็น AI Video Slop เช่น การดูแมวเล่นแบนโจบนกล้องวงจรปิด

ถึงแม้ภายนอกจะดูบันเทิง แต่ไม่มีใครจริงจังกับมัน จนกระทั่งเราตระหนักว่าโมเดลวิดีโอเหล่านี้กำลังเรียนรู้การจำลองสถานะโลกถัดไปภายใน

นี่คือตัวอย่างบางส่วนของ Veo 3 โมเดลเรียนรู้กฎฟิสิกส์ เช่น แรงโน้มถ่วง แรงลอยตัว แสง การสะท้อน การหักเห โดยอัตโนมัติ โดยไม่มีการเข้ารหัสอย่างชัดเจน ผ่านการทำนายพิกเซลกลุ่มถัดไปในขนาดใหญ่ กฎฟิสิกส์ปรากฏขึ้นเอง และการวางแผนภาพก็ปรากฏขึ้นตามธรรมชาติ

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

Veo-3 แก้ปัญหาวัตถุเหล่านี้อย่างไร? โดยการจำลองไปข้างหน้าในพื้นที่พิกเซล สังเกตมุมขวาล่างเป็นพิเศษ นี่คือตัวอย่างที่ผมชอบที่สุด Veo 3 ฉลาดมาก มันค้นพบว่าถ้าคุณไม่มอง เรขาคณิตก็เป็นทางเลือกได้ ผมเรียกมันว่า “physics slop”

จะทำให้โมเดลโลกเหล่านี้มีประโยชน์ได้อย่างไร? เราปรับเทียบผ่านการปรับแต่งการกระทำ บีบอัด superposition ของสถานะอนาคตที่เป็นไปได้ทั้งหมดให้เป็นส่วนที่มีค่าสำหรับหุ่นยนต์จริง

ดังนั้นจึงเกิด Dream Zero

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

Dream Zero เป็นโมเดลกลยุทธ์แบบใหม่ มันจะ “ฝัน” ถึงสิ่งที่อาจเกิดขึ้นในอีกไม่กี่วินาทีข้างหน้าก่อน แล้วจึงดำเนินการตามนั้น

ต้องรู้ว่าการควบคุมการเคลื่อนไหวของหุ่นยนต์本质上เป็นชุดสัญญาณต่อเนื่องที่มีมิติสูง ในแง่หนึ่ง มันไม่แตกต่างจากพิกเซลโดยพื้นฐาน สามารถถูกมองว่าเป็นกระแสข้อมูลที่เปลี่ยนแปลงอย่างต่อเนื่อง

ดังนั้น เราสามารถ render การกระทำพร้อมกันได้เหมือนกับการ render วิดีโอ

Dream Zero สามารถถอดรหัสสองสิ่งพร้อมกัน: สถานะโลกในขณะถัดไป และการกระทำที่ควรทำในขั้นตอนถัดไป

ด้วยเหตุนี้ มันจึงสามารถทำงานใหม่ การกระทำใหม่ ที่ไม่เคยเห็นในการฝึกอบรมได้แบบ zero-shot

ที่น่าสนใจยิ่งกว่านั้นคือ เมื่อหุ่นยนต์เริ่มทำงานจริง เราสามารถ “เห็น” แบบเรียลไทม์ว่ามันกำลังคิดอะไรอยู่ และความสัมพันธ์นี้แน่นแฟ้นมาก

ถ้าการทำนายวิดีโอถูกต้อง การกระทำมักจะถูกต้อง ถ้าวิดีโอเริ่ม hallucinate การกระทำมักจะล้มเหลว

ดังนั้น จนถึงจุดนี้ ภาพและการกระทำจึงนั่งลงที่โต๊ะเดียวกันเป็นครั้งแรก

ต่อมาเราใช้ Dream Zero ทดลองสนุกๆ มากมาย ปล่อยให้หุ่นยนต์เดินไปทั่วห้องปฏิบัติการ แล้วพิมพ์คำสั่งต่างๆ ลงในช่อง prompt แบบสุ่ม เพื่อดูว่ามันจะทำอย่างไร

แน่นอน ตอนนี้ Dream Zero ยังไม่สามารถทำงานทุกอย่างให้สำเร็จ 100% ได้อย่างเสถียร

อย่างไรก็ตาม มันค่อนข้างคล้าย GPT-2 แม้จะไม่แม่นยำทุกครั้ง แต่มันมักจะทำให้ “รูปร่าง” โดยประมาณของการกระทำถูกต้องก่อน

Dream Zero เป็นก้าวแรกที่สำคัญของเราในการเข้าสู่ “งานปลายเปิด” และ “การแจ้งเตือนคำศัพท์ปลายเปิด” (open-ended, open-vocabulary prompting) ของหุ่นยนต์

เราเรียกโมเดลใหม่นี้ว่า: World Action Models หรือ WAM—โมเดลการกระทำโลก

ดังนั้น ในขณะนี้ โปรดอนุญาตให้เราไว้อาลัยให้กับ VLA เพื่อนเก่าสักครู่

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

พวกมันเคยรับใช้เราอย่างเต็มที่ หลับให้สบายเถอะ VLA VLA จากไปแล้ว WAM จงเจริญ

และเพื่อให้ WAM เป็นจริง สนามรบหลักต่อไปคือกลยุทธ์ข้อมูลรุ่นต่อไป

บุคคลในภาพนี้คือ Bill Dally เขากำลังควบคุมระยะไกลในห้องปฏิบัติการของเรา

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

เมื่อพิจารณาถึงระดับค่าตอบแทนของเขา ผมกล้าพูดว่านี่น่าจะเป็น轨迹การควบคุมระยะไกลที่มีต้นทุนสูงที่สุดในชุดข้อมูลทั้งหมดของเรา

สามปีที่ผ่านมา สาขาหุ่นยนต์ถูกครอบงำโดยการควบคุมระยะไกลเกือบทั้งหมด นั่นคือยุคทองของการควบคุมระยะไกลอย่างไม่ต้องสงสัย

VR headsets หลากหลายรูปแบบ ระบบที่ปรับให้เหมาะสมที่สุดสำหรับการสตรีม latency ต่ำ และอุปกรณ์ควบคุมระยะไกลที่มีโครงสร้างซับซ้อนคล้ายเครื่องทรมานยุคกลาง

อุตสาหกรรมทั้งหมดลงทุนเงินจำนวนมหาศาลและ承受ความเจ็บปวดอย่างมาก

แต่ปัญหาคือ ความสามารถในการผลิตข้อมูลของการควบคุมระยะไกลมีเพดานทางกายภาพ ตามทฤษฎี หุ่นยนต์หนึ่งตัวสามารถเก็บข้อมูลได้สูงสุด 24 ชั่วโมงต่อวัน

แต่说实话 ถ้าในความเป็นจริง หุ่นยนต์แต่ละตัวสามารถเก็บข้อมูลได้อย่างเสถียร 3 ชั่วโมงต่อวัน ก็ถือว่าดีมากแล้ว

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

และ前提ก็คือ—เทพเจ้าแห่งหุ่นยนต์อารมณ์ดีในวันนี้ เพราะพวกนี้ มักจะอารมณ์เสีย (หุ่นยนต์ขัดข้อง) บ่อยครั้ง

แล้วเราจะทำได้ดีกว่านี้ไหม?

บางคนให้คำตอบคือการสวมมือหุ่นยนต์ไว้บนมือของคุณโดยตรง

ระบบนี้ชื่อว่า UMI (Universal Manipulation Interface)

แนวคิดของมันเรียบง่ายจนเกือบจะเจ้าเล่ห์: คุณสวมหุ่นยนต์ไว้บนมือของคุณ มือคุณขยับอย่างไร หุ่นยนต์ก็ขยับตามนั้น ในขณะเดียวกัน แยกร่างกายส่วนอื่นของหุ่นยนต์ออกจากวงจรการเก็บข้อมูล

กล่าวอีกนัยหนึ่ง ใช้มือมนุษย์โดยตรงเพื่อเก็บข้อมูลที่หุ่นยนต์ต้องการ

ในความคิดของผม UMI อาจเป็นหนึ่งใน论文ที่ยิ่งใหญ่ที่สุดในสาขาข้อมูลหุ่นยนต์ และในที่สุดมันก็ให้กำเนิดบริษัท独角兽สองแห่ง

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ด้านซ้าย สมาชิกทีม Generalist ปรับปรุงการออกแบบนี้ให้ดียิ่งขึ้น ตอนนี้คุณสามารถสวม gripper แบบกลไกบนมือของคุณได้โดยตรง

ด้านขวา คือถุงมือข้อมูลสามนิ้วที่ Sunday เปิดตัว

และปีที่แล้ว เราก็ก้าวไปอีกขั้น เราออกแบบระบบ exoskeleton ที่สามารถ映射 1:1 กับมือหุ่นยนต์อัจฉริยะห้านิ้ว

เราเรียกมันว่า DexUMI มาดูผลลัพธ์จริง

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ด้านซ้าย เป็นวิธีเก็บข้อมูลที่ดั้งเดิมที่สุดและเร็วที่สุด—มนุษย์ดำเนินการโดยตรง ซึ่งเร็วที่สุดเสมอ

ด้านขวา คือการควบคุมระยะไกล คุณจะเห็นว่ามันยากแค่ไหน ผู้ปฏิบัติงานในภาพเป็นหนึ่งในนักศึกษาปริญญาเอกที่ชำนาญที่สุดในทีมของเรา

ถึงอย่างนั้น เขายังต้องจัดตำแหน่งและปรับเทียบอย่างระมัดระวัง กระบวนการทั้งหมดช้าและเหนื่อย และอัตราความสำเร็จก็ไม่สูง

ตรงกลาง คือวิธีของเรา คุณเพียงแค่สวม exoskeleton นี้ ดำเนินการโดยตรง ข้อมูลจะถูกเก็บพร้อมกัน จากนั้นเราใช้ข้อมูลนี้ฝึกโมเดลกลยุทธ์หุ่นยนต์

และสิ่งที่คุณเห็นตอนนี้คือกลยุทธ์หุ่นยนต์ที่ทำงานอย่างอิสระอย่างสมบูรณ์ สิ่งสำคัญที่สุดคือ มันใช้ข้อมูลการควบคุมระยะไกลเป็นศูนย์ในระหว่างการฝึก

这意味着 เรา打破คำสาปในสาขาหุ่นยนต์เป็นครั้งแรก: หุ่นยนต์แต่ละตัวสามารถเก็บข้อมูลได้สูงสุด 24 ชั่วโมงต่อวัน และดูว่าหุ่นยนต์เหล่านี้มีความสุขแค่ไหน เพราะในที่สุด พวกมันก็ไม่ต้องเข้าร่วมการเก็บข้อมูลด้วยตัวเองอีกต่อไป

แต่ปัญหาคือ นี่คือจุดสิ้นสุดหรือ? เราแก้ปัญหาการปรับขนาด (scaling) ของหุ่นยนต์ได้จริงหรือ?

มีใครขับ Tesla หรือ Waymo อยู่ที่นี่ไหม? เวลาขับรถ คุณมีส่วนร่วมในวงล้อข้อมูลทางกายภาพที่ใหญ่ที่สุดในโลกตลอดเวลา

ที่ดียิ่งกว่านั้นคือ คุณไม่รู้สึกด้วยซ้ำ โดยเฉพาะเมื่อ Tesla FSD ทำงาน การอัปโหลดข้อมูลเป็นกระบวนการที่เงียบและทำงานอัตโนมัติในเบื้องหลัง

แต่การสวมอุปกรณ์สวมใส่ข้อมูลอย่าง UMI ล่ะ?

พูดตามตรง มันยังยุ่งยากเกินไป มันยังคงเป็นการ侵入式 ยังไม่เป็นธรรมชาติเท่ากับการขับรถไปทำงานทุกวัน ดังนั้น เราจึงต้องการสิ่งที่เทียบเท่ากับ FSD สำหรับหุ่นยนต์

เราต้องทำให้การเก็บข้อมูลถอยออกจากเบื้องหน้า กลมกลืนไปกับเบื้องหลัง เกิดขึ้นอย่างเงียบๆ เท่านั้น เราจึงจะสามารถจับภาพการทำงานที่คล่องแคล่วของมนุษย์ในรูปแบบที่สมบูรณ์ที่สุดได้อย่างแท้จริง

ไม่ใช่แค่ในห้องปฏิบัติการ แต่ในทุกอุตสาหกรรม ทุกสถานการณ์การทำงานที่มีคุณค่าทางเศรษฐกิจ

จากพื้นฐานนี้ เราทุ่มเทอย่างเต็มที่ให้กับวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์ (human egocentric videos) และเพิ่มการติดตามตำแหน่งมือที่มีความละเอียดสูง และคำอธิบายภาษาที่มีความหนาแน่นสูงให้กับวิดีโอเหล่านี้

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

เราเรียกกระบวนทัศน์การฝึกนี้ว่า EgoScale ใน EgoScale 99.9% ของข้อมูลการฝึกทั้งหมดมาจากวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์

ผลลัพธ์สุดท้ายคือโมเดลกลยุทธ์หุ่นยนต์แบบ end-to-end อย่างแท้จริง มันสามารถ映射จากพิกเซลของกล้องโดยตรงไปยังมือหุ่นยนต์อัจฉริยะที่มีอิสระ 22 องศา พูดง่ายๆ คือ จาก “เห็น” ไปสู่ “ลงมือ” โดยตรง

สิ่งที่คุณเห็นตอนนี้คือหุ่นยนต์ที่ทำงานอย่างอิสระอย่างสมบูรณ์

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ในขั้นตอนการฝึกอบรมล่วงหน้า เราใช้ EgoScale ฝึกอบรมล่วงหน้าบนข้อมูลมนุษย์จากมุมมองบุคคลที่หนึ่งในโลกจริงจำนวน 21,000 ชั่วโมง โดยไม่ใช้ข้อมูลหุ่นยนต์ใดๆ

ในระหว่างการฝึกอบรมล่วงหน้า โมเดลเรียนรู้ที่จะทำนายตำแหน่งข้อต่อมือและท่าทางข้อมือ

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

เมื่อถึงขั้นตอนการปรับแต่งการกระทำ เราเก็บข้อมูลเพิ่มเติมเพียง 50 ชั่วโมงจากถุงมือข้อมูลที่มีความแม่นยำสูง และ 4 ชั่วโมงจากข้อมูลการควบคุมระยะไกล ซึ่งน้อยกว่า 0.1% ของส่วนผสมข้อมูลการฝึกทั้งหมด

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

และด้วย EgoScale โมเดลสามารถ generalize ไปสู่งานที่คล่องแคล่วสูงต่างๆ ได้ เช่น การจัดเรียงไพ่ การใช้งานเข็มฉีดยา การถ่ายโอนของเหลวอย่างแม่นยำ บางทีสักวันหนึ่ง พยาบาลหุ่นยนต์ที่บ้านอาจปรากฏตัวขึ้นด้วยเหตุนี้

ที่น่าสนใจยิ่งกว่านั้นคือ สำหรับงานอย่างการพับเสื้อ โมเดลต้องการเพียงการสาธิตครั้งเดียวในขั้นตอนการทดสอบเพื่อเรียนรู้กลยุทธ์การพับแบบใหม่

ใน论文นี้ บางทีการค้นพบที่น่าตื่นเต้นที่สุดคือ เราค้นพบ “neural scaling law” ของ “ความคล่องแคล่วของหุ่นยนต์” เป็นครั้งแรก

มันอธิบายความสัมพันธ์ระหว่างระยะเวลาการฝึกอบรมล่วงหน้าและ optimal validation loss ความสัมพันธ์นี้สวยงามอย่างน่าทึ่ง

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

มันเกือบจะเป็นเส้นโค้ง log-linear ที่สมบูรณ์แบบ ผ่านไปหกปีแล้วตั้งแต่โมเดลภาษาค้นพบ neural scaling law เป็นครั้งแรก

ตอนนี้ หุ่นยนต์ก็มี scaling law ของตัวเองแล้ว ถ้าเราวาดกลยุทธ์ข้อมูลเหล่านี้เป็นแผนภาพ: แกน X คือระดับความสอดคล้องกับฮาร์ดแวร์หุ่นยนต์ แกน Y คือความสามารถในการปรับขนาด

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

มันคงจะเป็นแบบนี้: การควบคุมระยะไกลอยู่ที่มุมล่างซ้าย มันใกล้เคียงกับฮาร์ดแวร์หุ่นยนต์มากที่สุด แต่แทบจะขยายขนาดได้ยากที่สุด

ขึ้นไปอีก คืออุปกรณ์สวมใส่ข้อมูล ซึ่งสามารถขยายขนาดได้ประมาณหลายแสนชั่วโมง

และขึ้นไปอีก คือวิดีโอจากมุมมองบุคคลที่หนึ่ง—ถ้าเราสามารถทำให้วงล้อขับเคลื่อนอัตโนมัติเวอร์ชันหุ่นยนต์ทำงานได้จริง ขนาดของมันก็จะถึงระดับหลายสิบล้านชั่วโมงได้อย่างง่ายดาย

ถ้าลากเส้นบนแผนภาพ ด้านซ้ายของเส้นนี้คือกระบวนทัศน์ใหม่ของหุ่นยนต์: Sensorized Human Data ข้อมูลเซ็นเซอร์ของมนุษย์

ดังนั้น ผมอยากทำนายอย่างกล้าหาญสองสามข้อ: ในอีกหนึ่งถึงสองปีข้างหน้า สัดส่วนของการควบคุมระยะไกลจะลดลงเรื่อยๆ จนแทบ忽略不计

ต่อไป จะมีอุปกรณ์สวมใส่ข้อมูลที่ปรับแต่งตามฮาร์ดแวร์หุ่นยนต์และสถานการณ์ต่างๆ จำนวนมาก

และในที่สุด “อาหารหลัก” ของหุ่นยนต์จะกลายเป็นวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์

ดังนั้น ให้เราไว้อาลัยให้กับเพื่อนเก่าของเรา การควบคุมระยะไกล อีกสักครู่

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

มันเคยรับใช้เราเป็นอย่างดี หลับให้สบายเถอะ การควบคุมระยะไกลตายแล้ว ข้อมูลเซ็นเซอร์ของมนุษย์จงเจริญ

แต่กลยุทธ์ข้อมูล จบลงแค่นี้หรือ? ยัง

คุณสังเกตไหมว่าผมวาดวงกลมสองชั้น วงนอกคืออะไร?

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

วันนี้ ห้องปฏิบัติการ前沿ทั้งหมดใช้เงินจำนวนมากซื้อสภาพแวดล้อมโค้ดหลายล้านรายการเพื่อใช้ในการเรียนรู้แบบเสริมกำลัง

หุ่นยนต์ก็เช่นกัน เราต้องการสภาพแวดล้อมจำนวนมหาศาลอย่างเร่งด่วน

แน่นอน คุณสามารถทำการเรียนรู้แบบเสริมกำลังบนหุ่นยนต์จริงได้โดยตรง ในห้องปฏิบัติการของเรา เราใช้การเรียนรู้แบบเสริมกำลังผลักดันงานบางอย่างให้มีอัตราความสำเร็จเกือบ 100%

หุ่นยนต์สามารถทำงานต่อเนื่องเป็นเวลาหลายชั่วโมงโดยไม่หยุด พูดตามตรง การดูหุ่นยนต์ประกอบ GPU อย่างเงียบๆ ด้วยตัวเอง ก็ค่อนข้าง治愈

ดังที่ปราชญ์คนหนึ่งกล่าว: Good boi (งานนี้ผ่านการอนุมัติจากเจ้านายแล้ว)

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

แต่ปัญหาคือ ถ้าหุ่นยนต์ต้องการผลักดันการเรียนรู้แบบเสริมกำลังไปสู่ขนาดสภาพแวดล้อมหลายล้านรายการเหมือนโมเดลใหญ่ในปัจจุบัน เส้นทางดั้งเดิมแทบจะ走不通

เพราะตามวิธีที่ผ่านมา สภาพแวดล้อม 1 ล้านรายการ เกือบจะหมายความว่าคุณต้องเตรียมหุ่นยนต์ 1 ล้านตัวก่อน ซึ่งเห็นได้ชัดว่าไม่สมจริงในด้านต้นทุน การบำรุงรักษา และการ部署

ดังนั้น เราจึงเริ่มมองหาเส้นทางใหม่

ตัวอย่างเช่น คุณเพียงแค่ใช้ iPhone เครื่องหนึ่ง ถ่ายรูปโลกแห่งความจริง一张 ส่งเข้าไปใน 3D world scanning pipeline ระบบจะ识别วัตถุทั้งหมดในภาพโดยอัตโนมัติ แยกโครงสร้าง 3 มิติของพวกมัน และสร้างวัตถุเหล่านี้ขึ้นใหม่ใน物理模拟器แบบคลาสสิกโดยอัตโนมัติ

ที่สำคัญกว่านั้นคือ วัตถุที่ถูกสร้างขึ้นใหม่เหล่านี้ไม่ใช่โมเดลแบบคงที่ แต่เป็นเอนทิตีดิจิทัลที่สามารถโต้ตอบ ถูกจัดการ และถูกชนได้อย่างแท้จริง

ต่อไป นักวิจัยยังสามารถขยายรูปแบบต่างๆ ตามสถานการณ์เหล่านี้ได้อย่างไม่จำกัด พวกเขาเรียกรูปแบบเหล่านี้ว่า Digital Cousins

เมื่อถึงขั้นนี้ iPhone ไม่ใช่แค่โทรศัพท์อีกต่อไป แต่กลายเป็น “เครื่องสแกนโลกพกพา” อย่างแท้จริง

กระบวนการทั้งหมดถูกตั้งชื่อว่า Real→Sim→Real—เริ่มจากโลกแห่งความจริง เข้าสู่การจำลอง แล้วกลับสู่โลกแห่งความจริง

ด้วยวิธีการนี้ ในที่สุดหุ่นยนต์ก็ได้รับความสามารถในการปรับขนาดเพื่อ映射โลกทางกายภาพไปยังโลกดิจิทัลเป็นครั้งแรก

อย่างไรก็ตาม โซลูชันนี้本质上ยังคง建立在模拟器กราฟิกแบบดั้งเดิม

แล้วเราจะก้าวต่อไปได้อีกไหม?

มาเลย! Dream Dojo

Dream Dojo เป็น neural simulator ที่สร้างขึ้นบน video world model อย่างแท้จริง มัน不再รับพารามิเตอร์ทางกายภาพแบบดั้งเดิมเป็นอินพุต แต่รับสัญญาณการกระทำที่ต่อเนื่องกัน

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

เอาต์พุตของมันคือภาพวิดีโอ RGB ที่หุ่นยนต์จะเห็นในขณะถัดไป และสถานะเซ็นเซอร์ที่เกี่ยวข้อง และทั้งหมดนี้ถูกสร้างขึ้นแบบเรียลไทม์

กล่าวอีกนัยหนึ่ง ในภาพที่คุณเห็นตอนนี้ ไม่มีพิกเซลจริงแม้แต่พิกเซลเดียว

Dream Dojo สามารถจับภาพและเรียนรู้กลไกการเคลื่อนไหวและกฎ动力学เบื้องหลังหุ่นยนต์ต่างๆ ได้โดยตรงด้วยวิธีที่ขับเคลื่อนด้วยข้อมูลล้วนๆ กระบวนการทั้งหมดไม่เกี่ยวข้องกับสมการทางฟิสิกส์ใดๆ และไม่มีส่วนร่วมของ graphics engine

ดังนั้น หุ่นยนต์กำลังเข้าสู่กระบวนทัศน์ post-training แบบใหม่

สถานีหุ่นยนต์จริงจำนวนน้อย负责เก็บข้อมูลการโต้ตอบที่มีมูลค่าสูงในโลกทางกายภาพอย่างต่อเนื่อง อีกด้านหนึ่งคือ graphics cores, world scans และการคำนวณ推理ที่มีความเข้มข้นสูงที่ทำงานแบบขนานขนาดใหญ่ ซึ่ง共同สนับสนุนการ迭代อย่างต่อเนื่องของ world model

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ในกระบวนทัศน์ใหม่นี้ สมการที่สำคัญอย่างยิ่งกำลังเกิดขึ้น—

พลังการคำนวณ = สภาพแวดล้อม = ข้อมูล

กล่าวคือ พ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33942

Like (0)
Previous 3 days ago
Next 3 days ago

相关推荐