หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

3 days ago • ข่าวสารอุตสาหกรรม AI • 46 views

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำโลกมาแทน การควบคุมระยะไกลจะถูกกำจัด

VLA ตายแล้ว โมเดลการกระทำโลกมาแทน การควบคุมระยะไกลตายแล้ว ข้อมูลเซ็นเซอร์ของมนุษย์จงเจริญ

ในงาน Sequoia AI Ascent 2026 ปีนี้ จิม แฟน ใช้เวลาเพียง 20 นาทีสั้นๆ เพื่อจัด “พิธีอำลา” สองครั้งติดต่อกันให้กับอุตสาหกรรมหุ่นยนต์

ครั้งแรก ส่ง VLA ที่ครอบงำสาขาหุ่นยนต์ที่มีกายภาพ (Embodied AI) มาเกือบสามปี ครั้งที่สอง ส่งเทคโนโลยีการควบคุมระยะไกลที่ผู้คนคิดว่าจะคงอยู่ต่อไปอีกหลายปี

ในฐานะหัวหน้าฝ่ายธุรกิจหุ่นยนต์ของ NVIDIA ปีที่แล้ว จิม แฟน ยังคงพูดบนเวทีเดียวกันเกี่ยวกับวิธีที่หุ่นยนต์จะผ่านการทดสอบ แต่ปีนี้ หัวข้อของเขาเปลี่ยนไปเป็น—

กระบวนทัศน์เก่าตายอย่างไร กระบวนทัศน์ใหม่จะเติบโตอย่างไร

ในมุมมองของเขา กระบวนทัศน์ใหม่นี้จำเป็นต้อง借鉴ความสำเร็จของ LLM เป็นอย่างมาก

การฝึกอบรมล่วงหน้าเพื่อจำลองสถานะโลกถัดไป สอดคล้องกับการทำนายโทเค็นถัดไปของ LLM

การปรับแต่งการกระทำเพื่อปรับเทียบส่วนที่มีค่าสำหรับหุ่นยนต์จริง สอดคล้องกับการปรับแต่งแบบมีผู้สอน

สุดท้าย การเรียนรู้แบบเสริมกำลังทำให้สำเร็จในขั้นสุดท้าย

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

ในช่วงที่ผ่านมา NVIDIA ได้เผยแพร่ผลงานวิจัยชุดหนึ่ง เช่น EgoScale, DreamDojo, Dream Zero ซึ่งเกือบจะกำหนดทิศทางการพัฒนาของหุ่นยนต์ที่มีกายภาพในปี 2026 เพียงลำพัง

และในการบรรยายที่ชื่อว่า “Robotics: Endgame” นี้ ได้รวบรวมแก่นแท้ของความคิดล่าสุดของจิม แฟน เกี่ยวกับ VLA, World Model, Teleoperation, UMI, Egocentric, Simulation, Scaling Law ในสาขาหุ่นยนต์ ซึ่งน่าสนใจอย่างยิ่ง

ต่อไปนี้เป็นบทสรุปประเด็นสำคัญของการบรรยาย:

VLA ตายแล้ว WAM จะเป็นกระบวนทัศน์การฝึกอบรมล่วงหน้าแบบใหม่
ในอีกหนึ่งถึงสองปีข้างหน้า สัดส่วนของการควบคุมระยะไกลจะลดลงจนแทบไม่มีความสำคัญ “อาหารหลัก” ของหุ่นยนต์จะกลายเป็นวิดีโอจากมุมมองบุคคลที่หนึ่ง และกระบวนทัศน์ข้อมูลทั้งหมดจะเปลี่ยนไปเป็น Sensorized Human Data (ข้อมูลเซ็นเซอร์ของมนุษย์)
วิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์ประสบความสำเร็จในการเปิดเผยกฎการปรับขนาด (scaling law) ในสาขาหุ่นยนต์ NVIDIA จะทุ่มเทอย่างเต็มที่ให้กับวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์
พลังการคำนวณ = สภาพแวดล้อม = ข้อมูล
แผนผังเทคโนโลยีของหุ่นยนต์เหลือเพียงสามความสำเร็จที่ต้องปลดล็อค: การทดสอบทัวริงทางกายภาพ (ภายใน 2-3 ปี), Physical API, Physical Auto Research ซึ่งคาดว่าจะปลดล็อคทั้งหมดได้ภายในปี 2040

ต่อไปนี้เป็นเนื้อหาการบรรยายเต็มรูปแบบ

(เพื่อความสะดวกในการอ่าน ได้มีการปรับปรุงและตัดทอนอย่างเหมาะสม)

พันธมิตรหุ่นยนต์: เกมสุดท้าย

ในวันฤดูร้อนของปี 2016 ผมอยู่ในสำนักงานที่เรานั่งอยู่ตอนนี้ มีชายคนหนึ่งสวมแจ็กเก็ตหนังมันวาว แขนแข็งแรง ถาดโลหะขนาดใหญ่

เขาเขียนบนนั้นว่า: ถึงทีม Elon และ OpenAI ถึงอนาคตของการคำนวณและมนุษยชาติ ผมจะแสดงให้คุณเห็น DGX1 เครื่องแรกของโลก

นั่นเป็นครั้งแรกที่ผมได้พบกับ Jensen Huang และเช่นเดียวกับเด็กฝึกงานที่ดีคนอื่นๆ ผมรีบต่อคิวเพื่อเซ็นชื่อ

คุณหาเจอไหม? ชื่อของผมอยู่ที่นี่ และชื่อของ Andrej Karpathy

ตอนนั้น ผมไม่รู้เลยว่าผมกำลังจะเจออะไร และสิ่งที่เกิดขึ้นต่อมา ไม่มีใครจะบรรยายได้ดีไปกว่า Ilya เอง:

ถ้าคุณเชื่อในการเรียนรู้เชิงลึก มันก็จะเชื่อในตัวคุณ

แน่นอน ความเชื่อของพวกเขาในการเรียนรู้เชิงลึกได้感染พวกเราทุกคน

ฟังก์ชันสามขั้นตอน หกปี นั่นคือเส้นทางทั้งหมดของเราจนถึงวันนี้

ขั้นตอนแรก (2020), การฝึกอบรมล่วงหน้า GPT-3 การทำนายโทเค็นถัดไป (next token prediction) ส่วนใหญ่เป็นการเรียนรู้กฎไวยากรณ์ ทำความเข้าใจโครงสร้างภาษา จำลองวิธีการ展开ของความคิด รหัส และสตริง

ขั้นตอนที่สอง (2022), InstructGPT (คำสั่ง GPT) ปรับเทียบการจำลองผ่านการปรับแต่งแบบมีผู้สอนเพื่อให้สามารถทำงานจริง หรือใช้การเรียนรู้แบบเสริมกำลังเพื่อ超越การเรียนรู้แบบเลียนแบบ

ขั้นตอนที่สาม (2026), การวิจัยอัตโนมัติ (autoresearch) เร่งวงจรทั้งหมดให้เร็วขึ้น เหนือความสามารถของมนุษย์

ดังที่ Andrej กล่าว ความพยายามทั้งหมดกำลังเร่งไปสู่เป้าหมายสุดท้าย สำหรับ LMS (Language Model Systems) พวกเขาอยู่ในช่วงสุดท้าย

พูดตามตรง ผมอิจฉามาก ดูรอยยิ้มของ Andrej ก็รู้ว่าเขามีความสุขแค่ไหน

ทีมโมเดลภาษากำลัง享受ช่วงเวลาสูงสุดของพวกเขา พวกเขากำลังพัฒนา AGI (ปัญญาประดิษฐ์ทั่วไป) อย่างรวดเร็ว และเรียกสิ่งที่สร้างขึ้นระหว่างทางว่า “mythos”

แล้วทำไมคนที่ทำงานหุ่นยนต์ถึงไม่สามารถสนุกแบบนั้นได้ล่ะ?

ในฐานะนักวิทยาศาสตร์ที่มีความภาคภูมิใจ ผม复制แนวคิดของพวกเขาและตั้งชื่อใหม่ว่า “Great Parallel”

เรา不再จำลองสตริง แต่จำลองสถานะโลกทางกายภาพถัดไป (next physical world state) จากนั้นปรับเทียบส่วนที่มีค่าสำหรับหุ่นยนต์จริงในการจำลองผ่านการปรับแต่งการกระทำ (action finetuning) และให้การเรียนรู้แบบเสริมกำลังทำให้สำเร็จในขั้นสุดท้าย

Great Parallel คือการ复制กลยุทธ์ที่ประสบความสำเร็จของโมเดลภาษา ถ้าสู้พวกเขาไม่ได้ ก็เข้าร่วมกับพวกเขา

บทต่อไปก็มาถึงแล้ว—พันธมิตรหุ่นยนต์: เกมสุดท้าย (Robotics: The End Game)

ขอโทษที ผมอดเล่นตลกเล็กน้อยไม่ได้ กล้วยสนุกมาก ขอบคุณ Hassabis

จะเล่นเกมสุดท้ายอย่างไร? สรุปได้สองประเด็น: กลยุทธ์โมเดล (model strategy) และกลยุทธ์ข้อมูล (data strategy)

มาดูกลยุทธ์โมเดลก่อน สามปีที่ผ่านมา โมเดล Visual-Language-Action (VLA) ครอบงำ โมเดลอย่าง Pi และ Gr00t ก็อยู่ในหมวดนี้เช่นกัน

เราสมมติว่าการฝึกอบรมล่วงหน้าทำโดย VLM (Visual Language Model) จากนั้นเพิ่ม action head เข้าไป

แต่ในความเป็นจริง โมเดลเหล่านี้คือ LVA (Language Visual Action) พารามิเตอร์ส่วนใหญ่ใช้สำหรับภาษา ทำให้ภาษาเป็นแกนหลัก รองลงมาคือภาพและการกระทำ

ใน VLA ภาษาเป็นพลเมืองชั้นหนึ่ง ภาพและการกระทำ只能靠边站

ในด้านการออกแบบ VLA เชี่ยวชาญในการเข้ารหัสความรู้และคำนาม แต่表现ไม่ดีในด้านฟิสิกส์และคำกริยา ค่อนข้าง “หัวหนักเท้าเบา”

ผมชอบตัวอย่างใน论文 VLA ต้นฉบับ (RT-2) ที่สุด คือการย้ายโค้กไปยังรูปภาพของ Taylor Swift

มันไม่เคยเห็นเธอมาก่อน แต่สามารถ generalize ได้ แต่นั่นไม่ใช่ความสามารถในการฝึกอบรมล่วงหน้าที่เราต้องการ

แล้วกระบวนทัศน์การฝึกอบรมล่วงหน้าที่สองคืออะไร?

เราเชื่อว่ากระบวนทัศน์การฝึกอบรมล่วงหน้าที่สองควรจะสวยงามมาก แต่น่าเสียดายที่มันกลายเป็น AI Video Slop เช่น การดูแมวเล่นแบนโจบนกล้องวงจรปิด

ถึงแม้ภายนอกจะดูบันเทิง แต่ไม่มีใครจริงจังกับมัน จนกระทั่งเราตระหนักว่าโมเดลวิดีโอเหล่านี้กำลังเรียนรู้การจำลองสถานะโลกถัดไปภายใน

นี่คือตัวอย่างบางส่วนของ Veo 3 โมเดลเรียนรู้กฎฟิสิกส์ เช่น แรงโน้มถ่วง แรงลอยตัว แสง การสะท้อน การหักเห โดยอัตโนมัติ โดยไม่มีการเข้ารหัสอย่างชัดเจน ผ่านการทำนายพิกเซลกลุ่มถัดไปในขนาดใหญ่ กฎฟิสิกส์ปรากฏขึ้นเอง และการวางแผนภาพก็ปรากฏขึ้นตามธรรมชาติ

Veo-3 แก้ปัญหาวัตถุเหล่านี้อย่างไร? โดยการจำลองไปข้างหน้าในพื้นที่พิกเซล สังเกตมุมขวาล่างเป็นพิเศษ นี่คือตัวอย่างที่ผมชอบที่สุด Veo 3 ฉลาดมาก มันค้นพบว่าถ้าคุณไม่มอง เรขาคณิตก็เป็นทางเลือกได้ ผมเรียกมันว่า “physics slop”

จะทำให้โมเดลโลกเหล่านี้มีประโยชน์ได้อย่างไร? เราปรับเทียบผ่านการปรับแต่งการกระทำ บีบอัด superposition ของสถานะอนาคตที่เป็นไปได้ทั้งหมดให้เป็นส่วนที่มีค่าสำหรับหุ่นยนต์จริง

ดังนั้นจึงเกิด Dream Zero

Dream Zero เป็นโมเดลกลยุทธ์แบบใหม่ มันจะ “ฝัน” ถึงสิ่งที่อาจเกิดขึ้นในอีกไม่กี่วินาทีข้างหน้าก่อน แล้วจึงดำเนินการตามนั้น

ต้องรู้ว่าการควบคุมการเคลื่อนไหวของหุ่นยนต์本质上เป็นชุดสัญญาณต่อเนื่องที่มีมิติสูง ในแง่หนึ่ง มันไม่แตกต่างจากพิกเซลโดยพื้นฐาน สามารถถูกมองว่าเป็นกระแสข้อมูลที่เปลี่ยนแปลงอย่างต่อเนื่อง

ดังนั้น เราสามารถ render การกระทำพร้อมกันได้เหมือนกับการ render วิดีโอ

Dream Zero สามารถถอดรหัสสองสิ่งพร้อมกัน: สถานะโลกในขณะถัดไป และการกระทำที่ควรทำในขั้นตอนถัดไป

ด้วยเหตุนี้ มันจึงสามารถทำงานใหม่ การกระทำใหม่ ที่ไม่เคยเห็นในการฝึกอบรมได้แบบ zero-shot

ที่น่าสนใจยิ่งกว่านั้นคือ เมื่อหุ่นยนต์เริ่มทำงานจริง เราสามารถ “เห็น” แบบเรียลไทม์ว่ามันกำลังคิดอะไรอยู่ และความสัมพันธ์นี้แน่นแฟ้นมาก

ถ้าการทำนายวิดีโอถูกต้อง การกระทำมักจะถูกต้อง ถ้าวิดีโอเริ่ม hallucinate การกระทำมักจะล้มเหลว

ดังนั้น จนถึงจุดนี้ ภาพและการกระทำจึงนั่งลงที่โต๊ะเดียวกันเป็นครั้งแรก

ต่อมาเราใช้ Dream Zero ทดลองสนุกๆ มากมาย ปล่อยให้หุ่นยนต์เดินไปทั่วห้องปฏิบัติการ แล้วพิมพ์คำสั่งต่างๆ ลงในช่อง prompt แบบสุ่ม เพื่อดูว่ามันจะทำอย่างไร

แน่นอน ตอนนี้ Dream Zero ยังไม่สามารถทำงานทุกอย่างให้สำเร็จ 100% ได้อย่างเสถียร

อย่างไรก็ตาม มันค่อนข้างคล้าย GPT-2 แม้จะไม่แม่นยำทุกครั้ง แต่มันมักจะทำให้ “รูปร่าง” โดยประมาณของการกระทำถูกต้องก่อน

Dream Zero เป็นก้าวแรกที่สำคัญของเราในการเข้าสู่ “งานปลายเปิด” และ “การแจ้งเตือนคำศัพท์ปลายเปิด” (open-ended, open-vocabulary prompting) ของหุ่นยนต์

เราเรียกโมเดลใหม่นี้ว่า: World Action Models หรือ WAM—โมเดลการกระทำโลก

ดังนั้น ในขณะนี้ โปรดอนุญาตให้เราไว้อาลัยให้กับ VLA เพื่อนเก่าสักครู่

พวกมันเคยรับใช้เราอย่างเต็มที่ หลับให้สบายเถอะ VLA VLA จากไปแล้ว WAM จงเจริญ

และเพื่อให้ WAM เป็นจริง สนามรบหลักต่อไปคือกลยุทธ์ข้อมูลรุ่นต่อไป

บุคคลในภาพนี้คือ Bill Dally เขากำลังควบคุมระยะไกลในห้องปฏิบัติการของเรา

เมื่อพิจารณาถึงระดับค่าตอบแทนของเขา ผมกล้าพูดว่านี่น่าจะเป็น轨迹การควบคุมระยะไกลที่มีต้นทุนสูงที่สุดในชุดข้อมูลทั้งหมดของเรา

สามปีที่ผ่านมา สาขาหุ่นยนต์ถูกครอบงำโดยการควบคุมระยะไกลเกือบทั้งหมด นั่นคือยุคทองของการควบคุมระยะไกลอย่างไม่ต้องสงสัย

VR headsets หลากหลายรูปแบบ ระบบที่ปรับให้เหมาะสมที่สุดสำหรับการสตรีม latency ต่ำ และอุปกรณ์ควบคุมระยะไกลที่มีโครงสร้างซับซ้อนคล้ายเครื่องทรมานยุคกลาง

อุตสาหกรรมทั้งหมดลงทุนเงินจำนวนมหาศาลและ承受ความเจ็บปวดอย่างมาก

แต่ปัญหาคือ ความสามารถในการผลิตข้อมูลของการควบคุมระยะไกลมีเพดานทางกายภาพ ตามทฤษฎี หุ่นยนต์หนึ่งตัวสามารถเก็บข้อมูลได้สูงสุด 24 ชั่วโมงต่อวัน

แต่说实话 ถ้าในความเป็นจริง หุ่นยนต์แต่ละตัวสามารถเก็บข้อมูลได้อย่างเสถียร 3 ชั่วโมงต่อวัน ก็ถือว่าดีมากแล้ว

และ前提ก็คือ—เทพเจ้าแห่งหุ่นยนต์อารมณ์ดีในวันนี้ เพราะพวกนี้ มักจะอารมณ์เสีย (หุ่นยนต์ขัดข้อง) บ่อยครั้ง

แล้วเราจะทำได้ดีกว่านี้ไหม?

บางคนให้คำตอบคือการสวมมือหุ่นยนต์ไว้บนมือของคุณโดยตรง

ระบบนี้ชื่อว่า UMI (Universal Manipulation Interface)

แนวคิดของมันเรียบง่ายจนเกือบจะเจ้าเล่ห์: คุณสวมหุ่นยนต์ไว้บนมือของคุณ มือคุณขยับอย่างไร หุ่นยนต์ก็ขยับตามนั้น ในขณะเดียวกัน แยกร่างกายส่วนอื่นของหุ่นยนต์ออกจากวงจรการเก็บข้อมูล

กล่าวอีกนัยหนึ่ง ใช้มือมนุษย์โดยตรงเพื่อเก็บข้อมูลที่หุ่นยนต์ต้องการ

ในความคิดของผม UMI อาจเป็นหนึ่งใน论文ที่ยิ่งใหญ่ที่สุดในสาขาข้อมูลหุ่นยนต์ และในที่สุดมันก็ให้กำเนิดบริษัท独角兽สองแห่ง

ด้านซ้าย สมาชิกทีม Generalist ปรับปรุงการออกแบบนี้ให้ดียิ่งขึ้น ตอนนี้คุณสามารถสวม gripper แบบกลไกบนมือของคุณได้โดยตรง

ด้านขวา คือถุงมือข้อมูลสามนิ้วที่ Sunday เปิดตัว

และปีที่แล้ว เราก็ก้าวไปอีกขั้น เราออกแบบระบบ exoskeleton ที่สามารถ映射 1:1 กับมือหุ่นยนต์อัจฉริยะห้านิ้ว

เราเรียกมันว่า DexUMI มาดูผลลัพธ์จริง

ด้านซ้าย เป็นวิธีเก็บข้อมูลที่ดั้งเดิมที่สุดและเร็วที่สุด—มนุษย์ดำเนินการโดยตรง ซึ่งเร็วที่สุดเสมอ

ด้านขวา คือการควบคุมระยะไกล คุณจะเห็นว่ามันยากแค่ไหน ผู้ปฏิบัติงานในภาพเป็นหนึ่งในนักศึกษาปริญญาเอกที่ชำนาญที่สุดในทีมของเรา

ถึงอย่างนั้น เขายังต้องจัดตำแหน่งและปรับเทียบอย่างระมัดระวัง กระบวนการทั้งหมดช้าและเหนื่อย และอัตราความสำเร็จก็ไม่สูง

ตรงกลาง คือวิธีของเรา คุณเพียงแค่สวม exoskeleton นี้ ดำเนินการโดยตรง ข้อมูลจะถูกเก็บพร้อมกัน จากนั้นเราใช้ข้อมูลนี้ฝึกโมเดลกลยุทธ์หุ่นยนต์

และสิ่งที่คุณเห็นตอนนี้คือกลยุทธ์หุ่นยนต์ที่ทำงานอย่างอิสระอย่างสมบูรณ์ สิ่งสำคัญที่สุดคือ มันใช้ข้อมูลการควบคุมระยะไกลเป็นศูนย์ในระหว่างการฝึก

这意味着 เรา打破คำสาปในสาขาหุ่นยนต์เป็นครั้งแรก: หุ่นยนต์แต่ละตัวสามารถเก็บข้อมูลได้สูงสุด 24 ชั่วโมงต่อวัน และดูว่าหุ่นยนต์เหล่านี้มีความสุขแค่ไหน เพราะในที่สุด พวกมันก็ไม่ต้องเข้าร่วมการเก็บข้อมูลด้วยตัวเองอีกต่อไป

แต่ปัญหาคือ นี่คือจุดสิ้นสุดหรือ? เราแก้ปัญหาการปรับขนาด (scaling) ของหุ่นยนต์ได้จริงหรือ?

มีใครขับ Tesla หรือ Waymo อยู่ที่นี่ไหม? เวลาขับรถ คุณมีส่วนร่วมในวงล้อข้อมูลทางกายภาพที่ใหญ่ที่สุดในโลกตลอดเวลา

ที่ดียิ่งกว่านั้นคือ คุณไม่รู้สึกด้วยซ้ำ โดยเฉพาะเมื่อ Tesla FSD ทำงาน การอัปโหลดข้อมูลเป็นกระบวนการที่เงียบและทำงานอัตโนมัติในเบื้องหลัง

แต่การสวมอุปกรณ์สวมใส่ข้อมูลอย่าง UMI ล่ะ?

พูดตามตรง มันยังยุ่งยากเกินไป มันยังคงเป็นการ侵入式 ยังไม่เป็นธรรมชาติเท่ากับการขับรถไปทำงานทุกวัน ดังนั้น เราจึงต้องการสิ่งที่เทียบเท่ากับ FSD สำหรับหุ่นยนต์

เราต้องทำให้การเก็บข้อมูลถอยออกจากเบื้องหน้า กลมกลืนไปกับเบื้องหลัง เกิดขึ้นอย่างเงียบๆ เท่านั้น เราจึงจะสามารถจับภาพการทำงานที่คล่องแคล่วของมนุษย์ในรูปแบบที่สมบูรณ์ที่สุดได้อย่างแท้จริง

ไม่ใช่แค่ในห้องปฏิบัติการ แต่ในทุกอุตสาหกรรม ทุกสถานการณ์การทำงานที่มีคุณค่าทางเศรษฐกิจ

จากพื้นฐานนี้ เราทุ่มเทอย่างเต็มที่ให้กับวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์ (human egocentric videos) และเพิ่มการติดตามตำแหน่งมือที่มีความละเอียดสูง และคำอธิบายภาษาที่มีความหนาแน่นสูงให้กับวิดีโอเหล่านี้

เราเรียกกระบวนทัศน์การฝึกนี้ว่า EgoScale ใน EgoScale 99.9% ของข้อมูลการฝึกทั้งหมดมาจากวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์

ผลลัพธ์สุดท้ายคือโมเดลกลยุทธ์หุ่นยนต์แบบ end-to-end อย่างแท้จริง มันสามารถ映射จากพิกเซลของกล้องโดยตรงไปยังมือหุ่นยนต์อัจฉริยะที่มีอิสระ 22 องศา พูดง่ายๆ คือ จาก “เห็น” ไปสู่ “ลงมือ” โดยตรง

สิ่งที่คุณเห็นตอนนี้คือหุ่นยนต์ที่ทำงานอย่างอิสระอย่างสมบูรณ์

ในขั้นตอนการฝึกอบรมล่วงหน้า เราใช้ EgoScale ฝึกอบรมล่วงหน้าบนข้อมูลมนุษย์จากมุมมองบุคคลที่หนึ่งในโลกจริงจำนวน 21,000 ชั่วโมง โดยไม่ใช้ข้อมูลหุ่นยนต์ใดๆ

ในระหว่างการฝึกอบรมล่วงหน้า โมเดลเรียนรู้ที่จะทำนายตำแหน่งข้อต่อมือและท่าทางข้อมือ

เมื่อถึงขั้นตอนการปรับแต่งการกระทำ เราเก็บข้อมูลเพิ่มเติมเพียง 50 ชั่วโมงจากถุงมือข้อมูลที่มีความแม่นยำสูง และ 4 ชั่วโมงจากข้อมูลการควบคุมระยะไกล ซึ่งน้อยกว่า 0.1% ของส่วนผสมข้อมูลการฝึกทั้งหมด

และด้วย EgoScale โมเดลสามารถ generalize ไปสู่งานที่คล่องแคล่วสูงต่างๆ ได้ เช่น การจัดเรียงไพ่ การใช้งานเข็มฉีดยา การถ่ายโอนของเหลวอย่างแม่นยำ บางทีสักวันหนึ่ง พยาบาลหุ่นยนต์ที่บ้านอาจปรากฏตัวขึ้นด้วยเหตุนี้

ที่น่าสนใจยิ่งกว่านั้นคือ สำหรับงานอย่างการพับเสื้อ โมเดลต้องการเพียงการสาธิตครั้งเดียวในขั้นตอนการทดสอบเพื่อเรียนรู้กลยุทธ์การพับแบบใหม่

ใน论文นี้ บางทีการค้นพบที่น่าตื่นเต้นที่สุดคือ เราค้นพบ “neural scaling law” ของ “ความคล่องแคล่วของหุ่นยนต์” เป็นครั้งแรก

มันอธิบายความสัมพันธ์ระหว่างระยะเวลาการฝึกอบรมล่วงหน้าและ optimal validation loss ความสัมพันธ์นี้สวยงามอย่างน่าทึ่ง

มันเกือบจะเป็นเส้นโค้ง log-linear ที่สมบูรณ์แบบ ผ่านไปหกปีแล้วตั้งแต่โมเดลภาษาค้นพบ neural scaling law เป็นครั้งแรก

ตอนนี้ หุ่นยนต์ก็มี scaling law ของตัวเองแล้ว ถ้าเราวาดกลยุทธ์ข้อมูลเหล่านี้เป็นแผนภาพ: แกน X คือระดับความสอดคล้องกับฮาร์ดแวร์หุ่นยนต์ แกน Y คือความสามารถในการปรับขนาด

มันคงจะเป็นแบบนี้: การควบคุมระยะไกลอยู่ที่มุมล่างซ้าย มันใกล้เคียงกับฮาร์ดแวร์หุ่นยนต์มากที่สุด แต่แทบจะขยายขนาดได้ยากที่สุด

ขึ้นไปอีก คืออุปกรณ์สวมใส่ข้อมูล ซึ่งสามารถขยายขนาดได้ประมาณหลายแสนชั่วโมง

และขึ้นไปอีก คือวิดีโอจากมุมมองบุคคลที่หนึ่ง—ถ้าเราสามารถทำให้วงล้อขับเคลื่อนอัตโนมัติเวอร์ชันหุ่นยนต์ทำงานได้จริง ขนาดของมันก็จะถึงระดับหลายสิบล้านชั่วโมงได้อย่างง่ายดาย

ถ้าลากเส้นบนแผนภาพ ด้านซ้ายของเส้นนี้คือกระบวนทัศน์ใหม่ของหุ่นยนต์: Sensorized Human Data ข้อมูลเซ็นเซอร์ของมนุษย์

ดังนั้น ผมอยากทำนายอย่างกล้าหาญสองสามข้อ: ในอีกหนึ่งถึงสองปีข้างหน้า สัดส่วนของการควบคุมระยะไกลจะลดลงเรื่อยๆ จนแทบ忽略不计

ต่อไป จะมีอุปกรณ์สวมใส่ข้อมูลที่ปรับแต่งตามฮาร์ดแวร์หุ่นยนต์และสถานการณ์ต่างๆ จำนวนมาก

และในที่สุด “อาหารหลัก” ของหุ่นยนต์จะกลายเป็นวิดีโอจากมุมมองบุคคลที่หนึ่งของมนุษย์

ดังนั้น ให้เราไว้อาลัยให้กับเพื่อนเก่าของเรา การควบคุมระยะไกล อีกสักครู่

มันเคยรับใช้เราเป็นอย่างดี หลับให้สบายเถอะ การควบคุมระยะไกลตายแล้ว ข้อมูลเซ็นเซอร์ของมนุษย์จงเจริญ

แต่กลยุทธ์ข้อมูล จบลงแค่นี้หรือ? ยัง

คุณสังเกตไหมว่าผมวาดวงกลมสองชั้น วงนอกคืออะไร?

วันนี้ ห้องปฏิบัติการ前沿ทั้งหมดใช้เงินจำนวนมากซื้อสภาพแวดล้อมโค้ดหลายล้านรายการเพื่อใช้ในการเรียนรู้แบบเสริมกำลัง

หุ่นยนต์ก็เช่นกัน เราต้องการสภาพแวดล้อมจำนวนมหาศาลอย่างเร่งด่วน

แน่นอน คุณสามารถทำการเรียนรู้แบบเสริมกำลังบนหุ่นยนต์จริงได้โดยตรง ในห้องปฏิบัติการของเรา เราใช้การเรียนรู้แบบเสริมกำลังผลักดันงานบางอย่างให้มีอัตราความสำเร็จเกือบ 100%

หุ่นยนต์สามารถทำงานต่อเนื่องเป็นเวลาหลายชั่วโมงโดยไม่หยุด พูดตามตรง การดูหุ่นยนต์ประกอบ GPU อย่างเงียบๆ ด้วยตัวเอง ก็ค่อนข้าง治愈

ดังที่ปราชญ์คนหนึ่งกล่าว: Good boi (งานนี้ผ่านการอนุมัติจากเจ้านายแล้ว)

แต่ปัญหาคือ ถ้าหุ่นยนต์ต้องการผลักดันการเรียนรู้แบบเสริมกำลังไปสู่ขนาดสภาพแวดล้อมหลายล้านรายการเหมือนโมเดลใหญ่ในปัจจุบัน เส้นทางดั้งเดิมแทบจะ走不通

เพราะตามวิธีที่ผ่านมา สภาพแวดล้อม 1 ล้านรายการ เกือบจะหมายความว่าคุณต้องเตรียมหุ่นยนต์ 1 ล้านตัวก่อน ซึ่งเห็นได้ชัดว่าไม่สมจริงในด้านต้นทุน การบำรุงรักษา และการ部署

ดังนั้น เราจึงเริ่มมองหาเส้นทางใหม่

ตัวอย่างเช่น คุณเพียงแค่ใช้ iPhone เครื่องหนึ่ง ถ่ายรูปโลกแห่งความจริง一张 ส่งเข้าไปใน 3D world scanning pipeline ระบบจะ识别วัตถุทั้งหมดในภาพโดยอัตโนมัติ แยกโครงสร้าง 3 มิติของพวกมัน และสร้างวัตถุเหล่านี้ขึ้นใหม่ใน物理模拟器แบบคลาสสิกโดยอัตโนมัติ

ที่สำคัญกว่านั้นคือ วัตถุที่ถูกสร้างขึ้นใหม่เหล่านี้ไม่ใช่โมเดลแบบคงที่ แต่เป็นเอนทิตีดิจิทัลที่สามารถโต้ตอบ ถูกจัดการ และถูกชนได้อย่างแท้จริง

ต่อไป นักวิจัยยังสามารถขยายรูปแบบต่างๆ ตามสถานการณ์เหล่านี้ได้อย่างไม่จำกัด พวกเขาเรียกรูปแบบเหล่านี้ว่า Digital Cousins

เมื่อถึงขั้นนี้ iPhone ไม่ใช่แค่โทรศัพท์อีกต่อไป แต่กลายเป็น “เครื่องสแกนโลกพกพา” อย่างแท้จริง

กระบวนการทั้งหมดถูกตั้งชื่อว่า Real→Sim→Real—เริ่มจากโลกแห่งความจริง เข้าสู่การจำลอง แล้วกลับสู่โลกแห่งความจริง

ด้วยวิธีการนี้ ในที่สุดหุ่นยนต์ก็ได้รับความสามารถในการปรับขนาดเพื่อ映射โลกทางกายภาพไปยังโลกดิจิทัลเป็นครั้งแรก

อย่างไรก็ตาม โซลูชันนี้本质上ยังคง建立在模拟器กราฟิกแบบดั้งเดิม

แล้วเราจะก้าวต่อไปได้อีกไหม?

มาเลย! Dream Dojo

Dream Dojo เป็น neural simulator ที่สร้างขึ้นบน video world model อย่างแท้จริง มัน不再รับพารามิเตอร์ทางกายภาพแบบดั้งเดิมเป็นอินพุต แต่รับสัญญาณการกระทำที่ต่อเนื่องกัน

เอาต์พุตของมันคือภาพวิดีโอ RGB ที่หุ่นยนต์จะเห็นในขณะถัดไป และสถานะเซ็นเซอร์ที่เกี่ยวข้อง และทั้งหมดนี้ถูกสร้างขึ้นแบบเรียลไทม์

กล่าวอีกนัยหนึ่ง ในภาพที่คุณเห็นตอนนี้ ไม่มีพิกเซลจริงแม้แต่พิกเซลเดียว

Dream Dojo สามารถจับภาพและเรียนรู้กลไกการเคลื่อนไหวและกฎ动力学เบื้องหลังหุ่นยนต์ต่างๆ ได้โดยตรงด้วยวิธีที่ขับเคลื่อนด้วยข้อมูลล้วนๆ กระบวนการทั้งหมดไม่เกี่ยวข้องกับสมการทางฟิสิกส์ใดๆ และไม่มีส่วนร่วมของ graphics engine

ดังนั้น หุ่นยนต์กำลังเข้าสู่กระบวนทัศน์ post-training แบบใหม่

สถานีหุ่นยนต์จริงจำนวนน้อย负责เก็บข้อมูลการโต้ตอบที่มีมูลค่าสูงในโลกทางกายภาพอย่างต่อเนื่อง อีกด้านหนึ่งคือ graphics cores, world scans และการคำนวณ推理ที่มีความเข้มข้นสูงที่ทำงานแบบขนานขนาดใหญ่ ซึ่ง共同สนับสนุนการ迭代อย่างต่อเนื่องของ world model

ในกระบวนทัศน์ใหม่นี้ สมการที่สำคัญอย่างยิ่งกำลังเกิดขึ้น—

พลังการคำนวณ = สภาพแวดล้อม = ข้อมูล

กล่าวคือ พ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/33942

Like (0)

0 0

บอกลาการมองเห็นระยะสั้นของเส้นทาง! RMS-MoE ใช้การดึงข้อมูลความจำเพื่อเพิ่มประสิทธิภาพการทำงานร่วมกันของผู้เชี่ยวชาญ MoE อย่างก้าวกระโดด

Previous 3 days ago

xAI สูญเสียผู้บริหารอีกคน: จวงจุนถัง หัวหน้าฝ่ายฝึกอบรมล่วงหน้าลาออก ปัญหา “รักษาคนไม่ให้ไป” ของมัสก์ยิ่งทวีความรุนแรง

Next 3 days ago

ข่าวสารอุตสาหกรรม AI

การสร้างวิดีโอก้าวสู่การจำลองโลกแบบสากล: การพัฒนาทางเทคโนโลยีจากความเที่ยงตรงทางภาพสู่การให้เหตุผลเชิงเหตุผล

ในปีที่ผ่านมา การสร้างวิดีโอ (Video Generation) และโมเดลโลก (World Models) ได้กลายเป็นหนึ่งในทิศทางการวิจัยที่ได้รับความสนใจมากที่สุดในสาขาปัญญาประดิษฐ์ ตั้งแต่ Sora ไปจนถึง Kling …

2026年2月7日
243000
ผู้ให้บริการสิ่งพิมพ์วิชาการยักษ์ใหญ่ Elsevier ร่วมฟ้อง Meta: ขโมยข้อมูลบทความเพื่อฝึก Llama อย่างผิดกฎหมาย สงครามลิขสิทธิ์ทวีความรุนแรง

สงครามลิขสิทธิ์ AI ปะทุอีกครั้ง: ยักษ์ใหญ่สิ่งพิมพ์วิชาการ Elsevier ร่วมฟ้อง Meta ข้อหาขโมยบทความวิจัยฝึก Llama ข้อพิพาทด้านลิขสิทธิ์ในวงการ AI กำลังทวีความรุนแรงขึ้นอย่างที่ไม่เคย…

ข่าวสารอุตสาหกรรม AI 12 hours ago
19000
ข่าวสารอุตสาหกรรม AI

AI ที่เกิดก่อนปี 1931 สามารถเขียนโค้ด Python ได้? โมเดลที่ข้ามผ่านศตวรรษสร้างความตกตะลึงให้วงการวิชาการ

อยู่มานานเพิ่งเคยเห็น! AI ที่มีชีวิตอยู่ก่อนปี 1931 และไม่เคยเจอคอมพิวเตอร์ในข้อมูลฝึกฝน ข้ามเวลามาเกือบศตวรรษ— กลับเขียนโค้ด Python ได้?! ทุกคนครับ นี่ไม่ใช่นิยายวิทยาศาสตร์แน่นอน…

2026年4月30日
81000
ข่าวสารอุตสาหกรรม AI

Tencent Hunyuan เปิดตัว HY3D-Bench: สร้าง “ImageNet” ในวงการสร้างภาพ 3D แก้ปัญหาข้อมูลและการประเมิน

เทคโนโลยีการสร้าง 3D ในปัจจุบันมีความพร้อมใช้งานที่น่าทึ่งมาก อย่างไรก็ตาม ปัญหาสำคัญสามประการที่ยังคงกวนใจนักวิจัยในสาขานี้คือ คุณภาพข้อมูลที่ไม่สม่ำเสมอ ขาดมาตรฐานการประเมิน และก…

2026年2月6日
273000
ข่าวสารอุตสาหกรรม AI

CEO เอ็นวิเดีย เจิ้นซวนหวง ประกาศอย่างมั่นใจ: ชิป AI ที่พัฒนาด้วยตัวเองทั้งหมดเป็น “เสือกระดาษ” เผยแนวป้องกันขั้นสุด “จากอิเล็กตรอนสู่โทเค็น”

ในการสัมภาษณ์เชิงลึกครั้งล่าสุด เจินซุน หวง ผู้ก่อตั้งและ CEO ของ NVIDIA ได้แสดงมุมมองที่ชัดเจนเกี่ยวกับข้อได้เปรียบทางเทคโนโลยีของบริษัทและโครงสร้างการแข่งขันในอุตสาหกรรม เขาให้คว…

2026年4月18日
115000

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำของโลกกำลังจะมา การควบคุมระยะไกลจะถูกกำจัด

หัวหน้าฝ่ายหุ่นยนต์ของ NVIDIA จิม แฟน: VLA ตายแล้ว โมเดลการกระทำโลกมาแทน การควบคุมระยะไกลจะถูกกำจัด

พันธมิตรหุ่นยนต์: เกมสุดท้าย

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

AI ที่เกิดก่อนปี 1931 สามารถเขียนโค้ด Python ได้? โมเดลที่ข้ามผ่านศตวรรษสร้างความตกตะลึงให้วงการวิชาการ

Tencent Hunyuan เปิดตัว HY3D-Bench: สร้าง “ImageNet” ในวงการสร้างภาพ 3D แก้ปัญหาข้อมูลและการประเมิน