คุณอาจจะเริ่มเบื่อกับการสาธิตหุ่นยนต์ฮิวแมนนอยด์ต่างๆ ไปแล้ว แต่ Ted Xiao กลับมองว่า แม้แต่การสาธิตที่ดูเรียบง่ายที่สุด ถ้าเมื่อสองปีก่อน ก็เพียงพอที่จะทำให้นักวิจัยทั้งวงการตกตะลึง เพราะในตอนนั้นแทบไม่มีใครเชื่อว่าสิ่งนี้จะเป็นจริงได้
Ted Xiao เคยดำรงตำแหน่ง Staff Research Scientist และ Technical Lead ที่ Google DeepMind นานถึง 8 ปี เขามีส่วนร่วมในโครงการพื้นฐานด้านหุ่นยนต์ที่กำหนดทิศทางของอุตสาหกรรม เช่น RT-1, RT-2, SayCan และ Open X-Embodiment ปัจจุบัน เขาได้เข้าร่วมกับ Project Prometheus สตาร์ทอัพ AI แห่งใหม่ที่ก่อตั้งโดย Jeff Bezos ผู้ก่อตั้ง Amazon โดยมุ่งมั่นที่จะแก้ปัญหาการควบคุมและการให้เหตุผลของ embodied intelligence ในสภาพแวดล้อมขนาดใหญ่

ในการสัมภาษณ์ล่าสุด (จาก RoboPapers) Ted Xiao ในฐานะผู้ที่ได้เห็นเหตุการณ์ด้วยตนเอง ได้ทบทวนการเปลี่ยนแปลงในวงการ embodied intelligence ในช่วงเกือบสิบปีที่ผ่านมาอย่างเป็นระบบ เขาเล่าถึงกระบวนการคิดเบื้องหลังการตัดสินใจสำคัญแต่ละครั้ง ซึ่งเป็นช่วงเวลาแห่งความลังเล การพลิกผัน และการตระหนักรู้ที่ไม่อาจพบเห็นได้ในบทความวิชาการ

ลิงก์วิดีโอ: http://youtube.com/watch?v=etPqBphTgmE&t=1101s
บทความนี้ได้รวบรวมสามยุคแห่งการเรียนรู้ของหุ่นยนต์ที่ Ted เล่าไว้: ยุคแห่งการพิสูจน์การมีอยู่ (Existence Proof Era), ยุคแห่งโมเดลพื้นฐาน (Foundation Model Era), และยุคแห่งการขยายขนาด (Scaling Era)
Ted จะบอกคุณว่า ทำไมทีมของเขาถึงเคยตกอยู่ในสถานะ “Code Yellowish” โดยไม่ตีพิมพ์บทความใดๆ เป็นเวลาหนึ่งปีครึ่ง หมกมุ่นอยู่กับการเก็บข้อมูลเพียงอย่างเดียว; ในช่วงเวลาที่ Reinforcement Learning ถูกคาดหวังไว้สูง ทำไมพวกเขาถึงกล้าผลักดัน Imitation Learning ซึ่งในตอนนั้นไม่เป็นที่ยอมรับ; และทำไมเส้นทาง VLA ที่ใช้ Vision-Language Model เป็นโครงสร้างหลักของนโยบายหุ่นยนต์โดยตรง ซึ่งพวกเขาน่าจะเริ่มทำได้อย่างน้อยหนึ่งปีก่อนหน้านั้น กลับช้าไปหนึ่งก้าว?

หากคุณสนใจ AI สนใจหุ่นยนต์ หรือแค่อยากรู้ว่า “คลื่นลูกนี้เกิดขึ้นและพัฒนาต่อเนื่องมาได้อย่างไร” เรื่องราวนี้คุ้มค่าแก่การอ่านอย่างละเอียด
ยุคแห่งการพิสูจน์การมีอยู่:
การเรียนรู้แบบ End-to-End ทำได้จริงหรือ?
ในปี 2015, 2016 DQN (Deep Q-Networks) และ AlphaGo ได้ถือกำเนิดขึ้นมา พิสูจน์ให้เห็นถึงความสามารถในการปรับใช้ในวงกว้างอันน่าทึ่งของวิธีการที่ขับเคลื่อนด้วยข้อมูลแบบ End-to-End ในขณะเดียวกัน ฮาร์ดแวร์หุ่นยนต์ก็พร้อมแล้วตั้งแต่หลายสิบปีก่อน ระบบแขนกลเคลื่อนที่สองแขนของ Stanford สามารถทำงานบ้านต่างๆ ได้สำเร็จแล้ว แต่ปัญหาคือสติปัญญาของมนุษย์ที่ต้องเข้ามาแทรกแซงอยู่เบื้องหลังเสมอ
ดังนั้น คำถามที่ฟังดูบ้าบอจึงเกิดขึ้น: จะเกิดอะไรขึ้นถ้านำวิธีการที่ขับเคลื่อนด้วยข้อมูล เช่น Reinforcement Learning มาประยุกต์ใช้กับระบบหุ่นยนต์จริงโดยตรง?
Ted ถูกดึงดูดด้วยคำถามนี้ เขาเข้าร่วมทีมหุ่นยนต์ Google Brain ซึ่งตอนนั้นมีสมาชิกไม่ถึง 20 คน เพื่อทำสิ่งที่ฟังดูน่าเบื่อ: นำแขนกล KUKA หลายตัววางไว้ในห้อง ปล่อยให้พวกมันหยิบจับวัตถุตลอด 24 ชั่วโมง โดยใช้ Reinforcement Learning แบบออนไลน์
ความยากของสิ่งนี้ใหญ่กว่าที่คิดไว้มาก
ความสำเร็จของ Atari และ Go อาศัยพื้นที่การกระทำที่ชัดเจนและไม่ต่อเนื่อง ไม่กี่ปุ่มบนจอยเกม หรือตำแหน่งวางหมากที่มีจำกัดบนกระดาน แต่แขนกลจริงต้องเผชิญกับพื้นที่การกระทำที่มีมิติสูงและต่อเนื่อง: มุมของข้อต่อ 6-7 จุด, ท่าทางของเอฟเฟกเตอร์ปลายทาง, แรงของกริปเปอร์… บวกกับภาพที่ส่งมาจากกล้องด้วยความถี่สูง ทั้งพื้นที่สถานะและพื้นที่การกระทำมีมิติสูงกว่าในเกมมาก การใช้วิธี value-based RL ที่ออกแบบมาสำหรับ Atari โดยตรงนั้นใช้ไม่ได้
วิธีแก้ปัญหาที่ทีมเสนอคือ QT-Opt ซึ่งใช้วิธี Cross-Entropy Method (CEM) เพื่อประมาณค่าการหาค่าสูงสุดของ Q-value ในการอัปเดต Bellman เพื่อจัดการกับพื้นที่การกระทำต่อเนื่องของหุ่นยนต์ QT-Opt ไม่ใช่แค่นวัตกรรมด้านอัลกอริทึม แต่ยังต้องสร้างระบบทั้งหมดขึ้นมา: ฟาร์มแขนกล (arm farm) ที่ทำงานตลอด 24 ชั่วโมง, ระบบประเมินผล, ระบบควบคุม ฯลฯ ตัวอย่างเช่น พวกเขาสร้าง “concurrent RL” ที่ให้หุ่นยนต์ทำการอนุมานไปพร้อมกับการเคลื่อนไหว แทนที่จะเป็นโหมดอนุกรม “หยุด-สังเกต-อนุมาน-ลงมือทำ” เพื่อลดความแตกต่างของโดเมนระหว่างการจำลองและโลกจริง พวกเขาฝึก CycleGAN เพื่อแปลงภาพจำลองให้เป็นภาพสไตล์จริงที่สมจริง ทำให้นโยบายที่ฝึกในการจำลองสามารถถ่ายโอนไปยังโลกจริงได้ดีขึ้น
ระบบ “ฟาร์มแขนกล” นี้พิสูจน์ให้เห็นสิ่งหนึ่งในที่สุด: การเรียนรู้ของหุ่นยนต์แบบ End-to-End ในโลกจริงไม่ใช่ของเล่น มันใช้การได้

หลังจากที่การหยิบจับใช้การได้ คำถามถัดไปก็เกิดขึ้นโดยธรรมชาติ: เราสามารถเรียนรู้หลายๆ งานพร้อมกันได้หรือไม่?
ในช่วงเวลานี้ ทีมงานได้เริ่มสำรวจแนวทางต่างๆ มากมาย:
BC-Z เป็นหนึ่งในผลงานที่เป็นตัวแทน ซึ่งเป็นนโยบาย Imitation Learning แบบหลายงานและมีเงื่อนไขทางภาษาเป็นครั้งแรกในวงกว้าง
MT-OPT เป็นการขยาย QT-Opt ไปสู่หลายงาน โดยพยายามบีบอัดทักษะจำนวนมากลงในน้ำหนักโครงข่ายประสาทเทียมชุดเดียวกัน เพื่อสำรวจว่าโครงข่ายเดียวสามารถ “จดจำ” พฤติกรรมหลายๆ อย่างพร้อมกันได้หรือไม่
อีกเส้นทางที่มีความทะเยอทะยานมากกว่าคือ Learning from Play แนวคิดเริ่มต้นคือ: เราสามารถให้มนุษย์ควบคุมหุ่นยนต์ตามอำเภอใจ โดยไม่กำหนดเป้าหมายที่ชัดเจน แค่ “เล่น” แล้วใช้ Hindsight Experience Relabeling เพื่อดึงประสบการณ์ที่มีความหมายจากวิถีที่ไม่มีโครงสร้างเหล่านี้? Ted อธิบายว่าทิศทางนี้สนุกมากในตอนนั้น

ยิ่งสำรวจมากเท่าไหร่ คำถามหนึ่งก็ยิ่งชัดเจนมากขึ้นเท่านั้น: เส้นทาง Reinforcement Learning กำลังประสบปัญหาผลตอบแทนที่ลดน้อยถอยลง
Ted แสดงกราฟเส้นโค้งการเรียนรู้: เส้น RL กำลังไต่ขึ้นไปทางขวาบนจริง แต่เบื้องหลังคือฝันร้ายของการดูแลระบบแบบกระจาย ข้อมูลส่วนหนึ่งมาจากการจำลอง ส่วนหนึ่งมาจากหุ่นยนต์จริง checkpoint ของนโยบายจะหมดอายุ เมื่อโค้ดคอนโทรลเลอร์แก้ไขบั๊กหนึ่งครั้ง ข้อมูลที่เก็บมาก่อนหน้านี้อาจใช้ไม่ได้ “RL is Painful” ในขณะเดียวกัน Imitation Learning แม้จะใช้งานได้ทันที แต่ความแม่นยำกลับติดอยู่ที่ 60%, 70%, 80% ไม่ยอมขึ้นไปมากกว่านี้
ทั้งสองเส้นทางดูไม่ถูกต้อง ทีมงานเข้าสู่สถานะที่เรียกว่า “Code Yellowish” ซึ่งไม่ใช่ Code Red ที่คุกคามการอยู่รอด แต่เป็น “ทิศทางการวิจัยมีปัญหา ต้องหยุดเพื่อชำระหนี้การวิจัย”
ดังนั้น ทีมงานจึงตัดสินใจที่ขัดกับกระแสหลักอย่างมากในตอนนั้น: หยุดการตีพิมพ์บทความทั้งหมด ใช้เวลาหนึ่งปีครึ่ง ไม่ทำอะไรเลย แค่สะสมข้อมูล พวกเขาจ้างผู้ปฏิบัติงานมืออาชีพประมาณ 10 คน ใช้วิธีการควบคุมระยะไกล (teleop) เพื่อเก็บข้อมูลการสาธิตจากผู้เชี่ยวชาญคุณภาพสูงสำหรับงานต่างๆ หลายร้อยงานในสภาพแวดล้อมห้องครัวขนาดเล็ก และในที่สุดก็สะสมวิถีได้ประมาณ 87,000 เส้นทาง ซึ่งในวันนี้อาจดูไม่มาก แต่ในตอนนั้นมันเป็นการเดิมพันที่ทุ่มสุดตัว โดยเดิมพันว่าเส้นทาง “ข้อมูลคุณภาพสูงแบบออฟไลน์ + การเรียนรู้แบบมีผู้สอน” ซึ่งทั้งวงการมองว่าเป็น “ของเล่นในบทแรก” จะสามารถขยายขนาดบนหุ่นยนต์จริงได้หรือไม่
ที่ว่าขัดกับกระแสหลัก เพราะความเชื่อทางวิชาการในตอนนั้นชัดเจนมาก Ted เล่าว่าในปี 2016 ในชั้นเรียนการเรียนรู้ของหุ่นยนต์ครั้งแรกที่ Berkeley อาจารย์เริ่มต้นด้วยการสอน BC ก่อน จากนั้นก็คือ “ทำไม BC ถึงใช้ไม่ได้” ซึ่งได้แก่ compounding errors, distribution shift สรุปคือ BC แก้ได้แค่ปัญหาของเล่น ที่เหลือต้องใช้ RL ความเชื่อที่ว่า “BC ทำได้ถึง 70% แล้ว RL จะพาคุณไปถึง 90%” เกือบจะเป็นกฎเหล็กในตอนนั้น
แต่ในช่วงเวลาแห่งความเงียบงัน “Code Yellowish” นั้น Yao Lu ผู้เชี่ยวชาญด้านโครงสร้างพื้นฐานคนหนึ่งของทีมได้เขียนเทรนเนอร์ทั้งหมดใหม่ตั้งแต่ระดับรากฐาน หลังจากเขียนใหม่ BC ก็ไม่ชนกำแพงอีกต่อไป มันพุ่งจากเพดาน 80% ไปถึง 90%, 95% และยังคงเพิ่มขึ้นเรื่อยๆ เมื่อมีข้อมูลจากโลกจริงเพิ่มขึ้น
ในขณะนั้น ข้อมูลได้พูดออกมาแล้ว Imitation Learning ขนาดใหญ่ไม่เพียงแต่ใช้การได้ แต่มันคือ “สูตรสำเร็จ” (recipe) ที่พวกเขาต้องการ ทีมงานจึงออกจากสถานะ Code Yellowish ด้วยความมั่นใจ และผลักดันขนาดข้อมูล teleop ขึ้นไปอีกหนึ่งระดับ โดยมีเป้าหมายเพื่อแก้ไขงานหลายพันงานในห้องครัวขนาดเล็ก
ช่วงนี้สามารถสรุปได้ว่า “slowing down to speed up”: ชะลอการตีพิมพ์บทความ ชำระหนี้ทางเทคนิค แต่กลับสะสมทรัพย์สินที่หายากที่สุดสำหรับการระเบิดในภายหลัง ซึ่งไม่ใช่อัลกอริทึมใดๆ แต่เป็นข้อมูลหุ่นยนต์จริงคุณภาพสูงที่สามารถขยายขนาดได้
ถึงจุดนี้ ยุคแรก “การพิสูจน์การมีอยู่” ก็完成了ภารกิจของมัน มันพิสูจน์ว่าการเรียนรู้แบบ End-to-End บนแขนกลจริงใช้การได้ และยังพิสูจน์ว่าข้อมูลคือคอขวดที่แท้จริงในตอนนั้น การรับรู้นี้ผลักดันการเรียนรู้ของหุ่นยนต์เข้าสู่ยุคถัดไปโดยตรง: ยุคแห่งโมเดลพื้นฐาน
ยุคแห่งโมเดลพื้นฐาน:
อาศัยลมจาก LLM
ประมาณปี 2022 วงการการเรียนรู้ของหุ่นยนต์เผชิญกับ “พายุที่สมบูรณ์แบบ” จากภายนอก นั่นคือ Large Language Model และ Vision-Language Model เริ่มแสดงให้เห็นถึงความสามารถทั่วไปและการเกิดขึ้นจริงอย่างแท้จริง สำหรับนักวิจัยหุ่นยนต์ นี่คือ “เทคโนโลยีจากนอกโลก” ที่ไม่เคยมีมาก่อน แต่เห็นได้ชัดว่าสามารถนำมาใช้ประโยชน์ได้
ในขณะเดียวกัน การเรียนรู้ของหุ่นยนต์เองก็กำลังเกิดการเปลี่ยนแปลงกระบวนทัศน์: จาก Reinforcement Learning แบบออนไลน์ (หุ่นยนต์สะสมประสบการณ์ไปพร้อมกับการทำงาน) ไปสู่ Imitation Learning แบบออฟไลน์ขนาดใหญ่ (การสาธิตของมนุษย์ → การเรียนรู้แบบมีผู้สอน) การทับซ้อนของสองแนวโน้มนี้สร้างหน้าต่างทางประวัติศาสตร์สำหรับการนำโมเดลพื้นฐานเข้าสู่สาขาหุ่นยนต์

ผลงานแรกที่เปิดตัวคือ SayCan ซึ่งเป็นการ “จับมือ” ครั้งแรกระหว่าง Language Model กับหุ่นยนต์อย่างแท้จริง
การออกแบบหลักคือการใช้ Language Model เป็นตัววางแผน: เมื่อเผชิญกับคำสั่ง เช่น “วางแอปเปิ้ลบนโต๊ะ” Language Model จะทำหน้าที่สร้างแผนระดับสูงที่สมเหตุสมผล ในขณะที่หุ่นยนต์จะใช้ฟังก์ชันค่าที่เรียนรู้มาเพื่อประเมินว่าขั้นตอนย่อยใดบ้างที่สามารถทำได้จริงในสภาพแวดล้อมปัจจุบัน ผลลัพธ์ของทั้งสองจะถูกถ่วงน้ำหนักร่วมกัน: Language Model ให้การให้เหตุผลตามสามัญสำนึก ส่วนฟังก์ชันค่าให้ข้อจำกัดที่นำไปปฏิบัติได้จริง และสุดท้ายจะสร้างแผนปฏิบัติการที่ “ทั้งสมเหตุสมผลและสามารถดำเนินการได้”

บทความนี้มีจังหวะเวลาที่สมบูรณ์แบบ มันถูกนำไปใช้จริงไม่กี่เดือนก่อนที่ ChatGPT จะเปิดตัว พอดีกับกระแส Large Language Model ที่ถาโถมเข้าสู่สายตาสาธารณชน วิดีโอสาธิตของ SayCan ถ่ายทำโดย Fei Xia สมาชิกทีมเอง ผลิตออกมาได้อย่างยอดเยี่ยม จนทั้งออฟฟิศพิมพ์มันออกมาติดผนัง นี่เป็นสัญญาณแรก: โมเดลพื้นฐานอาจนำการก้าวกระโดดเชิงคุณภาพมาสู่สาขาหุ่นยนต์ได้จริง
ถ้า SayCan คือ “การใช้ Language Model ช่วยเหลือหุ่นยนต์” แล้ว RT-1 ก็ก้าวไปอีกขั้นใหญ่: ทำให้ตัวนโยบายหุ่นยนต์กลายเป็น Transformer ไปเลย
ตรรกะการออกแบบของมันเรียบง่ายแต่รุนแรง นั่นคือการแปลงคำสั่งภาษาและภาพที่สังเกตได้ทั้งหมดให้เป็น token และผลลัพธ์ก็คือ token การกระทำของหุ่นยนต์ที่ถูกทำให้ไม่ต่อเนื่องเช่นกัน ระบบทั้งหมดทำงานที่ความถี่ 3Hz มีพารามิเตอร์ประมาณ 50 ล้านตัว หลังจากฝึกบนชุดข้อมูลที่มี 87,000 เส้นทาง ครอบคลุมงานประมาณ 500 ชนิด RT-1 ก็เอาชนะ baseline Behavior Cloning ที่ใช้ ResNet-18 ทั้งหมดก่อนหน้านี้ได้อย่างง่ายดาย

ความสำคัญของ RT-1 ไม่ได้อยู่ที่การปรับปรุงประสิทธิภาพเท่านั้น แต่อยู่ที่การจัดหาโครงสร้างพื้นฐานการวิจัยที่สามารถนำกลับมาใช้ใหม่ได้: เมื่อมีจุดเริ่มต้นที่มั่นคงนี้แล้ว แนวคิดใหม่ๆ ที่ตามมาสามารถเชื่อมต่อและตรวจสอบได้อย่างรวดเร็ว
เมื่อ VLM ใช้ในการวางแผนได้ แล้วจะใช้มันสร้างข้อมูลได้หรือไม่? ทีมงานจึงเปิดตัว DIAL ต่อไป: ใช้ Vision-Language Model เพื่อติดป้ายกำกับวิถี 87,000 เส้นทางนั้นใหม่ โดยขยายคำอธิบายภาษาสำหรับงานหลายร้อยงานเป็นหลายล้านรายการ ทำให้โมเดลก้าวหน้าไปอีกขั้นในการสรุปทั่วไปทางภาษา ซึ่งคล้ายกับแนวคิด hindsight relabeling ในอดีต แต่ครั้งนี้ทำในพื้นที่ภาษา

การใช้ Language Model เป็นตัววางแผนหรือเครื่องมือติดป้ายกำกับข้อมูล เป็นเพียงการบูรณาการภายนอกเท่านั้น คำถามที่รุนแรงกว่านั้นคือ: เราสามารถใช้ Vision-Language Model โดยตรงเป็นโครงสร้างหลักของนโยบายได้หรือไม่?
นี่คือสิ่งที่ RT-2 (Vision-Language-Action Model, VLA) ทำ ทีมวิจัยได้ปรับโครงสร้างการทำนายการกระทำของหุ่นยนต์ใหม่เป็นงาน Visual Question Answering โดยเปลี่ยน VLM จากเครื่องมือภายนอกเป็นแกนหลัก และฝึกโมเดลหลายขนาดตั้งแต่ 5B ถึง 55B พารามิเตอร์ ผลลัพธ์น่าตกใจ: เมื่อเทียบกับ RT-1 มีความสามารถในการให้เหตุผลและการสรุปทั่วไปที่ไม่เคยเห็นมาก่อนเกิดขึ้นมากมาย

เมื่อมองย้อนกลับไป การก้าวกระโดดนี้อาจเกิดขึ้นเร็วกว่านี้ Ted Xiao ยอมรับว่า ในช่วง RT-1 ความพยายามส่วนใหญ่หมดไปกับการสร้างโมดูลต่างๆ ตั้งแต่เริ่มต้น (visual encoder, token compression, conditional attention ฯลฯ) ในขณะที่ตรรกะของ RT-2 ตรงกันข้ามโดยสิ้นเชิง นั่นคือเชื่อถือ VLM โดยตรง และปรับแต่งให้น้อยที่สุด แนวคิด “เอาทั้งหมดมา เปลี่ยนแปลงน้อยที่สุด” นี้ อาจนำไปปฏิบัติได้เร็วกว่าหนึ่งปี
หลังจากได้ลิ้มรสความหวานของการขยายขนาด ทีมงานเริ่มคิดถึงทิศทางการขยายที่รุนแรงยิ่งขึ้น: ข้อมูลไม่เพียงข้ามงานได้ แต่ข้ามรูปแบบหุ่นยนต์ได้หรือไม่?
โครงการ Open X-Embodiment ได้รวมสถาบันวิจัย 34 แห่งทั่วโลก นำข้อมูลหุ่นยนต์ที่แต่ละแห่งเก็บรวบรวมมารวมเป็นรูปแบบเดียวกันและเปิดเผยเป็นโอเพนซอร์ส ผลการฝึกอบรมแสดงให้เห็นว่าทักษะที่เรียนรู้จากหุ่นยนต์ประเภทหนึ่งสามารถถ่ายโอนไปยังหุ่นยนต์อีกประเภทหนึ่งได้ โดยเฉพาะพฤติกรรมที่เกี่ยวข้องกับคำอธิบายทางภาษา เช่น “ผลักไปด้านข้าง” “ใส่ในภาชนะ” เป็นต้น นี่คือการพิสูจน์การมีอยู่เบื้องต้นของการสรุปทั่วไปข้ามตัวตน

เมื่อมีฐานอย่าง RT-1 และ RT-2 แล้ว การวิจัยที่ตามมาก็รวดเร็วเหมือนต่อบล็อก ทีมงานลองใช้การแสดงการกระทำต่างๆ อย่างรวดเร็ว: bounding box, segmentation mask, chain of thought, affordance, การติดตามท่าทางมุมมองบุคคลที่หนึ่ง… ก่อนหน้านี้การสำรวจอัลกอริทึมต้องสร้างวงล้อขึ้นมาใหม่ตั้งแต่ต้น แต่ตอนนี้สามารถวนซ้ำอย่างรวดเร็วโดยใช้ baseline ที่แข็งแกร่ง Ted กล่าวว่านี่คือพลังของ “มวลวิกฤต” เมื่อจุดเริ่มต้นดีพอ ความเร็วในการตรวจสอบแนวคิดใหม่จะเพิ่มขึ้นแบบทวีคูณ ยุคของโมเดลพื้นฐาน โดยพื้นฐานแล้วคือการใช้เครื่องขยายสติปัญญาจากภายนอก เพื่อแก้ปัญหาสถานการณ์ “สร้างทุกอย่างจากศูนย์” ในวิทยาการหุ่นยนต์

จากวิถีสาธิตของมนุษย์ 87,000 เส้นทาง ไปจนถึงการให้เหตุผลที่เกิดขึ้นของ VLA และการถ่ายทอดความรู้ข้ามรูปแบบ แก่นของยุคโมเดลพื้นฐานคือการหยุดมองว่าหุ่นยนต์เป็นระบบที่โดดเดี่ยวซึ่งต้องปรับแต่งอย่างประณีต และเริ่มยืมความรู้ทางปัญญาทั้งหมดที่มีในด้านภาษาและวิทัศน์ เพื่อเชื่อมต่อกับโลกทางกายภาพด้วยต้นทุนที่น้อยที่สุด
คำถามที่ยุคนี้ทิ้งไว้คือสิ่งที่ยุคถัดไป ซึ่งก็คือยุคแห่งการขยายขนาด พยายามจะตอบ: เมื่อข้อมูลและโมเดลมีขนาดใหญ่พอ หุ่นยนต์จะเรียนรู้อะไรได้บ้าง?
ยุคแห่งการขยายขนาด: all in scaling
เมื่อเข้าสู่ยุคที่สาม ชนวนคือ VLA พิสูจน์แล้วว่าเส้นทางนี้ใช้การได้ แต่เพดานยังอยู่ไกล ดังนั้นโลกจึงเริ่มการขยายขนาดแบบมหาศาล ทั้งพารามิเตอร์ ข้อมูล และความซับซ้อนของตัวตน ระเบิดขึ้นพร้อมกัน
Ted เรียกช่วงนี้ว่า Scaling ถ้ายุคที่แล้วคือการยืมเครื่องขยายสติปัญญาของคนอื่น ยุคนี้คือการเพิ่มปริมาณในทุกมิติอย่างบ้าคลั่ง จนกว่าสิ่งใหม่จะเกิดขึ้น
ในยุคนี้ ผลงานสำคัญชิ้นแรกของ DeepMind คือ Gemini Robotics ที่เปิดตัวในเดือนมีนาคม 2025 จาก RT-2 ถึง Gemini Robotics ห่างกันหนึ่งปีครึ่ง แต่ระบบนิเวศภายนอกเปลี่ยนไปอย่างสิ้นเชิง สตาร์ทอัพอย่าง Physical Intelligence, Generalist AI ก่อตั้งขึ้น ทุนไหลทะลักเข้ามา ทุกคนตระหนักว่า VLA คือกระบวนทัศน์ และตอนนี้ต้องแข่งขันกันว่าใครจะสามารถขยายขนาดมันไปถึงขีดจำกัดทางกายภาพได้

ฝั่งฮาร์ดแวร์เปลี่ยนแปลงก่อน แพลตฟอร์ม ALOHA ของ Stanford นำเสนอข้อมูลเชิงลึกที่สำคัญ: ข้อมูลที่มีความถี่สูงและคุณภาพสูงอย่างแท้จริงเท่านั้นที่จะปลดล็อกขีดจำกัดของการจัดการที่คล่องแคล่ว ระบบสองแขน การควบคุมความถี่สูง การควบคุมระยะไกลที่ใช้งานง่าย สามารถทำการเคลื่อนไหวที่แขนกลเคลื่อนที่แขนเดียวในอดีตไม่เคยคิดฝันถึง ทีม Google DeepMind นำตัวตนที่ซับซ้อนมากขึ้นมาใช้อย่างรวดเร็ว ตั้งแต่ ALOHA ไปจนถึงหุ่นยนต์ฮิวแมนนอยด์ ความซับซ้อนของพื้นที่การกระทำนั้น远超 KUKA ในอดีต
แกนหลักของ Gemini Robotics fork มาจาก Gemini 2.0 โดยตรง Ted ประเมินว่า Gemini มีความแข็งแกร่งในด้านความเข้าใจหลายรูปแบบมาโดยตลอด และครั้งนี้ทีมหุ่นยนต์ได้รับข้อมูลปริมาณมาก ซึ่ง远超 87,000 เส้นทางที่สะสมไว้ในหนึ่งปีครึ่งก่อนหน้านี้ เมื่อขนาดเพิ่มขึ้น สิ่งแรกที่ต้องทำคือการ突破แนวคิด “กล่องดำ” ของ RT-2
ในยุค RT-2 ทีมงานนำ VLM มาใช้เป็นกล่องดำ โดยไม่ได้ดูรายละเอียดภายใน แต่ทีม Gemini Robotics มีโอกาสได้เห็น “วิธีการทำงานภายในโรงงานไส้กรอก” โดยตรง พวกเขาพบว่าข้อร้องเรียนจากภายนอกที่ว่า VLM ขาดสามัญสำนึกทางกายภาพ การให้เหตุผลเชิงพื้นที่ และการให้เหตุผลเชิงเวลา ปัญหาเหล่านี้สามารถแก้ไขได้โดยตรงภายใน Gemini
ดังนั้นจึงเกิด Gemini Robotics ER (Embodied Reasoning) ซึ่งไม่ใช่นโยบายหุ่นยนต์ แต่เป็น VLM ที่ได้รับการเสริมความสามารถในการให้เหตุผลแบบ embodied โดยเฉพาะ: มันสามารถตรวจจับวัตถุ 3 มิติ ชี้ 2 มิติ และทำนายมุมการจับ เมื่อความสามารถในการให้เหตุผลแบบ embodied ของ Vision-Language Model ถูกเติมเต็มแล้ว จึงป้อนให้กับนโยบาย VLA ระดับล่าง ความสามารถในการสรุปทั่วไปและความคล่องแคล่วของหุ่นยนต์ก็เพิ่มขึ้นตามธรรมชาติ
ต่อมา Gemini Robotics 1.5 ที่เปิดตัวได้นำผลประโยชน์ของยุคแห่งการให้เหตุผลมาสู่ embodied intelligence ในขณะนั้น โมเดลอย่าง DeepSeek R1, OpenAI o1 ทำให้อุตสาหกรรมตระหนักว่า: การนำกระบวนการ “คิด” เข้ามาในขั้นตอนการอนุมานสามารถปรับปรุงประสิทธิภาพของ Language Model ได้อย่างมีนัยสำคัญ Gemini Robotics 1.5 ได้移植กระบวนทัศน์นี้มาสู่สาขาหุ่นยนต์: นโยบายจะ “คิด” เป็นภาษาธรรมชาติก่อนดำเนินการ โดย分解งานระยะยาวเป็นคำสั่งระยะสั้น แล้วจึงดำเนินการทีละขั้นตอน

สิ่งที่ควรให้ความสนใจมากกว่าคือความสามารถในการถ่ายโอนการกระทำ: โครงข่ายประสาทเทียมเดียวกันสามารถนำประสบการณ์การเคลื่อนไหวที่รวบรวมจากหุ่นยนต์ประเภทหนึ่งไปใช้กับแพลตฟอร์มอื่นที่มีจลนศาสตร์แตกต่างกันโดยสิ้นเชิงแบบ zero-shot รวมถึงหุ่นยนต์ฮิวแมนนอยด์ แขนกล Franka และระบบสองแขน Aloha ซึ่งแตกต่างโดยพื้นฐานจากยุค “การฝึกข้ามตัวตน” ในช่วงแรกที่รวมข้อมูลจากหุ่นยนต์แขนเดียวที่มีรูปแบบใกล้เคียงกันหลายตัวเข้าด้วยกัน
ยุคแห่งการขยายขนาดไม่ใช่การผลักดันเชิงเส้นในทิศทางเดียว แต่เป็นการระเบิดพร้อมกันในหลายมิติ

ในมิติประสิทธิภาพของโมเดล กระบวนทัศน์หลังการฝึก (post-training) อย่าง Pi 0.6 เริ่มเป็นรูปเป็นร่าง: ฝึกนโยบายทั่วไปที่มีความสามารถในการสรุปทั่วไปสูงก่อน จากนั้นจึงปรับแต่งเฉพาะสำหรับงานระยะยาวและงานที่มีความแม่นยำสูง

ในมิติระบบการประเมิน เมื่อความสามารถที่โมเดลอ้างว่ามีนั้นกว้างขึ้นเรื่อยๆ การประเมินเองก็กลายเป็นความท้าทายใหญ่ ปัจจุบันมีวิธีแก้ปัญหาหลายอย่างเกิดขึ้น: การประเมินแบบ Sim-to-Real โดยใช้การจำลอง, การประเมินแบบกระจายข้ามสถาบันอย่าง RoboArena, และวิธีการตรวจสอบนโยบายโดยใช้ World Model
ในระดับข้อมูล Generalist AI ใช้ข้อมูลปฏิสัมพันธ์ 500,000 ชั่วโมงสำหรับการฝึกก่อนการฝึก โดยข้อมูลมนุษย์มุมมองบุคคลที่หนึ่ง (egocentric) กลายเป็นประเด็นร้อนในการวิจัยอย่างรวดเร็ว โดย NVIDIA, Pi และ Georgia Tech ต่างก็ลงทุนอย่างแข็งขัน การศึกษาเหล่านี้แสดงให้เห็นว่าการรวบรวมข้อมูลการปฏิบัติการจากมุมมองบุคคลที่หนึ่งของมนุษย์ในวงกว้าง และการพัฒนากลยุทธ์การฝึกอบรมที่สามารถจัดการกับข้อมูลดังกล่าวได้อย่างมีประสิทธิภาพ เป็นเส้นทางสำคัญในการ突破คอขวดของข้อมูลหุ่นยนต์

ในด้านการ商业化และวงล้อข้อมูล ตรรกะวงปิดแบบ Tesla เริ่มปรากฏในสาขาหุ่นยนต์: เมื่อหุ่นยนต์ถูกนำไปใช้งานในสถานการณ์จริง ต้นทุนการรวบรวมข้อมูลสามารถกระจายไปตามมูลค่าของบริการ本身 และข้อมูลจากสถานการณ์ที่หายากและผิดปกติก็จะสะสมตามธรรมชาติ
Ted เชื่อว่าสิ่งที่น่าหลงใหลที่สุดในยุคนี้ไม่ใช่ความก้าวหน้าทางเทคโนโลยีเพียงอย่างเดียว แต่เป็น “เอนโทรปี” ของทิศทางการวิจัยที่เพิ่มขึ้นอย่างรวดเร็ว ชุมชนไม่ได้จำกัดอยู่แค่เส้นทางเทคโนโลยีเดียวอีกต่อไป แต่ดำเนินไปหลายเส้นทางพร้อมกัน:
- World Models / Video Action Models: ใช้โมเดล generative เพื่อทำความเข้าใจโลกทางกายภาพ
- ข้อมูลมนุษย์และข้อมูลที่ไม่พึ่งพาตัวตนของหุ่นยนต์: รวมถึงวิดีโอ egocentric และการปฏิบัติการของมนุษย์ที่ติดตั้งเซ็นเซอร์
- การฝึกอบรมด้วยรางวัลที่ตรวจสอบได้: นำตรรกะ RLHF / verifiable reward จาก NLP มาสู่โลกทางกายภาพ
- ความแตกต่างทางปรัชญาระหว่าง Locomotion กับ Manipulation

แม้ว่าการอภิปรายส่วนใหญ่ในปัจจุบันจะเน้นไปที่สาขาการจัดการ (Manipulation) แต่สาขาการควบคุมการเคลื่อนไหว (Locomotion) ก็经历了การปฏิวัติอย่างเงียบๆ เช่นกัน หุ่นยนต์ที่สามารถเต้นรำและตีลังกาได้นั้นใกล้เคียงกับระดับ “สินค้าโภคภัณฑ์” แล้ว เบื้องหลังคือชุดวิธีการที่แตกต่างอย่างสิ้นเชิงจากการจัดการ: การถ่ายโอนแบบ Sim-to-Real แบบ zero-shot, Reinforcement Learning แบบออนไลน์ และโครงข่ายขนาดเล็ก
การเปรียบเทียบนี้ทำให้เกิดอุปมาอุปไมยที่ลึกซึ้ง: การจัดการ更像是การทำงานของสมองส่วนเปลือกสมอง (cerebral cortex) ซึ่งต้องการการเรียนรู้จากตัวอย่าง ข้อมูลผู้เชี่ยวชาญ และสัญญาณควบคุม ในขณะที่การควบคุมการเคลื่อนไหว更像是การทำงานของสมองน้อย (cerebellum) หรือไขสันหลัง ซึ่งเป็นแบบรีเฟล็กซ์และสัญชาตญาณ วิธีการรวมทั้งสองเข้าด้วยกัน และรวมเข้ากับความสามารถในการให้เหตุผลระยะยาวทั้งสามเป็นหนึ่งเดียว ถือเป็นหนึ่งในคำถามเปิดที่สำคัญที่สุดในสาขาการเรียนรู้ของหุ่นยนต์ในปัจจุบัน
ช่วงเวลา ChatGPT ของหุ่นยนต์ยังมาไม่ถึง แต่ชิ้นส่วนปริศนากำลังจะสมบูรณ์
ในตอนท้ายของการสัมภาษณ์ ผู้ดำเนินรายการถามว่า: ช่วงเวลา ChatGPT ของหุ่นยนต์จะมาถึงเมื่อไหร่?
Ted แยกคำถามนี้ออกเป็นสองส่วน ในระดับผลิตภัณฑ์ มันจะไม่ใช่การสาธิตง่ายๆ แต่เป็นระบบปฏิบัติการที่通用และเป็นสินค้าอุปโภคบริโภคอย่างแท้จริง เช่นเดียวกับ ChatGPT ในอดีต ที่ทำให้คนทั่วไปรู้สึกว่า “ใช้งานดี น่าประหลาดใจ ขาดไม่ได้” เขาคิดว่าสิ่งนี้อาจเกิดขึ้นภายในหนึ่งหรือสองปี หรืออาจใช้เวลานานกว่านั้น เหมือนกับทศวรรษที่รถยนต์ขับเคลื่อนอัตโนมัติใช้ตั้งแต่การระเบิดจนถึงการนำไปใช้จริง
ในระดับเทคนิค ไม่มีความก้าวหน้าเพียงอย่างเดียว แต่มีชิ้นส่วนปริศนาหลายชิ้นมาประกอบกันพร้อมกัน: สถาปัตยกรรม, Video Action Model, ระบบตอบสนองทั้งตัวขั้นสูง, การฝึกหลังการฝึก และวงล้อข้อมูล การเดิมพันส่วนตัวของ Ted อยู่ที่ Video Action Model และข้อมูลมนุษย์มุมมองบุคคลที่หนึ่ง
เนื้อหาเพิ่มเติมโปรดดูวิดีโอต้นฉบับ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33962
