คนที่ดูแล้วถึงกับอึ้ง — นี่อาจเป็นการสาธิตหุ่นยนต์ที่น่าตื่นเต้นที่สุดในปีนี้เท่าที่เคยมีมา
เมื่อไม่นานมานี้ Genesis AI ได้เปิดตัวโมเดลพื้นฐานหุ่นยนต์ตัวแรกของพวกเขาอย่างเป็นทางการ GENE-26.5 ซึ่งทำให้หุ่นยนต์สามารถทำงานต่างๆ ได้ด้วยตัวเอง เช่น ตอกไข่ เปิดฝาหลอดทดลอง เล่นเปียโน แก้รูบิค หั่นมะเขือเทศ เป็นต้น
ทำงานอัตโนมัติตลอดทั้งกระบวนการ ความเร็ว 1 เท่า โมเดลเดียวกัน
หลังจากเปิดตัว ผู้เชี่ยวชาญในอุตสาหกรรม เช่น อดีตรองประธาน 1x Eric Jang และศาสตราจารย์ ซ่ง ซูหราน ต่างก็แชร์และชื่นชมอย่างสูง


หากคุณรู้สึกไม่คุ้นเคยกับทีมที่เข้ามาในสายตาอย่างกะทันหันนี้ ภาพเคลื่อนไหวด้านล่างอาจช่วยกระตุ้นความทรงจำของคุณ

เมื่อกว่าหนึ่งปีที่แล้ว พวกเขาได้เปิดซอร์ส Genesis Physics Engine ที่สร้างความฮือฮาในวงการบน GitHub
เพียงแค่พูดประโยคเดียวก็สามารถสร้างโลกทางกายภาพขึ้นมาได้ ได้รับดาว 28.6k ดวง และนักวิชาการครึ่งวงการก็มีส่วนร่วม

ทีมผู้ก่อตั้งได้รับเงินทุน Seed Round มูลค่า 105 ล้านดอลลาร์ในช่วงกลางปี 2025 และเริ่มต้นธุรกิจ จากนั้นก็เงียบหายไปเกือบหนึ่งปี
ตอนนี้พวกเขากลับมาแล้ว
การสาธิตหุ่นยนต์ที่ระเบิดที่สุดในปีนี้
การสาธิต GENE-26.5 น่าจะเป็นเนื้อหาที่ควรค่าแก่การดูอย่างละเอียดที่สุดในวงการหุ่นยนต์ในปีนี้ เรามาดูกันอย่างรวดเร็ว
ฉากทำอาหาร
ภายในสี่นาที งานย่อย 20 งานเชื่อมต่อกันเป็นสายการผลิตที่สมบูรณ์ ตอกไข่ด้วยมือเดียว ควบคุมทิศทางของรอยแตกด้วยการประสานงานของห้านิ้ว
หั่นมะเขือเทศด้วยสองมือ มือหนึ่งปรับมุม อีกมือหนึ่งใช้มีด ผ้าเช็ดตัว เครื่องบดเกลือ ที่ตีไข่ มีด ทัพพี กระทะทอด ถูกนำมาใช้สลับกัน
ที่น่าสนใจคือ หลังจากตอกไข่เสร็จ มันยังใช้ผ้าเช็ดมืออีกด้วย ดูเป็นคนพิถีพิถันจริงๆ…
การดำเนินการในห้องปฏิบัติการ
ตั้งแต่การจับปิเปตไปจนถึงการใส่ในเครื่องหมุนเหวี่ยง ทั้งกระบวนการมีความแม่นยำระดับมิลลิเมตร ส่วนที่ยุ่งยากที่สุดคือการเปิดฝาหลอดทดลองและการเปลี่ยนท่าจับในมือ
แก้รูบิค
การทำงานร่วมกันของสองแขน หมุนกลับในอากาศอย่างต่อเนื่อง ปิดลูปแบบเรียลไทม์
ก่อนหน้านี้ มาตรฐานของการแก้รูบิคโดยไม่ใช้อุปกรณ์จับยึดเฉพาะคือมือเดียวของ OpenAI ในปี 2019 Genesis อ้างว่านี่คือความก้าวหน้าครั้งแรกของระบบสองแขนทั่วไป
**

△**ที่มา: OpenAI
ทำสมูทตี้
งานลำดับยาวที่ขับเคลื่อนด้วยคำสั่งภาษา เกี่ยวข้องกับของแข็ง วัตถุที่เปลี่ยนรูปได้ และของเหลว
พลิกหลอด
ทดสอบความสามารถในการจัดการกับวัตถุโปร่งใสที่เปราะบางมาก ขั้นตอนสุดท้ายของการพลิกในมือต้องอาศัยการประสานงานของหลายนิ้วอย่างสูง
การจับวัตถุหลายชิ้น
จับวัตถุสี่ชิ้นที่มีขนาดต่างกันพร้อมกันด้วยมือเดียว ใช้ท่าจับสี่แบบขนาน แสดงให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพของมือที่คล่องแคล่วเมื่อเทียบกับกริปเปอร์แบบดั้งเดิม
การจัดสายไฟ
“ภารกิจศักดิ์สิทธิ์” ของอุตสาหกรรมยานยนต์ ควบคุมสายเคเบิลที่ยืดหยุ่นด้วยสองมือเพื่อมัด แขวน และพันเทป นี่เป็นหนึ่งในงานควบคุมทางอุตสาหกรรมที่ยากที่สุดที่ได้รับการยอมรับ
เล่นเปียโน
เล่นเพลง Rush-E ประมาณ 130 BPM ออกแบบมาเพื่อทดสอบขีดจำกัดของสแต็กควบคุมโดยเฉพาะ กลยุทธ์นี้ได้รับการฝึกฝนแยกต่างหากในการจำลองผ่านการเรียนรู้แบบเสริมกำลัง
ทักษะที่ซับซ้อนส่วนใหญ่ข้างต้น GENE ต้องการข้อมูลหุ่นยนต์เฉพาะงานน้อยกว่า 1 ชั่วโมง และน้อยกว่า 200 episodes
ที่น่าสนใจคือ CEO ของ Genesis โจว เซียน กล่าวในการให้สัมภาษณ์กับ Business Insider ว่า:
ขั้นตอนการทำอาหารส่วนใหญ่มีอัตราความสำเร็จ 90% ถึง 95% แต่การตอกไข่ด้วยมือเดียวและการใช้มีดย้ายมะเขือเทศที่หั่นแล้วมีเพียง 50% ถึง 60% ความเร็วในการทำงานโดยรวมประมาณ 60-70% ของมนุษย์
เทคโนโลยี Full-Stack ทำงานอย่างไร
ในบล็อกของ Genesis มีประโยคหนึ่งที่ชี้ให้เห็นถึงแนวคิดทางเทคนิคทั้งหมด: การควบคุมไม่ใช่แค่ปัญหาการฝึกโมเดล แต่เป็นปัญหาเชิงระบบ จุดอ่อนในชั้นใดชั้นหนึ่งจะส่งผลกระทบต่อทั้งระบบ
ดังนั้นพวกเขาจึงเลือกที่จะพัฒนาทุกชั้นด้วยตนเอง
ฮาร์ดแวร์ มือที่มีขนาดเท่ากับมือมนุษย์
มือที่คล่องแคล่วที่ Genesis ใช้ในการสาธิตมี 20 องศาอิสระที่สามารถขับเคลื่อนย้อนกลับได้ ขนาด 1:1 กับมือมนุษย์ ฝ่ามือและนิ้วถูกหุ้มด้วยวัสดุอ่อนนุ่มเพื่อจำลองการสัมผัสทางผิวหนัง
การออกแบบนี้ทำให้การเคลื่อนไหวของมือมนุษย์สามารถแมปไปยังหุ่นยนต์ได้โดยตรง โดยไม่ต้องใช้อัลกอริธึมการเปลี่ยนทิศทางที่ซับซ้อน

ที่น่าสนใจคือ ผู้เชี่ยวชาญในอุตสาหกรรมหลายคนชี้ให้เห็นว่ามือคู่นี้มีความคล้ายคลึงกับผลิตภัณฑ์ของบริษัทมือที่คล่องแคล่วในประเทศ Wuji Tech อย่างมาก
บล็อกอย่างเป็นทางการของ Genesis เรียกมันว่า Genesis Hand 1.0 แต่ไม่ได้ระบุรายละเอียดแหล่งที่มาของฮาร์ดแวร์

กลับมาที่ปัญหาขนาดของมือ ทำไมต้องทำขนาด 1:1 กับมือมนุษย์? เพราะในวงการหุ่นยนต์มีปัญหาที่เรียกว่า “ช่องว่างทางกายภาพ” (Embodiment Gap): มือมนุษย์และมือหุ่นยนต์มีรูปร่างแตกต่างกัน ข้อมูลการเคลื่อนไหวของมนุษย์จึงไม่สามารถถ่ายโอนไปยังหุ่นยนต์ได้โดยตรง
วิธีแก้ปัญหาของ Genesis นั้นตรงไปตรงมา: ทำมือให้เหมือนกันทุกประการ ช่องว่างก็จะหายไปเอง

สแต็กควบคุมก็ถูกเขียนใหม่ทั้งหมด Genesis เปลี่ยนคอนโทรลเลอร์จากโรงงานของผู้ผลิตแขนกลทั้งหมด พัฒนามิดเดิลแวร์ของตัวเองที่ทำงานบนเคอร์เนลแบบเรียลไทม์ PREEMPT_RT ความถี่การสื่อสาร EtherCAT 500Hz ความหน่วงแบบ end-to-end ต่ำสุดที่ 3 มิลลิวินาที
คอนโทรลเลอร์ดั้งเดิมวาดวงกลมขนาด 15 ซม. มีข้อผิดพลาดในการติดตามถึง 20 มม. หลังจากเปลี่ยนเป็นคอนโทรลเลอร์ของ Genesis ข้อผิดพลาดลดลงเหลือ 2 มม. ซึ่งดีขึ้นถึงหนึ่งลำดับความสำคัญ ความหน่วงในการติดตามข้อต่อเดี่ยวลดลงจาก 80 มิลลิวินาทีเหลือ 9 มิลลิวินาที

ความสำคัญของชั้นนี้คือ: เมื่อข้อมูลการฝึกมาจากการเคลื่อนไหวของมนุษย์แทนที่จะเป็นการควบคุมระยะไกลของหุ่นยนต์ ความหน่วงและข้อผิดพลาดของระบบควบคุมจะสร้างช่องว่างระหว่างสัญญาณการฝึกและการดำเนินการจริง ยิ่งความหน่วงต่ำ ข้อมูลของมนุษย์ก็ยิ่งใช้งานได้ง่ายขึ้น
ข้อมูล ให้คนงานเก็บข้อมูลไปพร้อมกับการทำงาน
ในด้านการเก็บข้อมูล Genesis ใช้ถุงมือเก็บข้อมูลที่ออกแบบมาให้เข้ากับมือที่คล่องแคล่วเป็นหลัก
มือหุ่นยนต์และมือมนุษย์มีขนาดเท่ากัน การเคลื่อนไหวของนิ้วที่บันทึกโดยถุงมือสามารถแมปไปยังหุ่นยนต์ได้โดยไม่สูญเสีย โดยไม่ต้องใช้อัลกอริธึมการเปลี่ยนทิศทางที่ซับซ้อน ต้นทุนฮาร์ดแวร์เป็น 1% ของโซลูชันแบบดั้งเดิม และประสิทธิภาพการเก็บข้อมูลสูงกว่าการควบคุมระยะไกลถึงห้าเท่า
เอ็นจิ้นข้อมูลมีแหล่งที่มาสามชั้น

ข้อมูลจากถุงมือให้สัญญาณการเคลื่อนไหวของมือและสัญญาณสัมผัสที่มีความเที่ยงตรงสูงสุด วิดีโอมุมมองบุคคลที่หนึ่งจับภาพพฤติกรรมตามธรรมชาติและความหลากหลายของงาน วิดีโออินเทอร์เน็ตมุมมองบุคคลที่สามให้การครอบคลุมในวงกว้าง
ข้อมูลทั้งสามชั้นก่อให้เกิดการกระจายแบบพาเรโตในด้านคุณภาพและขนาด Genesis และพันธมิตรได้รวบรวมข้อมูลมัลติโมดัลมากกว่า 200,000 ชั่วโมง
Gervet ประธาน Genesis กล่าวกับ TechCrunch อย่างน่าสนใจว่า: ถุงมือนี้ช่วยให้ช่างเทคนิคในห้องปฏิบัติการหรือคนงานในโรงงานสามารถเก็บข้อมูลไปพร้อมกับทำงานประจำวันได้ โดยไม่รบกวนขั้นตอนการทำงาน
แน่นอน TechCrunch ก็ถามคำถามที่เฉียบคมเช่นกัน: คนงานจะยินดีสวมถุงมือและกล้องเพื่อฝึกหุ่นยนต์ที่อาจมาแทนที่พวกเขาในที่สุดหรือไม่?
คำตอบของ Gervet คือ: ขึ้นอยู่กับการเจรจาระหว่างลูกค้าและพนักงาน รายละเอียดเฉพาะยังไม่ได้รับการสรุป
โมเดล การกระจายร่วมของวิถีที่เป็นหนึ่งเดียว
เป้าหมายของโมเดล GENE-26.5 คือการเรียนรู้โมเดลที่เป็นหนึ่งเดียวที่สามารถดูดซับภาษา ภาพ การรับรู้ตำแหน่งของร่างกาย การสัมผัส และการกระทำไปพร้อมกัน มันใช้ flow matching เพื่อสร้างแบบจำลองการกระจายร่วมของวิถี เพื่อจับภาพความเป็นไปได้ในอนาคตแบบมัลติโมดัล
การออกแบบที่สำคัญมีดังนี้:
ประการแรก รองรับการฝึกที่ปรับขนาดได้กับข้อมูลที่ต่างกันและสังเกตได้บางส่วน สตรีมวิดีโอมุมมองบุคคลที่หนึ่ง ข้อมูลถุงมือ ข้อมูลควบคุมหุ่นยนต์ วิดีโออินเทอร์เน็ต สามารถฝึกด้วยกันได้โดยไม่ต้องจัดตำแหน่งอย่างชัดเจน
ประการที่สอง โมเดลเดียวกันจัดการทุกงาน การควบคุม การประมาณสถานะ ไดนามิกผกผัน การอนุมานเป้าหมาย กลายเป็นการสอบถามแบบมีเงื่อนไขของการกระจายร่วม โหมดที่ขาดหายไปจะถูกอนุมานผ่านการลดสัญญาณรบกวน
ประการที่สาม สามารถดูดซับความรู้ล่วงหน้าจากโมเดลที่ผ่านการฝึกแล้วได้อย่างยืดหยุ่น VLM ให้ความเข้าใจเชิงความหมาย World Model ให้พลศาสตร์เชิงเวลาและทางกายภาพ
พูดง่ายๆ ก็คือ โมเดลเดียวกินข้อมูลทุกโหมดและทำงานทุกประเภท ฉากต่างๆ ที่แสดงในการสาธิต ยกเว้นการเล่นเปียโนที่ฝึกด้วยการเรียนรู้แบบเสริมกำลังแยกต่างหาก ส่วนที่เหลือทั้งหมดใช้น้ำหนักชุดเดียวกัน
การฝึกและการประเมิน การจำลองคือตัวเร่ง
ทีม Genesis ใส่กราฟ scaling สามกราฟในบล็อก ซึ่งเปิดเผยข้อมูลสำคัญในสูตรการฝึก
ในขั้นตอนการฝึกก่อน (pre-training) การประเมินแบบ open-loop แสดงให้เห็นว่าเมื่อขนาดโมเดลและปริมาณการคำนวณเพิ่มขึ้น การสูญเสียในการตรวจสอบยังคงลดลงอย่างต่อเนื่อง ซึ่งสอดคล้องกับกฎ scaling แบบคลาสสิก
แต่พวกเขาเน้นย้ำว่าตัวชี้วัดแบบ open-loop นั้นไม่เพียงพอสำหรับหุ่นยนต์ สิ่งสำคัญคือประสิทธิภาพแบบ closed-loop นั่นคือการกระทำของโมเดลจะส่งผลต่อฉากแบบปิดลูปของการสังเกตที่ตามมา

ณ จุดนี้ ความเชี่ยวชาญดั้งเดิมของ Genesis Physics Engine ก็ถูกนำมาใช้ พวกเขาใช้ Genesis World Simulator เวอร์ชันล่าสุดเพื่อทำการประเมินแบบ closed-loop ในวงกว้าง โดยไม่ต้องทำ co-training ใดๆ บนข้อมูลจำลอง ความเที่ยงตรงของสภาพแวดล้อมจำลองก็เพียงพอที่จะประเมินโมเดลที่ฝึกในโลกจริงได้โดยตรง
แต่ละจุดข้อมูลสอดคล้องกับการตั้งค่าการประเมิน 200 รายการและเวลาทำงานของหุ่นยนต์มากกว่า 150 ชั่วโมง หากกราฟทั้งหมดทำงานในโลกจริง จะต้องใช้เวลาคน-หุ่นยนต์ 2,700 ชั่วโมง สรุปคือ ยิ่งมีข้อมูลการฝึกก่อนมาก ความสามารถในการสรุปแบบ zero-shot ก็ยิ่งแข็งแกร่ง

เมื่อถึงขั้นตอน fine-tuning ก็กลับมาสู่โลกจริง พวกเขาสร้างงานใหม่ที่ไม่มีในข้อมูลการฝึกก่อนโดยเฉพาะ ทดสอบภายใต้เงื่อนไขข้อมูลปริมาณน้อยมาก แต่ละงานใช้ข้อมูลเพียง 20 ถึง 30 นาที

ทักษะที่ซับซ้อนที่แสดงในการสาธิต ส่วนใหญ่ต้องการข้อมูลหุ่นยนต์เฉพาะงานน้อยกว่า 1 ชั่วโมง คิดเป็นน้อยกว่า 200 episodes ยิ่งขนาดการฝึกก่อนใหญ่ การ fine-tuning ก็ยิ่งเร็วขึ้น ความต้องการข้อมูลก็ยิ่งน้อยลง และประสิทธิภาพสุดท้ายก็ยิ่งดีขึ้น
โจว เซียน กล่าวกับ TechCrunch ว่า: คอขวดที่แท้จริงของความเร็วในการวนซ้ำโมเดลคือการประเมิน การจำลองช่วยเร่งวงจรนี้ได้อย่างมาก
จาก Physics Engine สู่หุ่นยนต์ทั่วไป
ปลายปี 2024 Genesis Physics Engine ที่นำโดย ดร. โจว เซียน จาก CMU ได้เปิดตัวเป็นโอเพนซอร์สอย่างเป็นทางการ
แพลตฟอร์มจำลองที่สร้างด้วย Python ล้วนนี้ มีประสิทธิภาพการทำงานเร็วกว่า NVIDIA Isaac Gym 10 ถึง 80 เท่า กลายเป็นโครงการโอเพนซอร์สด้านหุ่นยนต์อัจฉริยะที่มีร่างกาย (Embodied AI) ที่ใหญ่ที่สุดบน GitHub อย่างรวดเร็ว ดึงดูดสถาบันวิจัยมากกว่า 20 แห่งให้เข้าร่วมในการพัฒนา
โจว เซียน สำเร็จการศึกษาระดับปริญญาตรีจาก Nanyang Technological University สิงคโปร์ และเป็นผู้ริเริ่ม Genesis Physics Engine

ต้นปี 2025 Genesis AI ได้จดทะเบียนจัดตั้งอย่างเป็นทางการในฝรั่งเศส โดย โจว เซียน ดำรงตำแหน่ง CEO และประธานคือ Théophile Gervet Gervet มาจาก CMU เช่นกัน ก่อนหน้านี้เคยเป็นนักวิจัยรุ่นแรกที่ Skild AI ซึ่งเป็นยูนิคอร์นด้านหุ่นยนต์อัจฉริยะที่มีร่างกาย ต่อมาได้เข้าร่วม Mistral AI ในตำแหน่งนักวิจัย

ทั้งสองคนเป็นศิษย์ร่วมสำนักเดียวกัน โดยมีอาจารย์ที่ปรึกษาคือ Katerina Fragkiadaki
เพียงไม่กี่เดือนหลังจากก่อตั้งบริษัท ทีมงานก็ได้รับเงินทุน Seed Round มูลค่า 105 ล้านดอลลาร์ นำโดย Eclipse และ Khosla Ventures โดยมี Eric Schmidt อดีต CEO ของ Google และ Xavier Niel ยักษ์ใหญ่ด้านโทรคมนาคมของฝรั่งเศสเข้าร่วมลงทุนส่วนตัว รวมถึง Bpifrance ธนาคารเพื่อการลงทุนแห่งชาติของฝรั่งเศสก็อยู่ในรายชื่อนักลงทุนด้วย
สำหรับการอ้างอิง การระดมทุน Seed Round ที่ใหญ่ที่สุดในสาขาหุ่นยนต์อัจฉริยะที่มีร่างกายก่อนหน้านี้คือ 70 ล้านดอลลาร์ของ Physical Intelligence
หลังจากได้รับเงินทุน ทีมงานไม่ได้รีบเปิดตัวผลิตภัณฑ์ แต่ใช้เวลาเกือบหนึ่งปีในการสร้างระบบ Full-Stack อย่างจริงจัง
วันนี้ GENE-26.5 ได้เปิดตัวอย่างเป็นทางการ โมเดล ฮาร์ดแวร์ สแต็กควบคุม และซิมูเลเตอร์ถูกปล่อยออกมาพร้อมกันทั้งหมด ทีมงานขยายจากไม่กี่คนเริ่มต้นเป็น 60 คน ทำงานในสามแห่งคือ ปารีส แคลิฟอร์เนีย และลอนดอน โดยสัดส่วนทีมในยุโรปและอเมริกาอยู่ที่ประมาณ 40-60 ปัจจุบันได้รวบรวมข้อมูลมัลติโมดัลมากกว่า 200,000 ชั่วโมง และกำลังเจรจาความร่วมมือกับลูกค้าในหลายอุตสาหกรรม
โจว เซียน เปิดเผยกับ TechCrunch ว่าเร็วๆ นี้จะมีการประกาศหุ่นยนต์ทั่วไปตัวแรก ซึ่งครอบคลุมทั้งร่างกาย ไม่ใช่แค่มือ
ลิงก์อ้างอิง
[1]https://x.com/gs_ai/status/2052050956272230577_
[2]https://x.com/zhou_xian/status/2052051823742312861_
[3]https://www.aol.com/articles/look-hands-genesis-ai-says-130001205.html
[4]https://github.com/Genesis-Embodied-AI/genesis-world
[5]https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level
[6]https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/
20 พฤษภาคม เราจะจัดงาน China AIGC Industry Summit ประจำปีที่ โรงแรม Jin Mao Renaissance ปักกิ่ง
รายชื่อผู้บรรยายชุดแรกได้รับการประกาศแล้ว! Fang Han จาก Kunlun Wanwei, Wu Weijie จาก Zhipu, Deng Yafeng จาก EverMind, Yi Zhengchao จาก Fengxing Online, Zhu Guangxiang จาก Baidu Miaoda, Zhang Lu จาก Fusion Fund, Huang Chao จาก University of Hong Kong, Feng Lei จาก MarsWave ยืนยันเข้าร่วมแล้ว 🔍ดูรายละเอียด
ร่วมกับเรา อย่าเพียงแค่พูดถึงอนาคตของ AI แต่ ใช้มันเลยตอนนี้ 👉 ลงทะเบียนเข้าร่วม
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33536
