ความก้าวหน้าครั้งใหม่ของปัญญาประดิษฐ์แบบมีกายภาพ: Dexbotic 2.0 เชื่อมโยง SFT และ RL เข้าด้วยกัน การวิวัฒนาการของโมเดล VLA สู่กระบวนทัศน์ทองคำ

17 hours ago • โครงการโอเพนซอร์ส • 21 views

เมื่อเร็วๆ นี้ Yuanli Lingji (原力灵机) ได้ประกาศอย่างเป็นทางการว่า Dexbotic เฟรมเวิร์กเนทีฟแบบโอเพนซอร์สสำหรับหุ่นยนต์อัจฉริยะ ได้รองรับ RLinf อย่างสมบูรณ์ในฐานะแบ็กเอนด์สำหรับการเรียนรู้แบบเสริมกำลังแบบกระจาย สำหรับนักพัฒนาในสาขาหุ่นยนต์อัจฉริยะ นี่ไม่ใช่การปรับเปลี่ยนทางวิศวกรรมทั่วไป แต่เป็นสัญญาณว่าปัญหาที่ค้างคามานานของ “ความแตกแยกระหว่าง SFT และ RL” ในการพัฒนาโมเดล VLA กำลังจะได้รับการแก้ไขอย่างเป็นรูปธรรม

นี่คือรูปแบบ “ความร่วมมือแบบเลโก้” โดยทั่วไป: ทั้งสองฝ่ายไม่บังคับ Fork หรือผสมโค้ดอย่างหยาบๆ แต่รักษาขอบเขตที่ชัดเจนของตนเอง และประกอบเป็นโมดูลาร์ผ่านอินเทอร์เฟซมาตรฐาน Dexbotic ไม่ได้ซ่อนหรือแทนที่ RLinf แต่ให้ทางเข้าที่เป็นธรรมชาติสำหรับความสามารถของมัน ในขณะที่ RLinf ก็ไม่ได้รุกล้ำระบบนิเวศนโยบายของ Dexbotic แต่สร้างฐานที่มั่นคงสำหรับการฝึกอบรมหลังโมเดลด้วยความสามารถในการเรียนรู้แบบเสริมกำลังแบบกระจายที่เสถียรและเชื่อถือได้

ความก้าวหน้าครั้งใหม่ของปัญญาประดิษฐ์แบบมีกายภาพ: Dexbotic 2.0 เชื่อมโยง SFT และ RL เข้าด้วยกัน การวิวัฒนาการของโมเดล VLA สู่กระบวนทัศน์ทองคำ

ที่สำคัญยิ่งกว่านั้น Dexbotic ได้นำความสามารถแบบกระจายดั้งเดิมของ RLinf กลับมาใช้ใหม่อย่างสมบูรณ์ผ่านอะแดปเตอร์แบ็กเอนด์ ซึ่งครอบคลุม Cluster, HybridComponentPlacement, กลุ่ม Actor/Rollout/Env Worker และ EmbodiedRunner ปัจจุบัน การผสานรวมนี้ได้รับการตรวจสอบแบบ end-to-end ในชุดงาน LIBERO และรองรับอัลกอริธึมเช่น PPO สำหรับการฝึกอบรมหลังโมเดล สำหรับนักพัฒนา นั่นหมายความว่าตั้งแต่การพัฒนาโมเดล การจัดการ Checkpoint ของ SFT ไปจนถึงการเขียนการกำหนดค่า RL และการเริ่มต้นงาน ในที่สุดก็สามารถเชื่อมต่อกันอย่างเป็นธรรมชาติในกระบวนการพัฒนาเดียวกัน

หากกระบวนทัศน์ทองคำในยุคของโมเดลภาษาขนาดใหญ่คือ “Pre-training + SFT + RLHF” ในยุคของหุ่นยนต์อัจฉริยะ “VLA Pre-training / SFT + การฝึกอบรมหลังโมเดล RL ขนาดใหญ่” กำลังกลายเป็นเส้นทางวิวัฒนาการโมเดลใหม่ การเชื่อมต่อระหว่าง Dexbotic และ RLinf คือก้าวสำคัญที่กระบวนทัศน์นี้จะก้าวไปสู่สถานะ “PyTorch” ในสาขาหุ่นยนต์อัจฉริยะ

การปรับโครงสร้าง: การแยกส่วนโมดูล V-L-A และการฝึกอบรมแบบผสมหลายแหล่ง

ในการทำงานในโลกทางกายภาพที่ซับซ้อน หุ่นยนต์จำเป็นต้องมีความสามารถสามอย่างพร้อมกัน: การรับรู้ทางภาพที่เฉียบคม การรับรู้เชิงตรรกะที่ทรงพลัง และการควบคุมการเคลื่อนไหวที่แม่นยำ ในอดีต ทั้งสามอย่างนี้มักถูกผสมรวมกันในเครือข่ายกล่องดำที่หนาแน่นมาก ซึ่งไม่เพียงแต่มีต้นทุนการฝึกอบรมสูง แต่การปรับปรุงโมดูลใดโมดูลหนึ่งเพียงอย่างเดียวก็ต้อง重构ทั้งระบบ

Dexbotic 2.0 จัดการกับจุดเจ็บปวดนี้โดยตรง โดยเป็นรายแรกในอุตสาหกรรมที่แยกส่วน V (Vision Encoder), L (LLM) และ A (Action Expert) ออกจากกันอย่างสมบูรณ์

การออกแบบสถาปัตยกรรมแบบ “เลโก้” นี้ นำมาซึ่งความยืดหยุ่นทางวิศวกรรมที่ไม่เคยมีมาก่อน: ระบบเดียวกันสามารถอัปเกรด เปลี่ยน หรือผสมผสานได้อย่างอิสระในสามระดับของการรับรู้ การรับรู้เชิงตรรกะ และการควบคุม ซึ่งหมายความว่าวิศวกรอัลกอริธึมสามารถเชื่อมต่อ Vision Backbone ล่าสุดเข้ากับระบบเดิมได้อย่างง่ายดายเพื่อทดสอบการปรับปรุงความสามารถในการรับรู้เชิงพื้นที่ หรือเปลี่ยน Action Head ที่แตกต่างกันเพื่อให้เข้ากับแขนกลที่มีองศาอิสระต่างกัน การออกแบบที่สอดคล้องกับหลักการ “Open-Closed Principle” ในวิศวกรรมซอฟต์แวร์นี้ อำนวยความสะดวกอย่างมากในการทดสอบโมเดลใหม่อย่างรวดเร็ว

บนพื้นฐานของการแยกส่วน Dexbotic 2.0 นำเสนอคุณสมบัติการฝึกอบรมที่สำคัญเชิงกลยุทธ์ที่สุด: การฝึกอบรมแบบผสมข้อมูลหลายแหล่ง (Co-training)

การฝึกอบรมโมเดลหุ่นยนต์แบบดั้งเดิมมักเผชิญกับภาวะilemma: ข้อมูลอินเทอร์เน็ตบริสุทธิ์ขาดความหมายเชิงปฏิบัติการในโลกทางกายภาพ ในขณะที่ข้อมูลวิถีหุ่นยนต์จริงนั้นหายากมากและยากที่จะครอบคลุมสถานการณ์ Long-tail วิธีแก้ปัญหาของ Dexbotic คือการให้โมเดลเรียนรู้ที่จะ “เข้าใจโลก” และ “ลงมือปฏิบัติ” ไปพร้อมกันผ่านกระบวนการฝึกอบรมเดียวกัน

โดยเฉพาะอย่างยิ่ง โมเดล Vision-Language (VLM) จะรับข้อมูลมัลติมีเดียจากอินเทอร์เน็ต (ภาพ/วิดีโอ + ข้อความ) พร้อมกับวิถีการทำงานจริงของหุ่นยนต์ บนข้อมูลอินเทอร์เน็ต โมเดลจะเรียนรู้ความสามารถในการสรุปทั่วไปสามประเภท: การสร้างคำอธิบายที่แม่นยำสำหรับฉาก (Caption), การ分解คำสั่งขนาดใหญ่เป็นขั้นตอนย่อยที่ดำเนินการได้ (Subtask) และการยึดโยงภาษาธรรมชาติกับวัตถุเฉพาะในพื้นที่สามมิติ (Grounding) บนพื้นฐานนี้ Action Expert จะเชื่อมต่อกับระบบเพื่อแปลงความเข้าใจเชิงความหมายระดับสูงข้างต้นเป็นลำดับการควบคุมทางกายภาพที่ต่อเนื่องโดยตรง (เช่น การหยิบ การเคลื่อนย้าย การวาง)

ในการอัปเดตล่าสุด Dexbotic ยังรองรับความสามารถ Co-training (การเพิ่มประสิทธิภาพร่วมของ Action Expert + LLM) สำหรับโมเดล CogACT และ Pi0.5 ข้อมูลอินเทอร์เน็ตจำนวนมหาศาลทำให้โมเดลมี “ความเข้าใจเชิงความหมายทั่วไป” ในขณะที่ข้อมูลวิถีหุ่นยนต์ทำให้โมเดลมี “ทักษะการปฏิบัติที่นำไปใช้ได้จริง” การเพิ่มประสิทธิภาพร่วมกันของทั้งสองทำให้หุ่นยนต์สามารถ “พูดได้ชัดเจน มองเห็นได้แม่นยำ และทำได้ถูกต้อง” อย่างแท้จริง

การแก้ปัญหาทางวิศวกรรม: กระบวนทัศน์ทองคำ SFT + RL และการออกแบบทางเข้าเดียว

ในประวัติศาสตร์การพัฒนาของโมเดลขนาดใหญ่ (LLM) SFT (Supervised Fine-Tuning) ทำให้โมเดลเรียนรู้ที่จะทำตามคำสั่ง ในขณะที่ RLHF (Reinforcement Learning from Human Feedback) ทำให้ขีดจำกัดความสามารถของโมเดลสอดคล้องกับมนุษย์ การรวมกันของทั้งสองสร้างความรุ่งเรืองให้กับ ChatGPT ในทำนองเดียวกัน ในสาขาหุ่นยนต์อัจฉริยะ “VLA Pre-training / SFT + การฝึกอบรมหลังโมเดล RL ขนาดใหญ่” กำลังกลายเป็นกระบวนทัศน์วิวัฒนาการทองคำที่ได้รับการยอมรับ

อย่างไรก็ตาม เป็นเวลานาน การนำ RL ไปใช้ในทางวิศวกรรมสำหรับหุ่นยนต์ถือเป็นหายนะ นักวิจัยต้อง “วิ่งไปมา” ระหว่างโปรเจกต์โอเพนซอร์สสองโปรเจกต์ที่แยกจากกัน: หลังจากเสร็จสิ้นการฝึกอบรม SFT ในเฟรมเวิร์กเช่น Dexbotic และได้รับน้ำหนักโมเดลแล้ว พวกเขาต้องสลับไปยัง Repository ของเฟรมเวิร์ก RL ที่ซับซ้อนด้วยตนเอง เพื่อเขียนการกำหนดค่างาน การปรับเส้นทาง และอินเทอร์เฟซข้อมูลใหม่ กระบวนการผลิตที่แยกจากกันโดย人为นี้ ไม่เพียงแต่ทำให้เกิดภาระทางปัญญาที่สูงมาก แต่ยังทำให้ต้นทุนการบำรุงรักษาโค้ดเพิ่มขึ้นอย่างรวดเร็ว

เพื่อ打破ข้อจำกัดนี้ Dexbotic ได้บรรลุความร่วมมือเชิงกลยุทธ์อย่างลึกซึ้งกับเฟรมเวิร์กการเรียนรู้แบบเสริมกำลังระดับสูง RLinf และบรรลุการผสานรวมระดับตำราเรียนในระดับวิศวกรรม

Dexbotic เฟรมเวิร์กเนทีฟแบบโอเพนซอร์สสำหรับหุ่นยนต์อัจฉริยะ ประกาศรองรับ RLinf อย่างเป็นทางการในฐานะแบ็กเอนด์การเรียนรู้แบบเสริมกำลังแบบกระจาย หลักการแรกของการผสานรวมนี้คือขอบเขตที่ชัดเจนตาม “สถาปัตยกรรมแบบเลโก้”:

Dexbotic รักษาหน้าที่ Frontend ไว้: 继续深耕การกำหนดนโยบายหุ่นยนต์ การลงทะเบียนโมเดล การจัดการ Checkpoint การแปลงข้อมูลเฉพาะ และ入口การทดลองฝั่งผู้ใช้
RLinf รักษาฐาน Backend ไว้: รับผิดชอบการ Rollout แบบกระจาย การเพิ่มประสิทธิภาพ การจัดตาราง Worker การบันทึก日志 และการจัดเรียง Runner

ทั้งสองฝ่ายปฏิเสธการผสานโค้ดอย่างหยาบ (Fork และบังคับรวม) แต่实现การประกอบแบบโมดูลาร์ ผลลัพธ์ที่ได้นั้นน่าทึ่ง: นักพัฒนาไม่จำเป็นต้อง跳转ระหว่างสอง Repository อีกต่อไป เพียงแค่停留在โปรเจกต์ Dexbotic และใช้คำสั่งที่简洁มากเพียง一行 ก็สามารถเริ่มกระบวนการฝึกอบรมหลังโมเดล RL ที่สมบูรณ์ได้ ผู้ใช้ขั้นสูงยังคงสามารถ覆盖การกำหนดค่าระดับล่างผ่าน Hydra ได้อย่างยืดหยุ่น

ที่สำคัญยิ่งกว่านั้น ผ่านอะแดปเตอร์แบ็กเอนด์ Dexbotic ได้นำความสามารถ RL แบบกระจายที่ทรงพลังดั้งเดิมของ RLinf กลับมาใช้ใหม่อย่างสมบูรณ์ (รวมถึง Cluster, HybridComponentPlacement, กลุ่ม Actor/Rollout/Env Worker ฯลฯ) ซึ่งหมายความว่านโยบายของ Dexbotic ในที่สุดก็มีวงจรปิดการฝึกอบรมหลังโมเดลที่สามารถปรับ ฝึก และเพิ่มประสิทธิภาพได้ ทำให้คุณภาพการกระทำและอัตราความสำเร็จในการ执行ของโมเดลเพิ่มขึ้นอย่างต่อเนื่อง

นอกจากนี้ เมื่อเร็วๆ นี้ Dexbotic ยังรองรับการฝึกอบรมหลังโมเดลตาม GRPO (Group Relative Policy Optimization) อย่างเป็นทางการ โซลูชันนี้ไม่พึ่งพาเฟรมเวิร์ก Ray ขนาดใหญ่ การ部署จึงเบากว่า แต่สามารถ实现การอนุมานแบบขนานหลาย GPU ในสภาพแวดล้อมและการกระจายข้อมูลแบบ point-to-point อย่างเท่าเทียม ทำให้ปริมาณงานการฝึกอบรม RL เพิ่มขึ้นอย่างมาก ช่วยให้หุ่นยนต์ก้าวจาก “ทำได้” ไปสู่ “ทำได้ดีอย่าง稳定ยิ่งขึ้น”

“การทำหน้าที่ของตนเองให้ดีที่สุด คือความร่วมมือที่ดีที่สุด” Dexbotic ไม่ได้ซ่อนหรือแทนที่ RLinf แต่ให้入口การรับที่自然ที่สุด เมื่อหุ่นยนต์อัจฉริยะเข้าสู่ยุค “วิวัฒนาการอย่างต่อเนื่อง” ความสามารถในการทำงานร่วมกันของ Stack ทางวิศวกรรมกำลังกลายเป็นความสามารถหลักในการแข่งขัน และการจับมือกันของ Dexbotic และ RLinf ได้สร้างมาตรฐานให้กับอุตสาหกรรมอย่างไม่ต้องสงสัย

โครงสร้างพื้นฐาน: วงจรปิดที่สมบูรณ์จากข้อมูล การจำลอง ไปจนถึงหุ่นยนต์จริง

หากอัลกอริธึมและสถาปัตยกรรมคือสมองของหุ่นยนต์อัจฉริยะ กลไกการไหลเวียนของข้อมูลและการตรวจสอบฮาร์ดแวร์คือโครงกระดูกและเลือดที่支撑การทำงานของมัน Dexbotic 2.0 ได้สร้างมาตรฐานวงจรชีวิตการพัฒนาหุ่นยนต์อย่างเป็นระบบ สร้างวงจรปิดที่ไร้รอยต่อจากสี่ขั้นตอน “ข้อมูล – การฝึกอบรม – การประเมิน – ฮาร์ดแวร์”

ในระดับエンジンข้อมูล เฟรมเวิร์กได้เสนอรูปแบบข้อมูลแบบรวม DexData ที่เรียบง่ายและมีประสิทธิภาพสูง รูปแบบนี้ได้รวม Prompt, การ分解งานย่อย, การเลือกกรอบ 3D ของวัตถุเป้าหมาย และข้อมูลวิถี 2D/3D ของแขนกลเข้าด้วยกันอย่างสร้างสรรค์ ช่วยลดต้นทุนทางวิศวกรรมในการจัดแนวข้อมูลหลายแหล่งได้อย่างมาก

ในระดับเกณฑ์มาตรฐานการประเมิน Dexbotic แสดงให้เห็นถึงความสามารถในการ包容ระบบนิเวศที่แข็งแกร่ง ในด้านการจำลอง ผ่านสภาพแวดล้อม Docker ที่封装อย่างดี เฟรมเวิร์กได้ปรับให้เข้ากับเครื่องจำลองทางฟิสิกส์หลัก 5 ตัวในคราวเดียว และแปลงข้อมูลการฝึกอบรมการจำลองทั้งหมดเป็นรูปแบบ DexData เพื่อเปิดเผยบน Hugging Face อย่างสมบูรณ์ ขจัดอุปสรรคทางวิทยาศาสตร์ของ “การทำซ้ำที่ไม่ยุติธรรม” ในด้านหุ่นยนต์จริง Dexbotic ได้เชื่อมต่ออินเทอร์เฟซการประเมินของ RoboChallenge แพลตฟอร์มการประเมินหุ่นยนต์อัจฉริยะขนาดใหญ่จริงแห่งแรกของโลกโดยตรง และมีส่วนร่วมในโค้ดโอเพนซอร์สอย่างเต็มที่ ทำให้ลิงก์ “พัฒนา-ฝึกอบรม-อนุมาน-ประเมิน” เกิดขึ้นจริงในโลกทางกายภาพ

ในการสำรวจ前沿ล่าสุด Dexbotic ได้บรรลุความก้าวหน้าใหม่ โดยรองรับการผสานรวมอย่างลึกซึ้งกับโปรเจกต์โอเพนซอร์ส UniNaVid อย่างเป็นทางการ ซึ่งไม่เพียงครอบคลุมฟังก์ชันการประเมินและการฝึกอบรม SFT แต่ยัง完成การปรับให้เข้ากับรูปแบบข้อมูล DexDataset ซึ่งเปิดทางให้กับห่วงโซ่ที่สมบูรณ์ของงานนำทางตั้งแต่การรับข้อมูล การปรับแต่งโมเดล ไปจนถึงการทดสอบเกณฑ์มาตรฐาน ปูทางสำหรับวิวัฒนาการอย่างต่อเนื่องของ Visual Language Navigation (VLN) และการนำทางแบบหุ่นยนต์

ในระดับการสนับสนุนฮาร์ดแวร์ การขยายตัวของ Dexbotic ไม่เคยหยุดนิ่ง นอกเหนือจากซีรีส์ ALOHA, UR5, Franka และ ARX5 ที่มีอยู่แล้ว เฟรมเวิร์กนี้ไม่เพียงเพิ่มการรองรับ Galaxea R1 ของ Xinghaitu (星海图) แต่ยังเชื่อมต่อกับ NVIDIA GR00T N1 อย่าง前瞻性 เพื่อเร่งการฝึกอบรมและการ部署หุ่นยนต์ Humanoid ที่น่าสนใจยิ่งกว่านั้น Yuanli Lingji ได้推出ผลิตภัณฑ์ฮาร์ดแวร์โอเพนซอร์สอย่างสมบูรณ์ Dexbotic Open Source – W1 (DOS-W1) และ SO-101 และปรับให้เข้ากับระบบนิเวศ XLeRobot อย่างสมบูรณ์ ยกตัวอย่าง DOS-W1 แบบ图纸การออกแบบ รายการวัสดุ (BOM) และโค้ดการประกอบทั้งหมดถูกเปิดเผยต่อสาธารณะ ใช้โครงสร้างแบบถอดเร็วและการออกแบบต้านทานความเมื่อยล้าตามหลักสรีรศาสตร์อย่างมาก ช่วยลด门槛การเก็บข้อมูลและต้นทุนการบำรุงรักษาอุปกรณ์

การตรวจสอบสูงสุด: DM0 – โมเดลขนาดใหญ่เนทีฟตัวแรกของโลกที่ฝึกจากศูนย์

วิธีที่ดีที่สุดในการทดสอบว่าเฟรมเวิร์กระดับล่างนั้นทรงพลังหรือไม่ คือการดูว่า它可以孵化出โมเดล前沿แบบใด ในเดือนกุมภาพันธ์ 2026 โมเดลขนาดใหญ่ DM0 ที่พัฒนาบนเฟรมเวิร์ก Dexbotic ได้รับการเปิดตัวอย่างน่าตื่นเต้น

ในฐานะโมเดลขนาดใหญ่เนทีฟตัวแรกของโลกที่ฝึกจากศูนย์ DM0 คว้าอันดับหนึ่งทั้งในงานเดี่ยวและงานหลายงานบนเกณฑ์มาตรฐานการประเมินหุ่นยนต์จริง RoboChallenge ด้วยพารามิเตอร์ 2.4B ขึ้นเป็นอันดับหนึ่งของโลก

ความสำเร็จของ DM0 คือการแสดงให้เห็นถึงข้อดีของเฟรมเวิร์ก Dexbotic อย่างสูงสุด “ความหนาแน่นของความฉลาด” ที่สูงมากที่แสดงออกมา เกิดจากการผสมผสานอย่างเป็นระบบของงานหลักสามประเภท ได้แก่ การปฏิบัติการ การนำทาง และการควบคุมทั้งตัว ในช่วง Pre-training ข้อมูลการฝึกอบรมของ DM0 ครอบคลุมฮาร์ดแวร์หุ่นยนต์ 8 ประเภทที่มีโครงสร้างแตกต่างกัน เช่น UR, Franka ภายใต้การจัดตารางเวลาที่ทรงพลังของเฟรมเวิร์ก โมเดลถูกบังคับให้เรียนรู้ “ตรรกะการปฏิบัติการทางกายภาพ” ระดับล่างทั่วไป แทนที่จะจำพารามิเตอร์จลนศาสตร์ของฮาร์ดแวร์เฉพาะ ทำให้ได้รับความสามารถในการสรุปทั่วไปข้ามรุ่นที่น่าประทับใจ

ที่น่าทึ่งยิ่งกว่านั้น ด้วยความสามารถในการประมวลผลข้อมูลมัลติมีเดียของ Dexbotic DM0 ได้สร้าง “ห่วงโซ่การคิดเชิงเหตุผลเชิงพื้นที่ (Spatial Reasoning Chain-of-Thought)” ที่เป็นเอกลักษณ์ โมเดลสามารถเชื่อมโยงการรับรู้สภาพแวดล้อม ความเข้าใจงาน การวางแผนการเคลื่อนไหว และการ执行ที่แม่นยำเข้าด้วยกันอย่างมีตรรกะ เพื่อ完成การกระทำที่ซับซ้อนทั่วไปซึ่งต้องใช้การคิดเชิงเหตุผลเชิงพื้นที่แบบหลายขั้นตอนระยะยาว เช่น “ค้นหาเป้าหมายก่อน ย้ายสิ่งกีดขวางออก จากนั้นถ่ายภาพและส่ง”

การ迭代อย่างต่อเนื่อง: การเติบโตในครึ่งปี การ共建โดย千人

นับตั้งแต่เปิดตัวในเดือนตุลาคม 2025 เพียงไม่กี่เดือน Dexbotic แสดงให้เห็นถึงความเร็วในการวิวัฒนาการที่น่าจับตามอง:

2025-10-20: เปิดตัว Repository โค้ด VLA ของ Dexbotic เสนอสามระดับหลัก: ข้อมูล โมเดล และการทดลอง
2025-12-29: ปรับให้เข้ากับโมเดล Pi0.5 และ OFT อย่างสมบูรณ์ ปลดล็อกห่วงโซ่การพัฒนาทั้งหมด
2026-01-08: ติดตามการ迭代ฮาร์ดแวร์อย่างรวดเร็ว เปิดตัวอิมเมจเฉพาะที่ปรับให้เข้ากับสถาปัตยกรรม GPU Blackwell
2026-01-15: อัลกอริธึมนำทาง NaVILA และ SimpleVLA-RL ถูกรวมเข้ากับ主线推出โซลูชันการฝึกอบรมหลังโมเดลน้ำหนักเบา GRPO
2026-02-10: ประกาศความร่วมมือเชิงกลยุทธ์กับ RLinf สร้าง PyTorch ของหุ่นยนต์อัจฉริยะ เปิดตัวโมเดล DM0 ที่ขึ้นอันดับหนึ่งของโลก
2026-03-30: ระบบนิเวศฮาร์ดแวร์ระเบิด ปรับให้เข้ากับ XLeRobot เชื่อมต่อ NVIDIA GR00T N1 และเปิดฟังก์ชันการฝึกอบรมแบบผสม一键สำหรับ Pi0.5
2026-05-09: รองรับ UniNaVid อย่างสมบูรณ์ ขยายอาณาเขตอย่างแข็งแกร่งสู่สาขาการนำทางแบบ泛หุ่นยนต์

การ迭代ความถี่สูงนำมาซึ่งผลตอบแทนจากระบบนิเวศที่รุ่งเรืองอย่างมาก ปัจจุบัน Dexbotic ให้บริการมหาวิทยาลัยชั้นนำหลายสิบแห่ง รวมถึงมหาวิทยาลัยชิงหัว มหาวิทยาลัยปักกิ่ง มหาวิทยาลัยพรินซ์ตัน Imperial College London รวมถึงองค์กรอุตสาหกรรมชั้นนำ เช่น Tencent และ Beijing Embodied Intelligent Robot Innovation Center โดยมีนักวิจัยและนักพัฒนาที่เข้าถึงมากกว่าพันคน

ดังที่ Linus Torvalds บิดาของ Linux กล่าวไว้ว่า “วิวัฒนาการของซอฟต์แวร์ต้องการสติปัญญาของกลุ่ม”

Dexbotic ปฏิเสธเส้นทางเทคนิคแบบ “ปิดประตูสร้างรถ” แต่เลือกที่จะสร้างตัวเองเป็น “เลเยอร์การทำงานพื้นฐาน” ในสาขาหุ่นยนต์อัจฉริยะ ด้วยการรวมพลังอย่างต่อเนื่องจาก Yuanli Lingji, มหาวิทยาลัยชิงหัว, Wu Wen Tsun (无问芯穹) และอื่นๆ ระบบนิเวศโอเพนซอร์สที่รุ่งเรืองสำหรับหุ่นยนต์อัจฉริยะกำลังก่อตัวขึ้น

เมื่อ “โมเดลขนาดใหญ่ + หุ่นยนต์” ก้าวจากแนวคิดในห้องปฏิบัติการไปสู่สถานการณ์จริงในอุตสาหกรรมต่างๆ ความสามารถในการวิวัฒนาการร่วมกันของเฟรมเวิร์กทางวิศวกรรมได้กลายเป็นมิติการแข่งขันที่สำคัญเทียบเท่ากับพลังการคำนวณของโมเดล ตั้งแต่การแก้ไขรายละเอียดปลีกย่อยของรูปแบบข้อมูล ไปจนถึงการปรับโฉมวงจรการวิจัยและพัฒนาระดับบนของ SFT+RL ทุกการอัปเดตของ Dexbotic กำลังเสริมสร้างโครงสร้างพื้นฐานสำหรับการมาถึงของหุ่นยนต์อัจฉริยะทั่วไป

ไม่ต้องสงสัยเลยว่า “ช่วงเวลา PyTorch” ของหุ่นยนต์อัจฉริยะได้เริ่มต้นขึ้นแล้ว และ Dexbotic กำลังมุ่งมั่นที่จะเป็นรากฐานที่มั่นคงที่承载กระบวนการทางประวัติศาสตร์นี้

ยินดีต้อนรับนักวิจัยและนักพัฒนาทั่วโลกให้关注, Star และร่วมสร้างชุมชน Dexbotic เพื่อสำรวจความเป็นไปได้ที่ไม่มีที่สิ้นสุดของหุ่นยนต์อัจฉริยะ