เมื่อไม่นานมานี้ กู๋เต๋อแมปได้เปิดตัวระบบเทคโนโลยี Embodied AI แบบ Full Stack ตัวแรกสำหรับ General AI (AGI) อย่างเป็นทางการ นั่นคือระบบ ABot การเคลื่อนไหวครั้งนี้ถือเป็นสัญลักษณ์ว่าผู้ให้บริการนำทางระดับชาติได้ก้าวข้ามเข้าสู่แวดวงหุ่นยนต์อย่างเป็นทางการ
จากนำทางสู่หุ่นยนต์: ไม่ใช่แค่กระแส แต่เป็นโซลูชันแบบ Full Stack
ต่างจากการคาดเดาจากภายนอกที่ว่าเป็น “การตามกระแส” หรือ “กลยุทธ์การตลาด” กู๋เต๋อได้เปิดตัวชุดระบบเทคโนโลยีที่สมบูรณ์ซึ่งมีเป้าหมายเพื่อนำหุ่นยนต์จากการสาธิตในห้องปฏิบัติการไปสู่การใช้งานจริง ระบบ ABot มุ่งหมายที่จะเชื่อมโยงสแต็กเทคโนโลยีแบบ end-to-end ตั้งแต่ข้อมูลระดับพื้นฐาน โมเดลหลัก ไปจนถึงเอเจนต์ระดับบน
ในขณะที่ผู้เล่นส่วนใหญ่ในอุตสาหกรรมยังคงมุ่งเน้นไปที่การพัฒนาทางเทคโนโลยีแบบจุดเดียว กู๋เต๋อได้เป็นผู้นำในการบูรณาการแนวตั้งของข้อมูล โมเดล และเอเจนต์ ด้วยพื้นฐานข้อมูลที่ลึกซึ้งที่สะสมมาในด้านแผนที่ ระบบ ABot โดยเฉพาะ World Model ได้คะแนนเหนือกว่าทีมจากกูเกิลและเอ็นวิเดียในการแข่งขันระดับนานาชาติที่จัดโดย CVPR 2026 Video World Model Workshop ปัจจุบัน ระบบ ABot ได้รับผลลัพธ์ SOTA (State-Of-The-Art) 15 รายการในสาขา Embodied AI ทั่วโลก และก้าวเข้าสู่กลุ่มผู้นำระดับโลก
คำถามสำคัญหนึ่งได้ปรากฏขึ้น: บริษัทที่เริ่มต้นจากบริการนำทาง ทำไมจึงสามารถก้าวนำหน้าได้อย่างรวดเร็วในสนามแนวหน้าอย่าง Embodied AI?
เหนือกว่า “ข้อมูลมาก”: ชัยชนะของนวัตกรรมกระบวนทัศน์
คำตอบในระดับแรกอาจเป็น “ข้อมูล” เมื่อพิจารณาระบบเทคโนโลยีแบบ Full Stack ของ ABot ชั้นพื้นฐานคือข้อมูล:
* ชั้นข้อมูล: ABot-World Interactive World Model
* ชั้นโมเดล: Navigation Foundation Model ABot-N และ Execution Foundation Model ABot-M
* ชั้นเอเจนต์: ระบบปฏิบัติการระดับแอปพลิเคชันหุ่นยนต์ ABot-Claw
อย่างไรก็ตาม จุดแข็งที่แท้จริงของกู๋เต๋อไม่ได้อยู่ที่ปริมาณข้อมูลเพียงอย่างเดียว แต่อยู่ที่การสร้าง ระบบปฏิบัติการโลกหุ่นยนต์ที่ “ให้ความสำคัญกับฟิสิกส์เป็นอันดับแรก ควบคุมการเคลื่อนไหวได้ และวิวัฒนาการแบบวงจรปิด” นี่แสดงถึงการเปลี่ยนแปลงกระบวนทัศน์พื้นฐาน – จาก “กระบวนทัศน์การเรนเดอร์ภาพ” สู่ “กระบวนทัศน์เอ็นจิ้นฟิสิกส์ที่หาอนุพันธ์ได้”
ในขณะที่โมเดลอื่นมุ่งเน้นการสร้างวิดีโอที่ “ดูสมจริง” ABot-World World Model ของกู๋เต๋อมุ่งเน้นการสร้างผลลัพธ์ที่เป็นกระบวนการไดนามิกที่ “สอดคล้องกับกฎฟิสิกส์” ไม่เพียงแต่บรรยายว่า “เกิดอะไรขึ้น” แต่ยังอธิบายว่า “ทำไมจึงเกิดขึ้น” และ “หากดำเนินการต่างออกไปจะส่งผลอย่างไร” ความสามารถในการสร้างแบบจำลองและให้เหตุผลเชิงลึกเกี่ยวกับกฎฟิสิกส์นี้เองที่ทำให้ระบบนี้เป็นระบบที่บรรลุระดับ SOTA ในสามตัวชี้วัดหลักระดับโลก ได้แก่ ความสอดคล้องกับฟิสิกส์ ความสามารถในการควบคุมการเคลื่อนไหว และความสามารถในการปรับใช้แบบ Zero-shot
ดังนั้น ความก้าวหน้าของกู๋เต๋อ โดยพื้นฐานแล้วเป็นผลมาจากนวัตกรรมกระบวนทัศน์ ความสามารถด้านวิศวกรรมระบบ และแกนกลางของปัญญาฟิสิกส์
แนวคิดหลัก: การสร้าง World Model ที่โต้ตอบได้
เมื่อเผชิญกับความท้าทายพื้นฐานที่ว่า “จะทำให้หุ่นยนต์เข้าใจโลกฟิสิกส์จริงได้อย่างไร” กู๋เต๋อได้ละทิ้งเส้นทางดั้งเดิมแบบ “รวบรวม-ติดป้ายกำกับ-ฝึกอบรม” และหันมาใช้แนวคิดที่สร้างการเปลี่ยนแปลงมากกว่า: ไม่ “รวบรวมข้อมูล” แต่ “สร้างโลกฟิสิกส์ขึ้นใหม่”
วิธีการดั้งเดิมอาศัยการรวบรวมข้อมูลด้วยตนเองหรืออุปกรณ์ควบคุมระยะไกล ซึ่งมีต้นทุนสูง ประสิทธิภาพต่ำ และครอบคลุมสถานการณ์จำกัด โซลูชันของกู๋เต๋อคือ:
แทนที่จะให้หุ่นยนต์สะสมประสบการณ์ในโลกแห่งความจริงอย่างช้าๆ ควรสร้างสถานการณ์การโต้ตอบทางกายภาพต่างๆ ที่จำเป็นสำหรับ Embodied AI อย่างมีประสิทธิภาพและเป็นจำนวนมากในโลกดิจิทัลที่มีความเที่ยงตรงสูงก่อน
นี่คือภารกิจหลักของ Interactive World Model ABot-World – สร้างระบบปฏิบัติการโลกหุ่นยนต์ที่โต้ตอบได้ ให้เหตุผลได้ และวิวัฒนาการได้
สิ่งนี้แตกต่างโดยพื้นฐานจากเทคโนโลยีการสังเคราะห์ข้อมูลหรือการจำลองแบบดั้งเดิม เทคโนโลยีหลังมุ่ง “จำลองความจริง” โดยมุ่งเน้นที่ความใกล้เคียงของรูปลักษณ์ ในขณะที่ ABot-World ใช้ข้อมูลโลกแห่งความจริงจำนวนมหาศาลเป็นพื้นฐาน เพื่อสร้างสถานการณ์ทางกายภาพขึ้นใหม่ด้วยความแม่นยำสูง เป็นสภาพแวดล้อมการฝึกสำหรับหุ่นยนต์ สำหรับกู๋เต๋อแล้ว “การสร้างใหม่และทำความเข้าใจโลกฟิสิกส์อย่างแม่นยำ” เป็นความสามารถหลัก – ธุรกิจประจำวันของพวกเขาคือการบูรณาการภาพถ่ายดาวเทียม การรวบรวมข้อมูล Street View Car และข้อมูลจาก Crowdsource เพื่อสร้างโลกดิจิทัลที่เครื่องจักรสามารถคำนวณและเข้าใจได้
กล่าวโดยย่อ กู๋เต๋อได้ขยายประสบการณ์แผนที่แบบโต้ตอบที่เคยให้บริการผู้ใช้มนุษย์ ให้ลึกลงไปเป็นสภาพแวดล้อมการฝึกระดับพื้นฐานที่เครื่องจักรสามารถ “เข้าใจ” และ “โต้ตอบ” ได้

สถาปัตยกรรมการนำไปใช้: ขับเคลื่อนด้วย Twin Engine
ABot-World บรรลุเป้าหมายข้างต้นผ่านชุดสถาปัตยกรรม Twin Engine:
* ABot-3DGS: “โรงงานดิจิทัลทวิน” ของโลกกายภาพ
* ABot-PhysWorld: “เอ็นจิ้นการคิดเชิงฟิสิกส์” สำหรับการให้เหตุผลเชิงเหตุและผล
นี่ไม่ใช่เพียงแค่ไปป์ไลน์ “การสร้างข้อมูล + การฝึกโมเดล” แต่เป็นระบบปฏิบัติการปัญญาฟิสิกส์ที่สมบูรณ์

ABot-3DGS: โรงงานดิจิทัลทวินที่โปรแกรมได้
ABot-3DGS มุ่งหมายที่จะปฏิวัติวิธีการผลิตข้อมูลแบบดั้งเดิมโดยสิ้นเชิง โดยใช้ข้อมูลเมือง ถนน พื้นที่ภายในระดับเซนติเมตร และข้อมูลวิถีจริงที่กู๋เต๋อสะสมไว้เป็นพื้นฐาน ร่วมกับเทคโนโลยี 3D Gaussian Splatting (3DGS) ล้ำสมัย เพื่อสร้าง พื้นที่ดิจิทัลทวินที่โปรแกรมได้
จุดแข็งหลักอยู่ที่ “ความสามารถในการโปรแกรม” ในระบบนี้ การสร้างข้อมูลไม่ถูกจำกัดด้วยเงื่อนไขการรวบรวมทางกายภาพอีกต่อไป: สามารถสร้างมุมมอง แสง สถานะการบดบังใดๆ ตามต้องการ รูปร่างหุ่นยนต์ก็สามารถเปลี่ยนได้อย่างยืดหยุ่น เพื่อลบความแตกต่างระหว่าง Actuator ต่างๆ ที่สำคัญกว่านั้น ระบบนี้สามารถครอบคลุมสถานการณ์การโต้ตอบแบบ Long-tail (สถานการณ์หายากที่หุ่นยนต์มีแนวโน้มจะผิดพลาด) อย่างเป็นระบบ ผ่านการรวมและจำลองสถานการณ์ขนาดใหญ่ สร้างสถานการณ์สุดขั้วและการรบกวนฉุกเฉินล่วงหน้า เพิ่มอัตราการครอบคลุมสถานการณ์เป็น 99%
ความก้าวหน้าที่สำคัญประการหนึ่งคือ พื้นที่ที่สร้างโดย ABot-3DGS ไม่เพียงแต่มีรูปลักษณ์ทางเรขาคณิต แต่ยังรวมถึงคุณสมบัติทางกายภาพด้วย วัตถุแต่ละชิ้นถูกกำหนดพารามิเตอร์ เช่น มวล ค่าสัมประสิทธิ์แรงเสียดทาน ก่อให้เกิดสภาพแวดล้อมทางกายภาพที่คำนวณได้และแทรกแซงได้ ด้วยการปรับพารามิเตอร์ (เช่น เปลี่ยนมวลวัตถุหรือค่าสัมประสิทธิ์แรงเสียดทานพื้น) แรงจับที่ต้องการของหุ่นยนต์ วิถีการเคลื่อนที่ ฯลฯ จะเปลี่ยนแปลงตามไปด้วย ดังนั้น ABot-3DGS จึงก้าวข้ามเครื่องมือเสริมข้อมูลแบบดั้งเดิม กลายเป็น “จักรวาลฝึกฝน” ที่สามารถสร้างสรรค์ได้อย่างกระตือรือร้น ซึ่งมีความหลากหลายมากกว่า ควบคุมได้มากกว่า และสอดคล้องกับฟิสิกส์มากกว่าความเป็นจริง

จากข้อมูลสู่สื่อการฝึก: กระบวนการสามขั้นตอน
กระบวนการแปลงข้อมูลกาลอวกาศจริงจำนวนมหาศาลของกู๋เต๋อให้เป็นสื่อการฝึกสำหรับหุ่นยนต์ สามารถสรุปได้เป็น “หนึ่ง แปลง สอง สร้างใหม่ สาม ทำงาน”:
1. แปลง: แปลงข้อมูลดิบเป็น “คลิปมัลติโมดัล” ที่เครื่องจักรเข้าใจได้ ตัวอย่างเช่น สถานการณ์สี่แยกไม่เพียงแต่รวมภาพ แต่ยังรวมตำแหน่งเชิงพื้นที่ สถานะสัญญาณไฟจราจร ความตั้งใจในการปฏิบัติการของผู้ใช้ (ตรงไป/เลี้ยว) และข้อมูลวัตถุไดนามิกโดยรอบ กู๋เต๋อมีข้อมูลคลิปประเภทนี้ระดับสิบล้านคลิป
2. สร้างใหม่: ใช้ ABot-3DGS สร้างสถานการณ์จริง 3D ระดับหมื่นแห่งขึ้นใหม่จากข้อมูลคลิป (ครอบคลุม 99% ของสถานการณ์ชีวิตทั่วไป) เนื่องจากข้อมูลอินพุตมีตรรกะทางกายภาพและเชิงพื้นที่ในตัว สถานการณ์ดิจิทัลที่สร้างขึ้นจึงเป็นแบบไดนามิกและ “มีชีวิต”
3. ทำงาน: วางหุ่นยนต์ไว้ในสถานการณ์ดิจิทัลเหล่านี้เพื่อปฏิบัติงาน ส่งผลให้สร้างข้อมูลวิถีการฝึกระดับสิบล้านรายการเป็นจำนวนมาก

ABot-PhysWorld: แก้ปัญหาการ “เข้าใจฟิสิกส์”
อย่างไรก็ตาม การมีเพียงข้อมูลสถานการณ์ที่หลากหลายยังไม่เพียงพอ หุ่นยนต์จำเป็นต้องเข้าใจเหตุและผลทางกายภาพ ด้วยเหตุนี้ กู๋เต๋อจึงพัฒนา ABot-PhysWorld Physical Thinking Engine เอ็นจิ้นนี้สร้างขึ้นบนโครงข่ายหลัก Diffusion Transformer (DiT) ขนาด 14 พันล้านพารามิเตอร์ ฟังก์ชันหลักคือการตอบคำถามสำคัญในการตัดสินใจของหุ่นยนต์: “หากฉันดำเนินการนี้ สิ่งต่อไปจะเกิดอะไรขึ้น?”
เพื่อสร้าง ABot-PhysWorld กู๋เต๋อได้ประมวลผลข้อมูลในระดับลึก: คัดเลือกวิดีโอการดำเนินการจริง 3 ล้านคลิป ใช้ Visual Language Model (VLM) และ Large Language Model (LLM) ในการติดป้ายกำกับแบบสองขั้นตอน สร้างโครงสร้างความหมายทางกายภาพสี่ระดับที่รวม “ความตั้งใจ → การกระทำ → วิถี → ความสัมพันธ์ทางกายภาพ” ซึ่งวางรากฐานที่มั่นคงสำหรับความสามารถในการให้เหตุผลเชิงเหตุและผลของโมเดล
การฝึกและปรับให้เหมาะสม: จากความคล้ายคลึงของพิกเซลสู่ความสอดคล้องทางกายภาพ
ในระดับการฝึก ระบบ ABot ได้ละทิ้งวิธีการปรับให้เหมาะสมแบบดั้งเดิมที่อิงตาม Maximum Likelihood Estimation (MLE) และความคล้ายคลึงของพิกเซล หันมาใช้ชุด “กลไกการจำแนกทางกายภาพ”
วิธีการ MLE แบบดั้งเดิมมุ่งหมายให้เฟรมวิดีโอที่โมเดลสร้างขึ้นมีความใกล้เคียงกับเฟรมจริงในระดับพิกเซลมากที่สุด อย่างไรก็ตาม เป้าหมายการปรับให้เหมาะสมนี้มุ่งเน้นเพียง “ภาพดูถูกต้องหรือไม่” และไม่รับประกันว่ากระบวนการไดนามิกที่สร้างขึ้นจะสอดคล้องกับกฎฟิสิกส์
ด้วยเหตุนี้ ระบบ ABot จึงใช้สององค์ประกอบหลักเพื่อเปลี่ยนเป้าหมายการปรับให้เหมาะสมจาก “ความคล้ายคลึงของพิกเซล” เป็น “ความสอดคล้องทางกายภาพ”:
* โมดูลเสนอ: ตามบริบทงานปัจจุบัน สร้างรายการกฎฟิสิกส์ กำหนดขอบเขตการปฏิบัติการที่ยอมรับได้และเขตหวงห้ามของการกระทำอย่างชัดเจน
* โมดูลให้คะแนน: ประเมินและให้คะแนนลำดับการกระทำที่เป็นตัวเลือกหลายชุดที่โมเดลสร้างขึ้นทีละเฟรม
จากนั้น ระบบใช้ Diffusion-DPO Algorithm ในการเรียนรู้เสริมของโมเดล: ให้รางวัลพฤติกรรมที่สอดคล้องกับกฎฟิสิกส์ และลงโทษพฤติกรรมที่ฝ่าฝืนกฎฟิสิกส์ ผ่านการแก้ไขและปรับให้เหมาะสมซ้ำๆ โมเดลค่อยๆ ซึมซับข้อจำกัดทางกายภาพ และเรียนรู้ที่จะสร้างลำดับการกระทำที่สมเหตุสมผลทางกายภาพ
ถึงจุดนี้ ABot-PhysWorld สามารถให้เหตุผลเกี่ยวกับการเปลี่ยนแปลงทางไดนามิกในกาลอวกาศในอนาคตตามอินพุตตำแหน่งและสถานะของ End Effector และ Gripper ของหุ่นยนต์ที่ป้อนเข้าไป บรรลุการก้าวข้ามจาก “ดูเหมือน” เป็น “เหตุและผลทางกายภาพเป็นจริง”

ผลลัพธ์ของระบบ: สถานะทางกายภาพที่หาอนุพันธ์ได้และการปรับใช้แบบ Zero-shot
ในระดับผลลัพธ์ แต่ละเฟรมที่สร้างโดย ABot-PhysWorld ไม่ใช่ภาพพิกเซลธรรมดาอีกต่อไป แต่เป็น ภาพรวมสถานะทางกายภาพที่หาอนุพันธ์ได้ ซึ่งรวมข้อมูลเช่น มวล สนามแรงสัมผัส เทนเซอร์ความเฉื่อย ฯลฯ ซึ่งสนับสนุนความสามารถสำคัญสองประการ:
1. การให้เหตุผลแบบมีเงื่อนไขการกระ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/30952
