การปฏิวัติโมเดลขนาดใหญ่กำลังจะสิ้นสุดลง ยุคของ AI ทางกายภาพกำลังจะเริ่มต้นขึ้น?
สัปดาห์ที่แล้ว Yann LeCun ผู้ได้รับรางวัลทัวริงและผู้บุกเบิกการเรียนรู้เชิงลึก ได้แสดงมุมมองล่าสุดของเขาเกี่ยวกับปัญญาประดิษฐ์ทั่วไป (AGI) เขาเชื่อว่าภาษาไม่เทียบเท่ากับความฉลาด การทำนายข้อความไม่ได้หมายถึงการเข้าใจความเป็นจริง โลกแห่งความเป็นจริงมีความซับซ้อน เต็มไปด้วยความเป็นกายภาพและความสัมพันธ์เชิงเหตุผล ในขณะที่โมเดลภาษาขนาดใหญ่ (LLM) ในปัจจุบันแทบจะไม่สามารถเข้าถึงสิ่งเหล่านี้ได้

LeCun เชื่อว่าความฉลาดที่แท้จริงต้องสามารถคิดวิเคราะห์ในใจได้เหมือนมนุษย์ AI จะสามารถวางแผนที่ซับซ้อนได้ก็ต่อเมื่อมีความสามารถในการ “ทำนายอนาคต” นี้เท่านั้น
ในช่วงต้นปี 2026 บริษัทจีนเป็นผู้ที่ก้าวนำหน้าในการผลักดันทิศทางล้ำสมัยที่สุดของ AI ทางกายภาพให้ก้าวไปข้างหน้า
ในสัปดาห์ที่ผ่านมา Ant Lingbo Technology (Robbyant) ในเครือ Ant Group ได้เปิดตัวโมเดลปัญญาประดิษฐ์เชิงรูปธรรม (Embodied AI) จำนวน 4 รุ่นแบบโอเพนซอร์สติดต่อกันสี่วัน ได้แก่ โมเดลรับรู้พื้นที่ความแม่นยำสูง LingBot-Depth, โมเดลขนาดใหญ่เชิงรูปธรรม LingBot-VLA, โมเดลโลก LingBot-World และโมเดลโลกเชิงรูปธรรม LingBot-VA

Ant กำลังพยายามสำรวจเส้นทางใหม่ของปัญญาประดิษฐ์เชิงรูปธรรม (Embodied AI) ผ่านชุด “การคิดย้อนกลับ” ที่เป็นเอกลักษณ์ของตนเอง นั่นคือเริ่มจากปฏิสัมพันธ์ทางกายภาพ และสร้างความฉลาดในโลกแห่งความเป็นจริง
AI First ของ Ant ไม่จำกัดอยู่แค่ในโลกดิจิทัล
Ant Lingbo เชื่อว่าการก้าวกระโดดครั้งต่อไปของเทคโนโลยี AI จะเป็น AI ของโลกกายภาพ ได้แก่ โมเดลโลก ความสัมพันธ์เชิงเหตุผล และการวางแผนที่แท้จริง
Zhu Xing ซีอีโอของ Ant Lingbo กล่าวว่า แผนงาน AGI ของ Ant รวมถึงปัญญาดิจิทัลและปัญญาทางกายภาพ ก่อนการจัดตั้ง Lingbo Technology นั้น Ant ได้ลงทุนในบริษัทที่เกี่ยวข้องกับปัญญาประดิษฐ์เชิงรูปธรรมและหุ่นยนต์หลายแห่งแล้ว ครอบคลุมหลายส่วนสำคัญ เช่น ตัวเครื่องครบชุด, ชิ้นส่วนหลัก, มือที่คล่องแคล่ว, โมเดลขนาดใหญ่เชิงรูปธรรม เป็นต้น ในปี 2025 Ant Lingbo Technology ได้จัดตั้งขึ้นอย่างเป็นทางการ เพื่อรับภารกิจในการสำรวจ AGI ในด้านรูปธรรม หลังจากพัฒนามาเป็นเวลาหนึ่งปี ทีมงานได้นำเสนอโมเดลเชิงรูปธรรม 4 รุ่น และเปิดตัวแบบโอเพนซอร์สภายในหนึ่งสัปดาห์
Zhu Xing อธิบายว่าการทำงานของ Lingbo “เริ่มจากฮาร์ดแวร์จริง” หวังที่จะก้าวจากโลกดิจิทัลสู่โลกกายภาพ เพื่อสร้างสมองที่ฉลาดยิ่งขึ้นให้กับหุ่นยนต์
“เราเชื่อมั่นว่าปัญญาของโลกดิจิทัลยังห่างไกลจากขีดจำกัดสูงสุด โมเดลภาษา โมเดลมัลติโมดัล โมเดลสร้างวิดีโอ จะพัฒนาต่อไปอีก” Zhu Xing กล่าว “ทีม Bailing ของ Ant รับผิดชอบการพัฒนาทางเทคโนโลยีของปัญญาดิจิทัล Lingbo ก็มีส่วนร่วมอย่างแข็งขันเช่นกัน เพราะเทคโนโลยีพื้นฐานหลายอย่างสามารถนำกลับมาใช้ใหม่ในการฝึกโมเดลเชิงรูปธรรมได้ ในขณะเดียวกัน Lingbo ยังรับผิดชอบการสำรวจเส้นทางอื่นอีกด้วย”
เขากล่าวว่า “ความแตกต่างที่ใหญ่ที่สุดระหว่างปัญญาโลกกายภาพและปัญญาโลกดิจิทัล คือ อดีตสามารถได้รับผลตอบรับจากโลกแห่งความเป็นจริง การเรียนรู้จากผลตอบรับจริงมักเป็นเงื่อนไขที่จำเป็นสำหรับการเกิด ‘ความฉลาด'”
ดังนั้น ในปีที่ผ่านมา Lingbo จึงมุ่งเน้นเป็นหลักในการฝึกโมเดลพื้นฐานเชิงรูปธรรม “เราหวังว่าด้านปัญญาประดิษฐ์เชิงรูปธรรมจะเหมือนกับโมเดลภาษาขนาดใหญ่ เมื่อความสามารถของโมเดลพื้นฐานเพิ่มขึ้น ปัญญารวมของโลกกายภาพก็จะเพิ่มสูงขึ้นตามไปด้วย”
เส้นทางเทคโนโลยี: ให้ความสำคัญกับข้อมูลจริง
สิ่งที่ควรค่าแก่การพิจารณามากที่สุดในการเปิดตัวครั้งนี้ คือ การเลือกเส้นทางเทคโนโลยีปัญญาประดิษฐ์เชิงรูปธรรมที่ “ไม่เป็นกระแสหลัก” ของ Ant Lingbo
ปัจจุบัน เส้นทางยอดนิยมเส้นทางหนึ่งในด้านปัญญาประดิษฐ์เชิงรูปธรรมคือ “Sim-to-Real” (จากสถานการณ์จำลองสู่ความเป็นจริง): แนวคิดหลักคือ เพื่อแก้ปัญหาการขาดแคลนข้อมูลการฝึกหุ่นยนต์และต้นทุนการลองผิดลองถูกที่สูง เริ่มต้นด้วยการฝึกหุ่นยนต์ (หรือเอเจนต์ AI) อย่างมหาศาลและปลอดภัยในสภาพแวดล้อมเสมือนที่จำลองขึ้นก่อน จากนั้นจึง “ถ่ายโอน” กลยุทธ์ที่เรียนรู้ไปยังหุ่นยนต์ในโลกแห่งความเป็นจริง
อย่างไรก็ตาม Ant Lingbo มีมุมมองที่แตกต่างต่อเส้นทางนี้
“Sim-to-Real ไม่ใช่เส้นทางเทคโนโลยีหลักที่เราเลือก” Shen Yujun หัวหน้านักวิทยาศาสตร์กล่าวในการให้สัมภาษณ์ “เราเชื่อมั่นอย่างแน่วแน่ว่าการฝึกโมเดลพื้นฐานควรใช้ข้อมูลอินเทอร์เน็ตและข้อมูลจริงให้มากขึ้น สิ่งที่เรียกว่า ‘ต้นทุนข้อมูลจริงสูง’ เป็นเพียงเรื่องชั่วคราวเท่านั้น เมื่ออุตสาหกรรมพัฒนาขึ้นก็จะได้รับการแก้ไขอย่างเป็นระบบ เช่น ผ่านวิธีการรวบรวมข้อมูลที่มีต้นทุนต่ำลงและมีประสิทธิภาพสูงขึ้น เป็นต้น”
ในขณะเดียวกัน Shen Yujun เชื่อว่าความท้าทายที่ว่า “ข้อมูลจำลองยังไม่สามารถจำลองหลายสถานการณ์ได้” มีอยู่จริง ของไหล วัตถุอ่อนตัว ความคลาดเคลื่อนของเซ็นเซอร์ สิ่งเหล่านี้การจำลองยากที่จะจัดการได้ และระยะเวลาในการแก้ปัญหาอาจนานกว่าการลดต้นทุนการรวบรวมข้อมูลจริง
เมื่อเทียบกับการ “สร้างความฝัน” ในเรือนกระจกเสมือน Ant Lingbo ได้เลือกเส้นทางที่ยากกว่าแต่อาจถูกต้องกว่า นั่นคือ ข้อมูลอินเทอร์เน็ต + ข้อมูลจริง
แนวคิดนี้ได้รับการพิสูจน์แล้วใน LingBot-VLA โมเดลนี้ได้รับการฝึกก่อนด้วยข้อมูลเครื่องจริงคุณภาพสูงกว่า 20,000 ชั่วโมงจากเก้ารูปแบบโครงสร้างหลัก และในการประเมินมาตรฐานได้แซงหน้าฐานระดับแนวหน้าของโลกหลายรุ่น

ในฐานะที่เป็น “จุดไคลแมกซ์” ของการเปิดตัวครั้งนี้ LingBot-VA ได้แสดงความทะเยอทะยานทางเทคโนโลยีของ Lingbo อย่างเต็มที่ นี่คือโมเดลโลกวิดีโอ-การกระทำเชิงเหตุผลรุ่นแรกของโลกที่ใช้สำหรับควบคุมหุ่นยนต์อเนกประสงค์ มันเรียนรู้ที่จะใช้โมเดลสร้างวิดีโอเพื่อให้เกิด “จินตนาการ” ร่วมกับการใช้เหตุผลเชิงตรรกะของโมเดลมัลติโมดัล และซ้อนทับด้วยผลตอบรับจากสภาพแวดล้อมจริง
Ant Lingbo กำลังพยายามสร้างวงจรปิดระหว่างการทำนายวิดีโอและการกระทำในโลกแห่งความเป็นจริง ตอนนี้ AI เชิงรูปธรรมสามารถทำนายภาพในอนาคตได้จากโมเดลเดียว และสร้างการดำเนินการที่จำเป็นเพื่อให้ได้วิดีโอนั้น เรียนรู้ทักษะใหม่ได้เพียงผ่านการสาธิต 30-50 ครั้งในโลกแห่งความเป็นจริง และอัตราความสำเร็จยังสูงกว่าโมเดลฐานทั่วไป (เช่น π0.5) ประมาณ 20%

“เราพบว่าการซ้อนการฝึกก่อนอีกชั้นหนึ่งโดยใช้ข้อมูลจากโลกกายภาพ มีประโยชน์อย่างมากต่อการเพิ่มความสามารถของโมเดลเชิงรูปธรรม” Shen Yujun กล่าว สิ่งนี้อธิบายได้ว่าทำไม LingBot-VA จึงสามารถเป็นรายแรกในอุตสาหกรรมที่ทำได้ “ทั้งคิดวิเคราะห์และลงมือทำ” ในเวลาเดียวกัน — มันไม่ได้ท่องจำข้อมูลจำลองแบบตายตัว แต่กำลังพยายามทำความเข้าใจกฎทางกายภาพ สิ่งนี้ดูเหมือนจะตอบรับกับคำเรียกร้องของ Yann LeCun ที่ให้ AI ทำนายในโลกกายภาพได้อย่างพอดี
นอกจากนี้ ในโมเดลการมองเห็นเชิงลึก LingBot-Depth ที่เปิดตัวเมื่อสัปดาห์ที่แล้ว Ant Lingbo ได้สำรวจโมเดลการเติมเต็มความลึกที่ใช้ความคลาดเคลื่อนของเซ็นเซอร์วัดความลึกเป็นมาสก์เพื่อปรับปรุงแผนที่ความลึก ซึ่งช่วยลดความคลาดเคลื่อนของกล้องวัดความลึกด้วยภาพหลักในปัจจุบันได้อย่างมาก ทำให้หุ่นยนต์ “มองเห็นชัดเจนขึ้น”
และใน LingBot-World ทีมงานได้เปิดตัวโมเดลโลกแบบโต้ตอบได้แบบเรียลไทม์ที่มีเอฟเฟกต์ภาพเทียบเท่ากับ Google Genie 3 แบบโอเพนซอร์ส โลกที่สร้างขึ้นนั้นเป็นไปตามกฎทางกายภาพอย่างเคร่งครัด และยังเป็นพื้นฐานที่ดีสำหรับการจำลองปัญญาประดิษฐ์เชิงรูปธรรมอีกด้วย
เทคโนโลยีเหล่านี้ดึงดูดความสนใจอย่างมากจากชุมชนการเรียนรู้ของเครื่องทั่วโลก

อย่างไรก็ตาม ในมุมมองของ Zhu Xing สิ่งที่ Ant Lingbo ทำอยู่ในขณะนี้ยังเป็นการวางรากฐาน: “โดยรวมแล้วขั้นตอนทางเทคโนโลยีของปัญญาประดิษฐ์เชิงรูปธรรมยังอยู่ในระยะเริ่มต้น และเส้นทางเทคโนโลยีก็ยังไม่บรรจบกัน จากจุดนี้ (เทคโนโลยีของ Ant Lingbo) ไม่มีอะไรที่บริษัทอื่นทำไม่ได้แน่นอน เรากลับให้ความสำคัญกับการสำรวจขีดจำกัดสูงสุดของความสามารถของโมเดลเอง และวิธีทำให้พันธมิตรในระบบนิเวศใช้งานได้ดีขึ้นมากกว่า สาเหตุที่เราทำโมเดลพื้นฐาน ส่วนหนึ่งก็เพื่อลดต้นทุนการฝึกหลังของพันธมิตรในระบบนิเวศ และการเปิดตัวครั้งนี้ของเรา เราก็ได้เปิดซอร์สโค้ดการฝึกหลังที่มีประสิทธิภาพพร้อมกัน ซึ่งเป็นการนำความคิดนี้มาสู่การปฏิบัติ”
ช่วงเวลา “DeepSeek” ของหุ่นยนต์ยังอยู่บนเส้นทาง
ในเดือนมกราคมปี 2025 DeepSeek R1 ปรากฏตัวขึ้น พิสูจน์ความสามารถในการใช้ต้นทุนต่ำ + การอนุมานที่แข็งแกร่งผ่านการเปิดซอร์ส ตอนนี้ ด้วยการเปิดซอร์สโมเดลของบริษัทอย่าง Lingbo ด้านปัญญาประดิษฐ์เชิงรูปธรรมจะมาถึงช่วงเวลา R1 ของมันหรือไม่?
เกี่ยวกับเรื่องนี้ Zhu Xing กล่าวว่า: “ช่วงเวลา DeepSeek สำหรับปัญญาประดิษฐ์เชิงรูปธรรมยังเร็วเกินไป ควรพูดว่าช่วงเวลา ChatGPT ก็ยังมาไม่ถึง สำหรับก้าวต่อไป เราจะยังคงเพิ่มการลงทุนในโมเดลโลกเชิงรูปธรรมอย่างต่อเนื่อง และสำรวจขีดจำกัดใหม่ของปัญญาประดิษฐ์เชิงรูปธรรม”
แต่ก็เพราะเหตุนี้เอง Ant Lingbo จึงสามารถเป็นผู้ “จุดประกาย” ได้ ผ่านชุมชน InclusionAI Lingbo ได้เปิดซอร์สโมเดลหลักทั้งสี่รุ่นนี้ทั้งหมด ตรรกะของ Zhu Xing ชัดเจนมาก: ในระยะเริ่มต้นที่เส้นทางยังไม่บรรจบกัน การเปิดซอร์สเป็นทางออกที่ดีที่สุดในการขับเคลื่อนความก้าวหน้าของอุตสาหกรรม ดังนั้นในอนาคตเทคโนโลยีของ Ant Lingbo จะยังคงเปิดกว้างอย่างต่อเนื่อง
ความทะเยอทะยานที่ลึกซึ้งยิ่งขึ้นอยู่ที่ตำแหน่งในระบบนิเวศ
แตกต่างจากโมเดลปิดของ Tesla Optimus ที่ “สร้างทั้งสมองและลำตัว” Ant Lingbo หวังที่จะสร้าง “ระบบปฏิบัติการแอนดรอยด์” ในแวดวงหุ่นยนต์ “เราให้ความสำคัญกับการวิจัยและพัฒนาโมเดลพื้นฐานมากกว่า ตั้งแต่เริ่มต้นเราเลือกเส้นทางข้ามโครงสร้างอย่างแน่วแน่ โดยทำงานร่วมกับผู้ให้บริการข้อมูลที่เกี่ยวข้องในอุตสาหกรรมอย่างลึกซึ้ง เพื่อตอบสนองความต้องการความหลากหลายของข้อมูลการฝึกโมเดล” Zhu Xing อธิบาย
แน่นอนว่าตัวหุ่นยนต์เองมีความแตกต่างกันมาก อัตราความสำเร็จในการปฏิบัติงานยังคงได้รับผลกระทบจากโมเดลพื้นฐานที่เป็นหนึ่งเดียว กลยุทธ์ของ Ant Lingbo คือการจัดหา “ชุดเครื่องมือการฝึกหลัง” ที่มีประสิทธิภาพ เพื่อให้ผู้ผลิตฮาร์ดแวร์สามารถใช้ข้อมูลและต้นทุน GPU ในปริมาณที่ต่ำลง เพื่อปรับ “สมอง” ของ Lingbo ให้เข้ากับ “ร่างกาย” ของตนเอง
นี่อาจจะเป็นปราการทางการค้าที่แท้จริงเบื้องหลังการเปิดซอร์ส
การคาดเดาผลลัพธ์สุดท้าย
ปัญญาประดิษฐ์เชิงรูปธรรมที่ Ant สร้างขึ้น ในที่สุดจะไปที่ไหน?
แม้ว่ารูปแบบธุรกิจจะ “เกิดขึ้นตามธรรมชาติ” แต่คุณลักษณะด้านบริการในดีเอ็นเอของ Ant อาจทำให้เราคาดเดาได้ว่าหุ่นยนต์ที่เสริมพลังด้วย “สมอง” ของ Lingbo จะมีลักษณะอย่างไร ตั้งแต่บริการสาธารณะไปจนถึงการเงินเพื่อความทั่วถึง จุดแข็งของ Ant อยู่ที่การเชื่อมโยงผู้คนกับบริการ
Ant Lingbo คาดหวังว่าเมื่อเทคโนโลยีเติบโตเต็มที่ บริการที่นำเสนอในรูปแบบปัญญาประดิษฐ์เชิงรูปธรรมจะสามารถบูรณาการเข้ากับโลกกายภาพได้ดีขึ้น เพื่อรับใช้ผู้คน
แน่นอนว่าความท้าทายในตอนนี้ยังคงมหาศาล Shen Yujun กล่าวว่า จากมุมมองทางเทคโนโลยี รูปแบบเฉพาะของการเรียนรู้แบบเสริมแรง (RL) ยังไม่บรรจบกัน ความสามารถ System 2 (การคิดช้า) ที่สำคัญอย่างยิ่งในการอนุมานของ AI ยังอยู่ระหว่างการสำรวจ สิ่งเหล่านี้อาจเป็นข้อจำกัดที่ขัดขวางการนำเทคโนโลยีไปใช้ในวงกว้างในขั้นตอนต่อไป
แต่ด้วยการสนับสนุนจากกลยุทธ์ AGI โดยรวมของ Ant Group โครงสร้างพื้นฐาน AI ระดับแนวหน้าของอุตสาหกรรม และการลงทุนที่มั่นคง Lingbo เห็นได้ชัดว่าพร้อมสำหรับสงครามยืดเยื้อแล้ว
ด้วยการเปิดตัวและเปิดซอร์สโมเดลทั้งสี่รุ่นล่าสุดของ Ant Lingbo อย่างต่อเนื่อง กลยุทธ์ AI ของ Ant ได้ขยายจากโลกดิจิทัลสู่โลกกายภาพอย่างสำคัญ ซึ่งเป็นสัญลักษณ์ว่าเส้นทางแบบเต็มสแต็ก “โมเดลพื้นฐาน-แอปพลิเคชันอเนกประสงค์-ปฏิสัมพันธ์เชิงรูปธรรม” ของบริษัทเริ่มชัดเจนขึ้นแล้ว ขั้นตอนต่อไป Ant Lingbo วางแผนที่จะสำรวจการเพิ่มความสามารถของโมเดลอย่างต่อเนื่อง โดยเฉพาะการผสมผสานระหว่างโมเดลโลกและปัญญาประดิษฐ์เชิงรูปธรรมอย่างลึกซึ้ง และขยายระบบนิเวศอย่างแข็งขัน ช่วยพันธมิตรในการนำไปใช้จริง ส่งเสริมให้หุ่นยนต์เข้าสู่สถานการณ์เชิงพาณิชย์อย่างแท้จริง
ระบบนิเวศ AGI ที่บูรณาการอย่างลึกซึ้ง เปิดกว้าง และรับใช้สถานการณ์จริง กำลังเร่งตัวขึ้นอย่างรวดเร็ว
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23032
