RynnBrain จาก Alibaba DAMO Academy: ปลุกสัญชาตญาณทางกายภาพให้หุ่นยนต์ แก้ปัญหาการจัดการวัตถุอ่อนตัว

2026年2月10日 am11:17 • ข่าวสารอุตสาหกรรม AI • 8 views

ปี 2026 หุ่นยนต์จำนวนมากจะขึ้นเวทีงานฉลองตรุษจีน พวกมันจะสามารถแสดงการห่อเกี๊ยวให้ทุกคนดูได้หรือไม่? นี่อาจเป็นคำถามที่หลายคนสงสัย

แต่จากรายงานการซ้อมล่าสุด ความเป็นไปได้นี้ไม่น่าจะสูง หุ่นยนต์มีแนวโน้มที่จะถูกออกแบบให้ถือถาดนำเกี๊ยวมาเสิร์ฟมากกว่า

ผู้เชี่ยวชาญในวงการรู้ดีว่า หากไม่พึ่งพาการตั้งโปรแกรมล่วงหน้าหรือการควบคุมระยะไกล การให้หุ่นยนต์ห่อเกี๊ยวได้ด้วยตัวเองนั้นซับซ้อนกว่าการเคลื่อนที่และการนำทางมาก มันเกี่ยวข้องกับการจัดการวัตถุอ่อนนุ่มอย่าง “แป้งเกี๊ยว” ซึ่งถือเป็น “การทดสอบทัวริง” สำหรับหุ่นยนต์ โดยไม่พึ่งพา “สมอง” ที่ฉลาดเพียงพอก็ทำได้ยาก นี่ก็อธิบายได้ว่าทำไมในช่วงปีที่ผ่านมา แรงงานวิจัยและเงินทุนจึงไหลเข้าสู่การพัฒนาสมองมากขึ้นเรื่อยๆ

งานล่าสุดของ Alibaba DAMO Academy – RynnBrain – ก็มุ่งเป้าไปที่ทิศทางนี้เช่นกัน แต่ต่างจากงานวิจัยบางส่วนที่เน้นการแสดงพับเสื้อผ้าหรือทำอาหารเช้า พวกเขามุ่งเน้นไปที่ปัญหาที่เป็นพื้นฐานมากกว่า: หากหุ่นยนต์กำลังทำงานบ้านแล้วถูกขัดจังหวะ ให้ไปรับพัสดุที่หน้าประตูชั่วคราว มันจะสามารถกลับมาล้างจานต่อได้หรือไม่? หากหุ่นยนต์ได้รับมอบหมายให้ทำงานที่ต้องใช้เครื่องมือหลายชนิด แผนการที่มันวางไว้จะรวมเครื่องมือที่ไม่มีอยู่ในมือหรือไม่?

ในเรื่องราวใหญ่โตเกี่ยวกับหุ่นยนต์ ปัญหาเหล่านี้อาจดูไม่เด่นชัดนัก แม้แต่การทดสอบมาตรฐาน (benchmark) ที่เกี่ยวข้องก็ยังขาดหายไป แต่มันคือขั้นบันไดที่หุ่นยนต์ต้องก้าวข้ามเพื่อออกจากห้องปฏิบัติการไปสู่การใช้งานจริง เมื่อสร้าง RynnBrain ทีม Embodied Intelligence ของ DAMO Academy เลือกที่จะเริ่มจากพื้นฐาน โดยฝึกฝนความสามารถด้านความจำเชิงกาล-อวกาศและการให้เหตุผลเกี่ยวกับพื้นที่ทางกายภาพลงในโมเดลโดยตรง และได้ผลลัพธ์ที่โดดเด่น โดยทำได้ระดับแนวหน้า (SOTA) ในการทดสอบมาตรฐาน embodied intelligence 16 รายการ

ภายใต้เงื่อนไขข้อจำกัด “ขนมปังสามก้อน จานสองใบ” โมเดลสามารถวางแผนเชิงพื้นที่และระยะยาว หาแผนการจัดสรรที่สมเหตุสมผลได้ สะท้อนให้เห็นถึงความสามารถในการวางแผนและการให้เหตุผลภายใต้เงื่อนไขทางกายภาพที่มีข้อจำกัด

ในกระบวนการวางแผนการจัดเรียงสิ่งของบนโต๊ะที่รกรุงรัง หุ่นยนต์สามารถจดจำขั้นตอนที่ทำเสร็จแล้วและดำเนินการต่อได้อย่างแม่นยำหลังจากงานถูกขัดจังหวะ แสดงให้เห็นถึงความสามารถด้านความจำและการวางแผนภายใต้การทำงานหลายงานที่สลับกัน

DAMO Academy ยังได้เปิดตัว RynnBrain ทั้งชุดจำนวน 7 โมเดลพร้อมกัน ซึ่งรวมถึง RynnBrain-30B-A3B นี่คือโมเดลพื้นฐานแบบ embodied แรกในอุตสาหกรรมที่ใช้สถาปัตยกรรม Mixture of Experts (MoE) โดยใช้พารามิเตอร์เพียง 3B ที่เปิดใช้งานสำหรับการอนุมาน แต่ประสิทธิภาพกลับเหนือกว่าโมเดลพื้นฐานแบบ embodied ที่ใหญ่ที่สุดในปัจจุบันอย่าง Palican-VL-72B อย่างสมบูรณ์ การใช้โมเดลนี้ทำให้หุ่นยนต์สามารถรักษาความสามารถในการรับรู้และการวางแผนที่แข็งแกร่ง ในขณะเดียวกันก็มีปฏิกิริยาตอบสนองการเคลื่อนไหวที่รวดเร็วกว่าและรูปแบบพฤติกรรมที่ลื่นไหลมากขึ้น ปัจจุบันทรัพยากรชุดเต็ม รวมถึงน้ำหนักโมเดล (model weights) เกณฑ์การประเมิน และโค้ดการฝึกอบรมและการอนุมานแบบสมบูรณ์ ได้ถูกเปิดให้ชุมชนแล้ว

RynnBrain จาก Alibaba DAMO Academy: ปลุกสัญชาตญาณทางกายภาพให้หุ่นยนต์ แก้ปัญหาการจัดการวัตถุอ่อนตัว
* ลิงก์ GitHub: https://github.com/alibaba-damo-academy/RynnBrain
* ลิงก์ HuggingFace: https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
* โฮมเพจโปรเจกต์: https://alibaba-damo-academy.github.io/RynnBrain.github.io/

ใส่โมเดลใหญ่ลงในหุ่นยนต์? เรื่องนี้ซับซ้อนกว่าที่คิดมาก

เกี่ยวกับสมองแบบ embodied ในอุตสาหกรรมมีคำล้อเลียนที่น่าสนใจอยู่ว่า – “แค่ใส่โมเดลใหญ่เช่น DeepSeek ลงใน Unitree (หุ่นยนต์) ก็ได้แล้ว” อย่างไรก็ตาม คนที่เคยลองทำแล้วรู้ดีว่ามันใช้ไม่ได้เลย

โดยพื้นฐานแล้ว โมเดลที่ฝึกด้วยข้อมูลจากโลกสองมิติ เมื่อเข้าสู่โลกทางกายภาพจะต้องเผชิญกับสภาพแวดล้อมที่แตกต่างโดยสิ้นเชิง

ยังคงยกตัวอย่างงานห่อเกี๊ยวของหุ่นยนต์ ในโลกสองมิติเดิม โมเดลภาษาที่ใช้การมองเห็น (VLM) ชั้นนำสามารถเข้าใจขั้นตอนการห่อเกี๊ยวแบบสมบูรณ์ได้นานแล้ว งานของโมเดลโดยพื้นฐานคือการตีความภาพนิ่ง ไม่จำเป็นต้องมีปฏิสัมพันธ์กับสิ่งแวดล้อม แต่ในครัวจริงช่วงมื้อค่ำตรุษจีน – “สนามรบเอ็นโทรปีสูง” ที่มีสิ่งของกระจายเต็มไปหมด พื้นที่คับแคบ – หุ่นยนต์ที่ทำตามประสบการณ์ด้านภาษาและการมองเห็นของ VLM เพียงอย่างเดียว มักจะทำอะไรไม่ถูก: ตัวอย่างเช่น หุ่นยนต์เพิ่งรีดแป้งเกี๊ยวเสร็จ ใส่ไส้ พร้อมจะบีบปิดแป้ง แต่เผลอทำขวดเครื่องปรุงข้างๆ หล่น; มันอยากจะหยิบผ้าเช็ดทำความสะอาดมาถู แต่ตรงหน้าไม่มีผ้าเช็ดทำความสะอาด และก็จำไม่ได้ว่าผ้าเช็ดทำความสะอาดวางไว้ที่ไหน งานจึงหยุดชะงัก ตัวอย่างอีกเช่น มัน “เห็น” บนโต๊ะมีไส้เกี๊ยว จึงวางแผนการกระทำ “ใช้ช้อนตักไส้ตักไส้” อย่างมั่นใจ แต่กลับมองข้ามข้อเท็จจริงสำคัญที่ว่า “ช้อนตักไส้ไม่ได้ถูกหยิบขึ้นมาวางบนโต๊ะ” สุดท้ายทำให้งานล้มเหลว

สถานการณ์เหล่านี้เผยให้เห็นข้อจำกัดของโมเดลใหญ่ทั่วไปในปัจจุบันอย่างชัดเจน: แม้พวกมันจะ “มีประสบการณ์กว้างขวาง” แต่ในโลกทางกายภาพมักเป็นแค่ “ทฤษฎีบนกระดาษ” ขาดความรู้สึกเชิงพื้นที่สามมิติต่อเนื่อง ไม่เข้าใจตรรกะการโต้ตอบทางกายภาพจริง และยากที่จะหลีกเลี่ยงการวางแผนแบบ “หลอน” ที่เกิดจากการขาดข้อจำกัดทางกายภาพ

นี่คือปัญหาหลักที่ DAMO Academy ต้องการแก้ไขด้วยการเปิดตัว RynnBrain แนวทางของพวกเขาคือการเพิ่มความสามารถด้านความจำเชิงกาล-อวกาศ การให้เหตุผลเกี่ยวกับพื้นที่ทางกายภาพ ฯลฯ เข้าไปอย่างเป็นระบบ เพื่อดึงสมองรับรู้นี้ที่เดิม “ลอยอยู่บนเมฆ” กลับสู่โลกทางกายภาพอย่างแข็งขัน

จาก RynnEC สู่ RynnBrain: ทำให้โมเดลใหญ่มี “สัญชาตญาณทางกายภาพ”

การทำให้โมเดลใหญ่หยั่งรากในโลกทางกายภาพไม่ใช่เรื่องที่สำเร็จได้ในชั่วข้ามคืน ก่อน RynnBrain DAMO Academy ยังได้ทำการวิจัยที่เป็นรากฐาน – RynnEC

พูดง่ายๆ RynnEC เหมือนกับการให้ “ดวงตา” แก่โมเดลใหญ่ มันสามารถตอบคำถามเกี่ยวกับวัตถุ (คุณสมบัติ จำนวน หน้าที่ การแบ่งส่วน ฯลฯ) หรือพื้นที่ (การรับรู้โลกแบบอิงตนเอง + การรับรู้สเกลแบบอิงโลก) ได้อย่างแม่นยำ ตัวอย่างเช่น เมื่อทำงาน “วางแท็บเล็ตบนชั้นหนังสือ” มันจะคิดก่อนว่า “แท็บเล็ตกว้างแค่ไหน วางบนชั้นหนังสือแล้วจะไม่ตกหรือเปล่า?”; ก่อนจะเอื้อมมือหยิบขวดซีอิ๊ว มันจะคำนวณระยะห่างระหว่างตัวเองกับขวดซีอิ๊วก่อน เพื่อประเมินว่ายืนอยู่ที่เดิมจะเอื้อมถึงหรือไม่

RynnBrain จาก Alibaba DAMO Academy: ปลุกสัญชาตญาณทางกายภาพให้หุ่นยนต์ แก้ปัญหาการจัดการวัตถุอ่อนตัว
ที่มาภาพ: เอกสารวิจัย RynnEC ลิงก์: https://arxiv.org/pdf/2508.14160

ข้อมูลรับรู้ระดับละเอียดที่ “ดวงตา” คู่นี้ให้มา เป็นสะพานสำคัญที่เชื่อมโยงการวางแผนระดับสูงกับการควบคุมระดับล่าง และ RynnBrain ไม่เพียงแต่สืบทอดความสามารถเหล่านี้อย่างสมบูรณ์ แต่ยังขยายออกไปเป็นความสามารถด้านความจำเชิงกาล-อวกาศที่หลากหลายและความสามารถในการให้เหตุผลเกี่ยวกับพื้นที่ทางกายภาพ

เริ่มจากความจำเชิงกาล-อวกาศ การเพิ่มความสามารถนี้ มุ่งตรงไปที่จุดอ่อนด้าน “ขอบเขตการมองเห็น” ของโมเดลใหญ่แบบ embodied ในปัจจุบัน โมเดลสมองที่มีอยู่มักแก้ไขงานระบุตำแหน่งภายในขอบเขตการมองเห็นปัจจุบัน (ภาพเดียว) เท่านั้น เมื่อวัตถุเป้าหมายหรือจุดสำคัญที่ต้องค้นหาอยู่นอกขอบเขตการมองเห็น (เช่น “ผ้าเช็ดทำความสะอาด” ที่กล่าวถึงก่อนหน้านี้) โมเดลก็ทำอะไรไม่ได้ แม้ว่าในอุตสาหกรรมจะมี “วิธีแก้แบบ brute force” ทั่วไป คือการประมวลผลภาพประวัติศาสตร์ทั้งหมดใหม่เพื่อค้นหาวัตถุเป้าหมาย แต่ในมุมมองของ DAMO Academy วิธีนี้ทำให้กาล-อวกาศขาดตอน ไม่สนใจว่าสถานการณ์แบบ embodied โดยพื้นฐานแล้วคือโลกสามมิติที่ต่อเนื่องและเป็นหนึ่งเดียว

ดังนั้น RynnBrain จึงเลือกเส้นทางที่สอดคล้องกับการรับรู้มากกว่า: มันใช้ความทรงจำในอดีตช่วยโมเดลสร้างการรับรู้สามมิติที่สมบูรณ์ยิ่งขึ้น ซึ่งหมายความว่าการตัดสินใจและความเข้าใจของหุ่นยนต์ไม่ถูกจำกัดด้วยฉากที่เห็นเฉพาะหน้า แต่สามารถพิจารณาโดยรวมอย่างแท้จริงบนพื้นฐานของโมเดลโลกสามมิติที่สมบูรณ์

ภายใต้การเปลี่ยนแปลงและการรบกวนที่ซับซ้อนในวิดีโอ โมเดลสามารถติดตามและระบุน้ำดื่มบรรจุขวดที่ถูกใช้แล้วอย่างต่อเนื่อง แสดงให้เห็นถึงความสามารถในการจดจำและทำความเข้าใจวัตถุในฉากไดนามิกในระยะยาว

หลังจากวัตถุหลักถูกเคลื่อนย้าย หุ่นยนต์ยังคงสามารถจดจำตำแหน่งเชิงพื้นที่ของมันได้ และนำวัตถุกลับไปวางยังตำแหน่งเดิมได้อย่างแม่นยำ สะท้อนให้เห็นถึงความสามารถด้านความจำวัตถุและความจำเชิงพื้นที่ที่มั่นคง

แล้วการย้อนรอยกาล-อวกาศแบบรวมศูนย์ที่ “คล้ายมนุษย์” นี้เกิดขึ้นได้อย่างไร? แกนกลางที่อยู่เบื้องหลังคือ “การแสดงแทนแบบรวมศูนย์” ที่ครอบคลุมข้อมูลหลายมิติ เช่น พื้นที่ ตำแหน่ง เหตุการณ์ วิถี ฯลฯ

RynnBrain จาก Alibaba DAMO Academy: ปลุกสัญชาตญาณทางกายภาพให้หุ่นยนต์ แก้ปัญหาการจัดการวัตถุอ่อนตัว
RynnBrain มีความสามารถหลากหลาย เช่น การรับรู้ การระบุตำแหน่ง การให้เหตุผล การวางแผน

ในการโต้ตอบแบบ embodied ที่ซับซ้อน ข้อมูลที่หุ่นยนต์เผชิญมีความหลากหลายสูง โมเดลดั้งเดิมมักยากที่จะรวมข้อมูลที่หลากหลายเหล่านี้เข้าด้วยกัน และความก้าวหน้าของ RynnBrain อยู่ที่การสร้างกรอบงานแบบรวมศูนย์ที่แมปข้อมูลทั้งหมดเหล่านี้ลงในพื้นที่ผลลัพธ์ของโมเดล ซึ่งหมายความว่าสิ่งที่โมเดลประมวลผลใน “สมอง” ไม่ใช่ภาพตัดแบ่งที่แยกจากกันอีกต่อไป แต่เป็นการหลอมรวมมิติเวลา พิกัดเชิงพื้นที่ และความเข้าใจเชิงความหมายเข้าด้วยกัน จึงทำให้สามารถ “ควบคุม” โลกทางกายภาพได้อย่างแม่นยำในระดับตรรกะพื้นฐาน

RynnBrain จาก Alibaba DAMO Academy: ปลุกสัญชาตญาณทางกายภาพให้หุ่นยนต์ แก้ปัญหาการจัดการวัตถุอ่อนตัว
แผนภาพสถาปัตยกรรมโมเดล RynnBrain

ต่อไปมาดูความสามารถในการให้เหตุผลเกี่ยวกับพื้นที่ทางกายภาพ ใน VLM แบบดั้งเดิม การให้เหตุผลเกิดขึ้นในระดับภาษาหลัก และไม่ได้ถูกบังคับให้เชื่อมโยงกับตำแหน่งเชิงพื้นที่หรือสถานะทางกายภาพที่เฉพาะเจาะจง โมเดลอาจสร้างแผนการที่ดูสมบูรณ์แบบ เช่น “ใช้ช้อนตักไส้ตักไส้” ที่กล่าวถึงก่อนหน้านี้ แต่จริงๆ แล้วตรงหน้ามันไม่มีช้อนตักไส้ และไม่รู้ด้วยว่าอุปกรณ์นี้อยู่ที่ไหน โหมด “การแยกความหมายและพื้นที่” แบบนี้คือรากเหง้าที่ทำให้หุ่นยนต์เกิด “ภาพหลอนทางกายภาพ” ดังนั้น คำสั่งถูกส่งออกไป แต่งานไม่สามารถสำเร็จได้

เพื่อขจัดความแตกแยกนี้ RynnBrain ใช้กลยุทธ์การให้เหตุผลแบบ “สลับระหว่างข้อความและการระบุตำแหน่งเชิงพื้นที่” พูดง่ายๆ คือการให้โมเดล “พูดพร้อมกับชี้” ในกระบวนการที่ RynnBrain สร้างข้อความการให้เหตุผล ทุกครั้งที่เกี่ยวข้องกับวัตถุหรือตำแหน่งทางกายภาพที่เฉพาะเจาะจง มันต้องทำนายพิกัดเชิงพื้นที่หรือพื้นที่มาสก์ที่สอดคล้องกันไปพร้อมกัน ข้อจำกัดบังคับนี้ ทำให้โมเดลต้องสร้างประโยค “หยิบช้อนตักไส้” พร้อมกับระบุตำแหน่งช้อนตักไส้นั้นอย่างแม่นยำในระดับพิกเซลหรือระบบพิกัดสามมิติ

ผ่านกลไกนี้ RynnBrain ล็อกตรรกะภาษาที่เป็นนามธรรมกับสภาพแวดล้อมทางกายภาพที่เป็นรูปธรรมอย่างแข็งแกร่ง วิธีการให้เหตุผลที่หยั่งรากในโลกทางกายภาพนี้ ลดความไม่แน่นอนในการปฏิบัติงานได้อย่างมาก ทำให้โทเค็นการตัดสินใจทุกครั้งมีหลักฐานรองรับ

จากทำสถิติ SOTA สู่ปฏิบัติการจริง: การกำเนิดของ “ฐานหกเหลี่ยม”

พูดมาขนาดนี้ RynnBrain มีประสิทธิภาพจริงแค่ไหน? จริงๆ แล้ว ถ้าเพียงแค่นำ Benchmark ที่มีอยู่ไปทดสอบ ความสามารถบางส่วนของ RynnBrain นั้นวัดได้ยาก เช่น การระบุตำแหน่งเชิงกาล-อวกาศ การระบุจุดปฏิบัติการ ฯลฯ เกณฑ์การประเมินแบบโอเพ่นซอร์สในปัจจุบัน ส่วนใหญ่ขาดการประเมินความสามารถในการทำความเข้าใจข้อมูลระดับละเอียดและความสามารถในการระบุตำแหน่งเชิงกาล-อวกาศเหล่านี้

เพื่อเติมเต็มช่องว่างนี้ DAMO Academy ได้เปิดตัวเกณฑ์ใหม่ชื่อ RynnBrain Bench เกณฑ์นี้ครอบคลุมสี่มิติ: การรับรู้วัตถุ การรับรู้พื้นที่ การระบุตำแหน่งวัตถุ การทำนายจุดแบบ embodied รวม 20 งานที่เกี่ยวข้องกับ embodied มันร่วมกับ benchmark อื่นๆ ที่มีอยู่ ทดสอบความสามารถของโมเดลอย่างรอบด้าน

RynnBrain จาก Alibaba DAMO Academy: ปลุกสัญชาตญาณทางกายภาพให้หุ่นยนต์ แก้ปัญหาการจัดการวัตถุอ่อนตัว

เมื่อเผชิญกับ “ข้อสอบ” ที่เข้มงวดชุดนี้ RynnBrain แสดงให้เห็นถึงความสามารถพื้นฐานของโมเดลพื้นฐานที่รอบด้านและแข็งแกร่งก่อน รุ่น 8B ไม่เพียงแต่เป็นผู้นำในงานรับรู้และระบุตำแหน่งแบบ embodied อย่างสมบูรณ์เหนือกว่าโมเดลชั้นนำในอุตสาหกรรม เช่น Gemini Robotics ER 1.5, Mimo-Embodied, RoboBrain 2.0, Pelican-VL, Cosmos-reason 2 เท่านั้น แต่ในความสามารถย่อยหลายด้านยังก้าวกระโดดเกิน 30% อีกด้วย

ที่สำคัญกว่านั้น RynnBrain ไม่ได้สูญเสียความสามารถในการปรับตัวทั่วไปอย่างเห็นได้ชัด เรารู้ว่าโมเดล “สมองแบบ embodied” จำนวนมากที่ฝึกมาเฉพาะสำหรับงานหุ่นยนต์ มักจะ overfit กับงานเฉพาะ ทำให้สูญเสียความสามารถอันทรงพลังดั้งเดิมในฐานะโมเดลใหญ่ทั่วไป (เช่น การทำความเข้าใจเอกสาร การให้เหตุผลด้วยข้อความ ฯลฯ) ในขณะที่ RynnBrain บรรลุ SOTA ในงานแบบ embodied ก็ยังสืบทอดความสามารถการมองเห็นทั่วไปของโมเดลฐาน (Qwen3-VL) ด้วย

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22982