ทีม Tencent Hunyuan เปิดตัวชุดโมเดล HY-Embodied-0.5 ที่ออกแบบมาสำหรับปัญญาประดิษฐ์เชิงกายภาพโดยเฉพาะ เพื่อให้เกิดการโต้ตอบที่แม่นยำในโลกกายภาพ

3 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 12 views

การทำให้โมเดลภาษาขนาดใหญ่สามารถเข้าถึงและเข้าใจโลกกายภาพได้อย่างแท้จริง เป็นหนึ่งในความท้าทายที่เร่งด่วนที่สุดในสาขาปัญญาประดิษฐ์ในปัจจุบัน อย่างไรก็ตาม แม้ว่าโมเดลภาษาภาพทั่วไป (VLM) จะแสดงประสิทธิภาพโดดเด่นในการทำความเข้าใจข้อความและภาพ แต่เมื่อนำไปใช้กับตัวแทนอัจฉริยะเชิงรูปธรรม เช่น หุ่นยนต์ ที่ต้องการปฏิสัมพันธ์ที่แม่นยำกับสภาพแวดล้อมทางกายภาพ มักจะดู “งุ่มง่าม”

ปัญหาหลักอยู่ที่ว่าโลกกายภาพไม่ยอมให้มีความคลุมเครือแม้แต่น้อย โมเดลทั่วไปมักพอใจกับการทำความเข้าใจภาพที่ “ถูกต้องโดยประมาณ” ในขณะที่ตัวแทนอัจฉริยะเชิงรูปธรรมต้องการการรับรู้พื้นที่สามมิติที่ละเอียดอ่อนอย่างยิ่ง พร้อมทั้งความสามารถในการคาดการณ์และวางแผนสำหรับการปฏิสัมพันธ์ทางกายภาพจริง การใช้ความคิดแบบ “นักแก้โจทย์” ไปทำงาน “ใช้แรงกาย” ย่อมไม่เหมาะกับบริบท

เพื่อแก้ไขจุดบกพร่องของอุตสาหกรรมนี้ ทีม Tencent Hunyuan ร่วมกับ Tencent Robotics X Laboratory ได้เปิดตัวชุดโมเดลพื้นฐาน HY-Embodied-0.5 ที่ออกแบบมาเฉพาะสำหรับตัวแทนอัจฉริยะเชิงรูปธรรม นี่ไม่ใช่การปรับแต่งโมเดลภาษาขนาดใหญ่ทั่วไปแบบง่ายๆ แต่เป็นการปรับโครงสร้างระบบใหม่ตั้งแต่สถาปัตยกรรมพื้นฐานไปจนถึงกระบวนทัศน์การฝึก

ทีม Tencent Hunyuan เปิดตัวชุดโมเดล HY-Embodied-0.5 ที่ออกแบบมาสำหรับปัญญาประดิษฐ์เชิงกายภาพโดยเฉพาะ เพื่อให้เกิดการโต้ตอบที่แม่นยำในโลกกายภาพ

ชุดแรกนี้เปิดตัวโมเดลหลักสองรุ่น:
* MoT-2B: ใช้สถาปัตยกรรม Transformer แบบผสม (MoT) ที่เป็นนวัตกรรมใหม่ มีพารามิเตอร์ทั้งหมด 4B พารามิเตอร์ที่เปิดใช้งานเพียง 2B มุ่งเน้นการปรับใช้บนอุปกรณ์ปลายทางและการตอบสนองแบบเรียลไทม์
* MoE-32B: ใช้สถาปัตยกรรม Mixture of Experts (MoE) มีพารามิเตอร์ทั้งหมด 407B พารามิเตอร์ที่เปิดใช้งาน 32B มุ่งเป้าไปที่การให้เหตุผลที่ซับซ้อนและประสิทธิภาพสูงสุด

เพื่อให้ AI สามารถ “เข้าใจ” และ “ตอบสนอง” ต่อพื้นที่กายภาพได้อย่างแม่นยำ ทีมงานได้สร้างนวัตกรรมหลายประการในด้านสถาปัตยกรรมโมเดล การจัดระเบียบข้อมูล และขั้นตอนการฝึก โมเดลใช้ตัวเข้ารหัสภาพความละเอียดดั้งเดิม และนำสถาปัตยกรรม Transformer แบบผสม (MoT) และกลไก Visual Latent Token มาใช้ เพื่อเสริมสร้างการจัดแนวระหว่างการแสดงผลทางภาพและภาษา

ในด้านการฝึก โมเดลได้รับการฝึกล่วงหน้าบนข้อมูลเฉพาะสำหรับตัวแทนเชิงรูปธรรมคุณภาพสูงกว่า 100 ล้านรายการก่อน จากนั้นใช้กระบวนทัศน์การฝึกหลังแบบวนซ้ำ ผสมผสานเทคนิคการปรับแต่งด้วยการปฏิเสธตัวอย่าง การเรียนรู้แบบเสริมกำลัง และการกลั่นออนไลน์ เพื่อขับเคลื่อนให้สายโซ่ความคิดของโมเดลวิวัฒนาการด้วยตัวเอง พร้อมทั้ง “บีบอัด” ความสามารถของโมเดลขนาดใหญ่ไปยังตัวแปรขนาดเบาอย่างมีประสิทธิภาพ

ชุด HY-Embodied ไม่เพียงแต่ได้เปรียบอย่างชัดเจนในการประเมินมาตรฐานโอเพ่นซอร์ส แต่ยังพิสูจน์คุณค่าในการปฏิบัติงานทางกายภาพ: โดยการใช้ VLM เป็นฐานสำหรับโมเดล ภาพ-ภาษา-การกระทำ (VLA) สามารถนำไปใช้ควบคุมหุ่นยนต์ในโลกแห่งความเป็นจริงได้โดยตรง

ในการประเมินมาตรฐาน 22 รายการที่ครอบคลุมการรับรู้ การให้เหตุผล และการวางแผน HY-Embodied-0.5 มีผลงานโดดเด่น โมเดลขนาดเบา MoT-2B ได้รับคะแนนสูงสุด 16 รายการ ซึ่งเหนือกว่าโมเดลฐานทั่วไป Qwen3-VL-4B ที่มีพารามิเตอร์ขนาดใหญ่กว่า และโมเดลเฉพาะสำหรับตัวแทนเชิงรูปธรรมหลายรุ่น

△ ผลการประเมิน HY-Embodied-0.5 (2B)

ในขณะที่โมเดลเรือธง MoE-32B ภายใต้มาตรฐานการประเมินตัวแทนอัจฉริยะเชิงรูปธรรมแบบบูรณาการ มีประสิทธิภาพที่สามารถเทียบเคียงกับโมเดลมาตรฐานชั้นนำของอุตสาหกรรมในปัจจุบันได้

△ ผลการประเมิน HY-Embodied-0.5 (โมเดลเรือธง)

นอกจากข้อได้เปรียบในการประเมินแล้ว โมเดลขนาดเบาที่มีพารามิเตอร์เพียง 2B ยังมีประสบการณ์การใช้งานที่ดี สามารถให้ผลลัพธ์ที่แม่นยำในงานรับรู้ภาพและงานเชิงรูปธรรม พร้อมทั้งให้กระบวนการให้เหตุผลที่ชัดเจนและสมเหตุสมผล

การนำฐาน VLM ที่แข็งแกร่งขึ้นไปใช้กับงานหุ่นยนต์จริงสามารถเพิ่มประสิทธิภาพได้อย่างมีนัยสำคัญ ภายใต้ข้อมูลการฝึกการเคลื่อนไหวเดียวกัน การใช้ฐานที่ฝึกล่วงหน้าของ HY-Embodied-0.5 (ภาพขวา) เมื่อเทียบกับโมเดลฐาน (ภาพซ้าย) แสดงประสิทธิภาพที่ดีกว่าในงานจริงหลายงาน เช่น การห่อ การซ้อน และการแขวน

สถาปัตยกรรม MoT ผสมผสานภาพและภาษา

ในการฝึกหลายรูปแบบ สัญญาณภาพที่มีข้อมูลมหาศาลมักจะเบียดบังพื้นที่พารามิเตอร์ของโมเดลภาษา ส่งผลให้เกิดปัญหา “การลืมร้ายแรง” ที่ความสามารถทางภาษาลดลงแม้ความสามารถทางภาพจะเพิ่มขึ้น ซึ่งเห็นได้ชัดโดยเฉพาะในโมเดลปลายทางที่มีพารามิเตอร์จำกัด

การออกแบบสถาปัตยกรรมของ HY-Embodied-0.5 มุ่งสู่การปรับตัวตามรูปแบบและการรับรู้โดยไม่สูญเสียข้อมูล เป้าหมายคือให้โมเดลปลายทาง (เช่น MoT-2B) เข้าใจข้อมูลนำเข้าทางภาพได้อย่างแม่นยำโดยไม่สูญเสียข้อมูลสำคัญ พร้อมทั้งรับประกันว่าการประมวลผลภาพและภาษาจะ “ทำหน้าที่ของตัวเอง” โดยไม่รบกวนซึ่งกันและกัน เพื่อเพิ่มประสิทธิภาพโดยรวม

△ แผนผังสถาปัตยกรรม HY-Embodied-0.5 MoT-2B

เพื่อก้าวข้ามข้อจำกัดประสิทธิภาพของโมเดลขนาดเล็กปลายทาง HY-Embodied ได้ปรับโครงสร้างสถาปัตยกรรม VLM พื้นฐานอย่างลึกซึ้ง ประกอบด้วยสามส่วนหลัก:

HY-ViT 2.0 (ตัวเข้ารหัสภาพความละเอียดดั้งเดิม)

HY-ViT 2.0 รองรับการป้อนข้อมูลความละเอียดใดๆ โดยกำเนิด และได้รับการปรับให้เหมาะสมสำหรับการปรับใช้ปลายทางในด้านจำนวนพารามิเตอร์ (รุ่นประสิทธิภาพสูง 400M) โดยการกลั่นความรู้จากโมเดลขนาดใหญ่ภายในที่ทรงพลังกว่า และนำการควบคุมการสร้างภาพใหม่และการควบคุมจากโมเดลภาษาขนาดเล็กมาใช้ เพื่อให้แน่ใจว่าการสูญเสียข้อมูลของสัญญาณภาพที่ป้อนเข้าสู่โมเดลภาษาขนาดใหญ่นั้นน้อยที่สุด

การคำนวณ MoT และความสนใจสองทาง (สถาปัตยกรรม Transformer แบบผสม)

เพื่อหลีกเลี่ยงไม่ให้รูปแบบภาพและภาษา “ต่อสู้กัน” โมเดลได้นำกลไก Transformer แบบผสม (MoT) มาใช้ โดยจัดสรรพารามิเตอร์อิสระที่ไม่ใช้ร่วมกันให้กับสาขาภาพ โดยเฉพาะอย่างยิ่ง จะทำการคัดลอกพารามิเตอร์ของชั้น Feed-Forward Network (FFN) และ Attention (QKV) ของโมเดลภาษา และเริ่มต้นด้วยน้ำหนักที่ฝึกล่วงหน้า เพื่อใช้ประมวลผล Token ภาพโดยเฉพาะ ซึ่งทำให้จำนวนพารามิเตอร์รวมของโมเดลเพิ่มขึ้น แต่ประสิทธิภาพการคำนวณในการอนุมานแทบไม่ได้รับผลกระทบ

ในเวลาเดียวกัน เนื่องจากภาพไม่มีลักษณะทางเดียวของลำดับภาษา โมเดลจึงปลดล็อกกลไกความสนใจแบบทุกทิศทาง (สองทาง) อิสระสำหรับ Token ภาพ และนำงานการทำนาย Next-code ทางภาพมาใช้ (ใช้การควบคุมจากคำศัพท์ไม่ต่อเนื่อง 2K ที่เข้ารหัสแต่ละบล็อกภาพ 8×8 เป็นรหัสเดียว) เพื่อให้สัญญาณการเรียนรู้การแสดงผลภาพที่แข็งแกร่งขึ้น

Visual Latent Tokens (สะพานเชื่อมภาพแฝง)

ได้รับแรงบันดาลใจจากกลไกสายโซ่ความคิดแฝง HY-Embodied-0.5 ได้แนบ “Token ภาพแฝง” เฉพาะในตอนท้ายของลำดับข้อมูลนำเข้าทางภาพแต่ละรายการ (เช่น ภาพหรือเฟรมวิดีโอ) ในขั้นตอนการฝึกล่วงหน้า Token เหล่านี้จะได้รับการควบคุมโดยตรงจากคุณลักษณะส่วนรวมของ Vision Transformer (ViT) ขนาดใหญ่มาก พวกมันทำหน้าที่เหมือนสะพานที่เชื่อมโยงเนื้อหาภาพและข้อความ ซึ่งช่วยเพิ่มความสามารถในการรับรู้โดยรวมและความสามารถในการเข้าใจรายละเอียดปลีกย่อยของโมเดลขนาดเล็กปลายทางได้อย่างมีนัยสำคัญ

ข้อมูลเชิงรูปธรรมและเชิงพื้นที่คุณภาพสูงจำนวนมาก

△ องค์ประกอบข้อมูลการฝึก HY-Embodied-0.5

HY-Embodied-0.5 มุ่งหวังให้โมเดลสร้างสายโซ่การรับรู้ที่สมบูรณ์ตั้งแต่ “การรับรู้พื้นที่สามมิติ” ไปจนถึง “การดำเนินการวางแผนเชิงตรรกะ” เหมือนกับตัวแทนอัจฉริยะทางกายภาพ (Agent) จริงๆ เพื่อจุดประสงค์นี้ ทีมงานได้ละทิ้งการสะสมข้อมูลที่กระจัดกระจาย และบูรณาการข้อมูลภาพพื้นฐานจำนวนมหาศาลกับข้อมูลการรับรู้เชิงรูปธรรมและเชิงพื้นที่ที่มีความเชี่ยวชาญสูงอย่างลึกซึ้ง:

การรับรู้ทางภาพ

ข้อมูลการรับรู้ทางภาพสร้างความสามารถในการเข้าใจภาพพื้นฐานแบบหลายมิติและรอบด้านให้กับโมเดลอย่างเป็นระบบ ครอบคลุมงานต่างๆ เช่น การตรวจจับวัตถุสองมิติและสามมิติ การประมาณความลึก การแบ่งส่วนความหมายความละเอียดสูง รวมถึงการชี้เป้าหมายแบบหนาแน่นและการนับที่แม่นยำ ข้อมูลเหล่านี้ทำให้โมเดลสามารถควบคุมฉากที่ซับซ้อนได้ในระดับพิกเซล ซึ่งเป็นพื้นฐานทางภาพที่เชื่อถือได้สำหรับการดำเนินการทางกายภาพในภายหลัง

การรับรู้เชิงพื้นที่

ข้อมูลการรับรู้เชิงพื้นที่ได้เติม “ความรู้สึกเชิงพื้นที่” ที่สร้างขึ้นสำหรับสภาพแวดล้อมสามมิติให้กับโมเดล รวมถึงความลึกทางเรขาคณิต ความสัมพันธ์เชิงโทโพโลยีของพื้นที่ ความสอดคล้องทางกายภาพข้ามมุมมอง และการวัดทางกายภาพสัมบูรณ์ ข้อมูลเหล่านี้ช่วยให้โมเดลก้าวข้ามขีดจำกัดของพิกเซลสองมิติ และสร้างสัญชาตญาณเรขาคณิตสามมิติที่แท้จริง

การรับรู้เชิงรูปธรรม

HY-Embodied-0.5 แยกโครงสร้างข้อมูลการดำเนินการทางกายภาพในโลกแห่งความเป็นจริงออกเป็นสามระดับที่เข้มงวด: การรับรู้ ความเข้าใจเชิงความหมาย และการวางแผนระดับสูง ข้อมูลครอบคลุมตั้งแต่การยึดติดกับภาพพื้นฐาน การทำนายความสามารถในการใช้งานของวัตถุ ไปจนถึงการให้เหตุผลและการทำนายวิถีการเคลื่อนไหวที่มีมุมมองยาวที่สกัดจากมุมมองบุคคลที่หนึ่งของแขนกลจริง ด้วยข้อมูลเหล่านี้ โมเดลไม่เพียงแต่สามารถประเมินสถานะงานปัจจุบันได้ แต่ยังสามารถสร้างลำดับการกระทำขั้นต่อไปได้อย่างแม่นยำในฉากที่ซับซ้อนซึ่งมีปริศนาภาพและกฎทางกายภาพ

การฝึกหลังการให้เหตุผลแบบสายโซ่ยาวหลายขั้นตอน

กระบวนทัศน์การฝึกของ HY-Embodied-0.5 มุ่งมั่นที่จะทำให้เกิดวงจรปิด “ตั้งแต่การรับรู้พื้นฐานไปจนถึงการคิดเชิงลึก และไปจนถึงการปรับใช้ปลายทาง” โมเดลไม่เพียงแต่สร้างพื้นฐานที่มั่นคงจากข้อมูลจำนวนมหาศาล แต่ยังต้องเชี่ยวชาญความสามารถในการให้เหตุผลแบบสายโซ่ยาวผ่านวิวัฒนาการด้วยตนเอง

△ ขั้นตอนการฝึก HY-Embodied-0.5

เพื่อฝึกโมเดลที่มีทั้งสามัญสำนึกและความสามารถในการให้เหตุผลเชิงรูปธรรมที่แข็งแกร่ง ทีมงานได้ออกแบบแผนการฝึกเชิงลึกแบบหลายขั้นตอนและก้าวหน้า

ขั้นแรก โมเดลได้รับการฝึกล่วงหน้า (มากกว่า 600B โทเค็น) และการฝึกระยะกลาง (มากกว่า 30 ล้านรายการข้อมูล) บนข้อมูลหลายรูปแบบจำนวนมหาศาล รวมถึงข้อมูลเชิงพื้นที่และเชิงรูปธรรม เพื่อสร้างพื้นฐานการรับรู้ที่มั่นคง หลังจากนั้น ผ่านการปรับแต่งภายใต้การควบคุม (SFT) บนข้อมูลการให้เหตุผลคุณภาพสูง เพื่อกระตุ้นความสามารถในการให้เหตุผลเชิงลึกของโมเดลเพิ่มเติม

เพื่อให้โมเดลสามารถค้นหากลยุทธ์การดำเนินการที่เหมาะสมที่สุดในงานเชิงรูปธรรมที่ซับซ้อน และได้รับความสามารถในการให้เหตุผลที่วิวัฒนาการด้วยตนเอง HY-Embodied-0.5 ได้นำชุดขั้นตอนการฝึกหลังที่ปรับให้เหมาะสมสำหรับงานเชิงรูปธรรมมาใช้

ขั้นตอนการฝึกเริ่มต้นด้วยการใช้การเรียนรู้แบบเสริมกำลัง เพื่อส่งเสริมให้โมเดลค้นพบรูปแบบพฤติกรรมที่ดีขึ้นผ่านการสำรวจอย่างอิสระ หลังจากนั้น ขั้นตอนได้นำกระบวนทัศน์วิวัฒนาการด้วยตนเองแบบวนซ้ำมาใช้ โมเดลจะใช้การปรับแต่งด้วยการปฏิเสธตัวอย่าง (RFT) เพื่อรักษาและตรึงกระบวนการให้เหตุผลคุณภาพสูงที่โมเดลประเมินด้วยตนเอง ซึ่งเปลี่ยนความสำเร็จโดยบังเอิญให้เป็นความสามารถที่มั่นคงและเชื่อถือได้

นอกจากนี้ HY-Embodied-0.5 ยังใช้กลยุทธ์การกลั่นออนไลน์ กลยุทธ์นี้ให้โมเดลขนาดเล็กปลายทางพยายามส่งออกก่อน จากนั้นโมเดลขนาดใหญ่จะให้คำแนะนำแบบเรียลไทม์สำหรับข้อผิดพลาดสำคัญในการส่งออกของโมเดลขนาดเล็ก ซึ่งถ่ายโอนความสามารถของโมเดลขนาดใหญ่ไปยังโมเดลปลายทางที่กะทัดรัดกว่าได้อย่างมีประสิทธิภาพ

สรุป

โมเดลฐานเป็นรากฐานสำคัญที่นำไปสู่ตัวแทนอัจฉริยะในโลกแห่งความเป็นจริง ตัวแทนอัจฉริยะจากโมเดลภาษาขนาดใหญ่ได้แสดงให้เห็นถึงความสามารถในการอนุมานและจินตนาการที่แข็งแกร่งในการแก้ปัญหาที่ซับซ้อนและเป็นนามธรรม ในขณะที่ความคาดหวังที่เร่งด่วนยิ่งขึ้นของอุตสาหกรรมคือโมเดลสามารถทำงานได้ในความเป็นจริงทางกายภาพอันกว้างใหญ่ ดังที่เห็นได้จากการสำรวจของ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง