การทำให้โมเดลภาษาขนาดใหญ่สามารถเข้าถึงและเข้าใจโลกกายภาพได้อย่างแท้จริง เป็นหนึ่งในความท้าทายที่เร่งด่วนที่สุดในสาขาปัญญาประดิษฐ์ในปัจจุบัน อย่างไรก็ตาม แม้ว่าโมเดลภาษาภาพทั่วไป (VLM) จะแสดงประสิทธิภาพโดดเด่นในการทำความเข้าใจข้อความและภาพ แต่เมื่อนำไปใช้กับตัวแทนอัจฉริยะเชิงรูปธรรม เช่น หุ่นยนต์ ที่ต้องการปฏิสัมพันธ์ที่แม่นยำกับสภาพแวดล้อมทางกายภาพ มักจะดู “งุ่มง่าม”
ปัญหาหลักอยู่ที่ว่าโลกกายภาพไม่ยอมให้มีความคลุมเครือแม้แต่น้อย โมเดลทั่วไปมักพอใจกับการทำความเข้าใจภาพที่ “ถูกต้องโดยประมาณ” ในขณะที่ตัวแทนอัจฉริยะเชิงรูปธรรมต้องการการรับรู้พื้นที่สามมิติที่ละเอียดอ่อนอย่างยิ่ง พร้อมทั้งความสามารถในการคาดการณ์และวางแผนสำหรับการปฏิสัมพันธ์ทางกายภาพจริง การใช้ความคิดแบบ “นักแก้โจทย์” ไปทำงาน “ใช้แรงกาย” ย่อมไม่เหมาะกับบริบท
เพื่อแก้ไขจุดบกพร่องของอุตสาหกรรมนี้ ทีม Tencent Hunyuan ร่วมกับ Tencent Robotics X Laboratory ได้เปิดตัวชุดโมเดลพื้นฐาน HY-Embodied-0.5 ที่ออกแบบมาเฉพาะสำหรับตัวแทนอัจฉริยะเชิงรูปธรรม นี่ไม่ใช่การปรับแต่งโมเดลภาษาขนาดใหญ่ทั่วไปแบบง่ายๆ แต่เป็นการปรับโครงสร้างระบบใหม่ตั้งแต่สถาปัตยกรรมพื้นฐานไปจนถึงกระบวนทัศน์การฝึก

ชุดแรกนี้เปิดตัวโมเดลหลักสองรุ่น:
* MoT-2B: ใช้สถาปัตยกรรม Transformer แบบผสม (MoT) ที่เป็นนวัตกรรมใหม่ มีพารามิเตอร์ทั้งหมด 4B พารามิเตอร์ที่เปิดใช้งานเพียง 2B มุ่งเน้นการปรับใช้บนอุปกรณ์ปลายทางและการตอบสนองแบบเรียลไทม์
* MoE-32B: ใช้สถาปัตยกรรม Mixture of Experts (MoE) มีพารามิเตอร์ทั้งหมด 407B พารามิเตอร์ที่เปิดใช้งาน 32B มุ่งเป้าไปที่การให้เหตุผลที่ซับซ้อนและประสิทธิภาพสูงสุด
เพื่อให้ AI สามารถ “เข้าใจ” และ “ตอบสนอง” ต่อพื้นที่กายภาพได้อย่างแม่นยำ ทีมงานได้สร้างนวัตกรรมหลายประการในด้านสถาปัตยกรรมโมเดล การจัดระเบียบข้อมูล และขั้นตอนการฝึก โมเดลใช้ตัวเข้ารหัสภาพความละเอียดดั้งเดิม และนำสถาปัตยกรรม Transformer แบบผสม (MoT) และกลไก Visual Latent Token มาใช้ เพื่อเสริมสร้างการจัดแนวระหว่างการแสดงผลทางภาพและภาษา
ในด้านการฝึก โมเดลได้รับการฝึกล่วงหน้าบนข้อมูลเฉพาะสำหรับตัวแทนเชิงรูปธรรมคุณภาพสูงกว่า 100 ล้านรายการก่อน จากนั้นใช้กระบวนทัศน์การฝึกหลังแบบวนซ้ำ ผสมผสานเทคนิคการปรับแต่งด้วยการปฏิเสธตัวอย่าง การเรียนรู้แบบเสริมกำลัง และการกลั่นออนไลน์ เพื่อขับเคลื่อนให้สายโซ่ความคิดของโมเดลวิวัฒนาการด้วยตัวเอง พร้อมทั้ง “บีบอัด” ความสามารถของโมเดลขนาดใหญ่ไปยังตัวแปรขนาดเบาอย่างมีประสิทธิภาพ
ชุด HY-Embodied ไม่เพียงแต่ได้เปรียบอย่างชัดเจนในการประเมินมาตรฐานโอเพ่นซอร์ส แต่ยังพิสูจน์คุณค่าในการปฏิบัติงานทางกายภาพ: โดยการใช้ VLM เป็นฐานสำหรับโมเดล ภาพ-ภาษา-การกระทำ (VLA) สามารถนำไปใช้ควบคุมหุ่นยนต์ในโลกแห่งความเป็นจริงได้โดยตรง

ในการประเมินมาตรฐาน 22 รายการที่ครอบคลุมการรับรู้ การให้เหตุผล และการวางแผน HY-Embodied-0.5 มีผลงานโดดเด่น โมเดลขนาดเบา MoT-2B ได้รับคะแนนสูงสุด 16 รายการ ซึ่งเหนือกว่าโมเดลฐานทั่วไป Qwen3-VL-4B ที่มีพารามิเตอร์ขนาดใหญ่กว่า และโมเดลเฉพาะสำหรับตัวแทนเชิงรูปธรรมหลายรุ่น

△ ผลการประเมิน HY-Embodied-0.5 (2B)
ในขณะที่โมเดลเรือธง MoE-32B ภายใต้มาตรฐานการประเมินตัวแทนอัจฉริยะเชิงรูปธรรมแบบบูรณาการ มีประสิทธิภาพที่สามารถเทียบเคียงกับโมเดลมาตรฐานชั้นนำของอุตสาหกรรมในปัจจุบันได้

△ ผลการประเมิน HY-Embodied-0.5 (โมเดลเรือธง)
นอกจากข้อได้เปรียบในการประเมินแล้ว โมเดลขนาดเบาที่มีพารามิเตอร์เพียง 2B ยังมีประสบการณ์การใช้งานที่ดี สามารถให้ผลลัพธ์ที่แม่นยำในงานรับรู้ภาพและงานเชิงรูปธรรม พร้อมทั้งให้กระบวนการให้เหตุผลที่ชัดเจนและสมเหตุสมผล

การนำฐาน VLM ที่แข็งแกร่งขึ้นไปใช้กับงานหุ่นยนต์จริงสามารถเพิ่มประสิทธิภาพได้อย่างมีนัยสำคัญ ภายใต้ข้อมูลการฝึกการเคลื่อนไหวเดียวกัน การใช้ฐานที่ฝึกล่วงหน้าของ HY-Embodied-0.5 (ภาพขวา) เมื่อเทียบกับโมเดลฐาน (ภาพซ้าย) แสดงประสิทธิภาพที่ดีกว่าในงานจริงหลายงาน เช่น การห่อ การซ้อน และการแขวน


สถาปัตยกรรม MoT ผสมผสานภาพและภาษา
ในการฝึกหลายรูปแบบ สัญญาณภาพที่มีข้อมูลมหาศาลมักจะเบียดบังพื้นที่พารามิเตอร์ของโมเดลภาษา ส่งผลให้เกิดปัญหา “การลืมร้ายแรง” ที่ความสามารถทางภาษาลดลงแม้ความสามารถทางภาพจะเพิ่มขึ้น ซึ่งเห็นได้ชัดโดยเฉพาะในโมเดลปลายทางที่มีพารามิเตอร์จำกัด
การออกแบบสถาปัตยกรรมของ HY-Embodied-0.5 มุ่งสู่การปรับตัวตามรูปแบบและการรับรู้โดยไม่สูญเสียข้อมูล เป้าหมายคือให้โมเดลปลายทาง (เช่น MoT-2B) เข้าใจข้อมูลนำเข้าทางภาพได้อย่างแม่นยำโดยไม่สูญเสียข้อมูลสำคัญ พร้อมทั้งรับประกันว่าการประมวลผลภาพและภาษาจะ “ทำหน้าที่ของตัวเอง” โดยไม่รบกวนซึ่งกันและกัน เพื่อเพิ่มประสิทธิภาพโดยรวม

△ แผนผังสถาปัตยกรรม HY-Embodied-0.5 MoT-2B
เพื่อก้าวข้ามข้อจำกัดประสิทธิภาพของโมเดลขนาดเล็กปลายทาง HY-Embodied ได้ปรับโครงสร้างสถาปัตยกรรม VLM พื้นฐานอย่างลึกซึ้ง ประกอบด้วยสามส่วนหลัก:
HY-ViT 2.0 (ตัวเข้ารหัสภาพความละเอียดดั้งเดิม)
HY-ViT 2.0 รองรับการป้อนข้อมูลความละเอียดใดๆ โดยกำเนิด และได้รับการปรับให้เหมาะสมสำหรับการปรับใช้ปลายทางในด้านจำนวนพารามิเตอร์ (รุ่นประสิทธิภาพสูง 400M) โดยการกลั่นความรู้จากโมเดลขนาดใหญ่ภายในที่ทรงพลังกว่า และนำการควบคุมการสร้างภาพใหม่และการควบคุมจากโมเดลภาษาขนาดเล็กมาใช้ เพื่อให้แน่ใจว่าการสูญเสียข้อมูลของสัญญาณภาพที่ป้อนเข้าสู่โมเดลภาษาขนาดใหญ่นั้นน้อยที่สุด
การคำนวณ MoT และความสนใจสองทาง (สถาปัตยกรรม Transformer แบบผสม)
เพื่อหลีกเลี่ยงไม่ให้รูปแบบภาพและภาษา “ต่อสู้กัน” โมเดลได้นำกลไก Transformer แบบผสม (MoT) มาใช้ โดยจัดสรรพารามิเตอร์อิสระที่ไม่ใช้ร่วมกันให้กับสาขาภาพ โดยเฉพาะอย่างยิ่ง จะทำการคัดลอกพารามิเตอร์ของชั้น Feed-Forward Network (FFN) และ Attention (QKV) ของโมเดลภาษา และเริ่มต้นด้วยน้ำหนักที่ฝึกล่วงหน้า เพื่อใช้ประมวลผล Token ภาพโดยเฉพาะ ซึ่งทำให้จำนวนพารามิเตอร์รวมของโมเดลเพิ่มขึ้น แต่ประสิทธิภาพการคำนวณในการอนุมานแทบไม่ได้รับผลกระทบ
ในเวลาเดียวกัน เนื่องจากภาพไม่มีลักษณะทางเดียวของลำดับภาษา โมเดลจึงปลดล็อกกลไกความสนใจแบบทุกทิศทาง (สองทาง) อิสระสำหรับ Token ภาพ และนำงานการทำนาย Next-code ทางภาพมาใช้ (ใช้การควบคุมจากคำศัพท์ไม่ต่อเนื่อง 2K ที่เข้ารหัสแต่ละบล็อกภาพ 8×8 เป็นรหัสเดียว) เพื่อให้สัญญาณการเรียนรู้การแสดงผลภาพที่แข็งแกร่งขึ้น
Visual Latent Tokens (สะพานเชื่อมภาพแฝง)
ได้รับแรงบันดาลใจจากกลไกสายโซ่ความคิดแฝง HY-Embodied-0.5 ได้แนบ “Token ภาพแฝง” เฉพาะในตอนท้ายของลำดับข้อมูลนำเข้าทางภาพแต่ละรายการ (เช่น ภาพหรือเฟรมวิดีโอ) ในขั้นตอนการฝึกล่วงหน้า Token เหล่านี้จะได้รับการควบคุมโดยตรงจากคุณลักษณะส่วนรวมของ Vision Transformer (ViT) ขนาดใหญ่มาก พวกมันทำหน้าที่เหมือนสะพานที่เชื่อมโยงเนื้อหาภาพและข้อความ ซึ่งช่วยเพิ่มความสามารถในการรับรู้โดยรวมและความสามารถในการเข้าใจรายละเอียดปลีกย่อยของโมเดลขนาดเล็กปลายทางได้อย่างมีนัยสำคัญ
ข้อมูลเชิงรูปธรรมและเชิงพื้นที่คุณภาพสูงจำนวนมาก

△ องค์ประกอบข้อมูลการฝึก HY-Embodied-0.5
HY-Embodied-0.5 มุ่งหวังให้โมเดลสร้างสายโซ่การรับรู้ที่สมบูรณ์ตั้งแต่ “การรับรู้พื้นที่สามมิติ” ไปจนถึง “การดำเนินการวางแผนเชิงตรรกะ” เหมือนกับตัวแทนอัจฉริยะทางกายภาพ (Agent) จริงๆ เพื่อจุดประสงค์นี้ ทีมงานได้ละทิ้งการสะสมข้อมูลที่กระจัดกระจาย และบูรณาการข้อมูลภาพพื้นฐานจำนวนมหาศาลกับข้อมูลการรับรู้เชิงรูปธรรมและเชิงพื้นที่ที่มีความเชี่ยวชาญสูงอย่างลึกซึ้ง:
การรับรู้ทางภาพ
ข้อมูลการรับรู้ทางภาพสร้างความสามารถในการเข้าใจภาพพื้นฐานแบบหลายมิติและรอบด้านให้กับโมเดลอย่างเป็นระบบ ครอบคลุมงานต่างๆ เช่น การตรวจจับวัตถุสองมิติและสามมิติ การประมาณความลึก การแบ่งส่วนความหมายความละเอียดสูง รวมถึงการชี้เป้าหมายแบบหนาแน่นและการนับที่แม่นยำ ข้อมูลเหล่านี้ทำให้โมเดลสามารถควบคุมฉากที่ซับซ้อนได้ในระดับพิกเซล ซึ่งเป็นพื้นฐานทางภาพที่เชื่อถือได้สำหรับการดำเนินการทางกายภาพในภายหลัง
การรับรู้เชิงพื้นที่
ข้อมูลการรับรู้เชิงพื้นที่ได้เติม “ความรู้สึกเชิงพื้นที่” ที่สร้างขึ้นสำหรับสภาพแวดล้อมสามมิติให้กับโมเดล รวมถึงความลึกทางเรขาคณิต ความสัมพันธ์เชิงโทโพโลยีของพื้นที่ ความสอดคล้องทางกายภาพข้ามมุมมอง และการวัดทางกายภาพสัมบูรณ์ ข้อมูลเหล่านี้ช่วยให้โมเดลก้าวข้ามขีดจำกัดของพิกเซลสองมิติ และสร้างสัญชาตญาณเรขาคณิตสามมิติที่แท้จริง
การรับรู้เชิงรูปธรรม
HY-Embodied-0.5 แยกโครงสร้างข้อมูลการดำเนินการทางกายภาพในโลกแห่งความเป็นจริงออกเป็นสามระดับที่เข้มงวด: การรับรู้ ความเข้าใจเชิงความหมาย และการวางแผนระดับสูง ข้อมูลครอบคลุมตั้งแต่การยึดติดกับภาพพื้นฐาน การทำนายความสามารถในการใช้งานของวัตถุ ไปจนถึงการให้เหตุผลและการทำนายวิถีการเคลื่อนไหวที่มีมุมมองยาวที่สกัดจากมุมมองบุคคลที่หนึ่งของแขนกลจริง ด้วยข้อมูลเหล่านี้ โมเดลไม่เพียงแต่สามารถประเมินสถานะงานปัจจุบันได้ แต่ยังสามารถสร้างลำดับการกระทำขั้นต่อไปได้อย่างแม่นยำในฉากที่ซับซ้อนซึ่งมีปริศนาภาพและกฎทางกายภาพ
การฝึกหลังการให้เหตุผลแบบสายโซ่ยาวหลายขั้นตอน
กระบวนทัศน์การฝึกของ HY-Embodied-0.5 มุ่งมั่นที่จะทำให้เกิดวงจรปิด “ตั้งแต่การรับรู้พื้นฐานไปจนถึงการคิดเชิงลึก และไปจนถึงการปรับใช้ปลายทาง” โมเดลไม่เพียงแต่สร้างพื้นฐานที่มั่นคงจากข้อมูลจำนวนมหาศาล แต่ยังต้องเชี่ยวชาญความสามารถในการให้เหตุผลแบบสายโซ่ยาวผ่านวิวัฒนาการด้วยตนเอง

△ ขั้นตอนการฝึก HY-Embodied-0.5
เพื่อฝึกโมเดลที่มีทั้งสามัญสำนึกและความสามารถในการให้เหตุผลเชิงรูปธรรมที่แข็งแกร่ง ทีมงานได้ออกแบบแผนการฝึกเชิงลึกแบบหลายขั้นตอนและก้าวหน้า
ขั้นแรก โมเดลได้รับการฝึกล่วงหน้า (มากกว่า 600B โทเค็น) และการฝึกระยะกลาง (มากกว่า 30 ล้านรายการข้อมูล) บนข้อมูลหลายรูปแบบจำนวนมหาศาล รวมถึงข้อมูลเชิงพื้นที่และเชิงรูปธรรม เพื่อสร้างพื้นฐานการรับรู้ที่มั่นคง หลังจากนั้น ผ่านการปรับแต่งภายใต้การควบคุม (SFT) บนข้อมูลการให้เหตุผลคุณภาพสูง เพื่อกระตุ้นความสามารถในการให้เหตุผลเชิงลึกของโมเดลเพิ่มเติม
เพื่อให้โมเดลสามารถค้นหากลยุทธ์การดำเนินการที่เหมาะสมที่สุดในงานเชิงรูปธรรมที่ซับซ้อน และได้รับความสามารถในการให้เหตุผลที่วิวัฒนาการด้วยตนเอง HY-Embodied-0.5 ได้นำชุดขั้นตอนการฝึกหลังที่ปรับให้เหมาะสมสำหรับงานเชิงรูปธรรมมาใช้
ขั้นตอนการฝึกเริ่มต้นด้วยการใช้การเรียนรู้แบบเสริมกำลัง เพื่อส่งเสริมให้โมเดลค้นพบรูปแบบพฤติกรรมที่ดีขึ้นผ่านการสำรวจอย่างอิสระ หลังจากนั้น ขั้นตอนได้นำกระบวนทัศน์วิวัฒนาการด้วยตนเองแบบวนซ้ำมาใช้ โมเดลจะใช้การปรับแต่งด้วยการปฏิเสธตัวอย่าง (RFT) เพื่อรักษาและตรึงกระบวนการให้เหตุผลคุณภาพสูงที่โมเดลประเมินด้วยตนเอง ซึ่งเปลี่ยนความสำเร็จโดยบังเอิญให้เป็นความสามารถที่มั่นคงและเชื่อถือได้
นอกจากนี้ HY-Embodied-0.5 ยังใช้กลยุทธ์การกลั่นออนไลน์ กลยุทธ์นี้ให้โมเดลขนาดเล็กปลายทางพยายามส่งออกก่อน จากนั้นโมเดลขนาดใหญ่จะให้คำแนะนำแบบเรียลไทม์สำหรับข้อผิดพลาดสำคัญในการส่งออกของโมเดลขนาดเล็ก ซึ่งถ่ายโอนความสามารถของโมเดลขนาดใหญ่ไปยังโมเดลปลายทางที่กะทัดรัดกว่าได้อย่างมีประสิทธิภาพ
สรุป
โมเดลฐานเป็นรากฐานสำคัญที่นำไปสู่ตัวแทนอัจฉริยะในโลกแห่งความเป็นจริง ตัวแทนอัจฉริยะจากโมเดลภาษาขนาดใหญ่ได้แสดงให้เห็นถึงความสามารถในการอนุมานและจินตนาการที่แข็งแกร่งในการแก้ปัญหาที่ซับซ้อนและเป็นนามธรรม ในขณะที่ความคาดหวังที่เร่งด่วนยิ่งขึ้นของอุตสาหกรรมคือโมเดลสามารถทำงานได้ในความเป็นจริงทางกายภาพอันกว้างใหญ่ ดังที่เห็นได้จากการสำรวจของ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/29435
