Being-H0.7 ของ Zhizai Wujie เปิดตัวโมเดลโลกแรกที่ฝึกด้วยวิดีโอของมนุษย์ 200,000 ชั่วโมง คว้าอันดับหนึ่งในการประเมินทั้งหกระดับโลก

“วิดีโอของมนุษย์คือเส้นทางที่สำคัญที่สุดสำหรับหุ่นยนต์ในการทำความเข้าใจและมีปฏิสัมพันธ์กับโลกกายภาพ”

มุมมองที่ค่อยๆ กลายเป็นฉันทามติในอุตสาหกรรมนี้ ผู้เสนอคนแรกคือบริษัทสตาร์ทอัพด้านเอ็มบอดีเมนต์ อินเทลลิเจนซ์ในประเทศจีนชื่อ BeingBeyond (智在无界)

ในช่วงครึ่งปีที่ผ่านมา บริษัทได้บรรลุสองเหตุการณ์สำคัญในด้าน “การฝึกฝนด้วยวิดีโอมนุษย์ปริมาณมหาศาล”: ได้เปิดตัวโมเดลเอ็มบอดีเมนต์ Being-H0 และ H0.5 ที่ผ่านการฝึกพรีเทรนด้วยวิดีโอมนุษย์ 1,000 ชั่วโมงและ 10,000 ชั่วโมงตามลำดับ ซึ่งเป็นโมเดลแรกของโลก เป็นผู้บุกเบิกเส้นทางเทคโนโลยี “การเรียนรู้แบบเอ็มบอดีเมนต์ที่ขับเคลื่อนโดยวิดีโอมนุษย์ขนาดใหญ่” ต่อมา งานวิจัยจากต่างประเทศอย่าง EgoScale ของ NVIDIA และ GEN-1 ของ Generalist AI ได้ทยอยตามมา ซึ่งยืนยันถึงความก้าวหน้าของทิศทางนี้จากมุมมองอื่น

ในฐานะผู้บุกเบิกเส้นทางนี้ BeingBeyond ได้เปิดตัวโมเดลหลักรุ่นที่สาม Being-H0.7 ในวันที่ 14 เมษายน โมเดลนี้ขยายขนาดข้อมูลการฝึกเป็นวิดีโอมนุษย์ 200,000 ชั่วโมง และเสนอรูปแบบใหม่ นั่นคือ World Model ที่ใช้การอนุมานใน Latent Space ในการประเมินมาตรฐานระดับนานาชาติ 6 รายการ H0.7 ได้รับอันดับรวมเป็นที่หนึ่งของโลก (โดยได้รับอันดับหนึ่งใน 4 รายการเดี่ยว) และยังเป็น World Model แบบทั่วไปแรกที่ครอบคลุมเจ็ดมิติสำคัญ ได้แก่ ข้ามออนโทโลยี ข้ามสถานการณ์ ไดนามิกต่อเนื่อง ของไหล วัตถุอ่อนนุ่ม กฎฟิสิกส์ และการให้เหตุผลตามบริบท

หน้าโครงการ: https://research.beingbeyond.com/being-h07
ลิงก์บทความวิจัย: https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

อดีต・ปัจจุบัน・อนาคต: การแบ่งแยกของ World Model

“World Model” ในตอนแรกเป็นแนวคิดพื้นฐาน: เมื่อกำหนดสถานะปัจจุบันและการกระทำ ให้ทำนายสถานะในเวลาถัดไป

ตั้งแต่ปี 2018 Jürgen Schmidhuber ได้อธิบายอย่างเป็นระบบถึงแนวคิดในการสร้างแบบจำลองไดนามิกส์ด้วยโครงข่ายประสาทเทียมในงานของเขา “World Models” แต่ด้วยการพัฒนาของ Generative Model ก็เกิดความเข้าใจผิดที่ค่อยๆ เป็นที่นิยมขึ้น: World Model เท่ากับการทำนายภาพอนาคต (สร้างภาพทีละพิกเซล)

ในความเป็นจริง ไม่ว่าจะเป็นแนวคิดดั้งเดิมของ Schmidhuber หรือสถาปัตยกรรม JEPA ที่ทีมของ Yann LeCun เสนอ ไม่เคยมองว่า “การทำนายระดับพิกเซล” เป็นเป้าหมายหลัก สาเหตุคือ “สถานะ” ของโลกแห่งความเป็นจริงไม่เท่ากับพิกเซล ความสัมพันธ์เชิงพื้นที่ระหว่างวัตถุ การเปลี่ยนรูปของวัตถุอ่อนนุ่ม การเคลื่อนที่ของของไหล ผลของแรงเสียดทานและแรงโน้มถ่วง… ปัจจัยสำคัญเหล่านี้ที่กำหนดการทำงานของโลกกายภาพ ไม่สามารถแสดงออกได้อย่างสมบูรณ์ผ่านภาพทีละพิกเซล World Model ไม่ควรยึดติดกับการสร้างภาพ “ภาพจะเปลี่ยนไปเป็นอย่างไร” แต่ควรเรียนรู้ที่จะเข้าใจว่า “โลกเปลี่ยนแปลงไปอย่างนั้นเพราะเหตุใด”

จากมุมมองของอุตสาหกรรม งาน World Model ปัจจุบันของ NVIDIA กลับไปสู่เส้นทางของการสร้างวิดีโอในระดับหนึ่ง ซึ่งสอดคล้องกับบทบาทของ “ผู้ให้บริการพลังคำนวณ” โดยธรรมชาติ แต่สำหรับเอ็มบอดีเมนต์ อินเทลลิเจนซ์แล้ว นี่ไม่ใช่เส้นทางที่ดีที่สุด

BeingBeyond เชื่อว่า World Model ในอุดมคติควรมีความสามารถหลักสองประการพร้อมกัน: การเข้าใจโลกกายภาพ และการมีปฏิสัมพันธ์ทางกายภาพ

Being-H0.7 ของ Zhizai Wujie เปิดตัวโมเดลโลกแรกที่ฝึกด้วยวิดีโอของมนุษย์ 200,000 ชั่วโมง คว้าอันดับหนึ่งในการประเมินทั้งหกระดับโลก
(แผนภาพ: การกระจายความสามารถของรูปแบบโมเดล AI ที่มีอยู่ในระบบพิกัด “การเข้าใจ-ปฏิสัมพันธ์ทางกายภาพ” Being-H0.7 ขยายขอบเขตความสามารถของ World Model อย่างมีนัยสำคัญด้วยการขับเคลื่อนโดยข้อมูลมนุษย์ปริมาณมหาศาล)

เมื่อทบทวนเส้นทางการพัฒนา AI ด้วยมาตรฐานนี้: ตั้งแต่ LLM ไปจนถึง VLM และไปจนถึง Sora, Genie 3 ในยุค AIGC โมเดลเหล่านี้มีความเข้าใจต่อโลกภาพที่ลึกซึ้งขึ้นเรื่อยๆ แต่ยังคงอยู่ในระดับการรับรู้สองมิติ ขาดความสามารถในการมีปฏิสัมพันธ์กับโลกกายภาพที่แท้จริง

ในปีที่ผ่านมา ด้วยการเกิดขึ้นของเส้นทาง VLA โมเดลต่างๆ เช่น π0.5, GR00T, Being-H0.5 ได้ส่งออกการกระทำของหุ่นยนต์โดยตรงผ่านการปรับแต่งโมเดลภาษาภาพ แม้ว่านี่จะให้ความสามารถในการปฏิบัติงานแก่โมเดล แต่ก็นำมาซึ่งปัญหาใหม่: ความสามารถในการเข้าใจหลายรูปแบบอาจถูกทำให้อ่อนแอลงในระหว่างกระบวนการฝึก โมเดลมีแนวโน้มที่จะ overfit และในหลายครั้งเป็นการ “ท่องจำคำตอบ” แทนที่จะตัดสินใจตามสภาพแวดล้อมอย่างแท้จริง

เพื่อชดเชยข้อบกพร่องนี้ เส้นทาง World Model ที่มีตัวแทนเช่น Cosmos-Policy ของ NVIDIA และ DreamZero พยายามสร้างแบบจำลองการมีปฏิสัมพันธ์ผ่านการสร้างวิดีโอ แต่วิธีการนี้ไม่เพียงแต่มีต้นทุนการคำนวณสูงและใช้งานแบบเรียลไทม์ได้ยาก แต่ด้วยวิธีการที่อิงตามการแสดงภาพสองมิติ จึงยังยากที่จะเข้าใจโลกกายภาพอย่างแท้จริงในพื้นฐาน

ในบริบทนี้ LeCun เสนอว่าควรสร้าง World Model ที่เป็นพื้นฐานมากขึ้นเพื่อเพิ่มความสามารถในการเข้าใจโลกแห่งความเป็นจริง ส่วน BeingBeyond ก้าวไปอีกขั้น โดยเสนอรูปแบบใหม่ที่ใช้การอนุมานใน Latent Space โดยมีเป้าหมายเพื่อขยายความสามารถของ World Model ในสองมิติ “การเข้าใจ” และ “การมีปฏิสัมพันธ์” พร้อมกัน

วิดีโอมนุษย์ 200,000 ชั่วโมง: “ยีน World Model แบบทั่วไป” ของ H0.7

โมเดล VLA แบบดั้งเดิมสามารถทำนายการกระทำได้จากข้อสังเกตปัจจุบันเท่านั้น ขาดความสามารถในการสร้างแบบจำลองการเปลี่ยนแปลงในอนาคต ในขณะที่ Generative World Model แบบสร้างวิดีโออาศัยการทำนายระดับพิกเซลเพื่อ “จินตนาการ” อนาคต ไม่เพียงแต่สรุปกฎฟิสิกส์ได้ยาก แต่ยังนำมาซึ่งภาระการคำนวณที่มหาศาล

ในความเป็นจริง ระบบการมองเห็นของมนุษย์โดยธรรมชาติจะกรองข้อมูลคงที่และเสริมการรับรู้ต่อการเปลี่ยนแปลงแบบไดนามิก และในสมองยังมีพื้นที่ที่จัดการกับการเคลื่อนไหวโดยเฉพาะ เพื่อยับยั้งการรบกวนจากพื้นหลังโดยอัตโนมัติ จากการรับรู้นี้ Being-H0.7 ไม่ได้มุ่งสู่การสร้างภาพใหม่ระดับพิกเซลอีกต่อไป แต่พยายามเรียนรู้ความสามารถที่มีประสิทธิภาพมากขึ้น นั่นคือกลไกการตัดสินใจอย่างรวดเร็วที่คล้ายกับ “สัญชาตญาณทางกายภาพ”

ดังนั้น Being-H0.7 จึงเลือกเส้นทางที่แตกต่าง: ไม่สร้างภาพอนาคตอย่างชัดเจนอีกต่อไป แต่กลั่นกรองข้อมูลสำคัญที่ส่งผลต่อการกระทำในอนาคตอย่างแท้จริง

แตกต่างจาก VLA ที่แมปจากข้อสังเกตปัจจุบันไปยังการกระทำโดยตรง หรือ Generative World Model แบบสร้างวิดีโอที่แนะนำโมดูลการทำนายขนาดใหญ่ Being-H0.7 ได้แนะนำชุดตัวแปรกลางที่สามารถเรียนรู้ได้ (Latent Queries) ภายในโมเดล เป็น “พื้นที่สำหรับคิด” ที่สงวนไว้ ในกระบวนการ forward pass โมเดลจะบีบอัดข้อสังเกตปัจจุบัน เป้าหมายงาน และการตัดสินเกี่ยวกับวิวัฒนาการที่เป็นไปได้ในอนาคตลงในพื้นที่นี้ และพื้นที่นี้จะชี้นำการสร้างการกระทำสุดท้ายอย่างเป็นเอกภาพ

แต่ “พื้นที่สำหรับคิด” นี้เองไม่ได้มีความสามารถในการสร้างแบบจำลองอนาคตโดยธรรมชาติ เพื่อแก้ไขนี้ Being-H0.7 ใช้การออกแบบสองสาขา: เส้นทางหนึ่งภายใต้เงื่อนไขที่ “มองเห็นอนาคตได้” (สาขา posterior) ชี้นำให้โมเดลเรียนรู้ว่าการตัดสินใจกลางใดที่ช่วยในการตัดสินใจกระทำอย่างแท้จริง อีกเส้นทางหนึ่งภายใต้เงื่อนไขการใช้งานจริงที่ “มองไม่เห็นอนาคต” (สาขา prior) จำกัดให้โมเดลสร้างการตัดสินใจที่สอดคล้องกันมากที่สุดเท่าที่จะเป็นไปได้โดยอิงจากข้อสังเกตปัจจุบันเท่านั้น

แตกต่างจากงานบางชิ้นที่เพียงแค่ฉีดข้อมูลอนาคตเข้าไปใน World Model แบบทางเดียว Being-H0.7 สร้างการจัดตำแหน่งและข้อจำกัดซึ่งกันและกันอย่างต่อเนื่องระหว่างสองมุมมองนี้: สาขา posterior ให้สัญญาณกำกับดูแลสำหรับวิวัฒนาการในอนาคต สาขา prior ถูกจำกัดอย่างเข้มงวดด้วยข้อมูลที่สังเกตได้จริง ผ่านการจัดตำแหน่งอย่างต่อเนื่อง โมเดลค่อยๆ เรียนรู้ที่จะอนุมานข้อมูลที่มีประโยชน์อย่างแท้จริงต่อการกระทำต่อไปใน “พื้นที่สำหรับคิด” ตามสถานการณ์ปัจจุบันอย่างปรับตัวได้

ความสามารถในการให้เหตุผลนี้ โดยพื้นฐานแล้วใกล้เคียงกับ “สัญชาตญาณทางกายภาพ” ของมนุษย์ ในโลกแห่งความเป็นจริง มนุษย์ไม่ได้ทำนายภาพอนาคตทีละเฟรม แต่ตัดสินใจอย่างรวดเร็ว: วัตถุจะเคลื่อนที่ไปในทิศทางใดต่อไป? ความสัมพันธ์ในการสัมผัสจะเปลี่ยนแปลงอย่างไร? แรงที่กระทำจะนำมาซึ่งความมั่นคงหรือความไม่สมดุล? กระบวนการมีปฏิสัมพันธ์จะก้าวไปสู่เป้าหมายหรือเบี่ยงเบน? สาเหตุที่มนุษย์สามารถมีความสามารถเหล่านี้ได้โดยมีการลองผิดลองถูกน้อยมาก เพราะ “สัญชาตญาณ” นี้ได้กลายเป็นสัญชาตญาณภายในผ่านวิวัฒนาการในระยะยาว

ในทางตรงกันข้าม ระบบหุ่นยนต์ที่พึ่งพาข้อมูลจากห้องปฏิบัติการเพียงอย่างเดียว ยากที่จะได้รับความสามารถนี้ และยากยิ่งกว่าที่จะทำให้เกิดการถ่ายโอน (generalization) จากการเข้าใจนี้ BeingBeyond ได้สร้างชุดข้อมูลวิดีโอมนุษย์ 200,000 ชั่วโมง ซึ่งมีน้อยรายในโลก และฝึกฝน Being-H0.7 ตามนี้ ทำให้โมเดลได้รับความสามารถที่คล้ายกับ “ยีนพรีเทรน” เพื่อทำความเข้าใจและเปลี่ยนแปลงโลกกายภาพอย่างแท้จริง

ในการนำไปใช้ โครงสร้างของ H0.7 กลับค่อนข้างเรียบง่าย: สองมุมมองแชร์บริบทหลักผ่าน attention mask จัดตำแหน่งเฉพาะที่ Latent Queries และรับการกำกับดูแลการกระทำร่วมกัน ข้อมูลอนาคตไม่จำเป็นต้องถอดรหัสเป็นภาพอนาคต แต่มีส่วนร่วมในการฝึกในรูปแบบการแสดงที่กะทัดรัด เมื่อเทียบกับ Generative World Model แบบสร้างวิดีโออย่าง Cosmos Policy ต้นทุนการฝึกของ H0.7 น้อยกว่า 1%

ข้อได้เปรียบที่เห็นได้ชัดอีกประการคือความเร็วในการอนุมานที่เพิ่มขึ้นอย่างมาก: เร็วกว่า Fast-WAM 11 เท่า และเร็วกว่า Generative World Model อย่าง Imagine-then-Execute มากกว่า 40 เท่า Being-H0.7 เป็น World Model แรกของโลกที่สามารถใช้งานแบบเรียลไทม์บนอุปกรณ์ปลายทางได้อย่างมั่นคง ความสามารถในการอนุมานที่แข็งแกร่งให้ความสามารถในการรับรู้การเปลี่ยนแปลงแบบไดนามิกของโลกภายนอกอย่างรวดเร็วแก่ H0.7 ทำให้สามารถทำงานที่ทั้ง VLA และ World Model แบบดั้งเดิมทำได้ยากก่อนหน้านี้ เช่น การตัดสินวิถีของลูกบอลที่ไหลลื่น การบรรจุหีบห่อสายการผลิตความเร็วสูง การเทของเหลวอย่างแม่นยำ เป็นต้น

ในด้านการประเมิน แตกต่างจากโมเดลส่วนใหญ่ที่ประเมินเฉพาะในรายการเดียว Being-H0.7 ได้อันดับรวมเป็นที่หนึ่งของโลกในรายการประเมินมาตรฐานระดับโลก 6 รายการ และเป็นโมเดลเอ็มบอดีเมนต์ World Model ที่ครอบคลุมกว้างที่สุดในปัจจุบัน โมเดลนี้แสดงให้เห็นถึงความสามารถในการเข้าใจทางกายภาพและการถ่ายโอนที่นำหน้าในเจ็ดมิติสำคัญ ได้แก่ ข้ามออนโทโลยี ข้ามสถานการณ์ ไดนามิกต่อเนื่อง ของไหล วัตถุอ่อนนุ่ม กฎฟิสิกส์ และการให้เหตุผลตามบริบท และสามารถทำงานที่ซับซ้อนได้ เช่น การทำงานร่วมกันของวัตถุหลายชิ้น การวางแผนระยะยาว และงานปฏิสัมพันธ์ทางกายภาพที่ละเอียดอ่อน

เพื่อแสดงข้อมูลที่อยู่ใน “พื้นที่สำหรับคิด” ของ Being-H0.7 อย่างเป็นรูปธรรม สามารถใช้ภาพที่สังเกตและตัวแปรกลางของสาขา prior ร่วมกันเป็นเงื่อนไข และทำนายสถานะในอนาคตของงานด้วยการแสดงภาพโดยอิงจากโมเดลวิดีโอ แม้ว่า Being-H0.7 จะไม่สร้างภาพอนาคตระดับพิกเซลอย่างชัดเจนในการอนุมาน แต่การแสดงใน latent space ของมันได้บรรจุการทำนายสถานะโลกในอนาคตไว้แล้ว ซึ่งสะท้อนถึงคุณลักษณะหลักในฐานะ “Implicit Embodied World Model”

ในการทดลองกับหุ่นยนต์จริง Being-H0.7 ด้วยสถาปัตยกรรม World Model แสดงให้เห็นถึงความสามารถในการรับรู้เชิงพื้นที่ การเข้าใจทางกายภาพ และการให้เหตุผลเกี่ยวกับการเคลื่อนไหวที่แม่นยำยิ่งขึ้น โดยเฉพาะอย่างยิ่งบรรลุความสามารถในการเข้าใจและมีปฏิสัมพันธ์ระดับโลกกายภาพดังต่อไปนี้:

การทำนายวิถีแบบไดนามิก: ในสถานการณ์ไดนามิกความเร็วสูง Being-H0.7 สามารถใช้ความรู้เกี่ยวกับโลกกายภาพและการให้เหตุผลอย่างรวดเร็ว ทำนายวิถีการเคลื่อนที่ของวัตถุและทำปฏิสัมพันธ์ทางกายภาพได้อย่างแม่นยำ
ความเข้าใจกฎฟิสิกส์: ผ่านความรู้เกี่ยวกับโลกที่หลากหลายซึ่งสร้างขึ้นจากการฝึกพรีเทรนขนาดใหญ่ Being-H0.7 สามารถเข้าใจกฎฟิสิกส์ของของไหลได้อย่างแม่นยำและปฏิบัติตามคำสั่งงานที่ซับซ้อน
ความสามารถในการให้เหตุผลเกี่ยวกับการเคลื่อนไหว: Being-H0.7 มีความสามารถในการให้เหตุผลเกี่ยวกับไดนามิกส์ภายใต้โลกกายภาพ สามารถอนุมานตำแหน่งเชิงพื้นที่ของวัตถุหลังการมีปฏิสัมพันธ์และวางแผนการกระทำที่สอดคล้องกัน

จากความสามารถข้างต้น Being-H0.7 สามารถทำงานที่ท้าทายสูง เช่น การติดตามและรับวัตถุที่เคลื่อนที่ด้วยความเร็วสูง การควบคุมของไหลอย่างละเอียด การมีปฏิสัมพันธ์กับวัตถุอ่อนนุ่ม เป็นต้น