อัจฉริยะหัวเหว่ยเริ่มต้นธุรกิจ: X1 โมเดลวิดีโอแบบเรียลไทม์ผสานโลกจริงและเสมือนอันดับแรกของโลก ทำให้ความฝันวัยเด็ก ‘Digimon’ ก้าวสู่ความเป็นจริง

2026年2月9日 am8:57 • ข่าวสารอุตสาหกรรม AI • 170 views

ยังจำความฝันในวัยเด็กได้ไหม?

เมื่อเพลงวิวัฒนาการของ “Digimon” ดังขึ้น หลายคนที่อยู่หน้าจออาจเคยจินตนาการว่า: ถ้าเจ้า Koromon ที่ฟักออกมาจากไข่ดิจิตอลสามารถกระโดดออกมาจากหน้าจอทีวีได้จริง ๆ ก็คงจะดี

อัจฉริยะหัวเหว่ยเริ่มต้นธุรกิจ: X1 โมเดลวิดีโอแบบเรียลไทม์ผสานโลกจริงและเสมือนอันดับแรกของโลก ทำให้ความฝันวัยเด็ก 'Digimon' ก้าวสู่ความเป็นจริง

ในตอนนั้น เราสามารถฝากความฝันสุดล้ำจินตนาการแบบนี้ไว้กับ “รอยแยกระหว่างมิติ” เท่านั้น ต่อมา เทคโนโลยี Augmented Reality (AR) เคยนำความหวังมาให้ แต่หลังจากผ่านช่วงขึ้นลงหลายครั้ง ผลลัพธ์ยังคงอยู่ที่ระดับ “การซ้อนทับเนื้อหาที่ผลิตไว้ล่วงหน้า” ตัวละครดิจิตอลไม่สามารถรับรู้สภาพแวดล้อมได้อย่างแท้จริง

และตอนนี้ก็ปี 2026 แล้ว AI สร้างสรรค์ (Generative AI), การเรนเดอร์แบบเรียลไทม์, กำลังประมวลผลฝั่งอุปกรณ์ (Edge Computing), และโมเดลการรับรู้ (Perception Models) ต่างพร้อมมูลพร้อมกัน โดยเฉพาะความสามารถในการจำลองโลกที่ไม่มีมาก่อนของ Sora ทำให้ทุกคนตระหนักว่า เนื้อหาเสมือนไม่จำเป็นต้องถูกสร้างไว้ล่วงหน้าทั้งหมดอีกต่อไป แต่สามารถถูกสร้าง ขับเคลื่อน และมีเหตุผลทางฟิสิกส์ได้แบบเรียลไทม์ การวิ่งเต้นของเทคโนโลยีทำให้ความฝัน “Chuunibyou” ในอดีต มีความเป็นไปได้ที่จะกลายเป็นจริงเป็นครั้งแรก: คุณสามารถ “เรียก” Koromon ออกมาจากหน้าจอได้จริง ๆ

มหัศจรรย์ไหม? เล็งกล้องโทรศัพท์ไปที่โต๊ะ เลือกรูปภาพ Koromon หนึ่งรูป ในวินาทีถัดมา Koromon ก็ “หลุดออกจากหน้าจอ” ปรากฏตัวบนโต๊ะ มองไปรอบ ๆ คุณยื่นมือออกไป ตอนแรกมันอาจจะระแวดระวังเล็กน้อย แต่หลังจากนั้นก็จะเข้ามาเช็ดมือคุณอย่างสนิทสนม คุณบีบเบา ๆ มันจะให้ผลตอบรับทางฟิสิกส์ที่เด้งดึ๋ง และเมื่อคุณแบมือออก มันยังสามารถถูกคุณ “อุ้ม” ไว้บนฝ่ามือได้ ราวกับว่า นี่คือ Koromon ที่ “มีชีวิต”… ผ่านกล้องโทรศัพท์เพียงตัวเดียว ตัวละครเสมือนก็สามารถผสานเข้ากับโลกความเป็นจริงได้อย่างลึกซึ้งเป็นครั้งแรก

นี่คือ X1 โมเดลวิดีโอแบบเรียลไทม์สำหรับการผสานความจริงกับเสมือนและโต้ตอบได้ตัวแรก ที่เปิดตัวโดยบริษัทสตาร์ทอัพ Xmax AI มันไม่ต้องการพรอมต์ที่ซับซ้อน ไม่ต้องรอการเรนเดอร์นาน เพียงแค่โต้ตอบด้วยท่าทาง ก็สามารถเชื่อมต่อโลกเสมือนกับโลกจริงได้ ทำให้ “จินตนาการ” กลายเป็นจริงในกล้อง มอบประสบการณ์การไหลของจิตใจ (Flow) แบบโต้ตอบได้ทันทีให้กับผู้ใช้

ปัจจุบัน Xmax AI ได้เปิดความสามารถของ X1 ให้ผู้ใช้บางส่วนได้ทดลองใช้ผ่านแอปพลิเคชันสาธิตเทคโนโลยี X-cam (เปิดให้ดาวน์โหลดผ่าน TestFlight)

“การผสานความจริงกับเสมือน + การโต้ตอบแบบเรียลไทม์”: การสร้างวิดีโอเข้าสู่ยุค “ใคร ๆ ก็เล่นได้”

ตลอดหนึ่งปีที่ผ่านมา สาขาการสร้างวิดีโอด้วย AI ถือว่าบานสะพรั่ง มีผู้เล่นเก่ง ๆ มากมาย

ข้อมูลแสดงว่า ในปี 2024 ขนาดตลาดการสร้างวิดีโอด้วย AI ทั่วโลกสูงถึง 614.8 ล้านดอลลาร์สหรัฐ และคาดว่าภายในปี 2032 จะพุ่งสูงถึง 2,562.9 ล้านดอลลาร์สหรัฐ ภายใต้แรงผลักดันของความต้องการที่แข็งแกร่งของตลาด ตั้งแต่ Sora ถึง Runway ผู้เล่นต่าง ๆ ต่างมุ่งมั่นวิ่งตามแนวทาง “ความสามารถในการสร้างที่แข็งแกร่งขึ้น”: แข่งกันเรื่องคุณภาพภาพ ระยะเวลา ความละเอียด…

หากมองอย่างละเอียด เส้นทางเทคโนโลยีที่ผู้เล่นส่วนใหญ่ในสนามนี้เลือกยังคงเป็นการสร้างวิดีโอจากข้อความ (Text-to-Video) มุ่งมั่นสร้างเครื่องมือผลิตที่ทรงพลังยิ่งขึ้นสำหรับผู้สร้างเนื้อหาในสาขาวิชาชีพ เช่น ภาพยนตร์ โฆษณา

แต่ต้องยอมรับว่า ใน “การแข่งขันอาวุธโมเดลวิดีโอ” ในปัจจุบัน ผู้ใช้ทั่วไปดูเหมือนจะไม่ได้มีส่วนร่วมในความครึกครื้น รู้สึกว่า “ความครึกครื้นเป็นของพวกเขา ฉันไม่มีอะไรเลย”

เหตุผลเป็นเรื่องจริงมาก ประการแรกคือใช้งานยาก: การเขียนพรอมต์ที่แม่นยำยังมีอุปสรรค และเวลาในการรอการสร้างมักใช้เวลาตั้งแต่ไม่กี่วินาทีไปจนถึงหลายสิบนาที ขาดความสนุกสนานจากการตอบรับทันที และหลังจากรอนาน สิ่งที่ได้ก็เป็นเพียงวิดีโอเสมือนที่ “ดูได้อย่างเดียว แต่สัมผัสไม่ได้” ที่อยู่ในหน้าจอ ไม่มีความเชื่อมโยงกับชีวิตประจำวันในปัจจุบัน

Xmax AI จับจุดนี้ได้อย่างเฉียบคม: หากการสร้างวิดีโอด้วย AI ต้องการเข้าสู่มวลชนอย่างแท้จริง ก็ไม่สามารถหยุดอยู่แค่ขั้น “เครื่องมือ” ได้ ต้องใช้งานง่าย ให้มวลชนมีส่วนร่วม สามารถ “เล่น” ได้

นี่หมายความว่า นอกเหนือจากความสามารถพื้นฐานในการสร้างวิดีโอแล้ว อุตสาหกรรมยังต้องก้าวข้าม “ภูเขาสองลูก”: หนึ่งคือลดอุปสรรคในการโต้ตอบ เปลี่ยนวิธีการที่ต้องพึ่งพาการเขียนพรอมต์แบบมืออาชีพ สองคือต้องผสานกับโลกความเป็นจริง ตอบสนองความฝันของคนต่อสถานการณ์ในชีวิตจริง

จากพื้นฐานนี้ Xmax AI เลือกเส้นทางที่แตกต่างอย่างสิ้นเชิง: เปิดตัวโมเดลวิดีโอแบบเรียลไทม์สำหรับการผสานความจริงกับเสมือนและโต้ตอบได้ตัวแรก X1 ทำให้การสร้างวิดีโออำลาการป้อนข้อมูลผ่านคีย์บอร์ด กลับสู่ท่าทางและการสัมผัสที่เป็นสัญชาตญาณพื้นฐานที่สุดของมนุษย์ เพียงแค่ใช้กล้องโทรศัพท์หนึ่งตัว ก็สามารถทำลายกำแพงระหว่างความจริงกับเสมือนได้

หากมองอย่างเจาะลึก จากความสามารถในการสร้างแบบเรียลไทม์ฝั่งอุปกรณ์ที่แข็งแกร่งของ X1 Xmax AI นำเทคโนโลยีนี้มาประยุกต์ใช้เป็นแก่นการเล่นหลักสี่รูปแบบ: การโต้ตอบข้ามมิติ, ฟิลเตอร์โลก, กิฟต์เคลื่อนไหวแบบสัมผัสได้, นักจับสีหน้า… โทรศัพท์ทุกเครื่องดูเหมือนจะกลายเป็น “ไม้กายสิทธิ์” ที่เชื่อมโยงความจริงกับเสมือน

การโต้ตอบข้ามมิติ: นี่คือความสามารถที่แสดงในวิดีโอด้านบน กล้องโทรศัพท์ถ่ายภาพฉากจริง อัปโหลดรูปอ้างอิงตัวละครใด ๆ ก็ได้ ก็สามารถ “เรียก” ตัวละครนั้นออกมาในกล้องได้

เช่น เจ้ากระต่ายน้อยในวิดีโอด้านล่าง คุณสามารถยื่นมือออกไปโต้ตอบกับมันที่หน้ากล้อง บีบเบา ๆ ตบเบา ๆ หรือแม้แต่อุ้มมันขึ้นมาบนมือ จากวิดีโอจะเห็นว่า เมื่อลูบไปที่ตำแหน่งใกล้ตากระต่าย มันจะหันหัวตามการเคลื่อนไหวของคน แม้กระทั่งเห็นขนปุกปุยปิดตาจากการสัมผัส โดยไม่มีความล่าช้า เพราะปฏิกิริยาทางฟิสิกส์ทั้งหมดของมันถูกสร้างโดยโมเดล X1 แบบเรียลไทม์ ดังนั้นจึงดูเหมือนกำลังลูบคลำสิ่งมีชีวิตที่มีอยู่จริง

ไม่ใช่แค่ตัวละครอนิเมะเท่านั้น 可以说可以说ตัวละครในกระดาษ สัตว์เลี้ยง ของเล่นขนปุยใด ๆ ที่ตัวเองชอบ ก็สามารถ “มีชีวิต” ขึ้นมาในกล้องได้

ฟิลเตอร์โลก: อัปโหลดรูปอ้างอิงสไตล์ใด ๆ ก็ได้ ก็สามารถแปลงภาพที่กล้องโทรศัพท์ถ่ายได้แบบเรียลไทม์ ให้กลายเป็นสไตล์ที่กำหนด เช่น สไตล์ภาพวาดแวนโก๊ะ สไตล์เลโก้ เป็นต้น สามารถใช้ในการเรนเดอร์สภาพแวดล้อม เรนเดอร์ตัวบุคคล หรือแม้แต่เรนเดอร์เนื้อหาบนหน้าจอ เช่น ภาพเกมที่กำลังเล่นอยู่

มาดูตัวอย่างกันโดยตรง ในวิดีโอด้านล่าง ผู้สาธิตเลือกรูปอ้างอิงสไตล์ต่าง ๆ ทำให้ตัวเอง “แปลงร่าง” เป็นบุคคลตามสไตล์ในรูปภาพ อาจเป็นตัวละครเสมือนสองมิติจากอนิเมะคลาสสิก หรือสไตล์เลโก้ก็ได้ และเมื่อผู้สาธิตทำท่าทางโบกมือหรือส่ายหัว ตัวบุคคลที่ “แปลงร่าง” แล้วในวิดีโอจะทำท่าทางตามแบบเรียลไทม์

กิฟต์เคลื่อนไหวแบบสัมผัสได้: ทำให้ภาพถ่าย静止 “มีชีวิต” เคลื่อนไหวได้ ไม่จำเป็นต้องใช้ซอฟต์แวร์ที่ซับซ้อนอีกต่อไป สำหรับภาพถ่ายใด ๆ ก็สามารถลากและควบคุมตัวละครในภาพบนหน้าจอสัมผัส ทำให้มันเคลื่อนไหวแบบเรียลไทม์ได้

เช่น เจ้ากระต่ายน้อยสไตล์อนิเมะในวิดีโอด้านล่าง ลากหูของมันไปทางซ้ายขวา มันก็เริ่มส่ายหัวซ้ายขวา; พัดขึ้นลง มันก็ทำท่าทางถูกตบหัว; ลากมุมปาก มันจะยิ้มออกมา “ของจริง” ก็ได้ ถ่ายรูปแมวหรือหมาในบ้านอัปโหลดขึ้นมา ก็สามารถให้มันโบกมือ หมัดเหวี่ยง เต้นรำได้; กระพริบตาแลบลิ้น แสดงความน่ารัก เหมือนกำลังควบคุมหุ่นเชิดสาย ช่วยให้ภาพนิ่งมีชีวิตชีวาอย่างง่ายดาย

นักจับสีหน้า: เล็งเลนส์กล้องไปที่บุคคลหรือวัตถุใด ๆ เลือกอิโมจิ “นิ้วโป้งขึ้น” หรือ “โกรธจัด” AI จะ “จับ” ลักษณะของคู่สนทนาแบบเรียลไทม์ สร้างสติกเกอร์เคลื่อนไหวที่มีสีหน้าแม่นยำและดูมีมนต์ขลัง นี่เรียกได้ว่าเป็น “เครื่องมือมหัศจรรย์สำหรับสังคม” ทำให้การพบปะที่เงียบเหงากลายเป็นอดีตไปเลย

ความท้าทายทางเทคนิคและการนำไปปฏิบัติเบื้องหลังความสามารถอันแข็งแกร่ง

แม้ไม่มีความรู้ทางเทคนิค ก็สามารถใช้งานรูปแบบการเล่นเหล่านี้ได้อย่างง่ายดาย แต่ในสายตาผู้ที่อยู่ในวงการ นี่ไม่ใช่แค่นวัตกรรมของผลิตภัณฑ์ แต่ยังเป็น “สุนทรียศาสตร์แห่งความรุนแรง” ของความสามารถทางวิศวกรรม

“เบื้องหลังประสบการณ์ที่น่าสนใจ คือความท้าทายทางเทคนิคที่สูงมาก” เพื่อให้ได้ผลลัพธ์ดังกล่าว ต้องแก้ไขจุดบกพร่องสามประการของอุตสาหกรรม AI ในปัจจุบันพร้อมกัน:

ประการแรกคือ ความเรียลไทม์ขั้นสุด จากวิดีโอด้านบนจะเห็นว่า ปฏิกิริยาของตัว形象ในวิดีโอต้องเปลี่ยนแปลงตามท่าทางมือตลอดเวลา เพื่อให้ผู้ใช้รู้สึกว่า “ฉันกำลังโต้ตอบกับมัน” ซึ่งต้องการให้ความล่าช้าต้องถูกควบคุมในระดับมิลลิวินาที แต่โมเดล “เรียลไทม์” ส่วนใหญ่ในตลาดปัจจุบันมักต้องการการตอบสนองหลายวินาที ยากที่จะตอบสนองผลการโต้ตอบที่ Xmax AI ต้องการ

ประการที่สองคือ ความเข้าใจความตั้งใจ Xmax AI ต้องการวิธีการโต้ตอบที่หลากหลายและเป็นธรรมชาติ มีอุปสรรคต่ำพอสำหรับคนทั่วไป ซึ่งต้องการให้โมเดลสามารถเข้าใจความตั้งใจของมนุษย์ได้โดยอัตโนมัติ และสร้างผลลัพธ์ตอบรับที่แม่นยำแบบเรียลไทม์ แต่โมเดลส่วนใหญ่ในปัจจุบันเป็นแบบสร้างวิดีโอจากข้อความหรือภาพ ไม่สามารถบรรลุผลการโต้ตอบด้วยท่าทางเหล่านี้ได้ ตัวอย่างเช่น สำหรับโมเดลแล้ว เมื่อมนุษย์ทำท่าทาง “บีบ” การอ่านความตั้งใจในนั้น ยากกว่าการอ่านข้อความมาก

นอกจากนี้ ยังมีปัญหาเรื่อง ข้อมูลขาดแคลน อีกด้วย สำหรับอุตสาหกรรม AI ทั้งหมด ข้อมูลคุณภาพสูงมีความสำคัญอย่างยิ่งแต่ก็ขาดแคลนอย่างมาก ยิ่งเป็นข้อมูลการโต้ตอบผสานความจริงกับเสมือนที่ค่อนข้างเฉพาะทางแล้ว ต้นทุนการผลิตสูง และการสร้างก็ยากมาก แต่ความเป็นจริงคือ ต้องการผลการผสานความจริงกับเสมือนที่ดี ต้องอาศัยข้อมูลฝึกอบรมคุณภาพสูงจำนวนมากและเป็นมืออาชีพ

ความท้าทายเหล่านี้เคยทำให้ Xmax AI ลำบากใจ

แต่ที่ต้องสังเกตคือ Xmax AI เป็นทีมที่ทั้งเข้าใจอัลกอริทึมพื้นฐาน เข้าใจการนำไปปฏิบัติทางวิศวกรรม และยังมีสัญชาตญาณด้านผลิตภัณฑ์ที่เฉียบคม

ผู้ก่อตั้ง Shi Jiaxin มาจากโครงการ “Genius Youth” ของ Huawei เป็นนักเทคโนโลยีสุดขั้ว (Techie) แบบคลาสสิก ผู้ร่วมก่อตั้ง Liang Chen ปัจจุบันเป็นผู้ช่วยศาสตราจารย์และอาจารย์ที่ปรึกษาปริญญาเอกที่ HKUST (Guangzhou) ผู้ร่วมก่อตั้ง Weng Yueting เป็นวิศวกรฟูลสแต็กแบบ “นักรบหกเหลี่ยม” ทีมเทคนิคหลักของบริษัทมาจากห้องปฏิบัติการ KEG และ HCI ของมหาวิทยาลัย Tsinghua เป็นพลังชั้นนำในสาขาโมเดลใหญ่และการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ในประเทศจีน

สมาชิกหลักของทีมส่วนใหญ่เคยมีประสบการณ์ในบริษัท AI ชั้นนำเช่น ByteDance, Kuaishou, Huawei, Alibaba มาก่อน มีประสบการณ์ปฏิบัติจริงในการนำเทคโนโลยีไปใช้อย่างหลากหลาย

เมื่อเผชิญกับความท้าทายทางเทคนิค Xmax AI ได้เสนอชุดแผนทางเทคนิคที่ “แข็งแกร่ง”

เพื่อตอบสนองความต้องการความเรียลไทม์ขั้นสุด Xmax AI ได้สร้างนวัตกรรมโครงสร้าง เสนอโครงสร้างโมเดลวิดีโอแบบเรนเดอร์ใหม่สตรีมมิ่งแบบ end-to-end บรรลุ DiT (Diffusion Transformer) แบบเรียกซ้ำในระดับเฟรม ผ่านการกลั่นอัดหลายขั้นตอนและการฝึกฝนแบบต่อสู้ ทำให้ความเร็วในการสุ่มตัวอย่างการแพร่กระจายของแต่ละเฟรมภาพเพิ่มขึ้นเป็นร้อยเท่า ไม่เพียงแต่ลดความล่าช้าลงถึงระดับมิลลิวินาทีเท่านั้น โครงสร้าง “สถาปัตยกรรมเรียกซ้ำ” ที่พัฒนาขึ้นเองยังทำลายข้อจำกัดด้านระยะเวลา สนับสนุนการสร้างแบบต่อเนื่องไม่จำกัดเวลา

เพื่อตอบสนองความต้องการสูงของโมเดลในการเข้าใจความตั้งใจ Xmax AI ได้สร้างโครงสร้างโมเดลการโต้ตอบแบบรวม ทำให้โมเดลสามารถเข้าใจทั้งความสัมพันธ์สามมิติของพื้นที่ภายใต้มุมมองของกล้อง และการดำเนินการสองมิติบนระนาบภายใต้การสัมผัสหน้าจอ จึงสามารถระบุความตั้งใจที่แม่นยำต่อพฤติกรรมการโต้ตอบประเภทต่าง ๆ ของผู้ใช้ได้

เพื่อแก้ไขปัญหาความยากลำบากของ “ทะเลทรายข้อมูล” Xmax AI ได้สร้างไปป์ไลน์การสังเคราะห์ข้อมูลผสานความจริงกับเสมือน ผ่านวิธีการกึ่งอัตโนมัติ สร้างข้อมูลฝึกอบรมการโต้ตอบคุณภาพสูงด้วยต้นทุนต่ำและเป็นแบทช์ สร้างกำแพงป้องกันเฉพาะทางในอุตสาหกรรม

หลังจากได้ลองเล่นรูปแบบต่าง ๆ แล้ว ไม่ยากที่จะรับรู้วิสัยทัศน์ของ Xmax AI หากกล่าวว่า Sora เป็นตัวแทนของเส้นทางที่เสริมสร้างความสามารถในการสร้างอย่างสุดขั้ว ทำให้ AI เรียนรู้การถ่ายทำภาพยนตร์ การจัดองค์ประกอบ การเคลื่อนกล้อง และการเล่าเรื่อง ดังนั้น X1 ต้องการให้ AI สามารถเป็นเพื่อนเล่น ผสาน融入เข้ากับสถานการณ์ชีวิตรอบตัวผู้ใช้ได้ตลอดเวลา

จากม

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง