โมเดลมนุษย์ดิจิทัลของ JD.com ฝ่าข้อจำกัดการโต้ตอบของเอเจนต์ AI บรรลุการสังเคราะห์อิสระในระดับนาที

2026年4月1日 am11:02 • วิศวกรรมโมเดลขนาดใหญ่ • 185 views

ในการประชุม GTC ปี 2026 มีฉันทามติในอุตสาหกรรมเกิดขึ้นแล้วว่า AI กำลังก้าวเข้าสู่ยุคเอเจนต์ (Agent)

อย่างไรก็ตาม ในขณะที่ผู้ผลิตหลายรายต่างเร่งวางแผนพัฒนาเอเจนต์ ความท้าทายในทางปฏิบัติก็ปรากฏขึ้นตามมา: “สมองดิจิทัล” ที่มีความฉลาดเหล่านี้ มักขาด “ร่างกาย” ที่มีชีวิตชีวาและเป็นธรรมชาติเพียงพอ หากงานวิจัยล้ำสมัยบางชิ้นได้ชี้แนะทิศทางของรูปแบบการทำงานของเอเจนต์ AI แล้ว ในระดับปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่อง (Human-Computer Interaction) การทำให้ AI สามารถโต้ตอบกับมนุษย์ได้อย่างเป็นธรรมชาติและลื่นไหลนั้น ยังเผชิญกับปัญหาทางเทคนิคมากมาย

การสร้างบุคลิกดิจิทัลที่มีความสามารถในการแสดงออกหลากหลายและควบคุมได้ดีให้กับ AI เกี่ยวข้องกับการแปลงและประสานงานหลายรูปแบบ (Multimodal) ที่ซับซ้อน ซึ่งมีความยากลำบากเกินกว่าที่จะจินตนาการ

เมื่อเร็วๆ นี้ ผลงานวิจัยชุดหนึ่งที่เผยแพร่โดยทีมดิจิทัลฮิวแมนของ JD.com ได้นำมาซึ่งความก้าวหน้าในสาขานี้ โมเดลดิจิทัลฮิวแมน JoyStreamer และ JoyStreamer-Flash ที่ทีมเสนอขึ้นมา ได้แก้ไขจุดอ่อนที่ดำรงอยู่ในอุตสาหกรรมมายาวนาน เช่น ความสามารถในการควบคุมด้วยคำสั่งข้อความที่อ่อนแอ ความขัดแย้งของสัญญาณหลายรูปแบบ (Multimodal) และความสามารถในการสร้างวิดีโอความยาวนานที่ไม่เพียงพอ โดยบรรลุผลการสร้างดิจิทัลฮิวแมนที่สามารถโต้ตอบได้แบบเรียลไทม์ มีท่าทางอิสระ และมีความยาวนานได้ เอกสารวิจัยที่เกี่ยวข้องได้เผยแพร่บน arXiv แล้ว และประสิทธิภาพของโมเดลนี้ได้แซงหน้าโมเดลหลักในปัจจุบันในหลายดัชนีชี้วัด

ลิงก์เอกสารวิจัย: https://arxiv.org/pdf/2602.00702, https://arxiv.org/abs/2512.11423
หน้าโฮมเพจทางเทคนิค: https://joystreamer.github.io/

โมเดลชุดนี้แสดงให้เห็นถึงความสามารถในการควบคุมด้วยคำสั่งข้อความที่ทรงพลัง สามารถเข้าใจและปฏิบัติตามคำอธิบายการเคลื่อนไหวที่ซับซ้อนได้อย่างแม่นยำ

พรอมต์: เด็กหญิงตัวเล็กๆ ร้องเพลงด้วยรอยยิ้มที่สดใสก่อน จากนั้นเธอหยิบกล้องจากบนโต๊ะขึ้นมา เล็งไปที่ผู้ชม และไฟแฟลชก็สว่างขึ้น

พรอมต์: ผู้หญิงคนหนึ่งยืนอยู่ภายในห้อง พูดกับกล้อง เธอหยิบแจกันจากตู้ขึ้นมาก่อน จ้องมองมันอย่างครุ่นคิด และสุดท้ายวางมันลงบนเก้าอี้ตัวหนึ่งในฉาก (กำหนดให้ตัวบุคคลอยู่ในเฟรมตลอดทั้งคลิป)

ในขณะเดียวกัน โมเดลสามารถสร้างวิดีโอดิจิทัลฮิวแมนที่มีความยาวระดับนาทีได้

โมเดลชุด JoyStreamer แสดงให้เห็นถึงความได้เปรียบเชิงรุ่น ทำให้ดิจิทัลฮิวแมนหลุดพ้นจากรูปแบบการรายงานข่าวแบบ “ยืนนิ่งๆ” แบบดั้งเดิม มันไม่เพียงแต่สามารถเข้าใจคำสั่งที่ซับซ้อนได้อย่างแม่นยำ และดำเนินการเคลื่อนไหวทั้งร่างกายได้อย่างลื่นไหลเท่านั้น แต่ยังสามารถประสานกับการเคลื่อนไหวของกล้องและการเปลี่ยนแปลงพื้นหลังที่พลวัตได้ ยิ่งไปกว่านั้น แม้ในระหว่างการเคลื่อนไหวที่รุนแรง โมเดลยังคงรักษาการประสานกันระหว่างรูปปาก (lip-sync) กับเสียงอินพุตได้อย่างสมบูรณ์แบบ

ตัวอย่างเช่น เมื่อป้อนคำสั่ง “หยิบช็อกโกแลตขึ้นมากิน” ดิจิทัลฮิวแมนสามารถดำเนินการหยิบและเคี้ยวได้อย่างลื่นไหล:

พรอมต์: เด็กหญิงหยิบกล่องช็อกโกแลตขึ้นมา แสดงให้ผู้ชมดู จากนั้นหยิบช็อกโกแลตหนึ่งชิ้นออกมากิน

เมื่อป้อนคำสั่ง “วางกล่องที่ถืออยู่ลง” ดิจิทัลฮิวแมนไม่เพียงแต่สามารถประมวลผลการเคลื่อนไหวที่ซับซ้อนและการเปลี่ยนแปลงพื้นหลังได้อย่างราบรื่นเท่านั้น แต่ยังสามารถรักษาความเสถียรของตัวตนบุคคลในวิดีโอที่สร้างขึ้นซึ่งมีความยาวเกิน 20 วินาทีได้:

พรอมต์: ชายในภาพพูดกับกล้องในขณะที่วางกล่องเครื่องมือลงบนพื้น จากนั้นปีนขึ้นบันได และรักษาตัวเองให้อยู่ในเฟรม เขาสวมหมวกนิรภัยสีขาว ถือกล่องเครื่องมือสีดำสลับเหลือง ด้านหลังเป็นห้องที่กำลังปรับปรุง มีบันไดและระดับน้ำวางอยู่ใกล้ๆ

นวัตกรรมทางเทคนิค 3 ประการของดิจิทัลฮิวแมน JD.com

ในสาขา Generative AI ข้อมูลคุณภาพสูงเป็นพื้นฐานของการเรียนรู้ของโมเดล อย่างไรก็ตาม การรวบรวมวิดีโอข้อมูลคุณภาพสูงจำนวนมากที่ประกอบด้วยทั้งการเคลื่อนไหวร่างกายที่รุนแรงและเสียงพูดที่ชัดเจน มีต้นทุนสูงมาก ในการเผชิญกับข้อจำกัดของข้อมูลที่มีอยู่ซึ่งส่วนใหญ่เน้นที่การรายงานข่าวแบบสถิต ทีมดิจิทัลฮิวแมนของ JD.com ได้ใช้โซลูชันใหม่: การกลั่นหลังการฝึก (Post-training) ด้วยการจับคู่การกระจายตัวของครูคู่ (Dual-Teacher Distribution Matching Distillation – DMD)

โมเดลมนุษย์ดิจิทัลของ JD.com ฝ่าข้อจำกัดการโต้ตอบของเอเจนต์ AI บรรลุการสังเคราะห์อิสระในระดับนาที
รูปที่ 1: กรอบการทำงานหลังการฝึกด้วย DMD ครูคู่

โมเดลมนุษย์ดิจิทัลของ JD.com ฝ่าข้อจำกัดการโต้ตอบของเอเจนต์ AI บรรลุการสังเคราะห์อิสระในระดับนาที
รูปที่ 2: กรอบการฝึกล่วงหน้าของโมเดลดิจิทัลฮิวแมน

วิธีการนี้แนะนำ “ครู” สองท่านให้กับโมเดลดิจิทัลฮิวแมน: ท่านหนึ่งคือ “ครูด้านเสียง” (ซึ่งรับบทโดยโมเดลพื้นฐานดิจิทัลฮิวแมน) ที่เน้นรูปปากและจังหวะ ส่วนอีกท่านคือ “ครูด้านข้อความ” (ซึ่งนำเข้าโมเดลใหญ่สร้างวิดีโอ) ที่เชี่ยวชาญในการเข้าใจคำสั่งการเคลื่อนไหวที่ซับซ้อน ผ่านกลไกการกลั่นที่แยกการกำกับดูแลและเรียนรู้แบบผสมผสานนี้ โมเดลสามารถสืบทอดความสามารถในการเข้าใจและควบคุมคำสั่งข้อความที่ทรงพลังของโมเดลวิดีโอได้อย่างมีประสิทธิภาพ โดยไม่ต้องเพิ่มข้อมูลการฝึกใหม่

ในอดีต การทำให้ดิจิทัลฮิวแมนปฏิบัติตามคำสั่งข้อความเพื่อทำการเคลื่อนไหวที่ซับซ้อนและประสานรูปปากได้อย่างแม่นยำในเวลาเดียวกัน เป็นความท้าทายที่ยากจะทำได้ทั้งสองด้าน เนื่องจากภายในโมเดล สัญญาณข้อความ (ควบคุมการเคลื่อนไหวทั้งร่างกาย) และสัญญาณเสียง (ควบคุมรูปปากบนใบหน้า) มีแนวโน้มจะขัดแย้งกันในพื้นที่แฝง (latent space) ส่งผลให้ภาพที่สร้างขึ้นผิดเพี้ยน

เพื่อแก้ปัญหาความขัดแย้งในการควบคุมหลายรูปแบบนี้ ทีมงานได้เสนอ “กลยุทธ์การปรับสัญญาณ CFG แบบไดนามิก” การวิจัยพบว่าในกระบวนการสร้างวิดีโอของโมเดลแพร่กระจาย (Diffusion Model) โครงร่างการเคลื่อนไหวโดยรวมจะถูกกำหนดในระยะแรกที่มีสัญญาณรบกวนสูง ในขณะที่รายละเอียดเช่นรูปปากจะถูกแกะสลักในระยะหลังที่มีสัญญาณรบกวนต่ำ ดังนั้น กลยุทธ์นี้จึงให้สัญญาณทั้งสอง “เดินทางคนละเวลา”: ในระยะแรกของการสร้าง ให้ตอบสนองคำสั่งข้อความเป็นลำดับแรก เพื่อสร้างโครงร่างการเคลื่อนไหว; ในระยะกลางและปลายของการสร้าง จะมอบอำนาจควบคุมให้กับสัญญาณเสียงเป็นลำดับแรก เพื่อให้แน่ใจว่ารูปปากประสานกัน การออกแบบนี้ทำให้การควบคุมด้วยข้อความและเสียงสามารถทำหน้าที่ของตนได้โดยไม่รบกวนซึ่งกันและกัน

ความท้าทายอีกประการหนึ่งที่มุ่งสู่การใช้งานจริงคือปัญหา “การเลื่อนของตัวตน” (Identity Drift) ในการสร้างวิดีโอความยาวนาน นั่นคือลักษณะภายนอกหรือเสื้อผ้าของบุคคลเปลี่ยนแปลงไปอย่างไม่พึงประสงค์ในระหว่างกระบวนการสร้าง

โซลูชันของ JoyStreamer คือการรวมโมดูลเข้ารหัสเฟรมประวัติศาสตร์ (FramePack) เข้ากับกลยุทธ์เฟรมสุดท้ายเทียม (Pseudo Last Frame) ในระหว่างการอนุมาน (Inference) โมเดลจะป้อนภาพอ้างอิงของผู้ใช้เป็น “เฟรมสุดท้ายเทียม” อย่างต่อเนื่อง เพื่อให้จุดยึดตัวตนที่เสถียรแก่กระบวนการสร้าง สิ่งนี้ทำให้โมเดลสามารถรองรับการสร้างวิดีโอความยาวนานกว่า 30 วินาที โดยรักษาความสม่ำเสมอของตัวตนและความลื่นไหลของการเคลื่อนไหวตลอดทั้งคลิป ซึ่งเป็นการก้าวข้ามข้อจำกัดด้านความยาวและความเสถียรระหว่างเฟรมของโมเดลดิจิทัลฮิวแมนแบบดั้งเดิม

เพื่อยืนยันความเป็นผู้นำทางเทคโนโลยี ทีมวิจัยได้เปรียบเทียบการให้คะแนน GSD เชิงอัตนัยของโมเดล JoyStreamer กับโมเดลปิด (Closed-source) หลักในอุตสาหกรรม ผลลัพธ์แสดงให้เห็นว่า JoyStreamer แสดงความได้เปรียบอย่างมีนัยสำคัญในมิติหลักต่างๆ เช่น ระดับการปฏิบัติตามข้อความ ความแม่นยำของรูปปาก การรักษาตัวตน และคุณภาพภาพวิดีโอ

โมเดลมนุษย์ดิจิทัลของ JD.com ฝ่าข้อจำกัดการโต้ตอบของเอเจนต์ AI บรรลุการสังเคราะห์อิสระในระดับนาที
รูปที่ 3: การเปรียบเทียบผลการทดลองของโมเดล JoyStreamer

นอกจากนี้ ทีมงานยังได้สร้างนวัตกรรมจำนวนมากในการเพิ่มความเร็วการอนุมาน และได้เปิดตัวเวอร์ชัน JoyStreamer-Flash เวอร์ชันนี้บรรลุความเร็วในการสร้างที่ 30 FPS ผ่านเทคโนโลยีต่างๆ เช่น การกลั่นโมเดล การสุ่มตัวอย่าง 4 ขั้นตอน (4-step Sampling) การแคช KV และการอนุมานแบบขนานด้วย GPU หลายตัว การวิจัยยังได้เสนอจุดนวัตกรรม เช่น การชี้นำขั้นตอนแบบค่อยเป็นค่อยไป (Gradual Step Guidance) การฉีดเงื่อนไขการเคลื่อนไหว (Motion Condition Injection) และการประมวลผลคอนเท็กซ์ความยาวไม่จำกัดโดยอิงตามการรีเซ็ตแคช โดยมีเป้าหมายเพื่อให้ได้วิดีโอดิจิทัลฮิวแมนคุณภาพสูงความยาวไม่จำกัดที่สร้างแบบเรียลไทม์และสตรีมมิ่ง

เมื่อเทคโนโลยีพื้นฐานประสบความสำเร็จในการก้าวข้ามขีดจำกัด ศักยภาพในการประยุกต์ใช้ก็ได้รับการปลดปล่อยอย่างเต็มที่ การไลฟ์สดด้วยดิจิทัลฮิวแมน ซึ่งเป็นสถานการณ์เชิงพาณิชย์หลัก ได้รับการอัปเกรดประสบการณ์เป็นอันดับแรก: ไม่ว่าจะเป็นการขายสินค้าผ่านการไลฟ์สดอีคอมเมิร์ซแบบไม่หยุดพัก 24/7 หรือวิดีโอสั้นอีคอมเมิร์ซที่ต้องการความสามารถในการแสดงออกสูง รูปแบบเนื้อหาโดยรวมและประสบการณ์การโต้ตอบต่างก็ได้รับการพัฒนาอย่างก้าวกระโดด

โดยอาศัยความก้าวหน้าทางเทคนิคด้านความยาวนาน ท่าทางอิสระ และการโต้ตอบแบบเรียลไทม์ในครั้งนี้ ดิจิทัลฮิวแมนของ JD.com ได้รับการทดสอบใช้งานจริงในธุรกิจหลักของ JD.com เองเป็นอันดับแรก นั่นคือ การไลฟ์สดด้วยดิจิทัลฮิวแมน

ตั้งแต่ดิจิทัลฮิวแมน “พี่ตงฝ่ายจัดซื้อจัดจ้าง” ที่ได้รับความสนใจอย่างกว้างขวาง ไปจนถึงดิจิทัลฮิวแมนประธานแบรนด์ต่างๆ เช่น Haier และ Gree ที่ทำหน้าที่หลักในห้องไลฟ์สด และดิจิทัลฮิวแมนของดารา Vivi ที่มีความต้องการการแสดงออกทางสีหน้าและการเคลื่อนไหวร่างกายที่เข้มงวด ดิจิทัลฮิวแมนของ JD.com ได้ผ่านการขัดเกลาในสถานการณ์จริงหลายรอบในสถานการณ์ไลฟ์สดอย่างต่อเนื่อง เพื่อยกระดับความสามารถในการโต้ตอบแบบไลฟ์สดที่มีการแสดงออกสูง แอปพลิเคชันขนาดเล็ก “JoyAI เริ่มต้นจากศูนย์เฟรม” ที่เปิดตัวก่อนหน้านี้ ได้ลดอุปสรรคในการใช้งานลงอีกขั้น ทำให้ผู้ใช้ทั่วไปสามารถสัมผัสประสบการณ์ได้อย่างง่ายดาย และเปลี่ยนเทคโนโลยี AI ที่ล้ำสมัยให้เป็นเครื่องมือผลิตภาพที่ทุกคนสามารถใช้ได้

ด้วยการผสานเทคโนโลยีล่าสุด ดิจิทัลฮิวแมน JoyStreamer ของ JD.com ได้เปิดตัว “ดิจิทัลฮิวแมนท่าทางอิสระ” เป็นรายแรกในอุตสาหกรรม โดยให้โมเดลที่ปรับแต่งสำหรับห้าอุตสาหกรรม เช่น เครื่องใช้ไฟฟ้าและเฟอร์นิเจอร์บ้าน แฟชั่นและเสื้อผ้า รองรับการเดินตามธรรมชาติ ท่าทางที่ยืดหยุ่น การติดตามกล้อง และการเข้าออกเฟรมอย่างลื่นไหล แม้ในสถานการณ์ที่ใบหน้าถูกบังก็ยังคงรักษาคุณภาพความเที่ยงตรงสูง (High-fidelity) ได้ ซึ่งทำให้เกิดรูปแบบการโต้ตอบที่เป็นธรรมชาติและมีชีวิตชีวามากขึ้น

ห้องไลฟ์สด “ดิจิทัลฮิวแมนท่าทางอิสระ”

สำหรับผู้ชมแล้ว พิธีกรดิจิทัลฮิวแมนรุ่นใหม่สามารถเดินไปมาในห้องไลฟ์สด แสดงรายละเอียดสินค้า และแม้กระทั่งทำให้เกิดการโต้ตอบที่ซับซ้อนระหว่างพิธีกร

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง