เทคโนโลยีการสร้าง 3D ในปัจจุบันมีความพร้อมใช้งานที่น่าทึ่งมาก

อย่างไรก็ตาม ปัญหาสำคัญสามประการที่ยังคงกวนใจนักวิจัยในสาขานี้คือ คุณภาพข้อมูลที่ไม่สม่ำเสมอ ขาดมาตรฐานการประเมิน และการครอบคลุมหมวดหมู่หางยาว (long-tail) ที่ไม่เพียงพอ
เพื่อแก้ไขปัญหาเหล่านี้ ทีม Tencent Hunyuan 3D ได้เปิดตัวระบบนิเวศการสร้างเนื้อหา 3D ที่ปฏิวัติวงการอย่างเป็นทางการในรายงานเทคนิคล่าสุด “HY3D-Bench: Generation of 3D Assets”
งานนี้ได้คัดกรองและประมวลผล 252,000 แอสเซ็ต 3D คุณภาพสูงจากคลังข้อมูลดิบขนาดใหญ่ เช่น Objaverse ผ่านไปป์ไลน์การทำความสะอาดข้อมูลอัตโนมัติ โดยให้ชุดข้อมูล “พร้อมใช้” ที่รวมถึงเมชที่ปิดสนิท (watertight mesh) และภาพเรนเดอร์หลายมุมมอง พร้อมทั้งยังมีผลลัพธ์การแยกส่วนประกอบ 3D จำนวน 240,000 ชิ้น ซึ่งช่วยลดอุปสรรคในการฝึกโมเดลสร้าง 3D ลงอย่างมาก
นอกจากนี้ เพื่อเติมเต็มความหลากหลายของชุดข้อมูลทางวิชาการที่ยังขาดอยู่ ทีมได้นำเสนอไปป์ไลน์สังเคราะห์ที่ขับเคลื่อนโดย AIGC อย่างสร้างสรรค์: ใช้โมเดลภาษาขนาดใหญ่สร้างคำอธิบายเชิงความหมาย ใช้โมเดลแพร่กระจาย (diffusion model) สร้างภาพ จากนั้นแปลงเป็นแอสเซ็ต 3D ความเที่ยงตรงสูงผ่านเอนจิน HY3D-3.0 ไปป์ไลน์นี้ครอบคลุมหมวดหมู่ 1252 หมวดอย่างสม่ำเสมอ ช่วยปรับสมดุลความแตกต่างของการกระจายข้อมูลระหว่างหมวดหมู่ทั่วไปและหมวดหมู่หางยาวได้อย่างมีประสิทธิภาพ
การทดลองแสดงให้เห็นว่าโมเดลขนาดเล็ก (Hunyuan3D-2.1-Small) ที่ฝึกบนมาตรฐานนี้ มีประสิทธิภาพเหนือกว่าวิธีการดั้งเดิมทั้งในด้านคุณภาพการสร้างและความเร็วในการอนุมาน ชุดข้อมูลนี้เป็นพื้นฐานข้อมูลที่มั่นคงสำหรับการประยุกต์ใช้ขั้นปลาย เช่น การจำลองหุ่นยนต์และความเป็นจริงเสมือน
องค์ประกอบของชุดข้อมูล
ความพร้อมใช้งานของชุดข้อมูลมาตรฐานคุณภาพสูงยังคงเป็นปัจจัยหลักที่จำกัดการพัฒนาของโมเดลสร้าง 3D แม้ชุดข้อมูลมาตรฐานยุคแรกอย่าง ShapeNet จะวางรากฐานสำหรับการวิจัยการสร้าง 3D แต่ก็มีข้อบกพร่องพื้นฐาน เช่น การครอบคลุมหมวดหมู่ไม่สมดุล โครงสร้างเรขาคณิตเรียบง่าย และปริมาณข้อมูลไม่เพียงพอ ซึ่งจำกัดความสามารถในการสรุปทั่วไป (generalization) ของโมเดลอย่างรุนแรง และขัดขวางการก้าวไปสู่สถานการณ์การใช้งานจริงของเทคโนโลยีการสร้าง 3D มาอย่างยาวนาน
แม้การเกิดขึ้นของชุดข้อมูลขนาดใหญ่ เช่น Objaverse จะทำลายความตึงเครียดนี้ โดยมีโมเดลหลายล้านโมเดลที่ครอบคลุมเรขาคณิตที่ซับซ้อน เช่น วัตถุที่มีข้อต่อ รูปทรงอินทรีย์ ซึ่งปูทางสำหรับโมเดลสร้าง 3D ขนาดใหญ่รุ่นใหม่ แต่อุตสาหกรรมยังคงเผชิญกับความท้าทายที่ลึกซึ้งยิ่งขึ้น:
โมเดลสร้าง 3D กระแสหลักจำเป็นต้องประมวลผลข้อมูล 3D ดิบจำนวนมากเพื่อสร้างการแสดงแทนเฉพาะงาน (เช่น ภาพเรนเดอร์ เมชที่ปิดสนิท สนาม SDF) ขั้นตอนนี้ไม่เพียงแต่ต้องการให้นักวิจัยมีทักษะการประมวลผลข้อมูลเฉพาะทางเท่านั้น แต่ยังนำมาซึ่งภาระการคำนวณที่มหาศาล แม้สคริปต์โอเพนซอร์สจะทำให้กระบวนการบางส่วนเป็นอัตโนมัติได้ แต่การประมวลผลโมเดล 3D ระดับล้านชิ้นยังคงต้องใช้ทรัพยากร GPU/CPU จำนวนมาก ทำให้การประมวลผลล่วงหน้าเป็น “กำแพงสูง” สำหรับการวิจัยที่เป็นสากล
ข้อมูลการสร้างแบบด้วยมือ: ไปป์ไลน์การทำความสะอาดข้อมูลโมเดล 3D
ทีม Tencent Hunyuan ได้ออกแบบไปป์ไลน์การประมวลผลข้อมูลการสร้างแบบด้วยมือ ซึ่งแปลงแอสเซ็ต 3D ดิบเป็นแพ็คเกจข้อมูลคุณภาพสูงพร้อมสำหรับการฝึกผ่านกระบวนการกรองและประมวลผลหลัง (post-processing) อัตโนมัติ
ไปป์ไลน์นี้เริ่มจากการคัดกรองเบื้องต้นโมเดล 3D จำนวนมหาศาล โดยคัดแยกแอสเซ็ตคุณภาพต่ำออกตามเกณฑ์ เช่น เกณฑ์จำนวนโพลีกอน คุณภาพการแมป UV เพื่อรับประกันคุณภาพพื้นฐานของข้อมูลนำเข้า ในขั้นตอนประมวลผลหลัง ทีมได้ส่งออกข้อมูลมาตรฐานที่รวมเมชที่ปิดสนิท ภาพเรนเดอร์ และคลาวด์จุด ผ่านสามขั้นตอนหลัก: การทำให้ปิดสนิท (watertight processing) การเรนเดอร์หลายมุมมอง (ให้ทั้งภาพฉายตั้งฉากและภาพฉายทัศนียภาพ) และการสุ่มตัวอย่างจุดบนพื้นผิว (ผสมระหว่างการสุ่มตัวอย่างสม่ำเสมอและการสุ่มตัวอย่างตามความสำคัญของขอบ)
ข้อมูลเหล่านี้ได้รับการประมวลผลล่วงหน้าอย่างสมบูรณ์แล้ว และสามารถนำไปใช้ฝึกโมเดลสร้าง 3D (เช่น VAE หรือ Diffusion model) ได้ทันทีโดยไม่ต้องดำเนินการเพิ่มเติมจากนักวิจัย ซึ่งแก้ไขจุดปัญหาของกระบวนการดั้งเดิมที่ใช้ทรัพยากรการคำนวณสูงและมีเกณฑ์ทางเทคนิคสูงได้อย่างสิ้นเชิง
△ ไปป์ไลน์การประมวลผลข้อมูลระดับทั้งหมด
การแยกส่วนระดับส่วนประกอบ: แยกชิ้นส่วนวัตถุ 3D เหมือนเลโก้
การประมวลผลข้อมูลส่วนประกอบมีเป้าหมายเพื่อแยกเมชสถิตย์ทั้งหมดออกเป็นชุดส่วนประกอบที่มีความหมายสอดคล้องกันอย่างชาญฉลาด เพื่อวางรากฐานสำหรับงานสร้างที่รับรู้ส่วนประกอบในภายหลัง กระบวนการนี้ใช้กลยุทธ์การวิเคราะห์การเชื่อมต่อทางโทโพโลยี โดยเริ่มจากการแบ่งส่วนเริ่มต้นของแอสเซ็ต 3D ผ่านการวิเคราะห์องค์ประกอบที่เชื่อมต่อกัน (connected component analysis) เพื่อระบุองค์ประกอบที่แยกจากกันทางกายภาพในเมชโดยอัตโนมัติ
ตัวอย่างเช่น รถยนต์หนึ่งคันจะถูกแยกออกเป็นโมดูลอิสระ เช่น ประตูรถ ยางรถ จากนั้นรวมชิ้นส่วนเล็กน้อย (เช่น สกรู) เข้าด้วยกันผ่านเกณฑ์พื้นที่ สุดท้ายรับประกันว่าแต่ละแอสเซ็ตมีส่วนประกอบที่สมเหตุสมผล 2-50 ชิ้น ซึ่งเทียบเท่ากับการอัปเกรดการสร้าง 3D จาก “การแกะสลักทั้งก้อน” เป็น “การประกอบแบบโมดูลาร์” โดยสนับสนุนการสร้างส่วนประกอบที่ควบคุมได้โดยตรง
△ ไปป์ไลน์การประมวลผลข้อมูลระดับส่วนประกอบ
การสังเคราะห์ด้วย AIGC: ใช้โมเดลแพร่กระจาย “สร้างสรรค์สิ่งของ”
เพื่อแก้ไขปัญหาขาดแคลนข้อมูลหางยาว และสนับสนุนความต้องการในการจำลองสำหรับสาขาต่างๆ เช่น การจำลองความฉลาดแบบมีตัวตน (embodied AI) ทีมได้สร้างไปป์ไลน์การสร้างสามขั้นตอนสำหรับการสังเคราะห์ข้อมูล:
- การขยายข้อความ: รวบรวมหมวดหมู่สินค้าทั่วไป ใช้โมเดลภาษาขนาดใหญ่สร้างคำอธิบายผลิตภัณฑ์โดยละเอียดสำหรับแต่ละหมวดหมู่
- การสร้างภาพ: ใช้โมเดลสร้างภาพจากข้อความ ส่งออกภาพ RGB พร้อมพื้นหลังที่สะอาด
- การสร้าง 3D: เรียกใช้โมเดล HY3D-3.0 เพื่อแปลงภาพเป็นแอสเซ็ต 3D ความแม่นยำสูงพร้อมวัสดุ
△ ไปป์ไลน์ข้อมูลที่สร้างขึ้น
ผลการทดลอง
ทีมได้ลดขนาดโมเดล (พารามิเตอร์ 832M) ตาม HY3D-2.1 ที่เปิดตัวไปแล้ว และฝึกใหม่บนชุดฝึกที่แบ่งจากชุดข้อมูลการสร้างแบบด้วยมือที่เปิดตัวในปัจจุบัน จากนั้นทดสอบบนชุดทดสอบที่ให้มา โดยใช้กลยุทธ์การฝึกแบบก้าวหน้า (จาก 512 โทเค็น เพิ่มขึ้นเป็น 4096 โทเค็น) ข้อมูลสำคัญมีดังนี้:

- คุณภาพการสร้าง: เมื่อเทียบกับวิธีการปรับให้เหมาะสม (เช่น SDS) ความเร็วในการอนุมานเพิ่มขึ้น 5 เท่า และหลีกเลี่ยงปัญหา “หน้าปรากฏหลายหน้า” (multi-face)
- ขนาดข้อมูล: ข้อมูลการสร้างแบบด้วยมือ 252,000 ตัวอย่าง ข้อมูลระดับส่วนประกอบ 240,000 ตัวอย่าง ข้อมูลสังเคราะห์ 125,000 ตัวอย่าง
การกระจายตัวของหมวดหมู่ใหญ่ของข้อมูลการสร้างแบบด้วยมือ:

การกระจายตัวของจำนวนส่วนประกอบในข้อมูลระดับส่วนประกอบ:

การกระจายตัวของหมวดหมู่ใหญ่ของข้อมูลสังเคราะห์:

HY3D-Bench มอบพื้นฐานข้อมูลที่เป็นหนึ่งเดียวสำหรับการวิจัยการสร้าง 3D ผ่านการสร้างชุดข้อมูลมาตรฐานที่ประกอบด้วยแอสเซ็ตคุณภาพสูง 252,000 ชิ้น คำอธิบายประกอบโครงสร้างระดับส่วนประกอบ 240,000 ชิ้น และตัวอย่างสังเคราะห์ด้วย AIGC 125,000 ตัวอย่าง โดยลดเกณฑ์ทางเทคนิคลงผ่านการเปิดตัวเป็นโอเพนซอร์ส ทำให้นักวิจัยไม่ต้อง “สร้างล้อใหม่” ซ้ำๆ และสามารถมุ่งเน้นไปที่นวัตกรรมโมเดลและการสำรวจการประยุกต์ใช้ได้โดยตรง
การทดลองแสดงให้เห็นว่าโมเดลขนาดเล็กที่ฝึกด้วยข้อมูลนี้ (Hunyuan3D-2.1-Small) สามารถสนับสนุนงานสร้าง 3D ได้อย่างมีประสิทธิภาพ และมอบมาตรฐานที่สามารถทำซ้ำได้สำหรับสาขาที่เกี่ยวข้อง ในอนาคต ทีมวางแผนที่จะขยายแอสเซ็ต 3D ที่หลากหลายยิ่งขึ้นและความสามารถในการปรับให้เข้ากับหลายงาน เพื่อสำรวจศักยภาพของวิธีการที่ขับเคลื่อนด้วยข้อมูลในการสร้าง 3D ต่อไป
ลิงก์ทรัพยากร
* ดาวน์โหลดชุดข้อมูล: https://huggingface.co/datasets/tencent/HY3D-Bench
* ที่อยู่โค้ด: https://github.com/Tencent-Hunyuan/HY3D-Bench
* ดาวน์โหลดน้ำหนักโมเดล: https://huggingface.co/tencent/HY3D-Bench
* รายงานเทคนิค: https://arxiv.org/pdf/2602.03907
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23016
