RL ช่วยให้เกิดความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัยเชิงระบบครั้งแรกด้วยการเรียนรู้แบบเสริมกำลัง ช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน และคุณภาพการสร้างเพิ่มขึ้นอย่างมาก

3 days ago • การอนุมานโมเดลขนาดใหญ่ • 14 views

RL ปลดปล่อยความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัย RL อย่างเป็นระบบครั้งแรกทำให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน

ในด้านการสร้างภาพ การเรียนรู้แบบเสริมแรง (RL) ได้รับผลลัพธ์ที่โดดเด่น แล้วการสร้าง 3D ล่ะ?

ในขณะที่เทคโนโลยีเช่น GRPO (Group Relative Policy Optimization) ผลักดันให้โมเดลขนาดใหญ่เกิดการเปลี่ยนแปลงเชิงคุณภาพในการให้เหตุผลทางคณิตศาสตร์และโค้ด การวิจัยบุกเบิกได้ให้คำตอบเป็นครั้งแรก — การวิจัยที่นำ RL เข้าสู่การสร้าง 3D แบบออโต้รีเกรสซีฟจากข้อความอย่างเป็นระบบเป็นครั้งแรก ได้ถือกำเนิดขึ้นอย่างเป็นทางการ และได้รับการตีพิมพ์ใน CVPR 2026 การวิจัยนี้ไม่ได้เพียงแค่ย้ายประสบการณ์จาก 2D มาอย่างง่ายๆ แต่เป็นการสำรวจอย่างเป็นระบบที่สมบูรณ์สำหรับความท้าทายเฉพาะของการสร้าง 3D ตั้งแต่การออกแบบรางวัล การเลือกอัลกอริทึม เกณฑ์การประเมิน ไปจนถึงกระบวนทัศน์การฝึก

RL ช่วยให้เกิดความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัยเชิงระบบครั้งแรกด้วยการเรียนรู้แบบเสริมกำลัง ช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน และคุณภาพการสร้างเพิ่มขึ้นอย่างมาก

ทำไมการสร้าง 3D จึงยากกว่าการสร้าง 2D มาก?

RL ประสบความสำเร็จอย่างมากในการสร้างข้อความและภาพ แต่การนำมาใช้กับการสร้าง 3D โดยตรงกลับใช้ไม่ได้

ความขัดแย้งหลักอยู่ที่: วัตถุ 3D ไม่มี “มุมมองมาตรฐาน” การตัดสินความถูกต้องของภาพหนึ่งภาพค่อนข้างตรงไปตรงมา แต่การประเมินวัตถุ 3D ต้องพิจารณาความสอดคล้องทางเรขาคณิต พื้นผิวและเนื้อสัมผัส และการจัดแนวความหมายจากหลายมุมมองพร้อมกัน — การออกแบบที่ไม่เหมาะสมในมิติใดมิติหนึ่งอาจนำไปสู่การล่มสลายของการฝึกได้

ปัญหาที่ลึกซึ้งยิ่งขึ้นคือ เมื่อโมเดลสร้าง 3D ถอดรหัสแบบออโต้รีเกรสซีฟ โทเค็นที่สร้างขึ้นแต่ละโทเค็นจะสัญญาถึงโครงสร้างโดยรวมโดยปริยาย การพึ่งพาระยะยาวเช่นนี้ทำให้ปัญหาความเบาบางของสัญญาณรางวัลใน 3D เด่นชัดกว่าใน 2D — โมเดลยากที่จะรับรู้ปัญหาที่เกิดขึ้นในระหว่างการสร้างได้อย่างแม่นยำ

ทีมวิจัยแยกความท้าทายนี้ออกเป็นสี่มิติเพื่อศึกษาอย่างเป็นระบบ:
* การออกแบบโมเดลรางวัล — สัญญาณรางวัลประเภทใดมีประสิทธิภาพสูงสุดสำหรับการสร้าง 3D?
* การเลือกอัลกอริทึม RL — รูปแบบใดของ GRPO ที่เหมาะกับลักษณะลำดับของการสร้าง 3D?
* การสร้างเกณฑ์มาตรฐานการประเมิน — เกณฑ์มาตรฐานที่มีอยู่สามารถวัดความสามารถในการให้เหตุผลของการสร้าง 3D ได้อย่างแท้จริงหรือไม่?
* การอัปเกรดกระบวนทัศน์การฝึก — จะทำให้ RL ปรับตัวเข้ากับโครงสร้างแบบลำดับชั้นของการสร้าง 3D ได้อย่างไร?

การเลือกโมเดลรางวัล: สำคัญกว่าที่คิด

ข้อมูลเชิงลึกหลัก: ความชอบของมนุษย์คือ “รากฐาน” รางวัลอื่นๆ คือ “คะแนนเพิ่ม”

การวิจัยทดสอบการผสมผสานรางวัลหลายประเภท ครอบคลุมสี่มิติ: คะแนนความชอบของมนุษย์ (HPS v2.1) การจัดแนวความหมาย (CLIP Score) คุณภาพด้านสุนทรียภาพ และความสอดคล้องทางเรขาคณิต 3D สรุปได้ดังนี้:
* การใช้คะแนนความชอบของมนุษย์ (HPS v2.1) เพียงอย่างเดียวมีประสิทธิภาพสูงสุด เป็นขีดจำกัดสูงสุดในบรรดารางวัลเดี่ยวทั้งหมด และกำหนดขีดจำกัดล่างของคุณภาพการสร้างของโมเดลโดยตรง
* การจัดแนวความหมายและคุณภาพด้านสุนทรียภาพเมื่อใช้เพียงอย่างเดียวให้การปรับปรุงที่จำกัด แต่เมื่อซ้อนทับบนรางวัลความชอบของมนุษย์สามารถปรับปรุงประสิทธิภาพได้อย่างต่อเนื่อง สร้างความสัมพันธ์ที่เสริมกัน

การค้นพบที่น่าประหลาดใจคือ: โมเดลขนาดใหญ่หลายรูปแบบทั่วไป (เช่น Qwen2.5-VL) มีความแข็งแกร่งมากกว่าโมเดลเฉพาะทางบางตัวในการประเมินความสอดคล้องทางเรขาคณิต 3D สาเหตุคือ ขณะนี้ขาดโมเดลรางวัลเฉพาะทางสำหรับความสอดคล้องทางเรขาคณิต 3D ที่成熟 ในขณะที่โมเดลขนาดใหญ่ทั่วไป ด้วยความเข้าใจกว้างขวางเกี่ยวกับความสัมพันธ์เชิงพื้นที่ กลับสามารถเติมเต็มช่องว่างนี้ได้ และให้สัญญาณรางวัลที่เสถียรกว่า

ความหมายเชิงปฏิบัติ: ไม่ควรหวังว่าจะพบ “รางวัลสารพัดประโยชน์” แต่ควรใช้ความชอบของมนุษย์เป็นแกนกลาง และบนพื้นฐานนี้ รวบรวมรางวัลหลายมิติ เช่น ความสอดคล้องทางเรขาคณิตและการจัดแนวความหมาย เพื่อครอบคลุมทุกด้านของคุณภาพการสร้าง 3D อย่างครบถ้วน

ระดับโทเค็น vs ระดับลำดับ: ตัวเลือกสำคัญที่ถูกละเลย

ข้อมูลเชิงลึกหลัก: การสร้าง 3D เหมาะสมโดยธรรมชาติกับการปรับให้เหมาะสมระดับโทเค็น การดำเนินการระดับลำดับให้ผลตอบแทนจำกัด

การวิจัยเปรียบเทียบอัลกอริทึมสามประเภทอย่างเป็นระบบ: GRPO, DAPO, GSPO เผยให้เห็นกฎสำคัญ:
* การหาค่าเฉลี่ยการสูญเสียระดับโทเค็น (การปรับปรุงหลักของ DAPO) นำมาซึ่งการปรับปรุงประสิทธิภาพที่โดดเด่นที่สุด สาเหตุคือ ความแตกต่างของโครงสร้างโดยรวมของวัตถุ 3D สะท้อนอยู่ในทุกโทเค็นของลำดับออโต้รีเกรสซีฟ การใช้การสูญเสียเฉลี่ยระดับความละเอียดโทเค็นสามารถรับรู้ความเบี่ยงเบนของคุณภาพในแต่ละขั้นตอนการสร้างได้ละเอียดยิ่งขึ้น
* การดำเนินการระดับลำดับ (แนวคิดของ GSPO) มีประสิทธิภาพในงานคณิตศาสตร์และโค้ด แต่ให้ผลตอบแทนน้อยมากในการสร้าง 3D — ลำดับโครงสร้างของงานประเภทนี้เบาบางเกินไป สัญญาณสำคัญ容易被โทเค็นที่เป็นกลางจำนวนมากกลบ淹没
* การสุ่มตัวอย่างแบบไดนามิก เป็นเทคนิคต้นทุนต่ำผลตอบแทนสูง เพียงเทคนิคนี้อย่างเดียวก็สามารถทำให้เส้นโค้งการฝึกเสถียรอย่างมีนัยสำคัญ และหลีกเลี่ยงการสั่นของฝึกเนื่องจากความแปรปรวนของรางวัลที่มากเกินไป
* การลบทิ้งการลงโทษ KL อย่างสมบูรณ์จะทำให้ประสิทธิภาพลดลง — KL divergence ยังคงมีบทบาทสำคัญในการทำให้เป็นมาตรฐานในการสร้าง 3D ป้องกันไม่ให้นโยบายเบี่ยงเบนจากการกระจายอ้างอิงมากเกินไป

ในด้านการขยายข้อมูล การวิจัยก็ได้ข้อสรุปที่ชัดเจน:
การเพิ่มปริมาณข้อมูลฝึกเป็นสองเท่าได้ผล แต่การเพิ่มรอบการฝึกเป็นสามเท่าจะทำให้เกิดการ overfit — โมเดลเริ่ม “ท่องจำ” ลักษณะความชอบในข้อมูลฝึก และความสามารถในการสรุปไปยังหมวดหมู่วัตถุที่หายากลดลงอย่างเห็นได้ชัด นี่แสดงให้เห็นว่าในการฝึก RL สำหรับการสร้าง 3D ความหลากหลายของข้อมูลสำคัญกว่าการขยายเวลาการฝึกเพียงอย่างเดียว

MME-3DR: ทำไมเกณฑ์มาตรฐานที่มีอยู่จึงไม่สามารถประเมินความสามารถในการให้เหตุผล 3D?

เกณฑ์มาตรฐานการสร้าง 3D ที่มีอยู่ (เช่น ShapeNet, Toys4K) มุ่งเน้นที่ความหลากหลายของวัตถุเป็นหลัก แต่ยากที่จะวัดความสามารถในการให้เหตุผลโดยนัยของโมเดลภายใต้คำอธิบายข้อความที่ซับซ้อน — ตัวอย่างเช่น การสร้างวัตถุที่ต้องการการจัดแนวความหมายระดับละเอียด เช่น “เก้าอี้ที่มีที่วางแขนไม้ ขามีรอยสึกหรอเล็กน้อย มองจากด้านหลังซ้ายมุม 45 องศาจากด้านบน”

เพื่อจุดประสงค์นี้ ทีมวิจัยได้เสนอเกณฑ์มาตรฐาน MME-3DR เกณฑ์มาตรฐานนี้ประกอบด้วยวัตถุ 3D ที่ซับซ้อน 249 รายการที่คัดสรรมาอย่างดี มิติการประเมินครอบคลุมสามระดับ: ความสอดคล้องทางเรขาคณิตหลายมุมมอง การจัดแนวรายละเอียดความหมาย ความสมจริงของพื้นผิวและเนื้อสัมผัส ออกแบบมาเฉพาะเพื่อวัดประสิทธิภาพการสร้างของโมเดลในสถานการณ์ที่การให้เหตุผลหนาแน่น การออกแบบ MME-3DR ทำให้โมเดลที่อาศัยเพียงการจำข้อมูลฝึกไม่สามารถได้คะแนนสูง จึงสามารถแยกแยะความสามารถในการสร้างและความสามารถในการให้เหตุผลแบบสรุปของโมเดลได้อย่างแท้จริง

โมเดล AR3D-R1 ที่อิงจากการวิจัยนี้ ทำได้ดีกว่าเมธอด SOTA ที่มีอยู่ เช่น Trellis ในทั้งสองเกณฑ์มาตรฐาน MME-3DR และ Toys4K ระยะทางการกระจายเคอร์เนลอยู่ที่ 0.156 ซึ่งยืนยันผลลัพธ์ที่เป็นรูปธรรมของการฝึก RL ในการยกระดับความสามารถในการให้เหตุผลของการสร้าง 3D

Hi-GRPO และ AR3D-R1: การสร้าง 3D เป็น “หยาบก่อนแล้วค่อยละเอียด” โดยธรรมชาติ

ข้อมูลเชิงลึกหลัก: การสร้าง 3D มีลำดับชั้นโดยธรรมชาติ กระบวนทัศน์การฝึก RL ก็ควรสอดคล้องกับมัน

ทีมวิจัยสังเกตเห็นปรากฏการณ์ที่น่าสนใจในระหว่างกระบวนการฝึก: โมเดลเรียนรู้รูปร่างเรขาคณิตโดยรวมก่อนในยุคเริ่มต้นของการวนซ้ำ จากนั้นจึงค่อยๆ ปรับแต่งรายละเอียดพื้นผิวในภายหลัง — สิ่งนี้สอดคล้องกับวิธีที่มนุษย์รับรู้วัตถุ 3D อย่างสมบูรณ์ (ดูโครงร่างก่อน แล้วค่อยดูรายละเอียด) ด้วยแรงบันดาลใจนี้ การวิจัยได้เสนอเฟรมเวิร์กHi-GRPO (GRPO แบบลำดับชั้น):
* ขั้นตอนที่ 1 (ระยะความละเอียดหยาบ): สร้างการให้เหตุผลความหมายระดับสูงผ่านการคิดเป็นโซ่ สร้างรูปร่างเรขาคณิตหยาบ ระยะนี้ใช้รางวัลเฉพาะเจาะจง มุ่งเน้นที่ความสอดคล้องทางเรขาคณิตและความสมบูรณ์ของโครงสร้างโดยรวม
* ขั้นตอนที่ 2 (ระยะความละเอียดละเอียด): อิงตามผลลัพธ์การคิดเป็นโซ่จากขั้นตอนที่ 1 สร้างการให้เหตุผลภาพระดับต่ำ สร้างรายละเอียดพื้นผิวละเอียด ระยะนี้ใช้อีกชุดรางวัลเฉพาะเจาะจง มุ่งเน้นที่คุณภาพลักษณะภายนอกและความสมบูรณ์ของส่วนประกอบ

ทั้งสองระยะใช้การรวมรางวัลแยกกัน ป้องกันไม่ให้รางวัลเรขาคณิตและรางวัลพื้นผิวรบกวนกัน รับประกันว่าโมเดลจะได้รับสัญญาณการเรียนรู้ที่แม่นยำที่สุดในแต่ละระยะ การออกแบบแบบลำดับชั้นนี้เข้ารหัสโครงสร้างก่อนของ 3D โดยตรงลงในกระบวนทัศน์การฝึก RL

ผลลัพธ์เชิงปริมาณของโมเดลสุดท้าย AR3D-R1 มีดังนี้:
* คะแนน CLIP เพิ่มจาก 22.7 เป็น 29.3 เพิ่มขึ้นประมาณ 29% ความสามารถในการจัดแนวความหมายเพิ่มขึ้นอย่างมาก
* ระยะทางการกระจายเคอร์เนลลดลงประมาณ 37% การกระจายเรขาคณิตที่สร้างขึ้นใกล้เคียงกับวัตถุ 3D จริงมากขึ้น
* ทำได้ดีกว่าเมธอด SOTA ที่มีอยู่ในทั้งเกณฑ์มาตรฐาน MME-3DR และ Toys4K และการยกระดับความสามารถในการให้เหตุผลเด่นชัดเป็นพิเศษในสถานการณ์คำอธิบายข้อความที่ซับซ้อน

สรุป: RL เข้าสู่การสร้าง 3D ต้องปรับให้เหมาะ

ผลงานหลักของการวิจัยนี้ไม่ใช่แค่โมเดลสร้าง 3D ที่มีประสิทธิภาพดีกว่า แต่เป็นการสร้างกรอบการวิจัยอย่างเป็นระบบสำหรับสาขานี้: เมื่อพยายามนำ RL เข้าสู่การสร้าง 3D ควรทดสอบรางวัลประเภทใด เลือกอัลกอริทึมประเภทใด ใช้เกณฑ์มาตรฐานใดในการประเมิน และจะออกแบบกระบวนทัศน์การฝึกที่สอดคล้องกับโครงสร้างก่อนของ 3D ได้อย่างไร

ดังที่ชื่อบทความถาม: “เราพร้อมที่จะใช้ RL ในการสร้าง 3D จากข้อความแล้วหรือยัง?” — คำตอบของงานนี้คือ: พร้อมแล้ว แต่ต้องปรับแต่งฟังก์ชันรางวัล อัลกอริทึม และกระบวนทัศน์การฝึกให้เหมาะกับการสร้าง 3D โดยเฉพาะ ไม่ใช่เพียงแค่ลอกประสบการณ์จากสาขา 2D มาอย่างง่ายๆ

ในขณะที่เทคโนโลยี RL เจริญ成熟อย่างต่อเนื่องในสาขาภาษาและภาพ คุณค่าของระเบียบวิธีนี้จะก้าวข้ามการสร้าง 3D ไปเอง และให้แนวทางที่นำกลับมาใช้ใหม่ได้สำหรับการทำให้งานสร้างหลายรูปแบบที่กว้างขึ้นเป็น RL

ลิงก์บทความ:
https://arxiv.org/pdf/2512.10949 (CVPR 2026)

ลิงก์โค้ด:
https://github.com/Ivan-Tang-3D/3DGen-R1