เป็นครั้งแรกที่พิสูจน์แล้วว่า RL สามารถทำให้โมเดล 3D เรียนรู้การให้เหตุผลได้ คุณภาพการสร้างภายใต้คำอธิบายข้อความที่ซับซ้อนเพิ่มขึ้นอย่างก้าวกระโดด!

2026年2月27日 am9:13 • การอนุมานโมเดลขนาดใหญ่ • 205 views

การศึกษาเชิงระบบครั้งแรก: การเรียนรู้แบบเสริมกำลังช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลได้อย่างไร?

ในด้านการสร้างภาพ การเรียนรู้แบบเสริมกำลัง (RL) ได้แสดงผลงานที่น่าประทับใจแล้ว แล้วในด้านการสร้าง 3D ที่ท้าทายยิ่งกว่า RL จะสามารถทำงานได้ดีเช่นเดียวกันหรือไม่? ในขณะที่อัลกอริธึมอย่าง GRPO ทำให้โมเดลขนาดใหญ่เกิดการเปลี่ยนแปลงเชิงคุณภาพในการให้เหตุผลทางคณิตศาสตร์และโค้ด งานวิจัยบุกเบิกชิ้นหนึ่งได้ให้คำตอบเป็นครั้งแรก — งานวิจัยแรกที่นำการเรียนรู้แบบเสริมกำลังมาใช้อย่างเป็นระบบในการสร้างแบบออโตรีเกรสซีฟจากข้อความสู่ 3D ได้ถือกำเนิดขึ้นอย่างเป็นทางการ และได้รับการตีพิมพ์ใน CVPR 2026 แล้ว งานวิจัยนี้ไม่ได้เพียงแค่ย้ายประสบการณ์จาก 2D มาปรับใช้อย่างง่ายๆ แต่เป็นการสำรวจเชิงระบบที่สมบูรณ์ตั้งแต่การออกแบบรางวัล การเลือกอัลกอริธึม เกณฑ์การประเมิน ไปจนถึงกระบวนทัศน์การฝึกฝน เพื่อตอบโจทย์ความท้าทายเฉพาะตัวของการสร้าง 3D

เป็นครั้งแรกที่พิสูจน์แล้วว่า RL สามารถทำให้โมเดล 3D เรียนรู้การให้เหตุผลได้ คุณภาพการสร้างภายใต้คำอธิบายข้อความที่ซับซ้อนเพิ่มขึ้นอย่างก้าวกระโดด!

ทำไมการสร้าง 3D จึงยากกว่าการสร้าง 2D มาก?

RL ประสบความสำเร็จซ้ำแล้วซ้ำเล่าในการสร้างข้อความและภาพ แต่การนำมาใช้กับการสร้าง 3D โดยตรงกลับใช้ไม่ได้

ความขัดแย้งหลักอยู่ที่: วัตถุ 3D ไม่มี “มุมมองมาตรฐาน” การตัดสินว่าภาพหนึ่งถูกหรือผิดค่อนข้างตรงไปตรงมา แต่การประเมินวัตถุ 3D จำเป็นต้องพิจารณาจากหลายมุมมองพร้อมกันเพื่อดูความสอดคล้องของเรขาคณิต พื้นผิวเนื้อสัมผัส และการจัดแนวความหมาย — การออกแบบรางวัลในมิติใดมิติหนึ่งที่ไม่เหมาะสม อาจนำไปสู่การล้มเหลวในการฝึกฝนได้

ปัญหาที่ลึกซึ้งยิ่งไปกว่านั้นคือ เมื่อโมเดลสร้าง 3D ถอดรหัสแบบออโตรีเกรสซีฟ โทเคนที่สร้างขึ้นแต่ละโทเคนจะสัญญาถึงโครงสร้างโดยรวมโดยปริยาย การพึ่งพาระยะยาวเช่นนี้ทำให้ปัญหาความเบาบางของสัญญาณรางวัลใน 3D เด่นชัดกว่าใน 2D — โมเดลยากที่จะรับรู้ได้อย่างแม่นยำในระหว่างขั้นตอนการสร้างว่าปัญหาอยู่ที่ไหน

ทีมวิจัยได้แยกปัญหาหลักนี้ออกเป็นสี่มิติเพื่อศึกษาอย่างเป็นระบบ:
* การออกแบบโมเดลรางวัล — สัญญาณรางวัลประเภทใดมีประสิทธิภาพสูงสุดสำหรับการสร้าง 3D?
* การเลือกอัลกอริธึม RL — รูปแบบใดของ GRPO ที่เหมาะกับลักษณะลำดับของการสร้าง 3D?
* การสร้างเกณฑ์การประเมิน — เกณฑ์มาตรฐานที่มีอยู่สามารถวัดความสามารถในการให้เหตุผลของการสร้าง 3D ได้อย่างแท้จริงหรือไม่?
* การยกระดับกระบวนทัศน์การฝึกฝน — จะทำให้ RL ทำงานร่วมกับโครงสร้างแบบลำดับชั้นของการสร้าง 3D ได้อย่างไร?

การออกแบบรางวัล: ความชอบของมนุษย์เป็นรากฐาน

ข้อค้นพบหลัก: รางวัลจากความชอบของมนุษย์กำหนดขีดจำกัดล่างของคุณภาพการสร้าง รางวัลอื่นๆ เป็น “ตัวเพิ่มคะแนน” ที่มีประสิทธิภาพ

งานวิจัยทดสอบการผสมผสานรางวัลหลายประเภท รวมถึงคะแนนความชอบมนุษย์ (HPS v2.1) การจัดแนวความหมาย (CLIP Score) คุณภาพทางสุนทรียภาพ และความสอดคล้องของเรขาคณิต 3D สี่มิติ สรุปได้ชัดเจน:
* การใช้คะแนนความชอบมนุษย์ (HPS v2.1) เพียงอย่างเดียวมีประสิทธิภาพสูงสุด เป็นขีดจำกัดสูงสุดในบรรดารางวัลเดี่ยวทั้งหมด และกำหนดขีดจำกัดล่างของคุณภาพการสร้างของโมเดลโดยตรง
* รางวัลเช่นการจัดแนวความหมาย คุณภาพทางสุนทรียภาพ เมื่อใช้เพียงอย่างเดียวให้การพัฒนาที่จำกัด แต่เมื่อซ้อนทับบนรางวัลความชอบมนุษย์สามารถเพิ่มประสิทธิภาพได้อย่างต่อเนื่อง สร้างความสัมพันธ์ที่เสริมกัน

การค้นพบที่น่าประหลาดใจอย่างหนึ่งคือ: โมเดลขนาดใหญ่หลายรูปแบบทั่วไป (เช่น Qwen2.5-VL) ในการประเมินความสอดคล้องของเรขาคณิต 3D มีความแข็งแกร่งกว่าโมเดลเฉพาะทางบางตัว สาเหตุคือ ในปัจจุบันขาดโมเดลรางวัลเฉพาะทางสำหรับความสอดคล้องของเรขาคณิต 3D ที่พร้อมใช้และ成熟 ในขณะที่โมเดลขนาดใหญ่ทั่วไปด้วยความสามารถในการเข้าใจความสัมพันธ์เชิงพื้นที่ที่กว้างขวาง กลับสามารถให้สัญญาณรางวัลที่เสถียรกว่าได้

ความหมายในทางปฏิบัติ: ไม่ควรหวังว่าจะพบ “รางวัลสารพัดประโยชน์” แต่ควรใช้ความชอบของมนุษย์เป็นแกนกลาง และ在此基础上 ผสานรวมรางวัลหลายมิติเช่นความสอดคล้องของเรขาคณิตและการจัดแนวความหมาย จึงจะครอบคลุมทุกมิติของคุณภาพการสร้าง 3D ได้อย่างครบถ้วน

อัลกอริธึม RL: การปรับปรุงระดับโทเคนเป็นสิ่งสำคัญ

ข้อค้นพบหลัก: การสร้าง 3D เหมาะกับการปรับปรุงระดับโทเคนโดยธรรมชาติ การดำเนินการระดับลำดับให้ผลประโยชน์จำกัด

งานวิจัยเปรียบเทียบอัลกอริธึมสามประเภทคือ GRPO, DAPO, GSPO อย่างเป็นระบบ เผยให้เห็นกฎสำคัญดังนี้:
* การหาค่าเฉลี่ยการสูญเสียระดับโทเคน (การปรับปรุงหลักของ DAPO) นำมาซึ่งการเพิ่มประสิทธิภาพที่เด่นชัดที่สุด นี่เป็นเพราะความแตกต่างของโครงสร้างโดยรวมของวัตถุ 3D ปรากฏในทุกโทเคนของลำดับออโตรีเกรสซีฟ การใช้การสูญเสียระดับความละเอียดโทเคนสามารถรับรู้ความเบี่ยงเบนของคุณภาพในแต่ละขั้นตอนการสร้างได้อย่างละเอียดยิ่งขึ้น
* การดำเนินการระดับลำดับ (แนวคิดของ GSPO) มีประสิทธิภาพในงานคณิตศาสตร์และโค้ด แต่ให้ผลประโยชน์น้อยมากในการสร้าง 3D — โครงสร้างลำดับของงานประเภทนี้เบาบางเกินไป สัญญาณรางวัลสำคัญ容易被大量中性token淹没
* การสุ่มตัวอย่างแบบไดนามิก เป็นเทคนิคต้นทุนต่ำแต่ได้ผลสูง เพียงเทคนิคนี้อย่างเดียวก็สามารถทำให้เส้นโค้งการฝึกฝนมีเสถียรภาพอย่างเห็นได้ชัด หลีกเลี่ยงการสั่นไหวในการฝึกฝนเนื่องจากความแปรปรวนของรางวัลที่มากเกินไป
* การลบทิ้งบทลงโทษ KL อย่างสมบูรณ์จะทำให้ประสิทธิภาพลดลง — KL divergence ในการสร้าง 3D ยังคงมีบทบาทสำคัญในการทำให้เป็นมาตรฐาน ป้องกันไม่ให้นโยบายเบี่ยงเบนจากการกระจายตัวอ้างอิงมากเกินไป

ในด้านข้อมูล งานวิจัยก็ได้ข้อสรุปที่ชัดเจน: การเพิ่มปริมาณข้อมูลการฝึกเป็นสองเท่านั้นมีประสิทธิภาพ แต่การเพิ่มจำนวนรอบการฝึกเป็นสามเท่าจะทำให้เกิดการ overfit — โมเดลเริ่ม “ท่องจำ” ลักษณะความชอบจากข้อมูลการฝึก ความสามารถในการสรุปทั่วไปสำหรับหมวดหมู่วัตถุที่หายากลดลงอย่างเห็นได้ชัด นี่แสดงให้เห็นว่าในการฝึก RL สำหรับการสร้าง 3D ความหลากหลายของข้อมูลสำคัญกว่าการเพิ่มระยะเวลาการฝึกฝนเพียงอย่างเดียว

เกณฑ์การประเมิน: เกณฑ์มาตรฐานที่มีอยู่ไม่สามารถวัดความสามารถในการให้เหตุผลได้

เกณฑ์มาตรฐานการสร้าง 3D ที่มีอยู่ (เช่น ShapeNet, Toys4K) มุ่งเน้นที่ความหลากหลายของวัตถุเป็นหลัก แต่ยากที่จะวัดความสามารถในการให้เหตุผลโดยนัยของโมเดลภายใต้คำอธิบายข้อความที่ซับซ้อน — ตัวอย่างเช่น ความสามารถในการสร้างอย่างแม่นยำตามคำอธิบายละเอียดเช่น “เก้าอี้ที่มีที่วางแขนไม้ ขามีรอยสึกหรอเล็กน้อย มองจากมุม 45 องศาจากด้านหลังซ้าย”

เพื่อจุดประสงค์นี้ ทีมวิจัยได้เสนอเกณฑ์มาตรฐาน MME-3DR เกณฑ์มาตรฐานนี้ประกอบด้วยวัตถุ 3D ที่ซับซ้อน 249 รายการที่คัดสรรมาอย่างดี มิติการประเมินครอบคลุมสามระดับ: ความสอดคล้องของเรขาคณิตหลายมุมมอง การจัดแนวรายละเอียดความหมาย ความสมจริงของพื้นผิวเนื้อสัมผัส ออกแบบมาเฉพาะเพื่อวัดประสิทธิภาพการสร้างของโมเดลในสถานการณ์ที่ต้องการการให้เหตุผลอย่างหนาแน่น การออกแบบ MME-3DR ทำให้โมเดลที่อาศัยเพียงการจำข้อมูลการฝึกไม่สามารถได้คะแนนสูง จึงสามารถแยกแยะความสามารถในการสร้างและความสามารถในการให้เหตุผลทั่วไปของโมเดลได้อย่างแท้จริง

โมเดล AR3D-R1 ที่ฝึกด้วยวิธีนี้ สามารถ超越วิธี SOTA ที่มีอยู่เช่น Trellis ได้ทั้งในเกณฑ์มาตรฐาน MME-3DR และ Toys4K ระยะห่างการกระจายตัวเคอร์เนล (Kernel Distance) ถึง 0.156 ยืนยันการพัฒนาอย่างเป็น实质ของการฝึก RL ต่อความสามารถในการให้เหตุผลของการสร้าง 3D

กระบวนทัศน์การฝึก: RL แบบลำดับชั้นสอดคล้องกับธรรมชาติของการสร้าง 3D

ข้อค้นพบหลัก: การสร้าง 3D โดยธรรมชาติเป็นกระบวนการลำดับชั้น “หยาบก่อนแล้วค่อยละเอียด” กระบวนทัศน์การฝึก RL ก็ควรสอดคล้องกับสิ่งนั้น

ทีมวิจัยสังเกตเห็นปรากฏการณ์หนึ่งในกระบวนการฝึก: โมเดลในยุคเริ่มต้นของการฝึกเรียนรู้การสร้างรูปร่างเรขาคณิตโดยรวมก่อน แล้วจึงค่อยๆ ใส่รายละเอียดพื้นผิวในภายหลัง — สิ่งนี้สอดคล้องกับวิธีที่มนุษย์รับรู้วัตถุ 3D (ดูโครงร่างก่อน แล้วค่อยดูรายละเอียด) อย่างสมบูรณ์ ด้วยแรงบันดาลใจนี้ งานวิจัยได้เสนอเฟรมเวิร์ก Hi-GRPO (GRPO แบบลำดับชั้น):
* ขั้นตอนที่หนึ่ง (ความละเอียดหยาบ): สร้างการให้เหตุผลความหมายระดับสูงผ่านโซ่แห่งความคิด (Chain-of-Thought) ให้ผลลัพธ์เป็นรูปร่างเรขาคณิตหยาบ ขั้นตอนนี้ใช้รางวัลเฉพาะเจาะจง มุ่งเน้นที่ความสอดคล้องของเรขาคณิตและความสมบูรณ์ของโครงสร้างโดยรวม
* ขั้นตอนที่สอง (ความละเอียดละเอียด): สร้างการให้เหตุผลทางภาพระดับต่ำ基于ผลลัพธ์ของขั้นตอนแรก ให้ผลลัพธ์เป็นรายละเอียดพื้นผิวละเอียด ขั้นตอนนี้ใช้อีกชุดรางวัลเฉพาะเจาะจง มุ่งเน้นที่คุณภาพลักษณะ外观และความสมบูรณ์ของส่วนประกอบ

ทั้งสองขั้นตอนใช้การผสานรวมรางวัลที่เป็นอิสระต่อกัน หลีกเลี่ยงการรบกวนระหว่างรางวัลเรขาคณิตและรางวัลพื้นผิว ทำให้โมเดลในแต่ละขั้นตอนสามารถรับสัญญาณการเรียนรู้ที่แม่นยำที่สุดได้ การออกแบบแบบลำดับชั้นนี้เข้ารหัสโครงสร้าง先验ของการสร้าง 3D เข้าไปในกระบวนทัศน์การฝึก RL โดยตรง

ผลลัพธ์เชิงปริมาณของโมเดลสุดท้าย AR3D-R1 มีดังนี้:
* คะแนน CLIP เพิ่มจาก 22.7 เป็น 29.3 เพิ่มขึ้นประมาณ 29% ความสามารถในการจัดแนวความหมายเพิ่มขึ้นอย่างมาก
* ระยะห่างการกระจายตัวเคอร์เนลลดลงประมาณ 37% การกระจายตัวเรขาคณิตที่สร้างใกล้เคียงกับวัตถุ 3D จริงมากขึ้น
* ในเกณฑ์มาตรฐาน MME-3DR และ Toys4K 超越วิธี SOTA ที่มีอยู่ทั้งหมด และในสถานการณ์คำอธิบายข้อความที่ซับซ้อน ความสามารถในการให้เหตุผลพัฒนาอย่างเห็นได้ชัดเป็นพิเศษ

สรุป: การนำ RL เข้าสู่การสร้าง 3D ต้องปรับให้เหมาะเป็นพิเศษ

ผลงานหลักของงานวิจัยนี้ไม่ใช่แค่โมเดลสร้าง 3D ที่มีประสิทธิภาพดีกว่า แต่เป็นการสร้างกรอบงานวิจัยเชิงระบบสำหรับวิธีที่ RL สามารถนำไปใช้ในด้านการสร้าง 3D: เมื่อพยายามนำ RL มาใช้กับการสร้าง 3D ควรทดสอบรางวัลประเภทใด เลือกอัลกอริธึมประเภทใด ใช้เกณฑ์มาตรฐานอะไรในการประเมิน และจะออกแบบกระบวนทัศน์การฝึกที่สอดคล้องกับโครงสร้าง先验ของ 3D ได้อย่างไร

ดังที่ชื่อบทความถาม: “เราพร้อมที่จะใช้ RL ในการสร้างจากข้อความสู่ 3D แล้วหรือยัง?” — คำตอบของงานชิ้นนี้คือ: พร้อมแล้ว แต่เงื่อนไขคือต้องปรับแต่งรางวัล อัลกอริธึม และกระบวนทัศน์การฝึกให้เหมาะกับความท้าทายเฉพาะตัวของการสร้าง 3D โดยเฉพาะ และไม่สามารถนำประสบการณ์จากโลก 2D มาปรับใช้อย่างง่ายๆ ได้

ด้วยความ成熟อย่างต่อเนื่องของเทคโนโลยี RL ในด้านภาษาและภาพ คุณค่าของชุดวิธี론นี้จะก้าวข้ามการสร้าง 3D ไปเอง และให้แนวทางที่นำไปใช้ซ้ำได้สำหรับการทำให้งานสร้างหลายรูปแบบที่กว้างขวางขึ้นเป็น RL