มหาวิทยาลัยชิงหว่าร่วมกับ Meituan เปิดตัว 3DThinker: กรอบงานที่ก้าวล้ำครั้งแรกที่ทำให้โมเดลขนาดใหญ่ “จินตนาการ” ฉากสามมิติ

2026年3月11日 am10:54 • วิศวกรรมโมเดลขนาดใหญ่ • 193 views

เมื่อได้รับภาพฉากหลายๆ ภาพ มนุษย์มักสามารถจินตนาการโครงร่างสามมิติของฉากนั้นในใจได้ อย่างไรก็ตาม โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal) ในปัจจุบันยังคงอาศัยการให้เหตุผลจากข้อมูลข้อความล้วนหรือข้อมูลภาพสองมิติเป็นหลัก ทำให้ยากที่จะแสดงออกถึงโครงสร้างทางเรขาคณิตที่แฝงอยู่ในภาพได้อย่างมีประสิทธิภาพ

เพื่อแก้ไขปัญหานี้ ทีมวิจัยจากมหาวิทยาลัยชิงหวาและ Meituan ได้ร่วมกันเสนอ 3DThinker — กรอบงานที่ก้าวล้ำเป็นครั้งแรกที่มีเป้าหมายให้โมเดลขนาดใหญ่สามารถ “จินตนาการเสริม” ฉากสามมิติได้

มหาวิทยาลัยชิงหว่าร่วมกับ Meituan เปิดตัว 3DThinker: กรอบงานที่ก้าวล้ำครั้งแรกที่ทำให้โมเดลขนาดใหญ่ "จินตนาการ" ฉากสามมิติ

ลิงก์บทความวิจัย: https://arxiv.org/pdf/2510.18632
ลิงก์โค้ด: https://github.com/zhangquanchen/3DThinker

จาก “คิดด้วยภาพ” สู่ “คิดด้วย 3D”

การเพิ่มขีดความสามารถในการให้เหตุผลของโมเดลขนาดใหญ่แบบหลายรูปแบบเป็นจุดเน้นสำคัญของการวิจัยในปัจจุบัน มนุษย์สามารถอนุมานความสัมพันธ์เชิงพื้นที่จากภาพ RGB ไม่กี่ภาพได้ ในขณะที่โมเดลที่มีอยู่แสดงผลได้ค่อนข้างอ่อนในงานที่ต้องเข้าใจเชิงพื้นที่ สาเหตุหลักมาจากโมเดลขาดความสามารถในการดึงข้อมูลเรขาคณิตจากภาพอย่างมีประสิทธิภาพ

วิธีการที่มีอยู่ในปัจจุบันแบ่งออกเป็นสองประเภทหลัก:
1. อาศัยการให้เหตุผลเชิงแข็ง (เช่น การให้เหตุผลด้วยแผนที่ความรู้ความเข้าใจ) จากข้อมูลข้อความล้วนหรือเบาะแสภาพสองมิติ วิธีการประเภทนี้มักต้องการการติดป้ายกำกับข้อมูลที่ยุ่งยาก
2. การเพิ่มข้อมูลนำเข้าโดยใช้ข้อมูลเบื้องต้น เช่น แผนที่ความลึก (Depth Map) หรือคลาวด์จุด (Point Cloud) วิธีการประเภทนี้ต้องพึ่งพาการเรียกใช้เครื่องมือภายนอก ไม่ใช่ความสามารถโดยธรรมชาติของโมเดล และเพิ่มภาระในการให้เหตุผล

3DThinker เสนอแนวคิดใหม่: ทำให้โมเดลสามารถ “จินตนาการ” ฉากสามมิติได้โดยธรรมชาติในระหว่างกระบวนการให้เหตุผล โดยไม่ต้องใช้ข้อมูลติดป้ายกำกับ 3D (เช่น คลาวด์จุด) และไม่ต้องพึ่งพาเครื่องมือภายนอก

กล่าวโดยเฉพาะ กรอบงานนี้ชี้นำโมเดลให้แทรกตัวแปรแฝง (Latent Variable) ที่กะทัดรัดหนึ่งชุดโดยอัตโนมัติในขณะที่สร้างสายโซ่การให้เหตุผล (Chain-of-Thought) เพื่อใช้เป็นตัวแทนฉากสามมิติที่โมเดลสร้างขึ้นภายใน ตัวแทนที่สร้างขึ้นนี้ได้มาจากการกลั่น (Distill) จากโมเดลพื้นฐาน 3D (VGGT)

แนวคิดหลัก: การเรียนรู้สองขั้นตอนเพื่อให้เกิดการคิดแบบ 3D

3DThinker ใช้กลยุทธ์การฝึกสองขั้นตอนเพื่อให้บรรลุการจัดตำแหน่งในปริภูมิแฝง:
1. ขั้นตอนการฝึกภายใต้การดูแล (Supervised Training): กลั่นคุณลักษณะ 3D ที่ฝึกไว้ล่วงหน้าเข้าไปในเส้นทางการให้เหตุผลของโมเดล ทำให้โมเดลสามารถดึงข้อมูลเรขาคณิตจากข้อมูลสองมิติได้ โดยไม่ต้องพึ่งพาข้อมูลเบื้องต้นใดๆ
2. ขั้นตอนการฝึกเสริมกำลัง (Reinforcement Training): ในขณะที่รักษาความเสถียรของตัวแปรแฝง 3D ไว้ จะทำการปรับ优化เส้นทางการสุ่มตัวอย่างทั้งหมดโดยอาศัยเพียงสัญญาณผลลัพธ์เท่านั้น เพื่อให้เกิดการพัฒนาขีดความสามารถของโมเดลอย่างก้าวกระโดด

ขั้นตอนที่หนึ่ง: ใช้โมเดลพื้นฐาน 3D เป็นแนวทาง สร้างพฤติกรรมการให้เหตุผลของโมเดล

ในขั้นตอนการฝึกภายใต้การดูแล ขั้นแรกจะสร้างข้อมูลสายโซ่การให้เหตุผลที่มีโทเค็นพิเศษ 3D ระหว่างกระบวนการฝึก 3DThinker จะทำการแมปตัวแปรแฝง 3D (สถานะซ่อนของเลเยอร์สุดท้าย) ที่สอดคล้องกับโทเค็นพิเศษทั้งหมดผ่านโปรเจคเตอร์ไปยังปริภูมิแฝงของ VGGT และใช้การจัดตำแหน่งของทั้งสองเป็นฟังก์ชันการสูญเสียแรก:

โดยที่โปรเจคเตอร์ถูกสร้างขึ้นจาก MLP 6 เลเยอร์ที่ซ้อนกัน ใช้สำหรับการแมปมิติคุณลักษณะสามครั้ง โครงสร้างเฉพาะมีดังนี้:

ฟังก์ชันการสูญเสียที่สองคือการสูญเสีย Cross Entropy ของข้อความหลังจากลบโทเค็นพิเศษออก:

ฟังก์ชันการสูญเสียแรกรับประกันการจัดตำแหน่งตัวแทนของตัวแปรแฝง 3D ส่วนฟังก์ชันที่สองรับประกันความต่อเนื่องของการฝังภาษาธรรมชาติ

ขั้นตอนที่สอง: ใช้สัญญาณผลลัพธ์เป็นพื้นฐาน ปรับ优化เส้นทางที่มีจินตภาพ 3D

หลังจากเสร็จสิ้นขั้นตอนแรก โมเดลได้บรรลุการจัดตำแหน่งตัวแทนเบื้องต้นของ “การคิดด้วย 3D” ต่อไป อาศัยการเรียนรู้เสริมกำลัง และมีเพียงสัญญาณผลลัพธ์เท่านั้น จะทำการปรับ优化เส้นทางการสุ่มตัวอย่างทั้งหมด รวมถึงตัวแปรแฝง 3D ที่อยู่ในนั้น

โดยเฉพาะ 3DThinker ได้ออกแบบรางวัลการจัดตำแหน่งตัวแปรแฝง 3D:

กลไกรางวัลนี้จะดึงตัวแปรแฝง 3D ที่สร้างขึ้นแบบถดถอย (Autoregressive) และรับประกันว่ามีความสอดคล้องกับคุณลักษณะของ VGGT ดังนั้นในระหว่างกระบวนการสุ่มตัวอย่างการเรียนรู้เสริมกำลัง จึงไม่สูญเสียความสามารถในการแสดงออกทางเรขาคณิต

นอกจากนี้ 3DThinker ยังอ้างอิงวิธีการเรียนรู้เสริมกำลังตามผลลัพธ์ก่อนหน้า โดยรักษารางวัลไบนารีจากผลลัพธ์และรางวัลรูปแบบไว้ และในที่สุดใช้ GRPO ในการปรับ优化

ประสิทธิภาพเพิ่มขึ้นสู่ระดับใหม่

การวิจัยได้ตรวจสอบประสิทธิภาพของ 3DThinker บนเกณฑ์มาตรฐานการทำความเข้าใจเชิงพื้นที่หลายชุด

วิธีการนี้เริ่มต้นด้วยการสร้างข้อมูลสายโซ่การให้เหตุผลที่มีโทเค็นพิเศษ 3D บนข้อมูล 10K ของ MindCube และทำการฝึกสองขั้นตอน ตารางด้านล่างแสดงผลของโมเดลหลังการฝึก: บนเกณฑ์มาตรฐาน MindCube-Tiny เมื่อเทียบกับโมเดลฐาน (Baseline) ประสิทธิภาพของโมเดลขนาดต่างๆ เพิ่มขึ้น 51.8% ถึง 108.8%; บนเกณฑ์มาตรฐาน Ego3D-Bench เพิ่มขึ้น 18.1% ถึง 36.9%

ยกตัวอย่างโมเดลพื้นฐาน Qwen2.5-VL-3B ในขั้นตอนการฝึกภายใต้การดูแล ประสิทธิภาพของโมเดลแซงหน้าวิธีการที่ต้องการข้อมูลติดป้ายกำกับ CGMap (+1.9 จุดเปอร์เซ็นต์, 62.7 vs. 60.8); หลังจากเพิ่มการเรียนรู้เสริมกำลังเข้าไป 3DThinker ได้รับการพัฒนาต่ออีก +4.5 จุดเปอร์เซ็นต์ (75.2 vs. 70.7) ซึ่งพิสูจน์ประสิทธิผลของวิธีการฝึกของมัน

จากข้อมูลฝึกขนาดใหญ่ที่สร้างขึ้นเอง โมเดลได้รับการประเมินบนเกณฑ์ทดสอบที่ครอบคลุมมากขึ้น

ยกตัวอย่าง Qwen2.5-VL-3B วิธีการนี้เมื่อเทียบกับ SOTA ก่อนหน้า พัฒนาขึ้น 10.8 จุดเปอร์เซ็นต์ (49.6 -> 60.4); ยกตัวอย่าง Qwen2.5-VL-7B พัฒนาขึ้น 16.3 จุดเปอร์เซ็นต์ (48.4 -> 64.7) ผลลัพธ์แสดงว่า 3DThinker ได้ยกระดับประสิทธิภาพสู่ระดับใหม่ แสดงให้เห็นการพัฒนาอย่างมีนัยสำคัญในทุกเกณฑ์มาตรฐาน

ความสามารถในการอธิบายได้

คุณลักษณะเด่นอีกประการของ 3DThinker คือมีความสามารถในการอธิบายได้ในระดับหนึ่ง

ซึ่งหมายความว่า ตัวแปรแฝง 3D สามารถกู้คืนกลับมาเป็นการแสดงผล 3D ได้โดยตรงผ่านโปรเจคเตอร์ที่ออกแบบไว้ ทำให้กระบวนการให้เหตุผลของโมเดลไม่ใช่ “กล่องดำ” อย่างสมบูรณ์อีกต่อไป ที่น่าสนใจคือ 3DThinker สังเกตเห็นว่าบริเวณที่เกี่ยวข้องกับคำชี้นำ (Prompt) สูง มักมีความหนาแน่นของคลาวด์จุดที่สูงกว่า

สรุป

จาก “ดูภาพแล้วพูด” สู่ “ดูภาพแล้วคิดถึงพื้นที่” 3DThinker ได้เปิดเส้นทางใหม่สำหรับการให้เหตุผลของโมเดลภาษาภาพ

ความฉลาดหลักแหลมของมันอยู่ที่การหาเส้นทาง “การกลั่นแบบไม่มีผู้ดูแล”: ไม่ต้องใช้ข้อมูลติดป้ายกำกับ 3D ที่มีราคาแพง และไม่ต้องพึ่งพาเซนเซอร์วัดความลึกภายนอก แต่ทำให้โมเดลสามารถ “จินตนาการเสริม” ฉากสามมิติได้โดยธรรมชาติในระหว่างกระบวนการให้เหตุผล

แนวคิดการออกแบบ “ความคิดคือเรขาคณิต” นี้ ในระดับหนึ่งได้จำลองสัญชาตญาณการรับรู้เชิงพื้นที่ของมนุษย์ เมื่อจินตนาการ 3D รวมเข้ากับปัญญาประดิษฐ์แบบมีตัวตน (Embodied AI) เมื่อการให้เหตุผลเชิงพื้นที่สามารถตอบสนองและแก้ไขได้แบบเรียลไทม์ เราอาจกำลังเข้าใกล้ AI ที่สามารถ “เข้าใจ” โลกทางกายภาพได้อย่างแท้จริง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง