CVPR2026 งานวิจัยที่ได้คะแนนเต็ม: Proxy-GS เร่งความเร็วการเรนเดอร์ 3D Gaussian Splatting 2.5 เท่า โดยใช้โครงตาข่ายพร็อกซีน้ำหนักเบาเพื่อรวมข้อมูลการบังล่วงหน้า

2026年3月18日 am11:00 • วิศวกรรมโมเดลขนาดใหญ่ • 202 views

ในฉากทิวทัศน์เมือง Proxy-GS บรรลุการเรนเดอร์เรียลไทม์ที่เสถียรในขณะที่ยังคงรายละเอียดภาพระดับละเอียดไว้ วิธีการนี้ลดจำนวนจุดยึด (anchor) ที่ต้องถอดรหัสได้อย่างมีนัยสำคัญ ส่งผลให้ประสิทธิภาพด้านหน่วยความจำและความเร็วในการเรนเดอร์ดีขึ้นอย่างเห็นได้ชัดทั้งสองด้าน ภาพประกอบที่มุมขวาบนแสดงการแสดงภาพมุมมองจากด้านบนของจุดยึดทั้งหมด โดยจุดยึดที่ถูกเน้นด้วยสีแดงแสดงถึงจุดยึดที่ถูกใช้โดยตัวถอดรหัสในเฟรมปัจจุบัน

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

ลิงก์บทความ: https://arxiv.org/abs/2509.24421
หน้าโครงการ: https://visionary-laboratory.github.io/Proxy-GS/

ทีมของ Zhong Zhihang จาก Shanghai Jiao Tong University ร่วมกับ Shanghai Artificial Intelligence Laboratory, Northwestern Polytechnical University, Sichuan University และสถาบันอื่น ๆ เสนอ Proxy-GS (Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting) ในงาน CVPR 2026 วิธีการนี้มุ่งเน้นไปที่ Structured 3D Gaussian Splatting ที่ใช้ MLP เป็นพื้นฐาน โดยใช้เมชพร็อกซี่ (proxy mesh) ที่มีน้ำหนักเบาเพื่อเปลี่ยนความสัมพันธ์การบดบัง (occlusion) ให้เป็นสัญญาณการมองเห็นที่ใช้งานได้: ในขั้นตอนการอนุมาน (inference) จะสร้างแผนที่ความลึกการบดบังอย่างรวดเร็วและคัดกรองจุดยึดที่ถูกบดบังออกเพื่อเร่งการเรนเดอร์; ในขั้นตอนการฝึก (training) จะชี้นำให้จุดยึดใหม่เติบโตไปตามพื้นผิวของพร็อกซี่ ลดการเติบโตที่ไร้ประสิทธิภาพในบริเวณที่ถูกบดบัง และใช้การออฟเซต (offset) เพื่อให้เกาส์เซียนที่ถอดรหัสมาจากจุดยึดสอดคล้องกับเรขาคณิตของพร็อกซี่ได้ดีขึ้น ในทิวทัศน์เมืองที่มีการบดบังหนาแน่น (เช่น MatrixCity Streets) Proxy-GS บรรลุการเร่งความเร็วการเรนเดอร์ มากกว่า 2.5 เท่า ในขณะที่ยังคงหรือแม้แต่ปรับปรุงคุณภาพภาพ

ภูมิหลังและแรงจูงใจ

ทำไม Structured 3DGS ถึงทำงานช้าลงเรื่อยๆ?

3D Gaussian Splatting ก้าวหน้าไปอย่างมากในการสังเคราะห์มุมมองใหม่คุณภาพสูง แต่ 3DGS ดั้งเดิมมักสร้างเกาส์เซียนที่ซ้ำซ้อนจำนวนมากและละเลยโครงสร้างเรขาคณิตของฉาก ดังนั้น วิธีการที่มีโครงสร้างโดยใช้ MLP เป็นพื้นฐาน เช่น Scaffold-GS, Octree-GS จึงวางจุดยึดไว้บนว็อกเซลหรือโหนดอ็อกทรี และใช้ MLP เพื่อถอดรหัสคุณสมบัติของเกาส์เซียนแบบไดนามิกตามมุมมอง ซึ่งช่วยเพิ่มรายละเอียดและความแข็งแกร่ง (robustness) ในขณะเดียวกันก็นำมาซึ่งต้นทุนการคำนวณที่มากเช่นกัน ในฉากเมืองขนาดใหญ่ จำนวนจุดยึดและเกาส์เซียนเพิ่มขึ้นอย่างรวดเร็ว ทำให้ต้นทุนการถอดรหัสและการเรนเดอร์กลายเป็นจุดคอขวด

งานที่มีอยู่ใช้การตัดแต่ง (pruning) หรือเทคนิคระดับรายละเอียด (LOD) เพื่อลดความซ้ำซ้อน แต่การตัดแต่งอาจทำลายคุณภาพภาพได้ง่าย ในขณะที่ LOD มุ่งเน้นไปที่ “การลดความซับซ้อนของพื้นที่ไกล” เป็นหลัก และไม่ให้ความสนใจเพียงพอกับการคำนวณที่ไร้ประสิทธิภาพในพื้นที่ที่ถูกบดบัง ฉากจริง โดยเฉพาะอย่างยิ่งถนนในเมือง หรือภายในอาคารที่มีหลายห้อง มักมีการบดบังหนาแน่น หากการเลือกจุดยึดไม่พิจารณาการบดบังอย่างชัดเจน การคำนวณจำนวนมากจะสูญเปล่าไปกับจุดยึดที่ถูกบดบัง บทความพบผ่านการแสดงภาพว่า: มีความไม่สอดคล้องกันอย่างเห็นได้ชัดระหว่างจุดยึดที่เข้าร่วมการถอดรหัสจริงในเฟรมปัจจุบันกับจุดยึดที่ “สัญชาตญาณต้องการ” จุดยึดจำนวนมากตกอยู่ในพื้นที่ที่ถูกบดบังอย่างรุนแรง ซึ่งทั้งเพิ่มภาระการถอดรหัสและไม่ส่งผลต่อภาพสุดท้าย ดังนั้น การแนะนำการคัดกรองจุดยึดที่รับรู้การบดบัง จึงมีแนวโน้มที่จะลดปริมาณการคำนวณได้อย่างมีนัยสำคัญ

นอกจากนี้ ความสามารถฮาร์ดแวร์แรสเตอร์ไรเซชันของ GPU ระดับผู้บริโภคมีความแข็งแกร่งมาก หากสามารถใช้เพื่อให้ได้ความลึกการบดบังอย่างรวดเร็ว และรวมเข้ากับกลยุทธ์ที่มีอยู่ เช่น การคัดกรองตามกรวยสายตา (frustum culling) ก็จะสามารถบรรลุการคัดกรองการบดบังได้โดยแทบไม่เพิ่มความล่าช้า Proxy-GS พัฒนาขึ้นโดยอิงแนวคิด “เมชพร็อกซี่น้ำหนักเบา + ฮาร์ดแวร์แรสเตอร์ไรเซชัน + การใช้ occlusion prior อย่างสม่ำเสมอทั้งในขั้นตอนการฝึกและการอนุมาน”

รูปที่ 1: ภาพรวม: จุดยึดที่ซ้ำซ้อน ผลการคัดกรอง และการเปรียบเทียบ PSNR/FPS

ดังแสดงในรูปด้านบน Proxy-GS อยู่บนพื้นฐานของเฟรมเวิร์ก LOD ที่ใช้ MLP เป็นพื้นฐานที่มีอยู่ (เช่น Octree-GS) ผ่านการเลือกจุดยึดที่รับรู้การบดบัง ซึ่งทั้งลดปริมาณการถอดรหัสและปรับปรุงคุณภาพภาพ และสามารถบรรลุการเร่งความเร็วการเรนเดอร์ประมาณ 3 เท่า ในฉากที่มีการบดบังมาก

ภาพรวมวิธีการ: บทบาทสองด้านของเมชพร็อกซี่ในการฝึกและการอนุมาน

แกนกลางของวิธีการคือการสร้างเมชพร็อกซี่น้ำหนักเบา ซึ่งสามารถให้แผนที่ความลึกการบดบังได้ภายใน 1ms ที่ความละเอียด 1000×1000 และให้บริการสองสิ่ง: การคัดกรองจุดยึด/เกาส์เซียนในขั้นตอนการอนุมาน และการเพิ่มความหนาแน่นโดยการชี้นำของพร็อกซี่ในขั้นตอนการฝึก

รูปที่ 2: เฟรมเวิร์กของ Proxy-GS: การคัดกรองการบดบังในขั้นตอนอนุมาน + การเพิ่มความหนาแน่นโดยการชี้นำของพร็อกซี่ในขั้นตอนฝึก

การได้มาซึ่งเมชพร็อกซี่: สำหรับฉากกลางแจ้งขนาดใหญ่ มักใช้วิธีการเช่น COLMAP เพื่อให้ได้พอยต์คลาวด์หนาแน่น; สำหรับฉากในร่มที่มีพื้นผิวไม่ชัดเจน ซึ่ง SfM ล้มเหลวง่าย บทความใช้โมเดลขนาดใหญ่เช่น MapAnything โดยใช้ตำแหน่งจาก COLMAP และภาพ RGB เป็นอินพุตเพื่อให้ได้พอยต์คลาวด์หนาแน่นและแปลงเป็นเมช จากนั้นทำการลดความซับซ้อนของพื้นผิวเมช โดยคงไว้เพียงโครงสร้างเรขาคณิตที่ค่อนข้างหยาบเพื่อแสดงความสัมพันธ์การบดบัง โดยไม่จำเป็นต้องมีรายละเอียดเรขาคณิตที่ละเอียด

ขั้นตอนการอนุมาน: ทำฮาร์ดแวร์แรสเตอร์ไรเซชันเฉพาะความลึกบนเมชพร็อกซี่ เพื่อให้ได้แผนที่ความลึกภายใต้มุมมองปัจจุบัน; ประมาณจุดยึดลงบนระนาบภาพ และเปรียบเทียบความลึกกับแผนที่ความลึก จุดยึดที่อยู่หลังเมชพร็อกซี่ถือว่าถูกบดบังและจะถูกคัดกรองออก กระบวนการนี้ถูกรวมเข้ากับกลยุทธ์ที่มีอยู่เดิม เช่น การคัดกรองตามกรวยสายตา ภายในเคอร์เนล CUDA เดียวกัน เพื่อหลีกเลี่ยงการถ่ายโอนข้อมูลระหว่าง GPU-CPU-GPU แผนที่ความลึกจะคงอยู่ใน GPU ตลอดเวลา และใช้ margin of safety γ เล็กน้อยเพื่อคำนึงถึงข้อผิดพลาดเชิงตัวเลขและเรขาคณิต เพื่อเร่งการประมวลผล ยังแบ่งเมชออกเป็นบล็อกย่อยละเอียดและใช้เทคนิคเช่น hierarchical depth culling, Early-Z เป็นต้น ทำให้เวลาที่ใช้ในการสร้างแผนที่ความลึกความละเอียดสูงควบคุมได้ที่ประมาณ 1ms

ขั้นตอนการฝึก: หากทำการคัดกรองการบดบังเฉพาะในขั้นตอนการอนุมาน แต่ในขั้นตอนการฝึกยังคงปฏิบัติต่อจุดยึดทั้งหมดเหมือนเดิม จะทำให้ “การเชื่อมโยงระหว่างจุดยึด-เกาส์เซียนที่เห็นในขั้นตอนการฝึก” ไม่สอดคล้องกับ “จุดยึดที่ถูกคัดกรองออกในขั้นตอนทดสอบ” ส่งผลให้คุณภาพภาพลดลง ดังนั้น Proxy-GS ยังใช้แผนที่ความลึกพร็อกซี่สำหรับการคัดกรองการบดบังในขั้นตอนการฝึกด้วย เพื่อให้แน่ใจว่าการมองเห็นในการฝึกและการอนุมานสอดคล้องกัน นอกจากนี้ กลยุทธ์การเพิ่มความหนาแน่นเดิมที่เติบโตจุดยึดใหม่ในบริเวณที่มีเกรเดียนต์สูง มักทำให้เกิดจุดยึดที่ไร้ประสิทธิภาพหลังเมชพร็อกซี่ บทความเสนอการเพิ่มความหนาแน่นโดยการชี้นำของพร็อกซี่: บนแพตช์ภาพที่มีข้อผิดพลาดในการเรนเดอร์สูงอย่างต่อเนื่อง ใช้ความลึกของพร็อกซี่ที่สอดคล้องกับพิกเซลภายในแพตช์นั้น ทำการ backproject ไปยังพื้นที่ 3D เพื่อให้ได้ตำแหน่งจุดยึดใหม่ ทำให้จุดยึดใหม่ตกอยู่ใกล้พื้นผิวของพร็อกซี่; ในขณะเดียวกันใช้เมชพร็อกซี่ควบคุมจำนวนจุดยึดภายในแต่ละเซลล์ของเมช เพื่อหลีกเลี่ยงการซ้ำซ้อนที่หนาแน่นเกินไปในพื้นที่ 3D ด้วยวิธีนี้ กระบวนการเพิ่มความหนาแน่นจะสอดคล้องกับเรขาคณิตพื้นผิวมากขึ้น การเติบโตที่ไร้ประสิทธิภาพในพื้นที่ที่ถูกบดบังลดลง บรรลุความสมดุลที่ดีขึ้นระหว่างคุณภาพภาพและความเร็ว

ประหยัดเวลาในขั้นตอนอนุมานจากไหน?

บทความเปรียบเทียบสัดส่วนเวลาที่ใช้ในแต่ละขั้นตอนการอนุมานของ Proxy-GS และ Octree-GS บนชุดข้อมูล MatrixCity การเรนเดอร์ความลึกของเมชพร็อกซี่ใช้เวลาเพียงประมาณ 1ms ซึ่งแทบจะไม่ต้องคำนึงถึง; การคัดกรองจุดยึดเร็วขึ้นเนื่องจากจำนวนจุดยึดที่ต้องประมวลผลน้อยลง; การประหยัดหลักมาจากขั้นตอนการเรนเดอร์: จุดยึดที่น้อยลงหมายถึงการถอดรหัส MLP ที่น้อยลงและการแรสเตอร์ไรเซชันเกาส์เซียนที่น้อยลง ส่งผลให้ FPS เพิ่มขึ้นอย่างมีนัยสำคัญ

รูปที่ 3: สัดส่วนเวลาของแต่ละขั้นตอนการอนุมาน: การเรนเดอร์ความลึกของ Proxy-GS ใช้เวลาประมาณ 1ms การประหยัดหลักมาจากการถอดรหัสและการเรนเดอร์ที่น้อยลง

ผลการทดลอง

ชุดข้อมูลและตัวชี้วัด: ประเมินบนฉากเมืองขนาดใหญ่ MatrixCity และฉากจริงที่มีระดับการบดบังและขนาดต่างกัน (ทิวทัศน์ถนน Small City, Berlin, ภาพถ่ายทางอากาศ CUHK-LOWER, ฉากในร่ม Zip-NeRF) ตัวชี้วัดรวมถึง PSNR, SSIM, LPIPS และ FPS

MatrixCity ถนน: แบ่งภาพถนน 8477 ภาพของ Small City ตามการแบ่งอย่างเป็นทางการออกเป็น 5 บล็อก รายงานตัวชี้วัดเฉลี่ยบนบล็อก 1&2, บล็อก 3&4 และบล็อก 5 Proxy-GS มีคุณภาพภาพ (PSNR/SSIM/LPIPS) และ FPS ที่ดีกว่าหรือเทียบเท่ากับ baseline ต่างๆ เช่น 3DGS, Scaffold-GS, Hierarchical-GS, Octree-GS ในทุกบล็อก โดยเฉพาะในบล็อก 5 Octree-GS มี FPS ประมาณ 48 ในขณะที่ Proxy-GS บรรลุ 151 FPS พร้อมกับ PSNR ที่สูงกว่า

ตารางที่ 1: MatrixCity Street: การเปรียบเทียบเชิงปริมาณระหว่าง Proxy-GS กับ 3DGS / Scaffold-GS / Hierarchical-GS / Octree-GS

การถ่ายโอนข้ามชุดข้อมูล: บน Small City (มีการบดบังสูง), Berlin, CUHK-LOWER (มีการบดบังค่อนข้างต่ำ ขนาดเล็กกว่า) Proxy-GS บรรลุคุณภาพภาพและความเร็วที่ดีที่สุดหรือรองลงมาในทุกกรณี ยิ่งฉากถนนมีการบดบังสูง (เช่น Small City) ผลประโยชน์ด้านความเร็วและคุณภาพภาพก็จะชัดเจนมากขึ้น; แม้ในฉากที่มีการบดบังต่ำหรือฉากขนาดเล็ก ก็ยังมีผลประโยชน์ที่มั่นคง และไม่สร้างภาระเพิ่มเติม

ตารางที่ 2: ข้ามชุดข้อมูล: ฉากที่มีความเข้มของการบดบังและขนาดต่างกัน

การเปรียบเทียบเชิงคุณภาพ
ในรายละเอียดต่างๆ เช่น หน้าต่างอาคาร พื้นผิว โครงสร้างพื้นถนน Proxy-GS สามารถรักษาความคมชัดและความสม่ำเสมอของโครงสร้างได้ดีกว่าเมื่อเทียบกับวิธีการ baseline

CVPR2026 งานวิจัยที่ได้คะแนนเต็ม: Proxy-GS เร่งความเร็วการเรนเดอร์ 3D Gaussian Splatting 2.5 เท่า โดยใช้โครงตาข่ายพร็อกซีน้ำหนักเบาเพื่อรวมข้อมูลการบังล่วงหน้า
รูปที่ 4. ผลการเปรียบเทียบเชิงคุณภาพ (รายละเอียดหน้าต่าง, พื้นผิว, พื้นถนน ฯลฯ)

การทดลองแยกส่วนกลยุทธ์การฝึกและการอนุมาน
เปรียบเทียบการตั้งค่ากลยุทธ์สี่แบบบนฉาก Block 5:
* ID1 (Baseline): กระบวนการ Octree-GS ดั้งเดิม
* ID2: ใช้เมชพร็อกซี่สำหรับการคัดกรองการบดบังเฉพาะในขั้นตอนการอนุมาน กระบวนการฝึกไม่เปลี่ยนแปลง ความเร็วการเรนเดอร์ (FPS) เพิ่มขึ้นมากกว่า 3 เท่า แต่คุณภาพภาพลดลงอย่างเห็นได้ชัด สาเหตุคือความสัมพันธ์การเชื่อมโยงระหว่างจุดยึดและเกาส์เซียนในขั้นตอนการฝึก ไม่สอดคล้องกับการมองเห็นในขั้นตอนการอนุมาน
* ID3: ใช้เมชพร็อกซี่สำหรับการคัดกรองการบดบังทั้งในขั้นตอนการฝึกและขั้นตอนการอนุมาน (รักษาความสม่ำเสมอของการบดบัง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง