Google DeepMind ร่วมกับ Berkeley เปิดตัว LoGeR: โครงสร้างหน่วยความจำระยะยาวที่ก้าวล้ำ ช่วยให้การสร้างภาพ 3D ข้ามผ่านหลายพันเฟรม

1 day ago • วิศวกรรมโมเดลขนาดใหญ่ • 26 views

กลไกความจำเป็นหนึ่งในความสามารถหลักของโมเดลขนาดใหญ่ในการจัดการงานที่ซับซ้อน ในสถานการณ์ต่างๆ เช่น การสนทนาและเวิร์กโฟลว์อัตโนมัติ โมเดลจำเป็นต้องพึ่งพาความจำเพื่อรักษาบริบทระยะยาว ความต้องการนี้มีความสำคัญไม่แพ้กันในสาขาการสร้างแบบจำลอง 3 มิติ โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับฉากขนาดใหญ่หรือวิดีโอที่มีลำดับยาว การส่งผ่านและบูรณาการข้อมูลข้ามเฟรมอย่างต่อเนื่องเป็นสิ่งสำคัญยิ่ง

อย่างไรก็ตาม โมเดลการสร้างแบบจำลอง 3 มิติแบบฟีดฟอร์เวิร์ดที่มีอยู่ในปัจจุบันมักถูกจำกัดด้วยหน้าต่างบริบทที่สั้น ทำให้ยากต่อการสร้างแบบจำลองความสัมพันธ์ที่ขึ้นต่อกันในลำดับยาว แม้ว่าโมเดลพื้นฐานทางเรขาคณิตที่ปรากฏขึ้นล่าสุด (เช่น DUSt3R, MonST3R, VGGT) จะสามารถเรียนรู้ความรู้ก่อนหน้าที่ซับซ้อนจากข้อมูลขนาดใหญ่ และทำการอนุมานแบบฟีดฟอร์เวิร์ดที่แข็งแกร่งยิ่งขึ้นได้ แต่พวกมันยังคงเผชิญกับข้อจำกัดพื้นฐาน: สถาปัตยกรรมในปัจจุบันยังยากที่จะขยายการสร้างแบบจำลองแบบหนาแน่นไปยังลำดับยาวหลายพันเฟรมได้อย่างมีประสิทธิภาพ

ข้อจำกัดนี้เกิดจากอุปสรรคหลักสองประการ:
* อุปสรรคด้านสถาปัตยกรรม: กลไกความสนใจแบบสองทิศทางที่จำเป็นสำหรับการเรียนรู้ความรู้ก่อนหน้าที่ซับซ้อนทางเรขาคณิต มีความซับซ้อนในการคำนวณที่เพิ่มขึ้นแบบกำลังสอง ทำให้สามารถนำไปใช้ได้เฉพาะกับหน้าต่างบริบทสั้นๆ เท่านั้น
* อุปสรรคด้านข้อมูล: โมเดลที่มีอยู่ในปัจจุบันได้รับการฝึกฝนส่วนใหญ่บนลำดับสั้น (หลายสิบถึงร้อยกว่าเฟรม) ขาดความสามารถในการจัดการกับความสัมพันธ์ที่ขึ้นต่อกันในระยะยาว (หลายพันถึงหลายหมื่นเฟรม) ดังนั้น แม้จะใช้วิธีการฮิวริสติกในระหว่างการอนุมาน (เช่น FastVGGT) เพื่อบรรเทาความกดดันด้านหน่วยความจำ โมเดลก็ยังยากที่จะปรับตัวให้เข้ากับชุดข้อมูลขนาดใหญ่ขึ้น

เพื่อแก้ไขความท้าทายข้างต้น ทีมวิจัยจาก Google DeepMind และ University of California, Berkeley ได้เสนอ LoGeR (Long-Context Geometric Reconstruction) ซึ่งเป็นสถาปัตยกรรมใหม่ที่ออกแบบมาเพื่อขยายการสร้างแบบจำลอง 3 มิติแบบหนาแน่นไปยังลำดับวิดีโอที่ยาวมาก โดยไม่จำเป็นต้องมีการปรับแต่งหลังการประมวลผล

แนวคิดหลักของ LoGeR คือการแบ่งสตรีมวิดีโอยาวออกเป็นส่วน (chunk) ต่อเนื่องกันเพื่อประมวลผลตามลำดับ เพื่อให้ได้การสร้างแบบจำลองที่มีความเที่ยงตรงสูงภายในแต่ละส่วน มันใช้ประโยชน์จากความรู้ก่อนหน้าที่แข็งแกร่งของกลไกความสนใจแบบสองทิศทาง และเพื่อให้มั่นใจถึงความสอดคล้องข้ามขอบเขตของส่วน ทีมวิจัยได้ออกแบบ โมดูลความจำแบบผสมที่เรียนรู้ได้ โมดูลนี้ประกอบด้วยสององค์ประกอบที่เสริมกัน:
1. ความจำแบบมีพารามิเตอร์ (การฝึกระหว่างทดสอบ, TTT): ชุดน้ำหนักที่ฝึกได้อย่างรวดเร็ว ใช้สำหรับยึดระบบพิกัดส่วนโลก ป้องกันการล่องลอยของสเกล บีบอัดและส่งผ่านข้อมูลระยะยาวแบบสูญเสีย
2. ความจำแบบไม่มีพารามิเตอร์ (ความสนใจแบบหน้าต่างเลื่อน, SWA): กลไกความสนใจที่มุ่งเน้นไปที่เฟรมระหว่างส่วนที่อยู่ติดกัน เพื่อให้ได้การจัดแนวคุณลักษณะที่มีความเที่ยงตรงสูงแบบไม่สูญเสียในระยะสั้น

สถาปัตยกรรมความจำแบบผสมนี้ทำให้ LoGeR สามารถฝึกฝนบนลำดับเพียง 128 เฟรม แต่สามารถปรับตัวให้เข้ากับการประมวลผลลำดับหลายพันเฟรมในระหว่างการอนุมาน

Google DeepMind ร่วมกับ Berkeley เปิดตัว LoGeR: โครงสร้างหน่วยความจำระยะยาวที่ก้าวล้ำ ช่วยให้การสร้างภาพ 3D ข้ามผ่านหลายพันเฟรม

ชื่อบทความวิจัย: LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
ลิงก์บทความวิจัย: https://arxiv.org/pdf/2603.03269
หน้าแรกโครงการ: https://loger-project.github.io/

การประเมินบนมาตรฐานทดสอบทั่วไปและชุดข้อมูล VBR ลำดับยาวที่ออกแบบใหม่ (มีเฟรมสูงสุด 19000 เฟรม) แสดงให้เห็นว่า LoGeR มีประสิทธิภาพเหนือกว่าวิธีการฟีดฟอร์เวิร์ดก่อนหน้าอย่างมีนัยสำคัญ ตัวอย่างเช่น บนชุดข้อมูล KITTI มันลดข้อผิดพลาดเส้นทางสัมบูรณ์ (ATE) ลงมากกว่า 74% และสามารถบรรลุการสร้างแบบจำลองที่สอดคล้องกันในระดับโลกและแข็งแกร่งในช่วงเวลาที่ไม่เคยมีมาก่อน

Google DeepMind ร่วมกับ Berkeley เปิดตัว LoGeR: โครงสร้างหน่วยความจำระยะยาวที่ก้าวล้ำ ช่วยให้การสร้างภาพ 3D ข้ามผ่านหลายพันเฟรม
ผลเชิงคุณภาพบนฉากจริงขนาดใหญ่และลำดับยาว VBR LoGeR สามารถรักษาโครงสร้างขนาดใหญ่ได้อย่างแม่นยำในลำดับหลายพันเฟรม และบรรลุการปิดลูปที่เสถียร

ภาพรวมวิธีการ

เพื่อขยายการสร้างแบบจำลองแบบหนาแน่นแบบฟีดฟอร์เวิร์ดไปยังวิดีโอระดับนาที จำเป็นต้องแก้ปัญหาความซับซ้อนในการคำนวณของความสนใจระดับโลกและความขาดแคลนข้อมูลการฝึกลำดับยาว LoGeR ใช้กระบวนการประมวลผลแบบแบ่งส่วนแบบเอนด์ทูเอนด์เพื่อควบคุมต้นทุนการคำนวณอย่างเคร่งครัด และรับประกันว่าการอนุมานในระดับท้องถิ่นอยู่ในขอบเขตการกระจายของข้อมูลการฝึกบริบทสั้น เป้าหมายการออกแบบสถาปัตยกรรมคือการบรรลุทั้ง:
1. ความสามารถในการอนุมานแบบสองทิศทางในระดับท้องถิ่นที่แข็งแกร่ง เพื่อรักษารายละเอียดเรขาคณิตที่หนาแน่น
2. การส่งผ่านข้อมูลระยะสั้นแบบไม่สูญเสีย เพื่อรับประกันการจัดแนวที่แม่นยำที่ขอบเขตของส่วนที่อยู่ติดกัน
3. กลไกความจำที่มีความซับซ้อนเชิงเส้นและขนาดคงที่ สำหรับการแพร่กระจายข้อมูลระดับโลกในขอบเขตหลายพันเฟรม

ทีมวิจัยบรรลุเป้าหมายนี้ผ่านการประมวลผลสตรีมวิดีโอที่แบ่งส่วนตามลำดับ โดยมีกระบวนการหลักดังแสดงในรูปที่ 1 และรูปที่ 2

การส่งผ่านข้อมูลข้ามส่วนทำได้ผ่านกลไกเสริมสองแบบ:
* การฝึกระหว่างทดสอบแบบแบ่งส่วน (TTT) สำหรับการบีบอัดแบบสูญเสียระยะยาว: แทรกชั้น TTT ลงในเครือข่าย รักษาชุดน้ำหนักที่อัปเดตข้ามส่วน ในระหว่างการอนุมาน น้ำหนักเหล่านี้จะถูกอัปเดตตามข้อมูลของส่วนปัจจุบัน และใช้เพื่อปรับการประมวลผลของเครือข่ายสำหรับส่วนต่อๆ ไป จึงเป็นการบีบอัดและส่งผ่านข้อมูลระดับโลกอย่างคร่าวๆ เช่น เรขาคณิตและสเกล
* ความสนใจแบบหน้าต่างเลื่อน (SWA) สำหรับการส่งผ่านแบบไม่สูญเสียระยะสั้น: แทรกชั้น SWA แบบเบาบางที่ความลึกบางส่วนของเครือข่าย ทำให้มันสนใจเฉพาะเฟรมในส่วนก่อนหน้าและส่วนปัจจุบัน สิ่งนี้สร้างช่องทางแบบไม่สูญเสียสำหรับแพร่กระจายคุณลักษณะที่มีความเที่ยงตรงสูงโดยตรงระหว่างส่วนที่อยู่ติดกัน รับประกันความสอดคล้องของเรขาคณิตระดับละเอียด

TTT และ SWA เสริมซึ่งกันและกัน: TTT ให้ความจำระยะยาวที่สามารถขยายได้ ในขณะที่ SWA รับประกันการจัดแนวที่แม่นยำที่ขอบเขตท้องถิ่น

นอกจากนี้ เพื่อรับมือกับข้อผิดพลาดในการทำนายที่อาจสะสมในการประมวลผลลำดับยาว ทีมวิจัยยังได้เสนอ LoGeR รูปแบบแปรผัน ซึ่งเพิ่มขั้นตอนการจัดแนวแบบฟีดฟอร์เวิร์ดล้วนๆ บนพื้นฐานของการทำนายดั้งเดิม เพื่อรับประกันว่าการทำนายทั้งหมดจะถูกจัดแนวกับระบบพิกัดส่วนโลกที่สอดคล้องกัน

สุดท้าย เพื่อเอาชนะ “อุปสรรคด้านข้อมูล” และทำให้การฝึกชั้น TTT แบบเรียกซ้ำเสถียร ทีมวิจัยได้สร้างชุดข้อมูลที่รวมข้อมูลฉากขนาดใหญ่เพิ่มเติม และใช้กลยุทธ์ การเรียนรู้แบบค่อยเป็นค่อยไปตามหลักสูตร การฝึกเริ่มจากลำดับสั้นที่ง่ายก่อน แล้วค่อยๆ เพิ่มความยาวลำดับและจำนวนส่วน นำทางโมเดลจากการพึ่งพา SWA ในระดับท้องถิ่นไปสู่การใช้สถานะ TTT ระดับโลกสำหรับการอนุมาน

ผลการทดลอง

การประเมินเชิงปริมาณแสดงให้เห็นว่า LoGeR และวิธีการพื้นฐาน Pi3-Chunk มีประสิทธิภาพเหนือกว่าวิธีการฟีดฟอร์เวิร์ดที่มีอยู่บนมาตรฐานทดสอบ KITTI อย่างมีนัยสำคัญ

ที่น่าสังเกตคือ ประสิทธิภาพโดยเฉลี่ยของ LoGeR ยังเหนือกว่าวิธีการที่แข็งแกร่งที่สุดในปัจจุบันที่ใช้การปรับแต่ง VGGT-Long ถึง 32.5% ข้อได้เปรียบนี้เห็นได้ชัดเจนเป็นพิเศษในสถานการณ์แบบลูปเปิด ซึ่ง LoGeR สามารถระงับข้อผิดพลาดการล่องลอยที่สะสมในลำดับยาวได้อย่างมีประสิทธิภาพ โดยไม่ต้องพึ่งพาการตรวจจับลูปปิด

ในมาตรฐานทดสอบ VBR LoGeR ก็แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพที่เสถียรเช่นกัน ผลการประเมินเชิงปริมาณและเชิงคุณภาพแสดงในรูปที่ 4 และรูปที่ 5 ตามลำดับ ด้วยการออกแบบโมดูล TTT LoGeR สามารถยึดสเกลระดับโลกได้โดยธรรมชาติ จึงรักษาความสอดคล้องระดับโลกที่เหนือกว่าวิธีการพื้นฐานในลำดับยาว

ผลการแสดงภาพระบุว่าในลำดับยาวพิเศษถึง 2 หมื่นเฟรม LoGeR ยังคงรักษาสเกลระดับโลกที่เสถียร ในขณะที่วิธีการพื้นฐานแสดงปัญหาการล่องลอยของสเกลอย่างชัดเจน

การประเมินลำดับสั้น

ทีมวิจัยได้ขยายขอบเขตการประเมินไปยังลำดับวิดีโอที่ค่อนข้างสั้น (ยาวประมาณ 1000 เฟรมเป็นอย่างมาก) บนพื้นฐานของการตั้งค่าการทดลองของ TTT3R ก่อนอื่น ประเมินผลการสร้างแบบจำลองเมฆจุด 3 มิติบนชุดข้อมูล 7-Scenes ที่มีความยาวลำดับ 50 ถึง 500 เฟรม

LoGeR ถูกเปรียบเทียบกับวิธีการเรียนรู้หลายวิธีที่มีความซับซ้อนต่ำกว่ากำลังสอง รวมถึงวิธีการที่มีสถานะชัดเจน Point3R โมเดลสถานะแฝง CUT3R, TTT3R, StreamVGGT และโมเดลพื้นฐานความสนใจแบบสองทิศทาง VGGT และ π^3 ผลลัพธ์บนชุดข้อมูล 7-Scenes แสดงในรูปที่ 6 และรูปที่ 7:

ผลการประมาณตำแหน่งกล้องบนชุดข้อมูล ScanNetV2 และ TUM-Dynamics แสดงในรูปที่ 8 และรูปที่ 9 ตามลำดับ:

โดยรวมแล้ว ทั้งในด้านคุณภาพการสร้างแบบจำลอง 3 มิติและความแม่นยำในการประมาณตำแหน่ง LoGeR และโมเดลพื้นฐานที่เกี่ยวข้องมีประสิทธิภาพเหนือกว่าวิธีการที่มีอยู่อย่างมีนัยสำคัญ

สำหรับรายละเอียดการทดลองและผลลัพธ์เพิ่มเติม โปรดดูบทความวิจัยต้นฉบับ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25793