【สรุปสาระสำคัญ】
กระบวนทัศน์ใหม่ในการประเมินความสามารถเชิงพื้นที่ของโมเดลเชิงรูปธรรม “Theory of Space” ได้ก้าวข้ามขีดจำกัดของวิธีการถามตอบแบบเดิมที่ใช้ภาพและข้อความสถิตย์ โดยได้ตรวจสอบอย่างเป็นระบบว่าฐานโมเดลสามารถสร้าง แก้ไข และใช้ความเชื่อเกี่ยวกับพื้นที่ผ่านการสำรวจด้วยตนเองในสภาพแวดล้อมแบบไดนามิกที่สังเกตได้เพียงบางส่วนได้เหมือนมนุษย์หรือไม่ งานวิจัยนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว
โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal) ในปัจจุบัน (เช่น GPT-5.2, Gemini-3 Pro) ทำลายสถิติในบัญชีคำถามตอบเกี่ยวกับภาพต่างๆ อย่างไรก็ตาม หากต้องการขยายขีดความสามารถเหล่านี้ไปสู่สถานการณ์ทางกายภาพที่แท้จริงมากขึ้น โมเดลอาจเผชิญกับความท้าทายอย่างมีนัยสำคัญในการทำความเข้าใจพื้นที่ ทำไมถึงเป็นเช่นนั้น?
ลองนึกภาพว่าคุณเดินเข้าไปในอพาร์ตเมนต์ที่ไม่เคยไปมาก่อน คุณผลักประตูเข้าไปและเห็นโซฟา เดินเข้าไปในโถงทางเดินแล้วเหลือบเห็นเตียงในห้องนอน เดินต่อไปอีกก็พบตู้เย็นในครัว ตอนนี้มีคนถามคุณว่า “โซฟาอยู่ทางไหนของตู้เย็น?” คุณมักจะตอบได้ เพราะคุณได้สร้าง “แผนที่ทางจิต” ขึ้นมาในใจแล้ว
มนุษย์ส่วนใหญ่สามารถทำสิ่งนี้ได้โดยไม่ต้องคิด แต่สำหรับฐานโมเดลในปัจจุบัน สถานการณ์อาจแตกต่างไปโดยสิ้นเชิง นักวิจัยพบว่ากระบวนทัศน์การประเมินที่มีอยู่มีความแตกต่างที่สำคัญเมื่อเทียบกับความต้องการของโลกทางกายภาพจริง:
- จาก “มุมมองพระเจ้า” สู่ “การสังเกตบางส่วน”: การทดสอบมาตรฐานแบบดั้งเดิมมักให้ภาพสถิตย์แบบครอบคลุมทั้งหมด แต่ในพื้นที่ทางกายภาพจริง วิสัยทัศน์ของเอเจนต์ส่วนใหญ่เป็นแบบเฉพาะที่ จำเป็นต้องอาศัยการสำรวจเชิงรุกเพื่อเชื่อมโยงเบาะแสภาพจากมุมมองบุคคลที่หนึ่งที่กระจัดกระจายให้กลายเป็น “แผนที่การรับรู้” แบบครอบคลุม
- จาก “การตอบสนองแบบรับ” สู่ “การตัดสินใจเชิงรุก”: การประเมินเชิงพื้นที่ที่มีอยู่มักให้ข้อมูลการสังเกตที่กำหนดไว้แล้วแก่โมเดล แต่ในสภาพแวดล้อมแบบเปิด ระบบจำเป็นต้องตัดสินใจด้วยตนเองเกี่ยวกับทิศทางการสำรวจและเป้าหมาย เพื่อให้ได้มาซึ่งข้อมูลสภาพแวดล้อมอย่างมีประสิทธิภาพมากขึ้น
- จาก “ความรู้ทั่วไปแบบสถิตย์” สู่ “การแก้ไขแบบไดนามิก”: สภาพแวดล้อมทางกายภาพสามารถเปลี่ยนแปลงได้แบบไดนามิก (เช่น การย้ายตำแหน่งสิ่งของ) นอกเหนือจากการสร้างแผนที่แล้ว เอเจนต์ยังจำเป็นต้องอัปเดตความทรงจำเชิงพื้นที่เก่าเมื่อพบการเปลี่ยนแปลงของสภาพแวดล้อม
ด้วยเหตุนี้ ทีมวิจัยจาก Northwestern University นำโดย Li Manling, ทีมจาก Stanford University นำโดย Li Fei-Fei และ Wu Jiajun และทีมจาก University of Washington นำโดย Ranjay Krishna จึงได้ร่วมกันเสนอ Theory of Space (ทฤษฎีพื้นที่) โดยมีเป้าหมายเพื่อสำรวจว่า: เมื่อลดการพึ่งพาข้อมูลที่ให้มาอย่างสมบูรณ์ และกำหนดให้ฐานโมเดลต้องรู้จักสภาพแวดล้อมผ่านการสำรวจเชิงรุก ความสามารถในการรับรู้เชิงพื้นที่ของมันจะมีประสิทธิภาพอย่างไร?

กรอบงาน Theory of Space ประกอบด้วยสามขั้นตอน: การสำรวจเชิงรุก การตรวจสอบความเชื่อ และการประเมินภารกิจ ภาพมุมมองจากด้านบนทางซ้ายแสดงเส้นทางการเคลื่อนที่ของเอเจนต์ภายใต้เงื่อนไขการสังเกตแบบเฉพาะที่ในหลายห้อง ภาพตรงกลางแสดงให้เห็นว่าเอเจนต์อยู่ในสภาพแวดล้อมข้อความหรือภาพผ่านวงจร “เคลื่อนที่-หมุน-สังเกต” และอัปเดตความเชื่อภายในอย่างต่อเนื่องตามการสังเกตจากมุมมองบุคคลที่หนึ่ง ภาพทางขวาประเมินการแสดงแทนความเชื่อเหล่านี้และวิธีการใช้งานผ่านภารกิจเชิงพื้นที่และเครื่องมือตรวจสอบแผนที่การรับรู้

“ทฤษฎีจิต” ในความฉลาดเชิงพื้นที่
ในวิทยาศาสตร์การรับรู้ Theory of Mind (ทฤษฎีจิต) ตรวจสอบว่าเอเจนต์สามารถอนุมานสถานะทางจิตที่ซ่อนอยู่ของผู้อื่นได้หรือไม่: “เขากำลังคิดอะไร? เขารู้เรื่องนี้หรือไม่?” มันมุ่งเน้นไปที่การสร้างแบบจำลองของโลกทางจิตที่มองไม่เห็น
Theory of Space (ทฤษฎีพื้นที่) ในฐานะแนวคิดสมมาตรของมันในโลกทางกายภาพ ตรวจสอบว่าเอเจนต์สามารถอนุมานโครงสร้างเชิงพื้นที่ของสภาพแวดล้อมที่ยังไม่ได้สังเกตได้หรือไม่: “โลกนี้มีลักษณะอย่างไร? มีอะไรอยู่หลังประตู?” มันมุ่งเน้นไปที่การสร้างแบบจำลองของโลกทางกายภาพที่มองไม่เห็น
แก่นแท้ร่วมกันของทั้งสองอย่างคือ: เอเจนต์จำเป็นต้องอาศัยเบาะแสที่มีจำกัด เพื่ออนุมานโครงสร้างที่ซ่อนอยู่ และแก้ไขความเชื่อของตัวเองอย่างต่อเนื่องตามข้อมูลใหม่
นักวิจัยกำหนดนิยาม Theory of Space ว่าเป็นสามความสามารถหลักที่เชื่อมโยงกันอย่างแน่นหนา:
- การสร้าง (Construct): สำรวจเชิงรุกในสภาพแวดล้อมที่สังเกตได้บางส่วน รวบรวมการสังเกตแบบเฉพาะที่ และประกอบขึ้นเป็น “แผนที่การรับรู้” ที่สอดคล้องกันในระดับโลกในการแสดงแทนภายใน
- การแก้ไข (Revise): เผชิญกับสภาพแวดล้อมแบบไดนามิก (เช่น สิ่งของถูกย้ายตำแหน่งอย่างเงียบๆ) รับรู้อย่างเฉียบคมถึงความขัดแย้งระหว่าง “ความทรงจำเก่า” และ “หลักฐานใหม่” ทำลายความเฉื่อยของความเชื่อ และทำการอัปเดตความรู้
- การใช้ประโยชน์ (Exploit): ใช้แผนที่การรับรู้ที่ได้รับการดูแลรักษา เป็นพื้นฐานสำหรับการจัดการกับภารกิจการให้เหตุผลเชิงพื้นที่ที่ซับซ้อนขั้นต่อไป (เช่น การนำทางเชิงพื้นที่ การอนุมานมุมมอง)

แก่นกลางของ Theory of Space: ในสภาพแวดล้อมที่สังเกตได้บางส่วน เอเจนต์ดำเนินการให้เหตุผลเชิงพื้นที่และการตัดสินใจโดยอาศัยการสร้าง การแก้ไขแบบไดนามิก และการใช้ประโยชน์จากความเชื่อเชิงพื้นที่

จากการสร้าง การแก้ไข สู่การใช้ประโยชน์: การจัดแนวสามความสามารถหลัก
นักวิจัยออกแบบระบบการประเมินครบชุดรอบสามความสามารถหลักของ Theory of Space (การสร้าง, การแก้ไข, การใช้ประโยชน์) และได้นำการตรวจสอบแผนที่การรับรู้อย่างชัดแจ้ง มาใช้เป็นผลงานหลัก เพื่อให้สามารถวินิจฉัยความเชื่อเชิงพื้นที่ภายในของโมเดลได้โดยตรง
การสร้าง (Construct): การสร้างแผนที่ผ่านการสำรวจเชิงรุก
นักวิจัยจัดเตรียมสภาพแวดล้อมแบบขนานสองแบบในเค้าโครงภายในหลายห้องที่สร้างขึ้นแบบโปรแกรม ได้แก่ โลกข้อความ (ทิศทาง/ระยะทางเชิงสัญลักษณ์) และโลกภาพ (ภาพ RGB จากมุมมองบุคคลที่หนึ่งที่เรนเดอร์ด้วย ThreeDWorld) เอเจนต์ต้องตัดสินใจด้วยตนเองเกี่ยวกับกลยุทธ์การเคลื่อนที่ การหมุน และการสังเกต เพื่อสร้างความเชื่อเชิงพื้นที่อย่างมีประสิทธิภาพ ประเด็นสำคัญคือ เอเจนต์จำเป็นต้องใช้ความไม่แน่นอน เพื่อขับเคลื่อนการกระทำ เพื่อให้ได้มาซึ่งข้อมูลอย่างมีประสิทธิภาพ
การแก้ไข (Revise): การอัปเดตความเชื่อที่ล้าสมัยในสภาพแวดล้อมแบบไดนามิก
อ้างอิงจากกระบวนทัศน์ “ความเชื่อผิดพลาด” แบบคลาสสิกในจิตวิทยาพัฒนาการ: หลังจากที่เอเจนต์สำรวจครั้งแรกเสร็จสิ้น ให้ย้ายหรือหมุนวัตถุหลายชิ้นอย่างลับๆ เพื่อสร้างความขัดแย้งระหว่าง “ความเชื่อเก่า” และ “ความเป็นจริงใหม่” ประเมินว่าเอเจนต์สามารถค้นพบการเปลี่ยนแปลง ล้มล้างความทรงจำเก่า และสร้างความเชื่อใหม่ได้หรือไม่

การใช้ประโยชน์ (Exploit): ภารกิจการให้เหตุผลเชิงพื้นที่เก้าประเภท
ครอบคลุมสองระดับคือระดับเส้นทาง (การให้เหตุผลเกี่ยวกับเส้นทาง) และระดับภาพรวม (การให้เหตุผลเกี่ยวกับแผนที่มุมมองจากด้านบน) เพื่อประเมินคุณค่าการใช้ประโยชน์ของความเชื่อเชิงพื้นที่อย่างครอบคลุม

ภาพรวมภารกิจเชิงพื้นที่ขั้นต่อไป
ผลงานหลัก: การตรวจสอบแผนที่การรับรู้อย่างชัดแจ้ง
การประเมินในอดีตดูเพียงว่าคำตอบสุดท้ายถูกหรือผิด ความเชื่อภายในเป็นกล่องดำ นักวิจัยได้นำการตรวจสอบแผนที่การรับรู้อย่างชัดแจ้ง มาใช้: ในทุกขั้นตอนของการสำรวจ กำหนดให้โมเดลต้องแสดงความเชื่อเชิงพื้นที่ของมันออกมาในรูปแบบที่มีโครงสร้าง เพื่อวัดความถูกต้อง คุณภาพการรับรู้ ความเสถียร และการสร้างแบบจำลองความไม่แน่นอน สิ่งนี้ไม่เพียงแต่ทำให้รู้ว่าโมเดลตอบถูกหรือผิดเท่านั้น แต่ยังทำให้รู้ว่าทำไมจึงตอบถูก ทำไมจึงตอบผิด

ความเข้าใจของโมเดลขนาดใหญ่เกี่ยวกับพื้นที่ ติดขัดตรงไหนกันแน่?
นักวิจัยได้ทำการประเมินเชิงลึกขนาดใหญ่บนโมเดลขนาดใหญ่แบบหลายรูปแบบล้ำสมัยหกรุ่น รวมถึง GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet ผ่านการตรวจสอบแบบกล่องขาว (white-box) ซึ่งเผยให้เห็นขอบเขตความสามารถในการรับรู้เชิงพื้นที่ของโมเดลขนาดใหญ่ในปัจจุบัน:
ข้อค้นพบที่ 1: การได้มาซึ่งข้อมูลเชิงรุกคือจุดอ่อนของ Achilles สำหรับปัญญาประดิษฐ์เชิงรูปธรรม
เมื่อให้โมเดลตัดสินใจเองว่าจะ “ดูอะไร” ประสิทธิภาพของมันลดลงอย่างมาก
เพื่อแยกแยะระหว่าง “ความสามารถในการสำรวจ” และ “ความสามารถในการให้เหตุผล” นักวิจัยได้ออกแบบเอเจนต์ตามกฎแบบสคริปต์เป็นเกณฑ์มาตรฐานสำหรับการสำรวจ โมเดลในโหมดรับ (passive) จะรับบันทึกการสังเกตที่สมบูรณ์ซึ่งรวบรวมโดยเอเจนต์เหล่านี้เพื่อการให้เหตุผล ในโหมดรุก (active) โมเดลจำเป็นต้องวางแผนการสำรวจด้วยตนเอง

ผลลัพธ์มีความแตกต่างอย่างชัดเจน: ประสิทธิภาพของ GPT-5.2 ในโลกภาพลดลงจาก 57.1 ในโหมดรับ เป็น 46.0 ในโหมดรุก; Gemini-3 Pro ลดลงจาก 60.5 เป็น 57.3 ในด้านประสิทธิภาพ เอเจนต์ตามกฎต้องการเพียงประมาณ 9 ขั้นตอนเพื่อให้ครอบคลุมเป้าหมาย ในขณะที่ฐานโมเดลมักต้องการมากกว่า 14 ขั้นตอน และคุณภาพของความเชื่อก็ไม่ได้เพิ่มขึ้น โมเดลแสดงลักษณะ “สำรวจมาก” แต่ “สำรวจได้แย่” การกระทำซ้ำซ้อน มีประสิทธิภาพต่ำ เมื่อความซับซ้อนของสภาพแวดล้อมเพิ่มขึ้น ช่องว่างนี้ก็ขยายตัวมากขึ้น

การค้นพบที่ 1: การแลกเปลี่ยนระหว่างประสิทธิภาพและความแม่นยำในการสำรวจเชิงรุก
ในโหมดสำรวจเชิงรุก ประสิทธิภาพการสำรวจและอัตราความแม่นยำของภารกิจของเอเจนต์ต่ำกว่าโหมดรับ ไอคอนสีเทาแสดงถึงโหมดรับ

การค้นพบที่ 2: ช่องว่างระหว่างรูปแบบ (Modal Gap)
ไม่ว่าจะในการตั้งค่าการสำรวจแบบรับหรือแบบรุก ประสิทธิภาพของโมเดลในสภาพแวดล้อมข้อความดีกว่าอย่างสม่ำเสมอและมีนัยสำคัญเมื่อเทียบกับสภาพแวดล้อมภาพ สิ่งนี้เผยให้เห็นข้อจำกัดพื้นฐานของโมเดลหลายรูปแบบในปัจจุบันในการรับรู้เชิงพื้นที่: โมเดลมีปัญหาในการแยกข้อมูลเชิงพื้นที่ออกจากการสังเกตภาพอย่างมีประสิทธิภาพ และพึ่งพาการแสดงแทนเชิงสัญลักษณ์อย่างสูงสำหรับการให้เหตุผลเชิงตรรกะ

การให้เหตุผลด้วยข้อความแข็งแกร่งกว่าการให้เหตุผลด้วยภาพอย่างมาก ทุกโมเดลไม่มีข้อยกเว้น

ในโหมดรับและการสำรวจเชิงรุก มีช่องว่างประสิทธิภาพขนาดใหญ่ระหว่างรูปแบบภาพและข้อความ

การค้นพบที่ 3: วิกฤตสามประการของแผนที่การรับรู้
ผ่านการตรวจสอบแผนที่การรับรู้ นักวิจัยค้นพบเพิ่มเติมว่าโมเดลมีปัญหาหลักสามประการ:
1. การรับรู้ทิศทางเป็นจุดคอขวด: ในโลกภาพ การตัดสินทิศทางของวัตถุโดยโมเดลใกล้เคียงกับการสุ่ม
2. ความเชื่อไม่เสถียร: ข้อมูลที่รับรู้ได้อย่างถูกต้องจะเสื่อมลงตามเวลา
3. ความเชื่อเลื่อนลอย (Belief Drift): การรับรู้ผิดพลาดใหม่จะเขียนทับการรับรู้ที่ถูกต้องก่อนหน้า
พูดง่ายๆ คือ ปัญหาหลักของโมเดลไม่ใช่ “มองไม่เห็น” แต่คือ “จำไม่ได้” และ “จำผิด”

การค้นพบที่ 4: แผนที่การรับรู้เป็นเครื่องมือวินิจฉัยที่มีประสิทธิภาพ
นักวิจัยตรวจสอบความมีประสิทธิผลของแผนที่การรับรู้ในฐานะเครื่องมือวินิจฉัยผ่านการทดลองแบบตัดส่วน (ablation experiment):
* การตรวจสอบความเพียงพอ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24123
