ทฤษฎีแห่งอวกาศ: ความก้าวหน้าใหม่ของปัญญาประดิษฐ์แบบฝังตัว ช่วยให้โมเดลขนาดใหญ่สำรวจพื้นที่ที่ไม่รู้จักได้เหมือนมนุษย์

2026年3月4日 pm2:47 • การประเมินโมเดลขนาดใหญ่ • 170 views

【สรุปสาระสำคัญ】

กระบวนทัศน์ใหม่ในการประเมินความสามารถเชิงพื้นที่ของโมเดลเชิงรูปธรรม “Theory of Space” ได้ก้าวข้ามขีดจำกัดของวิธีการถามตอบแบบเดิมที่ใช้ภาพและข้อความสถิตย์ โดยได้ตรวจสอบอย่างเป็นระบบว่าฐานโมเดลสามารถสร้าง แก้ไข และใช้ความเชื่อเกี่ยวกับพื้นที่ผ่านการสำรวจด้วยตนเองในสภาพแวดล้อมแบบไดนามิกที่สังเกตได้เพียงบางส่วนได้เหมือนมนุษย์หรือไม่ งานวิจัยนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว

โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal) ในปัจจุบัน (เช่น GPT-5.2, Gemini-3 Pro) ทำลายสถิติในบัญชีคำถามตอบเกี่ยวกับภาพต่างๆ อย่างไรก็ตาม หากต้องการขยายขีดความสามารถเหล่านี้ไปสู่สถานการณ์ทางกายภาพที่แท้จริงมากขึ้น โมเดลอาจเผชิญกับความท้าทายอย่างมีนัยสำคัญในการทำความเข้าใจพื้นที่ ทำไมถึงเป็นเช่นนั้น?

ลองนึกภาพว่าคุณเดินเข้าไปในอพาร์ตเมนต์ที่ไม่เคยไปมาก่อน คุณผลักประตูเข้าไปและเห็นโซฟา เดินเข้าไปในโถงทางเดินแล้วเหลือบเห็นเตียงในห้องนอน เดินต่อไปอีกก็พบตู้เย็นในครัว ตอนนี้มีคนถามคุณว่า “โซฟาอยู่ทางไหนของตู้เย็น?” คุณมักจะตอบได้ เพราะคุณได้สร้าง “แผนที่ทางจิต” ขึ้นมาในใจแล้ว

มนุษย์ส่วนใหญ่สามารถทำสิ่งนี้ได้โดยไม่ต้องคิด แต่สำหรับฐานโมเดลในปัจจุบัน สถานการณ์อาจแตกต่างไปโดยสิ้นเชิง นักวิจัยพบว่ากระบวนทัศน์การประเมินที่มีอยู่มีความแตกต่างที่สำคัญเมื่อเทียบกับความต้องการของโลกทางกายภาพจริง:

จาก “มุมมองพระเจ้า” สู่ “การสังเกตบางส่วน”: การทดสอบมาตรฐานแบบดั้งเดิมมักให้ภาพสถิตย์แบบครอบคลุมทั้งหมด แต่ในพื้นที่ทางกายภาพจริง วิสัยทัศน์ของเอเจนต์ส่วนใหญ่เป็นแบบเฉพาะที่ จำเป็นต้องอาศัยการสำรวจเชิงรุกเพื่อเชื่อมโยงเบาะแสภาพจากมุมมองบุคคลที่หนึ่งที่กระจัดกระจายให้กลายเป็น “แผนที่การรับรู้” แบบครอบคลุม
จาก “การตอบสนองแบบรับ” สู่ “การตัดสินใจเชิงรุก”: การประเมินเชิงพื้นที่ที่มีอยู่มักให้ข้อมูลการสังเกตที่กำหนดไว้แล้วแก่โมเดล แต่ในสภาพแวดล้อมแบบเปิด ระบบจำเป็นต้องตัดสินใจด้วยตนเองเกี่ยวกับทิศทางการสำรวจและเป้าหมาย เพื่อให้ได้มาซึ่งข้อมูลสภาพแวดล้อมอย่างมีประสิทธิภาพมากขึ้น
จาก “ความรู้ทั่วไปแบบสถิตย์” สู่ “การแก้ไขแบบไดนามิก”: สภาพแวดล้อมทางกายภาพสามารถเปลี่ยนแปลงได้แบบไดนามิก (เช่น การย้ายตำแหน่งสิ่งของ) นอกเหนือจากการสร้างแผนที่แล้ว เอเจนต์ยังจำเป็นต้องอัปเดตความทรงจำเชิงพื้นที่เก่าเมื่อพบการเปลี่ยนแปลงของสภาพแวดล้อม

ด้วยเหตุนี้ ทีมวิจัยจาก Northwestern University นำโดย Li Manling, ทีมจาก Stanford University นำโดย Li Fei-Fei และ Wu Jiajun และทีมจาก University of Washington นำโดย Ranjay Krishna จึงได้ร่วมกันเสนอ Theory of Space (ทฤษฎีพื้นที่) โดยมีเป้าหมายเพื่อสำรวจว่า: เมื่อลดการพึ่งพาข้อมูลที่ให้มาอย่างสมบูรณ์ และกำหนดให้ฐานโมเดลต้องรู้จักสภาพแวดล้อมผ่านการสำรวจเชิงรุก ความสามารถในการรับรู้เชิงพื้นที่ของมันจะมีประสิทธิภาพอย่างไร?

ทฤษฎีแห่งอวกาศ: ความก้าวหน้าใหม่ของปัญญาประดิษฐ์แบบฝังตัว ช่วยให้โมเดลขนาดใหญ่สำรวจพื้นที่ที่ไม่รู้จักได้เหมือนมนุษย์

กรอบงาน Theory of Space ประกอบด้วยสามขั้นตอน: การสำรวจเชิงรุก การตรวจสอบความเชื่อ และการประเมินภารกิจ ภาพมุมมองจากด้านบนทางซ้ายแสดงเส้นทางการเคลื่อนที่ของเอเจนต์ภายใต้เงื่อนไขการสังเกตแบบเฉพาะที่ในหลายห้อง ภาพตรงกลางแสดงให้เห็นว่าเอเจนต์อยู่ในสภาพแวดล้อมข้อความหรือภาพผ่านวงจร “เคลื่อนที่-หมุน-สังเกต” และอัปเดตความเชื่อภายในอย่างต่อเนื่องตามการสังเกตจากมุมมองบุคคลที่หนึ่ง ภาพทางขวาประเมินการแสดงแทนความเชื่อเหล่านี้และวิธีการใช้งานผ่านภารกิจเชิงพื้นที่และเครื่องมือตรวจสอบแผนที่การรับรู้

“ทฤษฎีจิต” ในความฉลาดเชิงพื้นที่

ในวิทยาศาสตร์การรับรู้ Theory of Mind (ทฤษฎีจิต) ตรวจสอบว่าเอเจนต์สามารถอนุมานสถานะทางจิตที่ซ่อนอยู่ของผู้อื่นได้หรือไม่: “เขากำลังคิดอะไร? เขารู้เรื่องนี้หรือไม่?” มันมุ่งเน้นไปที่การสร้างแบบจำลองของโลกทางจิตที่มองไม่เห็น

Theory of Space (ทฤษฎีพื้นที่) ในฐานะแนวคิดสมมาตรของมันในโลกทางกายภาพ ตรวจสอบว่าเอเจนต์สามารถอนุมานโครงสร้างเชิงพื้นที่ของสภาพแวดล้อมที่ยังไม่ได้สังเกตได้หรือไม่: “โลกนี้มีลักษณะอย่างไร? มีอะไรอยู่หลังประตู?” มันมุ่งเน้นไปที่การสร้างแบบจำลองของโลกทางกายภาพที่มองไม่เห็น

แก่นแท้ร่วมกันของทั้งสองอย่างคือ: เอเจนต์จำเป็นต้องอาศัยเบาะแสที่มีจำกัด เพื่ออนุมานโครงสร้างที่ซ่อนอยู่ และแก้ไขความเชื่อของตัวเองอย่างต่อเนื่องตามข้อมูลใหม่

นักวิจัยกำหนดนิยาม Theory of Space ว่าเป็นสามความสามารถหลักที่เชื่อมโยงกันอย่างแน่นหนา:

การสร้าง (Construct): สำรวจเชิงรุกในสภาพแวดล้อมที่สังเกตได้บางส่วน รวบรวมการสังเกตแบบเฉพาะที่ และประกอบขึ้นเป็น “แผนที่การรับรู้” ที่สอดคล้องกันในระดับโลกในการแสดงแทนภายใน
การแก้ไข (Revise): เผชิญกับสภาพแวดล้อมแบบไดนามิก (เช่น สิ่งของถูกย้ายตำแหน่งอย่างเงียบๆ) รับรู้อย่างเฉียบคมถึงความขัดแย้งระหว่าง “ความทรงจำเก่า” และ “หลักฐานใหม่” ทำลายความเฉื่อยของความเชื่อ และทำการอัปเดตความรู้
การใช้ประโยชน์ (Exploit): ใช้แผนที่การรับรู้ที่ได้รับการดูแลรักษา เป็นพื้นฐานสำหรับการจัดการกับภารกิจการให้เหตุผลเชิงพื้นที่ที่ซับซ้อนขั้นต่อไป (เช่น การนำทางเชิงพื้นที่ การอนุมานมุมมอง)

แก่นกลางของ Theory of Space: ในสภาพแวดล้อมที่สังเกตได้บางส่วน เอเจนต์ดำเนินการให้เหตุผลเชิงพื้นที่และการตัดสินใจโดยอาศัยการสร้าง การแก้ไขแบบไดนามิก และการใช้ประโยชน์จากความเชื่อเชิงพื้นที่

จากการสร้าง การแก้ไข สู่การใช้ประโยชน์: การจัดแนวสามความสามารถหลัก

นักวิจัยออกแบบระบบการประเมินครบชุดรอบสามความสามารถหลักของ Theory of Space (การสร้าง, การแก้ไข, การใช้ประโยชน์) และได้นำการตรวจสอบแผนที่การรับรู้อย่างชัดแจ้ง มาใช้เป็นผลงานหลัก เพื่อให้สามารถวินิจฉัยความเชื่อเชิงพื้นที่ภายในของโมเดลได้โดยตรง

การสร้าง (Construct): การสร้างแผนที่ผ่านการสำรวจเชิงรุก

นักวิจัยจัดเตรียมสภาพแวดล้อมแบบขนานสองแบบในเค้าโครงภายในหลายห้องที่สร้างขึ้นแบบโปรแกรม ได้แก่ โลกข้อความ (ทิศทาง/ระยะทางเชิงสัญลักษณ์) และโลกภาพ (ภาพ RGB จากมุมมองบุคคลที่หนึ่งที่เรนเดอร์ด้วย ThreeDWorld) เอเจนต์ต้องตัดสินใจด้วยตนเองเกี่ยวกับกลยุทธ์การเคลื่อนที่ การหมุน และการสังเกต เพื่อสร้างความเชื่อเชิงพื้นที่อย่างมีประสิทธิภาพ ประเด็นสำคัญคือ เอเจนต์จำเป็นต้องใช้ความไม่แน่นอน เพื่อขับเคลื่อนการกระทำ เพื่อให้ได้มาซึ่งข้อมูลอย่างมีประสิทธิภาพ

การแก้ไข (Revise): การอัปเดตความเชื่อที่ล้าสมัยในสภาพแวดล้อมแบบไดนามิก

อ้างอิงจากกระบวนทัศน์ “ความเชื่อผิดพลาด” แบบคลาสสิกในจิตวิทยาพัฒนาการ: หลังจากที่เอเจนต์สำรวจครั้งแรกเสร็จสิ้น ให้ย้ายหรือหมุนวัตถุหลายชิ้นอย่างลับๆ เพื่อสร้างความขัดแย้งระหว่าง “ความเชื่อเก่า” และ “ความเป็นจริงใหม่” ประเมินว่าเอเจนต์สามารถค้นพบการเปลี่ยนแปลง ล้มล้างความทรงจำเก่า และสร้างความเชื่อใหม่ได้หรือไม่

การใช้ประโยชน์ (Exploit): ภารกิจการให้เหตุผลเชิงพื้นที่เก้าประเภท

ครอบคลุมสองระดับคือระดับเส้นทาง (การให้เหตุผลเกี่ยวกับเส้นทาง) และระดับภาพรวม (การให้เหตุผลเกี่ยวกับแผนที่มุมมองจากด้านบน) เพื่อประเมินคุณค่าการใช้ประโยชน์ของความเชื่อเชิงพื้นที่อย่างครอบคลุม

ภาพรวมภารกิจเชิงพื้นที่ขั้นต่อไป

ผลงานหลัก: การตรวจสอบแผนที่การรับรู้อย่างชัดแจ้ง

การประเมินในอดีตดูเพียงว่าคำตอบสุดท้ายถูกหรือผิด ความเชื่อภายในเป็นกล่องดำ นักวิจัยได้นำการตรวจสอบแผนที่การรับรู้อย่างชัดแจ้ง มาใช้: ในทุกขั้นตอนของการสำรวจ กำหนดให้โมเดลต้องแสดงความเชื่อเชิงพื้นที่ของมันออกมาในรูปแบบที่มีโครงสร้าง เพื่อวัดความถูกต้อง คุณภาพการรับรู้ ความเสถียร และการสร้างแบบจำลองความไม่แน่นอน สิ่งนี้ไม่เพียงแต่ทำให้รู้ว่าโมเดลตอบถูกหรือผิดเท่านั้น แต่ยังทำให้รู้ว่าทำไมจึงตอบถูก ทำไมจึงตอบผิด

ความเข้าใจของโมเดลขนาดใหญ่เกี่ยวกับพื้นที่ ติดขัดตรงไหนกันแน่?

นักวิจัยได้ทำการประเมินเชิงลึกขนาดใหญ่บนโมเดลขนาดใหญ่แบบหลายรูปแบบล้ำสมัยหกรุ่น รวมถึง GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet ผ่านการตรวจสอบแบบกล่องขาว (white-box) ซึ่งเผยให้เห็นขอบเขตความสามารถในการรับรู้เชิงพื้นที่ของโมเดลขนาดใหญ่ในปัจจุบัน:

ข้อค้นพบที่ 1: การได้มาซึ่งข้อมูลเชิงรุกคือจุดอ่อนของ Achilles สำหรับปัญญาประดิษฐ์เชิงรูปธรรม

เมื่อให้โมเดลตัดสินใจเองว่าจะ “ดูอะไร” ประสิทธิภาพของมันลดลงอย่างมาก

เพื่อแยกแยะระหว่าง “ความสามารถในการสำรวจ” และ “ความสามารถในการให้เหตุผล” นักวิจัยได้ออกแบบเอเจนต์ตามกฎแบบสคริปต์เป็นเกณฑ์มาตรฐานสำหรับการสำรวจ โมเดลในโหมดรับ (passive) จะรับบันทึกการสังเกตที่สมบูรณ์ซึ่งรวบรวมโดยเอเจนต์เหล่านี้เพื่อการให้เหตุผล ในโหมดรุก (active) โมเดลจำเป็นต้องวางแผนการสำรวจด้วยตนเอง

ผลลัพธ์มีความแตกต่างอย่างชัดเจน: ประสิทธิภาพของ GPT-5.2 ในโลกภาพลดลงจาก 57.1 ในโหมดรับ เป็น 46.0 ในโหมดรุก; Gemini-3 Pro ลดลงจาก 60.5 เป็น 57.3 ในด้านประสิทธิภาพ เอเจนต์ตามกฎต้องการเพียงประมาณ 9 ขั้นตอนเพื่อให้ครอบคลุมเป้าหมาย ในขณะที่ฐานโมเดลมักต้องการมากกว่า 14 ขั้นตอน และคุณภาพของความเชื่อก็ไม่ได้เพิ่มขึ้น โมเดลแสดงลักษณะ “สำรวจมาก” แต่ “สำรวจได้แย่” การกระทำซ้ำซ้อน มีประสิทธิภาพต่ำ เมื่อความซับซ้อนของสภาพแวดล้อมเพิ่มขึ้น ช่องว่างนี้ก็ขยายตัวมากขึ้น

การค้นพบที่ 1: การแลกเปลี่ยนระหว่างประสิทธิภาพและความแม่นยำในการสำรวจเชิงรุก

ในโหมดสำรวจเชิงรุก ประสิทธิภาพการสำรวจและอัตราความแม่นยำของภารกิจของเอเจนต์ต่ำกว่าโหมดรับ ไอคอนสีเทาแสดงถึงโหมดรับ

การค้นพบที่ 2: ช่องว่างระหว่างรูปแบบ (Modal Gap)

ไม่ว่าจะในการตั้งค่าการสำรวจแบบรับหรือแบบรุก ประสิทธิภาพของโมเดลในสภาพแวดล้อมข้อความดีกว่าอย่างสม่ำเสมอและมีนัยสำคัญเมื่อเทียบกับสภาพแวดล้อมภาพ สิ่งนี้เผยให้เห็นข้อจำกัดพื้นฐานของโมเดลหลายรูปแบบในปัจจุบันในการรับรู้เชิงพื้นที่: โมเดลมีปัญหาในการแยกข้อมูลเชิงพื้นที่ออกจากการสังเกตภาพอย่างมีประสิทธิภาพ และพึ่งพาการแสดงแทนเชิงสัญลักษณ์อย่างสูงสำหรับการให้เหตุผลเชิงตรรกะ

การให้เหตุผลด้วยข้อความแข็งแกร่งกว่าการให้เหตุผลด้วยภาพอย่างมาก ทุกโมเดลไม่มีข้อยกเว้น

ในโหมดรับและการสำรวจเชิงรุก มีช่องว่างประสิทธิภาพขนาดใหญ่ระหว่างรูปแบบภาพและข้อความ

การค้นพบที่ 3: วิกฤตสามประการของแผนที่การรับรู้

ผ่านการตรวจสอบแผนที่การรับรู้ นักวิจัยค้นพบเพิ่มเติมว่าโมเดลมีปัญหาหลักสามประการ:
1. การรับรู้ทิศทางเป็นจุดคอขวด: ในโลกภาพ การตัดสินทิศทางของวัตถุโดยโมเดลใกล้เคียงกับการสุ่ม
2. ความเชื่อไม่เสถียร: ข้อมูลที่รับรู้ได้อย่างถูกต้องจะเสื่อมลงตามเวลา
3. ความเชื่อเลื่อนลอย (Belief Drift): การรับรู้ผิดพลาดใหม่จะเขียนทับการรับรู้ที่ถูกต้องก่อนหน้า

พูดง่ายๆ คือ ปัญหาหลักของโมเดลไม่ใช่ “มองไม่เห็น” แต่คือ “จำไม่ได้” และ “จำผิด”

การค้นพบที่ 4: แผนที่การรับรู้เป็นเครื่องมือวินิจฉัยที่มีประสิทธิภาพ

นักวิจัยตรวจสอบความมีประสิทธิผลของแผนที่การรับรู้ในฐานะเครื่องมือวินิจฉัยผ่านการทดลองแบบตัดส่วน (ablation experiment):
* การตรวจสอบความเพียงพอ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/24123

การประเมินโมเดลขนาดใหญ่การรับรู้เชิงพื้นที่ทฤษฎีอวกาศ ปัญญาประดิษฐ์แบบฝังตัว สำรวจอย่างกระตือรือร้น

Like (0)

0 0

Generate poster

FeatureBench: เติมเต็มช่องว่างในการประเมินการพัฒนาฟังก์ชันที่ซับซ้อนแบบ end-to-end สำหรับโมเดลขนาดใหญ่ สถาบันอัตโนมัติของ Chinese Academy of Sciences และ Huawei ร่วมกันเปิดตัวมาตรฐานใหม่
Previous 2026年3月4日 pm2:42

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning
Next 2026年3月4日 pm2:50

相关推荐

 การประเมินโมเดลขนาดใหญ่

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์เด่นชัด การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศิลปะการสร้างสรรค์ยังต้องพัฒนา Alibaba ได้เปิดตัวโมเดล …

2026年3月1日
187000

การประเมินโมเดลขนาดใหญ่

อัปเดต Claude Code “พัง” แล้ว? ความลึกในการคิดลดลง 67% พฤติกรรมโมเดลผิดเพี้ยนทั้งหมดกลายเป็นประเด็นร้อน

ลมตะวันตก จาก 凹非寺 ในที่เก็บข้อมูลทางการ มี Issue หนึ่งที่กำลังเป็นที่ถกเถียงกันอย่างร้อนแรง ชี้ตรงไปที่ปัญหาหลัก: การอัปเดตของ Claude Code อาจ “พัง” ไปแล้ว การอัปเดตครั…

2026年4月7日
90000

การประเมินโมเดลขนาดใหญ่

Ali Qwen3.5-27B ทดสอบจริง: โมเดลหนาแน่น 27 พันล้านพารามิเตอร์ ติดท็อป 10, ต้นทุนลดฮวบ 59%!

หลังจากเปิดตัวโมเดลแรกของซีรีส์ Qwen3.5 คือ Qwen3.5-Plus แล้ว อาลีบาบาก็ได้เปิดตัวซีรีส์โมเดลขนาดกลางหลังเทศกาลตรุษจีน Qwen3.5-27B เป็นโมเดลแบบหนาแน่น (Dense Model) ในซีรีส์นี้ โดย…

2026年2月27日
247000

การประเมินโมเดลขนาดใหญ่

โมเดลขนาดเล็ก 3B กลับมาสู้ยักษ์ใหญ่ระดับล้านล้าน: Nanbeige4.1-3B คว้าชัยด้วยกลยุทธ์ “เล็กแต่ครบ” ในการแข่งขันด้านโมเดล AI ขนาดใหญ่ได้อย่างไร?

ในอดีต GPT-2 ที่มีพารามิเตอร์ประมาณ 1.5 พันล้านตัว ในมุมมองปัจจุบันถือเป็น “โมเดลเล็ก” แล้ว ส่วนขนาดพารามิเตอร์ของ GPT-4 ตามการประมาณการในอุตสาหกรรมนั้นสูงถึงระดับล้านล…

2026年3月9日
240000

การประเมินโมเดลขนาดใหญ่

Anthropic เปิดตัวเฟรมเวิร์คประเมินทักษะ: ทดสอบและปรับปรุงทักษะ Claude ได้โดยไม่ต้องเขียนโค้ด

Anthropic เพิ่งเปิดตัวเฟรมเวิร์กการประเมินใหม่สำหรับเครื่องมือ Skill Creator ตั้งแต่เดือนตุลาคมปีที่แล้ว พวกเขาสังเกตว่าผู้สร้างสกิลส่วนใหญ่เป็นผู้เชี่ยวชาญทางธุรกิจมากกว่าวิศวกร พ…

2026年3月6日
173000