EgoSound: เปิดตัวมาตรฐานการประเมินการรับรู้เสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก วัดระดับปัญหา ‘หูหนวก’ ของโมเดลขนาดใหญ่หลายรูปแบบ ช่องว่างระหว่างโมเดลที่แข็งแกร่งที่สุดกับมนุษย์เกิน 27%

2026年3月12日 am10:41 • การประเมินโมเดลขนาดใหญ่ • 192 views

EgoSound: เปิดตัวมาตรฐานการประเมินความเข้าใจเสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก ปัญหา “หูหนวก” ของโมเดลใหญ่หลายรูปแบบถูกวัดผลเชิงปริมาณ

เมื่อโมเดลใหญ่หลายรูปแบบก้าวเข้าสู่โลกแห่งความเป็นจริง ปัญหา “หูหนวก” ของพวกมันเริ่มปรากฏชัด

ตัวอย่างเช่น ในฉากห้องครัว: อาจมีคนคุยกัน เสียงโลหะกระทบกัน เสียงไอน้ำดังฟ่ออยู่เบื้องหลัง — ข้อมูลสำคัญเหล่านี้ไม่ได้ปรากฏในภาพ แต่ถูกส่งผ่านมาโดยเสียงทั้งหมด ในสถานการณ์เช่นนี้ แม้แต่โมเดลที่ทันสมัยที่สุดในปัจจุบันก็เริ่ม “ทำงานผิดพลาด”: พวกมันมองเห็นการกระทำได้ แต่ฟังไม่เข้าใจว่าเกิดอะไรขึ้น; อธิบายปรากฏการณ์ได้ แต่ไม่สามารถอนุมานเหตุผลเบื้องหลังได้

ปัญหาหลักไม่ใช่โมเดลไม่รู้จัก “ดู” แต่เป็นพวกมันยังไม่ได้เรียนรู้ที่จะ “ฟัง” อย่างแท้จริง

บทบาทสำคัญของเสียงในการรับรู้

ในการรับรู้ในชีวิตประจำวันของมนุษย์ เสียงไม่เคยเป็นเพียงตัวประกอบ:
* มันให้เบาะแสเชิงพื้นที่ (แหล่งกำเนิดเสียงอยู่ซ้าย/ขวา ไกล/ใกล้ เคลื่อนที่หรือไม่)
* มันเปิดเผยเหตุการณ์นอกภาพ (บทสนทนานอก镜头 เสียงเคาะประตู เสียงของตก เสียงสัญญาณเตือน)
* มันบรรจุเหตุผลและความตั้งใจ (การกระทำหนึ่งทำให้เกิดเสียงเฉพาะ; เสียงหนึ่งบ่งบอกถึงพฤติกรรมที่จะตามมา)

อย่างไรก็ตาม เป็นเวลานานที่มาตรฐานการทำความเข้าใจวิดีโอมุมมองบุคคลที่หนึ่งมีความ “เน้นภาพเป็นศูนย์กลาง” สูง: แม้จะมีเสียง แต่ขาดการประเมินอย่างเป็นระบบ; แม้การได้ยินจะสำคัญ แต่ก็ไม่ค่อยได้รับการตรวจสอบอย่างจริงจัง สิ่งนี้ทำให้โลกในมุมมองบุคคลที่หนึ่งอยู่ในสถานะ “กึ่งเงียบ” มาเป็นเวลานาน

ปัจจุบัน ช่องว่างนี้ได้รับการเติมเต็มในที่สุด

EgoSound: ทำให้โมเดลเรียนรู้ที่จะ “ฟัง” อย่างแท้จริง

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้น, Shanghai Qizhi College, INSAIT, มหาวิทยาลัยครูหัวตง และมหาวิทยาลัยหนานไค ได้เสนอมาตรฐานการประเมินความสามารถในการเข้าใจเสียงมุมมองบุคคลที่หนึ่งอย่างเป็นระบบเป็นครั้งแรก:

EgoSound: Benchmarking Sound Understanding in Egocentric Videos

EgoSound: เปิดตัวมาตรฐานการประเมินการรับรู้เสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก วัดระดับปัญหา 'หูหนวก' ของโมเดลขนาดใหญ่หลายรูปแบบ ช่องว่างระหว่างโมเดลที่แข็งแกร่งที่สุดกับมนุษย์เกิน 27%

นี่คือระบบประเมิน “ความเข้าใจเสียง” มุมมองบุคคลที่หนึ่งชุดแรกที่ออกแบบมาเฉพาะสำหรับโมเดลภาษาขนาดใหญ่หลายรูปแบบ เป้าหมายชัดเจน: ทำให้โมเดลในโลกแห่งความเป็นจริง สามารถได้ยิน เข้าใจ ใช้เหตุผล และอธิบายทุกสิ่งที่เกิดขึ้นได้ ไม่เพียงแต่ “เห็นโลก” แต่ต้อง “เข้าใจโลกผ่านการฟัง” ด้วย

จาก “เห็นว่าเกิดอะไรขึ้น” สู่ “เข้าใจเบาะแสที่ซ่อนอยู่”

การถาม-ตอบวิดีโอมุมมองบุคคลที่หนึ่งในอดีต คล้ายกับ “ผู้สังเกตการณ์เงียบ” มากกว่า มันเก่งในการตอบคำถามว่า “มีอะไรในภาพ?” หรือ “คนกำลังทำอะไร?” แต่ยากที่จะจัดการกับคำถามเช่น “ใครกำลังพูด?” “ทำไมถึงพูดแบบนั้น?” “เสียงนี้หมายความว่าอย่างไร?” และ “เสียงและการกระทำเชื่อมโยงกันเป็นสายโซ่เหตุผลได้อย่างไร?”

จุดสนใจของ EgoSound ไม่ใช่ “มีอะไรในวิดีโอ” แต่คือ: เมื่อเสียงกลายเป็นหลักฐานสำคัญ โมเดลยังสามารถตอบคำถามได้อย่างถูกต้องหรือไม่?

หนึ่งมาตรฐาน สี่ผลงานหลัก

1. มาตรฐานความเข้าใจเสียงมุมมองบุคคลที่หนึ่งชุดแรก

EgoSound ผสมผสานข้อมูลสองประเภทที่เสริมกัน:
* Ego4D: ครอบคลุมกิจกรรมมุมมองบุคคลที่หนึ่งในชีวิตประจำวันจำนวนมาก
* EgoBlind: มุ่งเน้นไปที่ฉากที่ต้องพึ่งพาการได้ยินมากขึ้นในการทำความเข้าใจ ปฏิสัมพันธ์ และการนำทาง
สิ่งนี้ทำให้การประเมินครอบคลุมทั้งมุมมองบุคคลที่หนึ่งทั่วไปที่ “ภาพเป็นหลัก” และปัญหาความเป็นจริงที่ “เสียงเป็นหลัก”

2. ระบบงาน 7 ประเภท: จากการรับรู้สู่การให้เหตุผล

EgoSound แยกขอบเขตของความสามารถด้านเสียงมุมมองบุคคลที่หนึ่งอย่างเป็นระบบ ครอบคลุมงาน 7 ประเภท:
* Sound Characteristics (ลักษณะของเสียง)
* Counting (การนับ)
* Temporal Attribute (คุณลักษณะเชิงเวลา)
* Spatial Location (ตำแหน่งเชิงพื้นที่)
* Sound Source Identification (การระบุแหล่งกำเนิดเสียง)
* Inferential Causality (การให้เหตุผลเชิงเหตุผล)
* Cross-Modal Reasoning (การให้เหตุผลข้ามรูปแบบ)
ครอบคลุมสายโซ่การรับรู้ที่สมบูรณ์ตั้งแต่ “ได้ยิน” ไปจนถึง “เข้าใจ” และไปจนถึง “อนุมาน”

3. ชุดข้อมูลคำถาม-ตอบแบบเปิดขนาดใหญ่คุณภาพสูง

ชุดข้อมูลที่สร้างขึ้นในที่สุดมีขนาด: วิดีโอที่คัดกรองอย่างเข้มงวด 900 คลิป และคำถาม-ตอบแบบเปิดที่ผ่านการตรวจสอบแล้ว 7,315 คู่ การเน้น “แบบเปิด” หมายความว่ามันใกล้เคียงกับการโต้ตอบถาม-ตอบในโลกแห่งความเป็นจริงมากขึ้น โมเดลไม่สามารถ “เดาถูก” คำตอบโดยอาศัยเพียงตัวเลือกได้ จึงใกล้เคียงกับสถานการณ์การใช้งานจริงมากขึ้น

4. การประเมินโมเดลอย่างครอบคลุมและการสร้างเส้นฐาน

ทีมวิจัยได้ประเมินโมเดลภาษาขนาดใหญ่หลายรูปแบบล้ำสมัยหลายรุ่น และทำการวิเคราะห์อย่างเป็นระบบ เพื่อให้ทิศทางการปรับปรุงที่ชัดเจนสำหรับการวิจัยวิธีการในอนาคต

กระบวนการสร้างข้อมูลที่ออกแบบมาเฉพาะสำหรับ “การให้เหตุผลด้วยการได้ยิน”

เพื่อให้แน่ใจว่าคำถามต้องอาศัยเบาะแสจากเสียงอย่างแท้จริง ทีมวิจัยใช้กลไกการคัดกรองหลายขั้นตอน:
1. ระบุตำแหน่งช่วงเวลาที่สำคัญของการปฏิสัมพันธ์ระหว่างคนกับวัตถุ
2. สร้างคำอธิบาย “เน้นเสียง” สำหรับช่วงเวลาการปฏิสัมพันธ์
3. สร้างและคัดกรองคำถาม-ตอบแบบเปิดคุณภาพสูง
กระบวนการทั้งหมดใช้โมเดลที่แข็งแกร่งหลายตัวช่วยในการติดป้ายกำกับ เพื่อรับประกันในที่สุดว่า: ทุกคำถามไม่อาจหลีกเลี่ยง “เบาะแสจากการได้ยิน” ได้

ผลการทดลอง: โมเดลยังคง “ฟังไม่เข้าใจโลก”

ผลการประเมินเปิดเผยช่องว่างอย่างชัดเจน: ความแตกต่างของความแม่นยำโดยเฉลี่ยระหว่างโมเดลที่แข็งแกร่งที่สุดในปัจจุบันกับประสิทธิภาพของมนุษย์เกิน 27 เปอร์เซ็นต์ ซึ่งบ่งชี้ว่าโมเดลที่มีอยู่ในปัจจุบันยังไม่สามารถเปลี่ยนเสียงให้เป็นการรับรู้ที่เชื่อถือได้อย่างมั่นคง

ความแม่นยำเฉลี่ยของมนุษย์: 83.9%
ความแม่นยำของโมเดลที่ดีที่สุดในปัจจุบัน: 56.7% (Qwen3-Omni-Thinking-30B)

สามข้อค้นพบสำคัญ

(1) งานการให้เหตุผลเชิงพื้นที่/เวลา/เหตุผลยากที่สุด

โมเดลมักสามารถอธิบายสิ่งที่มองเห็นได้ แต่ยากที่จะตอบคำถามที่ซับซ้อนเกี่ยวกับ “เสียงมาจากไหน?” “เกิดขึ้นเมื่อไหร่?” และ “ทำไมถึงเป็นเช่นนั้น?” อย่างมั่นคง ซึ่งเกี่ยวข้องกับความสัมพันธ์เชิงพื้นที่ เวลา และเหตุผล

(2) การจัดแนวข้ามรูปแบบยังเป็นจุดคอขวด

เบาะแสเสียงมักอยู่นอกภาพ โมเดลจำเป็นต้องสร้างสายโซ่ที่ต่อเนื่องของ “ได้ยิน-เห็น-อนุมาน” ซึ่งเป็นความท้าทายอย่างรุนแรงต่อความสามารถในการจัดแนวข้ามรูปแบบในปัจจุบัน

(3) ความซับซ้อนที่แท้จริงของมุมมองบุคคลที่หนึ่งถูกประเมินต่ำเกินไป

ปัจจัยต่างๆ เช่น การปฏิสัมพันธ์ระหว่างคนกับวัตถุ การบดบังทางสายตา การสั่นของกล้อง การเปลี่ยนแปลงระยะทางระหว่างแหล่งกำเนิดเสียงกับกล้องแบบไดนามิก ทำให้การให้เหตุผลด้วยเสียงใกล้เคียงกับโลกแห่งความเป็นจริงมากขึ้น แต่ก็เพิ่มความยากของงานอย่างมีนัยสำคัญ

บทสรุป: โลกแห่งความเป็นจริงไม่เคยเงียบ

หากโมเดลหลายรูปแบบในอดีตคล้ายกับผู้บรรยายที่เก่ง “การบรรยายภาพ” แล้ว EgoSound หวังที่จะผลักดันให้มันพัฒนาไปสู่ตัวแทนอัจฉริยะมุมมองบุคคลที่หนึ่งที่แท้จริง: ทั้งมองเห็นและได้ยิน; ไม่เพียงแต่บรรยายได้ แต่ยังสามารถระบุตำแหน่ง อธิบาย และอนุมานได้

เพราะท้ายที่สุด โลกแห่งความเป็นจริงไม่เคยเงียบ

เอกสารวิชาการและทรัพยากร
* ชื่อเอกสารวิชาการ: EgoSound: Benchmarking Sound Understanding in Egocentric Videos
* ลิงก์เอกสารวิชาการ: https://www.arxiv.org/abs/2602.14122
* GitHub: https://github.com/groolegend/EgoSound/
* ชุดข้อมูล Huggingface: https://huggingface.co/datasets/grooLegend/EgoSound
* หน้าแรกโครงการ: https://groolegend.github.io/EgoSound/