Video-MME-v2 เปิดตัวอย่างน่าตื่นเต้น: เผยช่องว่างอันกว้างใหญ่ระหว่างความเข้าใจวิดีโอของโมเดลขนาดใหญ่กับมนุษย์ ตัวชี้วัดการประเมินแบบดั้งเดิม “บิดเบือน” แล้ว

2 hours ago • การประเมินโมเดลขนาดใหญ่ • 14 views

การประเมินโมเดลใหญ่ในปัจจุบันมีคะแนนใกล้ถึงจุดอิ่มตัว แต่กลับแตกต่างจากประสบการณ์จริงอย่างมาก ทีมวิจัยของ ฟู่ เฉาโหยว จากมหาวิทยาลัยหนานจิง ได้ร่วมกับทีมประเมิน Google Gemini พัฒนาเกณฑ์มาตรฐานใหม่สำหรับการประเมินความเข้าใจในวิดีโอ ชื่อ Video-MME-v2 ด้วยระบบความสามารถแบบชั้นเชิงนวัตกรรมและการให้คะแนนแบบไม่เชิงเส้นระดับกลุ่ม รวมถึงการติดป้ายกำกับคุณภาพสูงที่ใช้เวลากว่า 3300 ชั่วโมงแรงงาน งานวิจัยนี้เผยให้เห็นช่องว่างมหาศาลระหว่างโมเดลกับมนุษย์ (49 vs 90) การที่ตัวชี้วัดความแม่นยำแบบดั้งเดิมสูงเกินจริง และปรากฏการณ์ที่ “การคิด” (Thinking) ไม่ได้ช่วยเพิ่มประสิทธิภาพเสมอไป

กว่า 1 ปีที่แล้ว ทีม Video-MME นำโดย ฟู่ เฉาโหยว ได้เผยแพร่ Benchmark รุ่นแรก ซึ่งถูกนำไปใช้อย่างกว้างขวางโดย Gemini, GPT ฯลฯ ในการประเมินความเข้าใจในวิดีโอ ตามสถิติจาก Paper Digest, Video-MME มีอิทธิพลสูงสุดในบรรดางานวิจัยทั้งหมดที่ได้รับการตีพิมพ์ใน CVPR 2025 (ถูกอ้างอิงกว่า 1100 ครั้ง)

ในช่วงหลายปีที่ผ่านมา ทีมวิจัยได้จัดระบบการประเมินโมเดลใหญ่หลายรูปแบบอย่างเป็นระบบ และเผยแพร่งานสรุป MME-Survey ซึ่งวิเคราะห์ Benchmark ที่มีอยู่อย่างครอบคลุม ตั้งแต่การครอบคลุมความสามารถ วิธีการประเมิน ไปจนถึงการออกแบบตัวชี้วัด

ด้วยเหตุนี้ ทีมวิจัยจึงตระหนักได้เร็วและชัดเจนกว่าเดิมว่า: แนวทางการประเมินในปัจจุบันเริ่ม “บิดเบือน” ไปแล้ว แม้โมเดลใหญ่หลายรูปแบบจะก้าวหน้าเร็วมากในด้านความเข้าใจวิดีโอ และคะแนนใน Benchmark ต่างๆ ใกล้ถึงจุดอิ่มตัว แต่ประสบการณ์จริงยังคงไม่เพียงพอ ในบริบทนี้ Video-MME-v2 จึงถูกเผยแพร่อย่างเป็นทางการ

Video-MME-v2 เป็นเกณฑ์มาตรฐานการประเมินที่มุ่งเน้นความสามารถในการเข้าใจวิดีโอของรุ่นต่อไป ใช้เวลาพัฒนาเกือบ 1 ปี โดยผู้ติดป้ายกำกับ 12 คน และผู้ตรวจสอบอิสระ 50 คน ร่วมกันทำงาน ใช้เวลาติดป้ายกำกับสะสมกว่า 3300 ชั่วโมงแรงงาน ความแตกต่างจาก Benchmark แบบดั้งเดิมคือ การใช้ระบบความสามารถสามชั้นที่ออกแบบมาอย่างดีและค่อยๆ ก้าวหน้าพร้อมกับวิธีการให้คะแนนแบบไม่เชิงเส้นระดับกลุ่ม

ผลการประเมินแสดงว่า: คะแนนแบบไม่เชิงเส้นของผู้เชี่ยวชาญมนุษย์อยู่ที่ 90.7 (ความแม่นยำแบบดั้งเดิมอยู่ที่ 94.9) ในขณะที่โมเดลเชิงพาณิชย์ที่แข็งแกร่งที่สุดในปัจจุบันอย่าง Gemini-3-Pro ได้คะแนนเพียง 49.4 ส่วนโมเดลโอเพ่นซอร์ส Qwen ได้ผลลัพธ์ที่ดีที่สุดที่ 39.1

1. Video-MME-v2 กำลังวัดอะไร?

การออกแบบหลักประการแรกของ Video-MME-v2 คือการแบ่งความเข้าใจในวิดีโอออกเป็นระบบความสามารถสามชั้นที่ค่อยๆ ก้าวหน้า

ชั้นที่ 1: การค้นหาและรวบรวมข้อมูล นี่เป็นชั้นพื้นฐานที่สุดของความเข้าใจในวิดีโอ มุ่งเน้นว่าโมเดลสามารถระบุและดึงข้อเท็จจริงสำคัญจากข้อมูลข้ามเฟรมและข้ามรูปแบบได้อย่างแม่นยำหรือไม่
ชั้นที่ 2: ความเข้าใจเชิงเวลา ต่อจากชั้นแรก ชั้นที่สองตรวจสอบเพิ่มเติมว่าโมเดลเข้าใจมิติเวลาจริงหรือไม่ ต้องการให้โมเดลไม่เพียงแต่เข้าใจภาพนิ่งในเฟรมต่างๆ แต่ต้องจับความสัมพันธ์ก่อนหลังของการเกิดการกระทำ สภาพเปลี่ยนแปลงอย่างไร เหตุใดเหตุการณ์จึงเกิดขึ้น
ชั้นที่ 3: การให้เหตุผลที่ซับซ้อน ต่อจากชั้นที่สอง ชั้นที่สามใกล้เคียงกับงานในโลกแห่งความเป็นจริงมากขึ้น ต้องการให้โมเดลให้เหตุผลในสถานการณ์ที่ซับซ้อนและเปิดกว้างมากขึ้น นี่เป็นชั้นที่ใกล้เคียงกับ “ความเข้าใจแบบมนุษย์” มากที่สุด: ไม่เพียงแต่ต้องเข้าใจ แต่ต้องสามารถอนุมาน อธิบาย และสังเคราะห์ได้

Video-MME-v2 เปิดตัวอย่างน่าตื่นเต้น: เผยช่องว่างอันกว้างใหญ่ระหว่างความเข้าใจวิดีโอของโมเดลขนาดใหญ่กับมนุษย์ ตัวชี้วัดการประเมินแบบดั้งเดิม "บิดเบือน" แล้ว
รูปที่ 1 การกระจายตัวของระดับความสามารถของ Video-MME-v2 และอันดับความสามารถของโมเดลบางส่วน

2. Video-MME-v2 ไม่ใช่แค่ “มีคำถามมากขึ้น” แต่เปลี่ยนวิธีการทดสอบใหม่

นวัตกรรมหลักประการที่สองของ Video-MME-v2 อยู่ที่ “วิธีการทดสอบ” งานนี้ไม่ได้ใช้วิธีการดั้งเดิม “ให้คะแนนแต่ละข้อแยกกัน” ต่อไป แต่ได้นำการประเมินระดับกลุ่มมาใช้ นั่นคือ ไม่ได้ดูเพียงว่าโมเดลตอบคำถามข้อใดข้อหนึ่งถูกหรือผิด แต่ดูว่ามันแสดงความสม่ำเสมอและความต่อเนื่องในชุดคำถามที่เกี่ยวข้องหรือไม่

กลุ่มความสม่ำเสมอของความสามารถ: ดูว่าโมเดล “เข้าใจจริงๆ” หรือไม่
มุ่งเน้นว่า: สำหรับความสามารถแบบเดียวกัน โมเดลสามารถรักษาความเสถียรในการถามด้วยวิธีที่ต่างกัน ระดับความละเอียดที่ต่างกัน และแง่มุมที่ต่างกันได้หรือไม่ ตัวอย่างเช่น หากโมเดลมีความสามารถในการเข้าใจพื้นที่จริงๆ มันไม่เพียงแต่ควรตอบได้ว่า “วัตถุอยู่ที่ไหน” แต่ควรตอบได้ว่า “ตำแหน่งสัมพัทธ์ของมันกับวัตถุอื่นเปลี่ยนแปลงอย่างไร”
กลุ่มความต่อเนื่องของการให้เหตุผล: ดูว่าโมเดล “กำลังให้เหตุผลจริงๆ” หรือไม่
มุ่งเน้นว่า: เมื่อปัญหาที่ซับซ้อนต้องการการให้เหตุผลหลายขั้นตอน โมเดลสามารถเดินตามสายโซ่ตรรกะที่สมเหตุสมผล ก้าวไปสู่ข้อสรุปทีละขั้นได้หรือไม่ ตัวอย่างเช่น ในวิดีโอเนื้อเรื่องที่ซับซ้อน โมเดลอาจต้องค้นพบเบาะแสภาพสำคัญก่อน จากนั้นระบุรายละเอียดที่ผิดปกติ จากนั้นอนุมานจุดประสงค์ของตัวละคร สุดท้ายจึงได้ข้อสรุป หากขั้นตอนใดขั้นตอนหนึ่งผิดพลาด แม้สุดท้ายจะ “เลือกถูกโดยบังเอิญ” ความถูกต้องนี้ก็ไม่นับเป็นการให้เหตุผลที่น่าเชื่อถือจริงๆ

เพื่อให้สอดคล้องกับการประเมินระดับกลุ่ม ทีม Video-MME ได้ใช้กลไกการให้คะแนนแบบไม่เชิงเส้นเพิ่มเติม

สำหรับกลุ่มความสม่ำเสมอของความสามารถ คำถามที่เกี่ยวข้องสี่ข้อไม่ได้ใช้ค่าเฉลี่ยอย่างง่าย แต่ใช้การให้คะแนนแบบให้รางวัล (ยิ่งตอบถูกใน Group มาก ก็ได้รางวัลมาก) ซึ่งหมายความว่า: การตอบถูกแบบกระจายไม่กี่ข้อ ไม่ได้คะแนนสูงมาก; เมื่อโมเดลแสดงผลที่เสถียรในคำถามกลุ่มเดียวกัน คะแนนจึงจะเพิ่มขึ้นจริงๆ
สำหรับกลุ่มความต่อเนื่องของการให้เหตุผล ใช้กลไก “ตัดเมื่อผิดขั้นแรก” เพิ่มเติม นั่นคือ ทันทีที่ขั้นตอนใดผิดพลาด แม้ขั้นตอนหลังจะตอบถูก ก็ไม่นับคะแนนอีกต่อไป

3. ทำไมถึงบอกว่ามันยากกว่า และน่าเชื่อถือกว่า?

ความน่าเชื่อถือของ Benchmark ไม่ได้อยู่แค่ที่ “การออกแบบที่ชาญฉลาด” แต่ยังอยู่ที่ “ข้อมูลเพียงพอและแข็งแกร่งหรือไม่” ทีมวิจัยควบคุมแหล่งข้อมูล ขั้นตอนการติดป้ายกำกับ มาตรฐานการตรวจสอบคุณภาพ ฯลฯ ของ Video-MME-v2 อย่างเข้มงวด ลงทุนด้วยต้นทุนแรงงานสูงมาก ชุดข้อมูลสุดท้ายประกอบด้วยวิดีโอ 800 เรื่อง คำถาม 3200 ข้อ; มีผู้ติดป้ายกำกับ 12 คน และผู้ตรวจสอบอิสระ 50 คน เข้าร่วม ผ่านการตรวจสอบข้ามและแก้ไขแบบปิดห้ารอบ ใช้เวลาสะสมกว่า 3300 ชั่วโมงแรงงาน

4. ผลการประเมินเป็นอย่างไร?

ในผลลัพธ์หลัก คะแนนแบบไม่เชิงเส้นระดับกลุ่มของมนุษย์สูงถึง 90.7 ความแม่นยำเฉลี่ยสูงถึง 94.9; ในขณะที่โมเดลเชิงพาณิชย์ที่แสดงผลดีที่สุดในปัจจุบันอย่าง Gemini-3-Pro ได้คะแนนแบบไม่เชิงเส้นระดับกลุ่มที่ 49.4 สำหรับโมเดลโอเพ่นซอร์ส Qwen3.5-397B-A17B-Think (512 เฟรม) ได้คะแนนระดับกลุ่มที่ 39.1

นี่หมายความว่า: แม้แต่โมเดลวิดีโอที่แข็งแกร่งที่สุดในปัจจุบัน ภายใต้กรอบการประเมินที่เข้มงวดกว่าและเน้นความสม่ำเสมอและความต่อเนื่องมากขึ้น ยังคงมีช่องว่างมหาศาลกับมนุษย์

งานวิจัยยังชี้ให้เห็นเป็นพิเศษว่า โมเดลแสดงการลดลงของประสิทธิภาพอย่างชัดเจนจาก Level 1 ถึง Level 3 แสดงว่าความอ่อนแอในการให้เหตุผลที่ซับซ้อนระดับสูง ไม่ได้เป็นเพียง “โมดูลการให้เหตุผลไม่แข็งแกร่งพอ” เท่านั้น แต่บ่อยครั้งที่การรวบรวมข้อมูลและการสร้างแบบจำลองเชิงเวลาข้างหน้ามีปัญหาแล้ว สุดท้ายสะสมเป็นชั้นๆ ลากให้ความเข้าใจที่ซับซ้อนแย่ลง

Video-MME-v2 เปิดตัวอย่างน่าตื่นเต้น: เผยช่องว่างอันกว้างใหญ่ระหว่างความเข้าใจวิดีโอของโมเดลขนาดใหญ่กับมนุษย์ ตัวชี้วัดการประเมินแบบดั้งเดิม "บิดเบือน" แล้ว
รูปที่ 2 10 อันดับแรกของการประเมินในปัจจุบัน

5. ข้อดีของการให้คะแนนแบบไม่เชิงเส้น: จาก “ตอบถูกหนึ่งข้อ” สู่ “เข้าใจชุดคำถามอย่างเสถียร”

ในการประเมินแบบดั้งเดิม ความแม่นยำเฉลี่ย (Avg Acc) เป็นตัวชี้วัดที่ใช้บ่อยที่สุด แต่มันเป็นผลลัพธ์ของการนับแยกแต่ละข้อโดยพื้นฐาน ซึ่งง่ายต่อการได้รับผลกระทบจาก “การตอบถูกแบบกระจาย”

ในทางตรงกันข้าม การให้คะแนนแบบไม่เชิงเส้นระดับกลุ่ม (Non-Lin Score) ที่ทีมวิจัยเสนอ โดยการสร้างแบบจำลองความสัมพันธ์โครงสร้างระหว่างคำถาม เน้นการแสดงผลโดยรวมของโมเดลภายใต้มิติความสามารถเดียวกันมากขึ้น จึงสามารถอธิบายได้จริงยิ่งขึ้นว่าโมเดล “เข้าใจวิดีโออย่างเสถียร” หรือไม่

เมื่อมองลึกลงไป การให้คะแนนแบบไม่เชิงเส้นยังเผยให้เห็นปรากฏการณ์สำคัญในความสามารถของโมเดล: มีการสูญเสียความสามารถอย่างมีนัยสำคัญระหว่าง “ตอบถูกข้อเดียว” กับ “ตอบถูกอย่างเสถียรภายในกลุ่ม” เพื่อจุดประสงค์นี้ ทีมวิจัยได้แนะนำตัวชี้วัดที่มีความสามารถในการอธิบาย นั่นคือ อัตราส่วน Non-Lin Score / Avg Acc เพื่อวัดระดับการสูญเสียนี้

ผลการทดลองแสดงว่า อัตราส่วนของโมเดลที่แข็งแกร่งที่สุดในปัจจุบันอย่าง Gemini-3-Pro อยู่ที่ประมาณ 75%; ของ Doubao-Seed-2.0-Pro อยู่ที่ประมาณ 72%; ในขณะที่โมเดลขนาดกลางและเล็กบางตัว (เช่น LLaVA-Video-7B) ต่ำถึงประมาณ 40%

ยิ่งอัตราส่วนต่ำ ยิ่งแสดงว่าโมเดลมีแนวโน้มเกิดปรากฏการณ์ “ตอบถูกได้เพียงบางข้อภายในกลุ่ม” มากขึ้น ความเสถียรและความทนทานยิ่งอ่อนแอ จากนี้จะเห็นข้อดีของการให้คะแนนแบบไม่เชิงเส้นในการอธิบายระดับความสามารถจริงๆ และเผยให้เห็นความทนทานของโมเดล

Video-MME-v2 เปิดตัวอย่างน่าตื่นเต้น: เผยช่องว่างอันกว้างใหญ่ระหว่างความเข้าใจวิดีโอของโมเดลขนาดใหญ่กับมนุษย์ ตัวชี้วัดการประเมินแบบดั้งเดิม "บิดเบือน" แล้ว
รูปที่ 3 ผลลัพธ์อัตราส่วน Non-Lin Sore/Avg Acc ของโมเดลต่างๆ

6. การค้นพบที่น่าสนใจมาก: Thinking ไม่ได้มีประสิทธิภาพเสมอไป

ในบริบทของโมเดลใหญ่ปัจจุบัน “Thinking” เกือบจะกลายเป็นตัวเลือกเสริมค่าเริ่มต้นไปแล้ว แต่การค้นพบที่น่าสนใจและสำคัญมากของ Video-MME-v2 คือ: ผลประโยชน์ของ Thinking ไม่ได้เกิดขึ้นโดยไม่มีเงื่อนไข มันขึ้นอยู่กับเบาะแสข้อความสูงมาก

ผลการทดลองแสดงว่า หลังจากเปิดใช้งานฟังก์ชันโซ่ความคิด (Thinking) การเพิ่มประสิทธิภาพของโมเดลในการตั้งค่า “มีคำบรรยาย” มักจะเด่นชัดกว่าการตั้งค่า “ภาพล้วน” ตัวอย่างเช่น Qwen3.5-122B-A10B-Think (64 เฟรม) ในการตั้งค่าไม่มีคำบรรยายและมีคำบรรยาย ประสิทธิภาพเพิ่มขึ้น +3.8 และ +5.8 ตามลำดับ นี่แสดงว่า ข้อมูลความหมายข้อความที่ชัดเจนยังคงเป็นพื้นฐานสำคัญสำหรับโมเดลหลายตัวในการให้เหตุผลหลายขั้นตอน

อย่างไรก็ตาม โซ่ความคิดอาจนำไปสู่การลดลงของประสิทธิภาพได้ ตัวอย่างเช่น Qwen3-VL-8B ในการตั้งค่าไม่มีคำบรรยายลดลง -0.6 ในขณะที่ KimiVL-16B ลดลง -3.3 โดยรวม ในงาน Level 3 ที่เน้นการให้เหตุผลที่ซับซ้อนมากขึ้น ระดับการลดลงสูงถึง -4.0

นี่แสดงว่า ความสามารถ “การเสริมการให้เหตุผล” ของโมเดลบางตัวในปัจจุบัน โดยพื้นฐานแล้วพึ่งพาการใช้เบาะแสภาษามากกว่า แทนที่จะดึงหลักฐานที่มีประสิทธิภาพจากข้อมูลหลายรูปแบบ เช่น ภาพ เสียง ฯลฯ อย่างเสถียรเพื่อสนับสนุนการให้เหตุผล ทันทีที่ข้อมูลข้อความไม่เพียงพอ โซ่ความคิดไม่เพียงแต่ไม่อาจนำมาซึ่งผลประโยชน์ แต่ยังอาจนำสัญญาณรบกวนมา ส่งผลต่อการตัดสินของโมเดล

Video-MME-v2 เปิดตัวอย่างน่าตื่นเต้น: เผยช่องว่างอันกว้างใหญ่ระหว่างความเข้าใจวิดีโอของโมเดลขนาดใหญ่กับมนุษย์ ตัวชี้วัดการประเมินแบบดั้งเดิม "บิดเบือน" แล้ว
รูปที่ 4: อิทธิพลของการเปิดโซ่ความคิด (Thinking) ต่อประสิทธิภาพของโมเดล ในการตั้งค่ามีและไม่มีคำบรรยาย

สรุป: Video-MME-v2 มุ่งหวังที่จะส่งเสริมการเปลี่ยนแปลงแนวคิดการประเมินความเข้าใจในวิดีโอ โดยแกนกลางคือการวัดว่าโมเดลสามารถเข้าใจเหตุการณ์ที่ “กำลังเกิดขึ้น” และ “เกิดขึ้นแล้ว” แบบมนุษย์จริงๆ ในกระแสข้อมูลที่ต่อเนื่อง ไดนามิก และหลายรูปแบบได้หรือไม่

ประวัติผู้รับผิดชอบโครงการโดยย่อ:
ผู้รับผิดชอบโครงการ (Project Lead) ของซีรีส์ Video-MME คือ อาจารย์ ฟู่ เฉาโหยว จากมหาวิทยาลัยหนานจิง

ฟู่ เฉาโหยว เป็นนักวิจัย ผู้ช่วยศาสตราจารย์ และอาจารย์ที่ปรึกษาปริญญาเอก ของห้องปฏิบัติการจดจำรูปแบบ มหาวิทยาลัยหนานจิง ได้รับเลือกเข้าสู่โครงการ “การสนับสนุนเยาวชนผู้มีความสามารถ” ของสมาคมวิทยาศาสตร์และเทคโนโลยีจีน สำเร็จปริญญาเอกในปี 2022 จากห้องปฏิบัติการจดจำรูปแบบ สถาบันอัตโนมัติ สภาวิทยาศาสตร์จีน สาขาวิจัยคือการวิเคราะห์เนื้อหาหลายรูปแบบ ถูกอ้างอิงใน Google Scholar กว่า 8700 ครั้ง โดยในจำนวนนี้มีเอกสารวิจัยที่เป็นผู้เขียนหลักสองเรื่องที่ถูกอ้างอิงเกินพันครั้งต่อเรื่อง และหกเรื่องที่ถูกอ้างอิงเกินร้อยครั้งต่อเรื่อง

โครงการโอเพ่นซอร์สของเขาได้รับดาวบน GitHub สะสมกว่า 20,000 ดาว งานที่เป็นตัวแทนรวมถึงซีรีส์โมเดลใหญ่หลายรูปแบบ VITA (VITA-1.0/-1.5, Long-VITA, VITA-Audio) ซีรีส์เกณฑ์มาตรฐานการประเมินหลายรูปแบบ MME (MME, Video-MME, MME-RealWorld) และชุมชน Awesome-MLLM เป็นต้น

ด้านบริการวิชาการ ดำรงตำแหน่งกองบรรณาธิการวารสาร Pattern Recognition, IEEE

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง