ความจริงเกี่ยวกับภาพหลอนของโมเดลขนาดใหญ่แบบมัลติโมดอล: หลังคำเปลี่ยนทิศทางมัก ‘คิดผิด’ มากที่สุด วิธีใหม่ LEAD ใช้การถอดรหัสเอนโทรปีแฝงเพื่อแก้ปัญหายาก

9 hours ago • การอนุมานโมเดลขนาดใหญ่ • 17 views

【บทนำ】 การวิจัยพบว่าปัญหาการหลอน (hallucination) ในโมเดลขนาดใหญ่แบบหลายรูปแบบ (multimodal) นั้น มักไม่ได้เกิดจากการ “มองภาพผิด” แต่เกิดจากการ “คิดเอียง” ในช่วงที่ห่วงโซ่เหตุผลมีความไม่แน่นอนสูงสุด กล่าวคือ เมื่อโมเดลกำลังสร้างคำเชื่อมที่แสดงการเปลี่ยนแนวคิด เช่น because, however, wait มักจะอยู่ในโหนดสำคัญที่มีเอนโทรปีสูง (high-entropy) และมีแนวโน้มที่จะละทิ้งหลักฐานจากภาพ แล้วหันไปพึ่ง “การเติมเต็มจากจินตนาการ” ตามความรู้ก่อนหน้าที่มีในภาษา วิธีการใหม่ชื่อ LEAD สามารถบรรเทาปัญหานี้ได้อย่างมีประสิทธิภาพ โดยการถอดรหัสในพื้นที่ความหมายแฝง (latent semantic space) ในช่วงเอนโทรปีสูง รักษาความเป็นไปได้ในการให้เหตุผลหลายทางไว้ และฉีดจุดยึดทางภาพ (visual anchor) เข้าไป

ด้วยการพัฒนาของโมเดลขนาดใหญ่แบบหลายรูปแบบ โมเดลที่มีความสามารถในการให้เหตุผลแบบโซ่ยาวอย่างชัดเจนกำลังเป็นจุดสนใจ พวกมันดูเหมือนจะ “คิดเป็น” มากขึ้น และเก่งกว่าในการจัดการงานที่ซับซ้อน อย่างไรก็ตาม ปัญหาที่ตามมาคือ: ห่วงโซ่การคิดที่ยาวขึ้น หมายถึงความน่าเชื่อถือที่สูงขึ้นหรือไม่?

นักวิจัยจากมหาวิทยาลัย Monash, สถาบันเทคโนโลยีจอร์เจีย, มหาวิทยาลัยคอร์เนลล์ และสถาบันอื่นๆ ได้ให้คำตอบว่า “ไม่” พวกเขาชี้ให้เห็นว่าปัญหาของโมเดลไม่ได้อยู่ที่ “มองภาพผิด” เสมอไป แต่บ่อยครั้งเกิดขึ้นหลังจากที่ห่วงโซ่เหตุผลเข้าสู่จุดเปลี่ยนที่ขาดความแน่นอน แล้วเริ่ม “คิดเอียง” ไปตามความเคยชินทางภาษา

ความจริงเกี่ยวกับภาพหลอนของโมเดลขนาดใหญ่แบบมัลติโมดอล: หลังคำเปลี่ยนทิศทางมัก 'คิดผิด' มากที่สุด วิธีใหม่ LEAD ใช้การถอดรหัสเอนโทรปีแฝงเพื่อแก้ปัญหายาก

บทความวิจัยชี้ให้เห็นว่า “การเบี่ยงเบน” นี้ไม่ใช่สัญญาณรบกวนแบบสุ่ม แต่มีความสัมพันธ์อย่างใกล้ชิดกับความไม่แน่นอนในระดับ Token โดยเฉพาะเมื่อโมเดลสร้างคำเชื่อมเปลี่ยนผ่านที่แสดงถึงการเปลี่ยนแนวคิด การทบทวน หรือเหตุผล เช่น because, however, wait มักจะสอดคล้องกับค่าเอนโทรปีของ Token ที่สูงขึ้น ซึ่งหมายความว่าโมเดลกำลังส่ายไปมาระหว่างเส้นทางการให้เหตุผลที่เป็นไปได้หลายทางในขณะนั้น หากถูกบังคับให้เลือก Token เดี่ยวที่แยกจากกันเร็วเกินไป เส้นทางการให้เหตุผลทั้งหมดหลังจากนั้นอาจถูกพาไปในทิศทางที่ผิด

ต้นตอของอาการหลอน: “คิดเอียง” หลังคำเชื่อมเปลี่ยนแนวคิด

การวิจัยเปิดเผยปรากฏการณ์สำคัญประการแรก: ในโมเดลขนาดใหญ่แบบหลายรูปแบบ อาการหลอนมีแนวโน้มที่จะปรากฏขึ้นหลังจากคำเชื่อมเปลี่ยนแนวคิดมากขึ้น ซึ่งกรณีเช่นนี้คิดเป็นสัดส่วนที่ค่อนข้างมากของอาการหลอนทั้งหมด

กล่าวอีกนัยหนึ่ง โมเดลไม่ได้ “พูดเพ้อเจ้อ” โดยไม่มีเหตุผล แต่บ่อยครั้งหลังจากที่คำเช่น “ดังนั้น”, “แต่”, “รอเดี๋ยว” ซึ่งดูเหมือนเป็นสัญญาณของการให้เหตุผลระดับสูงปรากฏขึ้น มันเริ่มที่จะแยกตัวออกจากเนื้อหาภาพ และเข้าสู่สถานะ “เติมเต็มจากจินตนาการ” ที่ถูกชี้นำโดยโมเดลภาษา

การวิจัยไม่ได้หยุดอยู่แค่ระดับปรากฏการณ์ แต่เชื่อมโยงปัญหากับ เอนโทรปีของ Token ผู้เขียนพบว่าคำเชื่อมเปลี่ยนแนวคิดเหล่านี้มักสอดคล้องกับค่าเอนโทรปีที่สูงขึ้น นั่นคือช่วงเวลาที่โมเดลมีความไม่แน่นอนสูงสุด และมีแนวโน้มที่จะส่ายไปมาระหว่างกิ่งก้านความหมายหลายทางได้ง่ายที่สุด

ดังนั้น ปัญหาหลักจึงเปลี่ยนจาก “โมเดลจะเกิดอาการหลอนหรือไม่” เป็น: ทำไมต้องบังคับให้โมเดลตัดสินใจเลือก Token เดี่ยวที่แยกจากกันทันที ในช่วงเวลาที่มันไม่แน่ใจที่สุด?

ทำไม Token เอนโทรปีสูงจึงอันตราย?

เพื่อยืนยันความสำคัญของโหนดเอนโทรปีสูง ผู้เขียนได้ทำการวิเคราะห์การปิดบัง Token (Token masking) ผลลัพธ์แสดงให้เห็นว่าการปิดบัง Token เอนโทรปีสูงสร้างความเสียหายต่อประสิทธิภาพสุดท้ายของโมเดลมากกว่าการปิดบัง Token อื่นๆ อย่างมาก ซึ่งบ่งชี้ว่า Token เอนโทรปีสูง แม้จะ “ไม่แน่ใจ” แต่กลับเป็นจุดตัดสินใจที่สำคัญในกระบวนการให้เหตุผล

ที่น่าสนใจยิ่งไปกว่านั้น ผลกระทบนี้เห็นได้ชัดเจนเป็นพิเศษในส่วนหน้าของห่วงโซ่เหตุผล — ยิ่ง Token เอนโทรปีสูงปรากฏเร็วเท่าไหร่ ยิ่งมีแนวโน้มที่จะกำหนดทิศทางของเส้นทางการให้เหตุผลทั้งหมดที่ตามมา

การวิจัยยังพบว่า Token เอนโทรปีสูงที่เกี่ยวข้องกับอาการหลอน มักมาพร้อมกับสัดส่วนความสนใจทางภาพที่ต่ำกว่า ซึ่งหมายความว่าเมื่อโมเดลเข้าสู่สถานะความไม่แน่นอนสูง การพึ่งพาหลักฐานทางภาพของมันกลับลดลง และเริ่มพึ่งพาบริบททางภาษาเพื่อ “เขียนต่อ” มากขึ้น ดังนั้น กุญแจสำคัญของอาการหลอนแบบหลายรูปแบบ ไม่ได้อยู่ที่โมเดล “ไม่ได้ดูภาพ” เท่านั้น แต่ยังอยู่ที่มัน “ค่อยๆ ไม่ดูภาพอีกต่อไป” เมื่ออยู่ในสถานะที่ไม่แน่นอน

วิธี LEAD: การถอดรหัสด้วยการรับรู้เอนโทรปีแฝง

จากข้อสังเกตข้างต้น นักวิจัยได้เสนอวิธี LEAD

แนวคิดหลักนั้นตรงไปตรงมาและชาญฉลาด: เมื่อโมเดลอยู่ในสถานะเอนโทรปีสูง จะไม่บังคับให้มันสุ่มเลือก Token เดี่ยวที่แยกจากกันจากการกระจายความน่าจะเป็นทันที แต่ใช้ Embedding ต่อเนื่องที่ถ่วงน้ำหนักด้วยความน่าจะเป็น เพื่อรักษาทิศทางการให้เหตุผลที่เป็นผู้สมัครหลายทางไว้พร้อมกันในพื้นที่ความหมายแฝง; เมื่อค่าเอนโทรปีลดลงแล้ว จึงเปลี่ยนกลับไปเป็นการถอดรหัส Token แบบแยกจากกันตามปกติ โดยธรรมชาติ เพื่อให้เกิดการเปลี่ยนผ่านที่ปรับตัวได้จาก “การสำรวจ” ไปสู่ “การลู่เข้า”

จุดเด่นอีกประการของงานนี้คือ ไม่เพียงแต่ทำการ “ถอดรหัสแฝง” เท่านั้น แต่ยังเพิ่ม การฉีดจุดยึดทางภาพ เข้าไปอีกด้วย

ผู้เขียนสังเกตว่าช่วงเอนโทรปีสูงมักเป็นช่วงที่ข้อมูลภาพถูกทำให้อ่อนแอได้ง่ายที่สุด ดังนั้น LEAD จะฉีดเวกเตอร์ชี้นำจากคุณลักษณะภาพที่ผ่านการฝึกมาก่อน (pre-trained visual representation) ในช่วงนี้ เพื่อดึงความสนใจของโมเดลกลับไปยังหลักฐานภาพอย่างต่อเนื่อง ป้องกันไม่ให้มัน “คิด” เบี่ยงเบนไปไกลเกินไปในระหว่างกระบวนการ

การออกแบบนี้ทำให้ LEAD แตกต่างจากเทคนิคการถอดรหัสทั่วไป: มันไม่ใช่แค่การจัดลำดับคะแนน Token ใหม่ แต่เป็นการเปลี่ยนวิธีการแสดงลักษณะและการตัดสินใจของโมเดลโดยตรงที่โหนดการให้เหตุผลที่สำคัญ

ผลลัพธ์: ไม่เพียงแต่ลดอาการหลอน

ส่วนการทดลองยืนยันประสิทธิผลของ LEAD อย่างเต็มที่ วิธีนี้นำไปสู่การปรับปรุงประสิทธิภาพที่มั่นคงในเกณฑ์มาตรฐานการประเมินความเข้าใจทั่วไปและอาการหลอนหลายชุด

ยกตัวอย่างโมเดล R1-Onevision-7B หลังจากเพิ่ม LEAD:
* VStar: 66.5 → 71.2
* RealWorldQA: 62.5 → 66.4
* MMEval-Pro: 69.4 → 73.9
* MMHalu และ Bingo ก็เพิ่มขึ้นเป็น 3.80 และ 3.84 ตามลำดับ

การเพิ่มขึ้นที่คล้ายกันนี้ก็ปรากฏในโมเดลโครงสร้างหลักต่างๆ เช่น Vision-R1, VL-Rethinker, VL-Cogito และ OpenVLThinker

ในงานการให้เหตุผลทางภาพด้านคณิตศาสตร์และวิทยาศาสตร์ LEAD ก็แสดงผลยอดเยี่ยมเช่นกัน ตัวอย่างเช่นบน R1-Onevision-7B:
* MathVision: 29.9 → 32.4
* Geometry3K: 57.9 → 61.2
* MMK12-Bio: 40.8 → 44.8

นี่บ่งชี้ว่าสิ่งที่ LEAD นำมาไม่ใช่การปรับปรุงโดยบังเอิญในเกณฑ์มาตรฐานการประเมินใดเกณฑ์หนึ่ง แต่เป็นการเพิ่มขึ้นโดยรวมในขอบเขตความเข้าใจทั่วไป การให้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์

การทดลองแยกองค์ประกอบ

การออกแบบ LEAD ไม่ใช่ “การปรับพารามิเตอร์แบบลึกลับ” การทดลองแยกองค์ประกอบพิสูจน์ว่า:
1. กลยุทธ์ขีดจำกัดเอนโทรปีแบบไดนามิก ดีกว่าการตั้งค่าที่สุดขั้ว เช่น ใช้การถอดรหัสแบบแยกจากกันหรือการถอดรหัสแฝงตลอดเวลา
2. หน้าต่างที่ต่อเนื่อง มีช่วงที่ดีที่สุด: สั้นเกินไปจะทำให้รูปแบบเปลี่ยนบ่อยเกินไป ยาวเกินไปจะถดถอยไปสู่รูปแบบพฤติกรรมของห่วงโซ่การคิดแบบดั้งเดิม
3. ความเข้มของจุดยึดภาพ ต้องอยู่ในระดับปานกลาง แรงเกินไปหรืออ่อนเกินไปจะไม่สามารถสร้างสมดุลระหว่างพื้นฐานภาพและบริบททางภาษาได้ดีที่สุด

การวิเคราะห์เชิงคุณภาพ

บทความวิจัยแสดงข้อได้เปรียบของ LEAD ในการกระจายความสนใจทางภาพและการกระจายความน่าจะเป็นระดับ Token ผ่านตัวอย่างเฉพาะ:
* เมื่อเทียบกับโมเดลฐานและ MemVR แล้ว LEAD จะมุ่งความสนใจไปยังพื้นที่ภาพที่เกี่ยวข้องกับปัญหาจริงๆ มากขึ้น
* ในช่วงการให้เหตุผลแฝง การกระจาย Token จะกระจายตัวมากขึ้น (เอนโทรปีสูงกว่า); หลังจากเข้าสู่ช่วงการให้เหตุผลแบบแยกจากกัน การกระจายจะค่อยๆ ลู่เข้าสู่ผลลัพธ์ที่แน่นอนมากขึ้น กระบวนการ “รักษาความเป็นไปได้หลายทางไว้ก่อน แล้วค่อยลู่เข้าภายใต้ข้อจำกัดของหลักฐาน” นี้แหละคือกุญแจสำคัญในการบรรเทาอาการหลอน

ที่น่าสนใจยิ่งกว่านั้น LEAD ไม่เพียงแต่แม่นยำกว่า แต่ยัง “มีประสิทธิภาพ” กว่าด้วย ในงาน MathVision LEAD รักษาความแม่นยำสูงสุดไว้ได้ ในขณะที่ความยาวการให้เหตุผลโดยเฉลี่ยกลับสั้นกว่า ในการทดลอง Pass@k มันยังสามารถไปถึงจุดสูงสุดของประสิทธิภาพได้เร็วกว่าในค่า k ที่เล็กกว่า ซึ่งบ่งชี้ว่ามันมีประสิทธิภาพตัวอย่างที่ดีกว่า LEAD ไม่ได้ชนะด้วยการ “คิดยาวกว่า” แต่ด้วยการ “เดินทางผิดน้อยลง” ที่โหนดความไม่แน่นอนที่สำคัญ

สุดท้าย ผู้เขียนใช้ PPL และ GPT-4 ในการประเมินไวยากรณ์ ความลื่นไหล และความเป็นธรรมชาติของข้อความผลลัพธ์ ผลลัพธ์แสดงให้เห็นว่า LEAD ในขณะที่บรรเทาอาการหลอน ไม่ได้เสียสละคุณภาพของข้อความ แต่กลับรักษาประสิทธิภาพที่ดีกว่าหรือมั่นคงกว่าในหลายมิติ ซึ่งบ่งชี้ว่าวิธีนี้ประสบความสำเร็จอย่างแท้จริงในการสร้างสมดุลที่ดีขึ้นระหว่างความน่าเชื่อถือของการให้เหตุผลและคุณภาพของการสร้าง

โดยสรุป ข้อคิดจากงานวิจัยนี้ชัดเจนมาก: ปัญหาของโมเดลขนาดใหญ่แบบหลายรูปแบบ อาจไม่ได้อยู่ที่มันไม่รู้จักให้เหตุผล แต่อยู่ที่ในช่วงเวลาที่มันไม่แน่ใจที่สุด มันล็อกตัวเองไว้กับ Token ที่อาจผิดพลาดเร็วเกินไป

คุณค่าของ LEAD อยู่ที่มันสามารถระบุ “ช่วงเอนโทรปีสูง” เป็นพื้นที่เสี่ยงที่แท้จริงได้อย่างแม่นยำ และทำให้โมเดลรักษาความหลากหลายทางความหมายไว้ก่อนในช่วงนี้ แล้วค่อยๆ ลู่เข้าสู่ผลลัพธ์ที่แน่นอน ในขณะเดียวกันก็ใช้จุดยึดภาพเพื่อดึงกระบวนการให้เหตุผลกลับไปยังหลักฐานภาพ สำหรับโมเดลขนาดใหญ่แบบหลายรูปแบบ กลไกเช่นนี้อาจสำคัญยิ่งกว่าแค่ “เพิ่มขั้นตอนการคิด” อย่างเดียว