ReCALL กรอบการทำงานแก้ปัญหาการค้นคืนโมเดลขนาดใหญ่: ทีม AI ชาติร่วมกับมหาวิทยาลัยแห่งชาติสิงคโปร์บรรลุการแปลงโมเดลกำเนิดเป็นเครื่องมือค้นคืนแบบไม่สูญเสียข้อมูล ได้รับตีพิมพ์ใน CVPR 2026

2026年4月7日 am8:39 • วิศวกรรมโมเดลขนาดใหญ่ • 142 views

จุดบกพร่องของอุตสาหกรรม: ความขัดแย้งของกระบวนทัศน์นำไปสู่ “ความสามารถลดลง” ในการค้นคืนโมเดลขนาดใหญ่

โมเดลขนาดใหญ่หลายรูปแบบ (MLLM) แสดงให้เห็นถึงความสามารถอันแข็งแกร่งในการทำความเข้าใจภาพและข้อความและการให้เหตุผลเชิงตรรกะ การนำไปใช้กับงานค้นคืนภาพแบบผสมผสาน (CIR) น่าจะมีข้อได้เปรียบที่ชัดเจน อย่างไรก็ตาม สถานการณ์จริงกลับตรงกันข้าม: เมื่อบังคับปรับโมเดลสร้างสรรค์ขนาดใหญ่ให้เป็นเครื่องมือค้นคืนแบบจำแนกประเภท โมเดลจะประสบปัญหาความสามารถลดลงอย่างรุนแรง แม้กระทั่งไม่สามารถแก้ไขปัญหาที่เดิมเคยจัดการได้อย่างแม่นยำ ความขัดแย้งระหว่างกระบวนทัศน์สร้างสรรค์และจำแนกประเภท กลายเป็นอุปสรรคหลักในการนำโมเดลขนาดใหญ่ไปประยุกต์ใช้ในด้านการค้นคืน

ReCALL กรอบการทำงานแก้ปัญหาการค้นคืนโมเดลขนาดใหญ่: ทีม AI ชาติร่วมกับมหาวิทยาลัยแห่งชาติสิงคโปร์บรรลุการแปลงโมเดลกำเนิดเป็นเครื่องมือค้นคืนแบบไม่สูญเสียข้อมูล ได้รับตีพิมพ์ใน CVPR 2026

เมื่อเร็วๆ นี้ ปัญหาที่ยากลำบากนี้ได้มีการพัฒนาที่สำคัญ ทีมวิจัย Zidong Taichu ร่วมกับมหาวิทยาลัยแห่งชาติสิงคโปร์ ได้เสนอกรอบงาน ReCALL ผ่านระบบวงจรปิดที่เป็นเอกลักษณ์ “วินิจฉัย-สร้าง-ปรับเทียบ” ซึ่งแก้ไขปัญหาความขัดแย้งของกระบวนทัศน์จากแบบสร้างสรรค์ไปสู่แบบจำแนกประเภทของโมเดลขนาดใหญ่จากรากฐาน ทำให้โมเดลขนาดใหญ่สามารถทำงานค้นคืนได้อย่างมีประสิทธิภาพ ในขณะที่ยังคงความสามารถในการให้เหตุผลเชิงละเอียดแบบดั้งเดิมไว้ได้

ผลงานนี้ได้รับการตีพิมพ์ในงานประชุมวิชาการด้านคอมพิวเตอร์วิชันชั้นนำ CVPR 2026 ในการทดสอบมาตรฐานหลักเช่น CIRR, FashionIQ ฯลฯ ReCALL ได้ทำลายสถิติ ประสิทธิภาพ SOTA ใหม่ทั้งหมด พร้อมกันนี้ยังเปิดเส้นทางใหม่สำหรับการปรับใช้ความสามารถโดยไม่สูญเสียสำหรับงานปลายน้ำของโมเดลขนาดใหญ่ และวางรากฐานสำหรับการนำโมเดลขนาดใหญ่หลายรูปแบบไปใช้ในภาคส่วนเฉพาะทาง

ความท้าทายหลัก: ความขัดแย้งของกระบวนทัศน์ทำให้เกิด “ความฉลาดถดถอย”

เหตุใด MLLM ที่ทรงพลังจึงล้มเหลวง่ายเมื่อทำงานค้นคืน? ทีมวิจัยชี้ให้เห็นว่าแกนกลางของปัญหาอยู่ที่ ความขัดแย้งของกระบวนทัศน์

โมเดลขนาดใหญ่ดั้งเดิมปฏิบัติตามกระบวนทัศน์สร้างสรรค์ โดยทำความเข้าใจความสัมพันธ์เชิงภาพระดับละเอียดผ่านการคิดแบบเป็นขั้นเป็นตอนเป็นลูกโซ่ อย่างไรก็ตาม วิธีการปรับใช้สำหรับการค้นคืนที่มีอยู่ในปัจจุบันมักใช้กระบวนทัศน์จำแนกประเภท บีบอัดกระบวนการคิดระดับสูงของโมเดลขนาดใหญ่ให้เป็นการแสดงแทนด้วยเวกเตอร์เดียวเพื่อคำนวณความคล้ายคลึง การแปลงที่รุนแรงนี้นำไปสู่ผลลัพธ์ร้ายแรง – ความสามารถลดลง

ดังที่แสดงด้านซ้ายของภาพด้านบน เมื่อเผชิญกับคำค้นเช่น “สุนัขสองตัวพันธุ์เดียวกันบนพื้น” ซึ่งต้องการการให้เหตุผลเชิงละเอียด โมเดลขนาดใหญ่ดั้งเดิม (F) สามารถระบุเป้าหมายได้อย่างง่ายดายผ่านการถามตอบเชิงภาพ (VQA) อย่างไรก็ตาม ตัวค้นคืนพื้นฐานที่ผ่านการปรับจูนแบบดั้งเดิม (R base) สูญเสียความสามารถในการระบุตำแหน่งเชิงละเอียดนี้ไปโดยสิ้นเชิง ผลการค้นคืนล้วนเป็นภาพที่ผิด

ข้อมูลเชิงปริมาณยังเผยให้เห็นความรุนแรงของปัญหาเพิ่มเติม: ในเซตย่อยที่โมเดลขนาดใหญ่ดั้งเดิมสามารถค้นคืนได้ถูกต้อง 100% ตัวค้นคืนที่ปรับจูนแล้วมีตัวชี้วัด R@1 บนชุดข้อมูล CIRR ตกลงอย่างรวดเร็วเหลือ 62.33% และบนชุดข้อมูล FashionIQ ลดลงเหลือ 55.80% โมเดลไม่เพียงแต่ไม่สามารถเรียนรู้ความรู้ใหม่ แต่ยังสูญเสียความสามารถในการให้เหตุผลเดิมไปอีกด้วย

แนวทางแก้ไข: กรอบการปรับเทียบสี่ขั้นตอนของ ReCALL

เมื่อความสามารถลดลงเกิดจากการปรับจูนการค้นคืนในระยะแรกที่ “พาโมเดลออกนอกทาง” แล้วจะแก้ไขได้อย่างไร? ทีมวิจัยได้เสนอกรอบงานทั่วไป ReCALL ซึ่งแนวคิดหลักคือการใช้สัญญาณการให้เหตุผลดั้งเดิมของโมเดลขนาดใหญ่เพื่อแก้ไขจุดบอดทางการรับรู้ในพื้นที่การค้นคืน กรอบงานนี้ประกอบด้วยสี่ขั้นตอน ขั้นตอนแรกทำการเริ่มต้นตัวค้นคืนพื้นฐานและเผยให้เห็นปัญหาความสามารถลดลง สามขั้นตอนหลังประกอบเป็นไปป์ไลน์การปรับเทียบแบบ “วินิจฉัย-สร้าง-ขัดเกลา”:

ขั้นตอนที่หนึ่ง: การปรับใช้การค้นคืนพื้นฐาน เพื่อให้โมเดลสร้างสรรค์ขนาดใหญ่มีฟังก์ชันการค้นคืนภาพและข้อความพื้นฐาน ขั้นแรกใช้ฟังก์ชันการสูญเสีย InfoNCE มาตรฐานเพื่อปรับจูนโมเดลขนาดใหญ่ดั้งเดิม (F) ให้เป็นตัวค้นคืนพื้นฐาน (R base) ขั้นตอนนี้แม้จะให้ความสามารถพื้นฐานในการจำแนกประเภทและการค้นคืนแก่โมเดล แต่การดำเนินการบีบอัดเป็นเวกเตอร์เดียวนี่เองที่กระตุ้นให้เกิดปรากฏการณ์ “ความสามารถลดลง” ดังกล่าวข้างต้น

ขั้นตอนที่สอง: การวินิจฉัยตนเอง ใช้ตัวค้นคืนพื้นฐานทำการอนุมานบนชุดฝึกฝน เพื่อคัดกรองตัวอย่างที่ค้นคืนผิดพลาดโดยเฉพาะ ตัวอย่างเชิงลบเหล่านี้ที่สามารถทำให้ตัวค้นคืนสับสนด้วยคะแนนสูง มักมีความแตกต่างเชิงภาพเพียงเล็กน้อยกับคำตอบที่ถูกต้อง พวกมันคือ “จุดบอด” ที่ความสามารถของโมเดลลดลงและการรับรู้คลุมเครือ

ขั้นตอนที่สาม: การสร้างเพื่อแก้ไข สำหรับตัวอย่างผิดพลาดที่คัดกรองได้ ทีมวิจัยได้ออกแบบกลไกการเหนี่ยวนำการคิดแบบลูกโซ่ที่มีตรรกะ严密 แทนที่จะให้โมเดลขนาดใหญ่บรรยายภาพใหม่ง่ายๆ กระบวนการ “อธิบายโจทย์” นี้ถูกแบ่งออกเป็นสองขั้นตอนหลัก:

การแยกและตรวจสอบความตั้งใจ: โมเดลขนาดใหญ่จะแยกคำสั่งดัดแปลงดั้งเดิมออกเป็น “ความตั้งใจระดับอะตอม” หลายๆ อย่าง และตรวจสอบทีละอย่างโดยเทียบกับภาพอ้างอิงและภาพผิดพลาด เพื่อระบุตำแหน่งที่ชัดเจนว่าความตั้งใจเชิงละเอียดใดที่ถูกละเมิดในภาพผิดพลาด
การสังเคราะห์การแก้ไขขั้นต่ำ: หลังจากชี้แจงจุดขัดแย้งแล้ว โมเดลขนาดใหญ่จะรักษาความตั้งใจที่ยังคงเป็นจริงไว้ และเขียนใหม่เฉพาะส่วนที่ถูกละเมิดเท่านั้น ดังนั้นจึงสังเคราะห์คำสั่งดัดแปลงใหม่ด้วยวิธี “ปะผ้า”

ผ่านการออกแบบที่ประณีตนี้ กรอบงานจะสร้างสามกลุ่มข้อมูลใหม่สำหรับแก้ไขที่ชี้จาก “ภาพอ้างอิง” ไปยัง “ภาพผิด” ขึ้นโดยอัตโนมัติ “การแก้ไขขั้นต่ำ” จากข้อความเดิมไปสู่ข้อความใหม่นี้ สะท้อนความแตกต่างอันละเอียดอ่อนระหว่างภาพเป้าหมายกับภาพรบกวนที่คล้ายคลึงกันในเชิงภาพ ดังนั้นจึงให้สัญญาณกำกับดูแลการจัดแนวภาพและข้อความเชิงละเอียดที่ชัดเจนและมีความหนาแน่นสูงแก่โมเดลค้นคืน วิธีการสร้างที่ปฏิบัติตาม “หลักการแก้ไขขั้นต่ำ” นี้ รักษาความสอดคล้องของการกระจายตัวระหว่างสามกลุ่มข้อมูลฝึกฝนที่สร้างขึ้นใหม่กับชุดข้อมูลดั้งเดิมให้ได้มากที่สุด สุดท้าย เสริมด้วยการกรองความสอดคล้องทางความหมายระดับการถามตอบเชิงภาพ เพื่อคัดทิ้งภาพลวงและสัญญาณรบกวน รับประกันว่า “สัญญาณแก้ไข” ที่ใช้สำหรับการปรับจูนมีความแม่นยำและมีความเที่ยงตรงสูง

ขั้นตอนที่สี่: การขัดเกลาแบบเจาะจง หลังจากได้รับคำสั่งแก้ไขที่แม่นยำแล้ว ขั้นตอนสุดท้ายคือการทำให้โมเดลวิวัฒนาการผ่านการเรียนรู้แบบเปรียบเทียบเป็นกลุ่ม กรอบงานจะรวมคำค้นดั้งเดิมและคำค้นแก้ไขที่สอดคล้องกันไว้ในแบทช์เดียวกันเพื่อทำ “การปิดกันความเสี่ยง” ร่วมกับเป้าหมายการปรับให้เหมาะสมสองชั้น บังคับให้ตัวค้นคืนแยกแยะขอบเขตระหว่างภาพและความหมายที่ละเอียดอ่อนอย่างชัดเจน ในที่สุดจึงทำให้ความสามารถในการให้เหตุผลเชิงละเอียดของโมเดลขนาดใหญ่ดั้งเดิมกลายเป็นส่วนหนึ่งของพื้นที่เวกเตอร์การค้นคืน

ผ่านชุดกลยุทธ์นี้ ตัวค้นคืนไม่เพียงแต่ได้รับความสามารถในการให้เหตุผลเชิงละเอียดที่สูญเสียไปกลับคืนมา แต่ยังทำให้มันกลายเป็นส่วนหนึ่งของการแสดงแทนเวกเตอร์ของตัวเองอย่างสมบูรณ์แบบ

ผลการทดลอง: ทำลายสถิติ SOTA ทุกสถานการณ์ ความสามารถในการค้นคืนเชิงละเอียดเพิ่มขึ้นอย่างมีนัยสำคัญ

ประสิทธิผลของกรอบงาน ReCALL ได้รับการยืนยันในการทดสอบมาตรฐานหลักหลายแห่ง

บนชุดข้อมูลซับซ้อนโดเมนเปิด CIRR ReCALL ได้คะแนน R@1 สูงสุดใหม่ 55.52% ซึ่งเพิ่มขึ้นสัมพัทธ์ 8.38% เมื่อเทียบกับโมเดลฐาน ในเซตย่อยที่ตรวจสอบความสามารถในการแยกแยะเชิงละเอียดโดยเฉพาะ คะแนน R@1 สูงถึง 81.49%
บนชุดข้อมูลแฟชั่นเชิงละเอียด FashionIQ แม้จะเผชิญกับรายการรบกวนเสื้อผ้าที่คล้ายคลึงกันอย่างยิ่ง ReCALL ยังคงแสดงผลได้ดีที่สุด โดยมีค่าเฉลี่ย R@10 ถึง 57.04%

ดังที่แสดงในกรณีการค้นคืนจริงด้านบน โมเดลฐานแสดงผลไม่ดีเมื่อเผชิญกับเงื่อนไขเชิงละเอียดเช่น “หันหน้ามองกล้อง”, “แขนเสื้อสั้น” เป็นต้น ในขณะที่โมเดลที่ผ่านการปรับเทียบด้วย ReCALL สามารถระบุเป้าหมายได้อย่างแม่นยำ

สรุป

ความสำเร็จของ ReCALL ไม่เพียงอยู่ที่การยกระดับขีดจำกัดประสิทธิภาพของการค้นคืนภาพแบบผสมผสาน แต่ยังอยู่ที่การเปิดเผยและซ่อมแซมช่องว่างที่มองไม่เห็นซึ่งมีอยู่เมื่อโมเดลขนาดใหญ่หลายรูปแบบถูกถ่ายโอนไปยังงานปลายน้ำ

การนำโมเดลขนาดใหญ่ไปใช้กับงานค้นคืน ไม่ควรเพียงแค่บีบอัด “ปัญญาแบบสร้างสรรค์” ระดับสูงของมันให้เป็น “เวกเตอร์แบบจำแนกประเภท” เดียวอย่างรุนแรง จาก “การจัดแนวแบบมืดบอด” ไปสู่วงจรปิดเชิงตรรกะ “วินิจฉัย-สร้าง-ทำให้เป็นส่วนหนึ่ง” นี่เป็นสัญลักษณ์ว่าการปรับใช้การค้นคืนของโมเดลขนาดใหญ่ได้เข้าสู่ระยะใหม่ที่เน้นการรักษาและกระตุ้นความสามารถในการให้เหตุผลดั้งเดิม

เมื่อไม่เพียงพึ่งพาข้อมูลภายนอกจำนวนมหาศาลเพื่อ “ป้อน” ตัวค้นคืนอีกต่อไป แต่ชี้นำโมเดลให้ใช้โซ่ความคิดของตัวเองเพื่อวิเคราะห์ข้อผิดพลาดและเติมเต็มจุดบอดทางการรับรู้ โมเดลไม่เพียงแต่สามารถค้นหาความสามารถในการรับรู้เชิงละเอียดที่สูญเสียไปกลับคืนมา แต่ยังแสดงความเป็นไปได้ที่กระบวนทัศน์สร้างสรรค์และจำแนกประเภททั้งสองจะมารวมกัน นี่อาจเป็นก้าวสำคัญสำหรับโมเดลขนาดใหญ่ในการบรรลุ “การปรับใช้ความสามารถโดยไม่สูญเสีย” ในภาคส่วนเฉพาะทางต่างๆ

กรอบงาน ReCALL: บรรลุการแปลงโมเดลสร้างสรรค์ไปเป็นตัวค้นคืนโดยไม่สูญเสียความสามารถ

เพื่อรับมือกับความท้าทายต่างๆ ที่โมเดลขนาดใหญ่เผชิญในงานที่ต้องใช้ความรู้เข้มข้น เช่น ภาพลวง ความรู้ล้าสมัย และต้นทุนการคำนวณสูง ทีมวิจัยได้เสนอกรอบงาน ReCALL เป้าหมายหลักของกรอบงานนี้คือ การแปลงโมเดลสร้างสรรค์ขนาดใหญ่ที่มีความรู้แบบกำหนดพารามิเตอร์แข็งตัวแล้ว ให้เป็นระบบค้นคืนที่มีประสิทธิภาพโดยไม่สูญเสียความสามารถ เพื่อใช้ประโยชน์จากฐานความรู้ภายนอกแบบไดนามิกโดยตรง

กลไกหลัก: จาก “สร้างคำตอบ” สู่ “สร้างข้อมูลอ้างอิง”

หลักการทำงานของ ReCALL ไม่ใช่การให้โมเดลขนาดใหญ่ส่งออกคำตอบที่เป็นข้อเท็จจริงโดยตรง แต่เป็นการชี้นำให้มันเล่นบทบาท “นักวิจัยอาวุโส” กระบวนการเฉพาะมีดังนี้:
1. การทำความเข้าใจคำค้น: เมื่อผู้ใช้ตั้งคำถาม โมเดลขนาดใหญ่จะทำความเข้าใจความตั้งใจของคำค้นอย่างลึกซึ้งเป็นอันดับแรก
2. การสร้างข้อมูลอ้างอิง: โมเดลสร้างคำอธิบายโดยละเอียดของ “เอกสารอ้างอิงในอุดมคติ” หนึ่งหรือหลายฉบับ ตามความรู้แบบกำหนดพารามิเตอร์ภายในของมัน คำอธิบายเหล่านี้ไม่ใช่เอกสารที่มีอยู่จริง แต่เป็นเนื้อหา โครงสร้าง และข้อมูลสำคัญที่โมเดลคิดว่าควรมีเพื่อตอบคำถามนั้นได้อย่างสมบูรณ์แบบ
3. การค้นคืนและการจับคู่: ระบบใช้คำอธิบาย “ข้อมูลอ้างอิงในอุดมคติ” ที่สร้างขึ้นเหล่านี้เป็นเวกเตอร์คำค้น เพื่อทำการค้นคืนเวกเตอร์แบบหนาแน่นในคลังเอกสารภายนอก (เช่น วิกิพีเดีย ฐานข้อมูลเฉพาะทาง) เพื่อค้นหาเอกสารจริงที่มีเนื้อหาตรงกันมากที่สุด
4. การสังเคราะห์คำตอบ: สุดท้าย ระบบจะใช้เอกสารจริงที่ค้นคืนได้เป็นหลักฐาน สังเคราะห์คำตอบที่แม่นยำและสามารถติดตามที่มาได้ เพื่อตอบกลับผู้ใช้

ความก้าวหน้าทางเทคนิค: การฝึกสองระยะบรรลุการแปลงโดยไม่สูญเสีย

กุญแจสำคัญในการทำให้กระบวนการข้างต้นเป็นจริง อยู่ที่วิธีการทำให้โมเดลขนาดใหญ่เรียนรู้ที่จะสร้าง “คำอธิบายอ้างอิง” ที่มีคุณภาพสูง กรอบงาน ReCALL แก้ไขปัญหานี้ผ่านแผนการฝึกสองระยะที่ประณีต:
* ระยะที่หนึ่ง: การปรับจูนภายใต้การกำกับดูแล: ใช้ข้อมูลคู่คำถาม-เอกสารอ้างอิงคุณภาพสูง ฝึกโมเดลให้เรียนรู้สร้างคำอธิบายเอกสารอ้างอิงที่สอดคล้องกันตามคำถาม ขั้นตอนนี้ให้ความสามารถเบื้องต้นในการ “สร้างข้อมูลอ้างอิง” แก่โมเดล
* ระยะที่สอง: การจัดแนวความชอบ: ระยะนี้เป็นหัวใจของการยกระดับประสิทธิผล ทีมวิจัยสร้าง “สภาพแวดล้อมจำลองการค้นคืน” ผ่านเทคโนโลยีการเรียนรู้แบบเสริมกำลัง เพื่อให้คำอธิบายอ้างอิงที่โมเดลสร้างขึ้นได้รับข้อเสนอแนะและการปรับให้เหมาะสมใน “การค้นคืนจำลอง” กับคลังเอกสารจริง โ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง