LightRetriever: สร้างความเปลี่ยนแปลงครั้งใหญ่! สถาปัตยกรรมการค้นคืน LLM ที่เร็วขึ้นเป็นพันเท่า ขจัดภาระการคำนวณออกจากฝั่งการสืบค้นโดยสิ้นเชิง

2026年2月22日 pm6:51 • การอนุมานโมเดลขนาดใหญ่ • 185 views

ในปีที่ผ่านมา เทคโนโลยีการค้นคืนข้อความโดยใช้โมเดลภาษาขนาดใหญ่ (LLM-based Text Retrieval) ได้พัฒนาอย่างรวดเร็ว โดยโมเดล LLM Embedding หลักส่วนใหญ่มีพารามิเตอร์มากกว่า 7B พันล้านตัว ซึ่งในขณะที่ประสิทธิภาพการค้นหาความเกี่ยวข้องดีขึ้น ก็ทำให้ต้นทุนการปรับใช้เพิ่มขึ้นอย่างมากเช่นกัน

โมเดล LLM Embedding แบบดั้งเดิมมักใช้โครงสร้างแบบหอคอยคู่สมมาตร โดยฝั่งคำค้นหา (Query) และฝั่งเอกสาร (Doc) ใช้โมเดลภาษาขนาดใหญ่แบบเดียวกันทั้งหมด อย่างไรก็ตาม มีปัญหาหนึ่งที่ถูกละเลยมาเป็นเวลานาน: ในสถานการณ์การอนุมานออนไลน์ ฝั่งคำค้นหาจำเป็นต้องใช้โมเดลขนาดใหญ่ที่มี “น้ำหนัก” เท่ากับฝั่งเอกสารจริงหรือไม่? งานวิจัยล่าสุดของเรา LightRetriever ให้คำตอบที่ชัดเจนและก้าวหน้า: ไม่จำเป็น การทดลองจำนวนมากยืนยันความเป็นไปได้ของมุมมองนี้

LightRetriever ออกแบบโมเดล LLM Embedding ที่มีโครงสร้างแบบไม่สมมาตรขั้นสุด โดยฝั่งเอกสารใช้โมเดล LLM แบบเต็มในการสร้างแบบจำลอง ในขณะที่ฝั่งคำค้นหาใช้ตารางค้นหา Embedding เพียงชั้นเดียวมากที่สุด การออกแบบขั้นสุดนี้ช่วยลดภาระการอนุมานของฝั่งคำค้นหาได้อย่างมาก ในขณะที่ยังคงรักษาประสิทธิภาพการค้นหาข้อความคุณภาพสูงของโมเดลขนาดใหญ่ไว้ได้ เมื่อเทียบกับการออกแบบมาตรฐานที่ทั้งฝั่งคำค้นหาและเอกสารใช้โมเดล LLM แบบเต็ม LightRetriever ทำให้ความเร็วการอนุมานฝั่งคำค้นหาเพิ่มขึ้นมากกว่า 1,000 เท่า QPS แบบ end-to-end เพิ่มขึ้น 10 เท่า และยังคงรักษาประสิทธิภาพไว้ที่ประมาณ 95% ของโมเดลฐานบนชุดทดสอบการค้นคืนภาษาจีนและอังกฤษ เช่น BeIR และ CMTEB-Retrieval

งานวิจัยนี้ดำเนินการร่วมกันโดยสถาบันวิศวกรรมสารสนเทศ สภาวิทยาศาสตร์จีน และบริษัท LanZhou Technology และได้รับการตีพิมพ์ในงานประชุมระดับนานาชาติชั้นนำด้านการเรียนรู้ของเครื่อง ICLR 2026 ICLR (International Conference on Learning Representations) เป็นหนึ่งในงานประชุมระดับสูงสุดในสาขาการเรียนรู้ของเครื่องและการเรียนรู้การแทนค่า ซึ่งได้รับการยอมรับว่าเป็นงานประชุมวิชาการที่มีอิทธิพลมากที่สุดในสาขาปัญญาประดิษฐ์ ร่วมกับ NeurIPS และ ICML สำหรับ ICLR 2026 นี้ มีการส่งบทความที่มีผลมากกว่า 19,000 เรื่อง และอัตราการรับตีพิมพ์อยู่ที่ประมาณ 28%

LightRetriever: สร้างความเปลี่ยนแปลงครั้งใหญ่! สถาปัตยกรรมการค้นคืน LLM ที่เร็วขึ้นเป็นพันเท่า ขจัดภาระการคำนวณออกจากฝั่งการสืบค้นโดยสิ้นเชิง

ชื่อบทความ: LightRetriever: A LLM-based Text Retrieval Architecture with Extremely Faster Query Inference
ลิงก์บทความ: https://arxiv.org/abs/2505.12260

LightRetriever: โมเดล LLM Embedding แบบไม่สมมาตรขั้นสุด

แนวคิดหลักของ LightRetriever ชัดเจนมาก: โอนย้ายภาระการคำนวณหลักของการสร้างแบบจำลองเชิงลึกไปยังฝั่งเอกสารโดยสมบูรณ์ โดยฝั่งคำค้นหาเก็บรักษาเพียงความสามารถในการแทนค่าที่จำเป็นและสามารถแคชได้ สำหรับกระบวนทัศน์หลักสองประการของการค้นคืนแบบหนาแน่นและการค้นคืนแบบเบาบาง LightRetriever ได้ออกแบบวิธีการสร้างแบบจำลองแบบไม่สมมาตรขั้นสุดแยกกัน

ภาพ: ในการค้นคืนแบบหนาแน่น/เบาบาง โมเดล LLM Embedding แบบสมมาตร (ซ้าย) ใช้การอนุมานโมเดลแบบเต็มมาตรฐานที่ฝั่งคำค้นหา ซึ่งมีภาระหนัก ในขณะที่ LightRetriever (ขวา) ลดต้นทุนการอนุมานคำค้นหาได้อย่างมาก โดยภาระของฝั่งคำค้นหาลดลงเหลือไม่เกินหนึ่งชั้นของตารางค้นหา Embedding

การค้นคืนแบบหนาแน่น (Dense Retrieval)
ในขั้นตอนการฝึกฝน ฝั่งเอกสารยังคงใช้วิธีการสร้างแบบจำลองด้วยโมเดล LLM แบบเต็มเหมือนเดิม LightRetriever ทำการสร้างแบบจำลองฝั่งคำค้นหาแบบ “ถุงคำ” (Bag-of-Words): โมเดล LLM แบบเต็มรับ “คำสั่ง + โทเค็นคำค้นหาเดียว (Token)” เป็นอินพุต ขั้นแรกสร้างแบบจำลองการฝังโทเค็น (Token Embedding) จากนั้นหาค่าเฉลี่ยเพื่อได้เวกเตอร์ประโยคคำค้นหา และใช้การเรียนรู้แบบเปรียบเทียบ (Contrastive Learning) เพื่อให้ได้การฝังโทเค็นที่ได้รับการปรับปรุง

จุดสำคัญคือ การฝังโทเค็นที่ฝึกเสร็จแล้วเหล่านี้สามารถถูกแคชทั้งหมดเป็นเมทริกซ์การฝังระดับคำศัพท์ (Vocabulary-level Embedding Matrix) ได้ ในการอนุมานออนไลน์ การสร้างเวกเตอร์ประโยคคำค้นหาต้องใช้เพียงการค้นหาตารางการฝังโทเค็นและหาค่าเฉลี่ยอย่างง่ายหนึ่งครั้ง ไม่เกี่ยวข้องกับการอนุมานไปข้างหน้า (Forward Inference) ของ LLM อีกต่อไป เนื่องจากฝั่งคำค้นหายังคงต้องมีโมเดล LLM แบบเต็มเข้าร่วมในการสร้างแบบจำลองในขั้นตอนการฝึกฝน การค้นคืนแบบหนาแน่นจึงยึดตามแนวคิดการออกแบบ “ฝึกเต็มรูปแบบ อนุมานเบา” การทดลอง ablation ในภายหลังพิสูจน์ว่าการตั้งค่า “ฝึกเต็มรูปแบบ” นี้ขาดไม่ได้

ภาพ: การออกแบบการค้นคืนแบบหนาแน่นของ LightRetriever ยึดตามแนวคิด “ฝึกเต็มรูปแบบ + อนุมานเบา” ผ่านการสร้างแบบจำลองฝั่งคำค้นหาแบบถุงคำ ทำลายการพึ่งพาบริบท ทำให้การอนุมานเวกเตอร์ฝั่งคำค้นหามีคุณสมบัติที่สามารถแคชได้ เพียงแค่แคชครั้งเดียว ก็สามารถปรับใช้บริการอนุมานคำค้นหาโดยไม่ต้องใช้ LLM ได้

การค้นคืนแบบเบาบาง (Sparse Retrieval)
ในการค้นคืนแบบเบาบาง การออกแบบของ LightRetriever ยิ่งขั้นสุดกว่า: ฝั่งคำค้นหาถูกทำให้ง่ายลงเป็นการแมป “ID โทเค็น -> ความถี่คำ” ในพื้นที่คำศัพท์ โดยลบพารามิเตอร์โมเดลที่เรียนรู้ได้ออกไปทั้งหมด

ในทำนองเดียวกัน ใช้การเรียนรู้แบบเปรียบเทียบแบบ end-to-end โดยใช้โมเดล LLM แบบเต็มที่ฝั่งเอกสาร เพื่อเรียนรู้เวกเตอร์แบบเบาบางที่อิงตามความถี่คำ (TF-based) คล้ายกับวิธี SPLADE

ภาพ: การออกแบบการค้นคืนแบบเบาบางของ LightRetriever ยิ่งขั้นสุดกว่า ฝั่งคำค้นหาใช้เพียงวิธีการทางสถิติแบบถุงคำเพื่อสร้างแบบจำลองคุณลักษณะความถี่คำ เพื่อให้ได้การอนุมานออนไลน์ที่มีประสิทธิภาพสูงโดยไม่ต้องใช้ LLM

คำค้นหาที่เบาบางขั้นสุด ไม่ได้นำมาซึ่งการสูญเสียประสิทธิภาพอย่างหายนะ

โดยสัญชาตญาณ การลบการสร้างแบบจำลองบริบทเชิงลึกออกจากฝั่งคำค้นหาน่าจะทำลายประสิทธิภาพการค้นคืนอย่างเห็นได้ชัด อย่างไรก็ตาม ผลการทดลองขนาดใหญ่ให้ข้อสรุปที่น่าประหลาดใจ:

บนเกณฑ์มาตรฐานการค้นคืนข้อความหลายงาน เช่น BeIR (ภาษาอังกฤษ) และ CMTEB-Retrieval (ภาษาจีน) เมื่อเทียบกับโมเดล LLM Embedding แบบสมมาตรแบบเต็ม ตัวบ่งชี้การจัดอันดับ nDCG@10 ของ LightRetriever ลดลงเพียง 1–5 เปอร์เซ็นต์ โดยประสิทธิภาพโดยเฉลี่ยยังคงอยู่ที่ประมาณ 95% ที่สำคัญกว่านั้น ระดับประสิทธิภาพของวิธีนี้สูงกว่าวิธีการแบบเบาบางแบบดั้งเดิม (เช่น BM25, SPLADE) และโมเดลการค้นคืนแบบเบาหรือแบบกลั่นกรองหลายแบบอย่างมาก และเข้าใกล้ประสิทธิภาพของวิธีการ LLM Embedding คลาสสิก เช่น LLM2Vec และ E5-Mistral ภายใต้การตั้งค่าข้อมูลฝึกอบรมโอเพ่นซอร์สที่คล้ายคลึงกัน

นี่แสดงให้เห็นว่า: ในงานค้นคืนส่วนใหญ่ที่มุ่งเน้นความเกี่ยวข้อง ฝั่งคำค้นหาไม่จำเป็นต้องมีการโต้ตอบเชิงลึกของโทเค็นแบบเต็มรูปแบบ ก็สามารถจับคู่กับโครงสร้างความหมายที่ฝั่งเอกสารเรียนรู้ได้

ตาราง: ผลการทดลองหลักของ BeIR / CMTEB-Retrieval ประกอบด้วยการเปรียบเทียบประสิทธิภาพการค้นคืนของโมเดลฐาน Embedding คลาสสิก เครื่องมือค้นหา LLM แบบสมมาตรแบบเต็ม และ LightRetriever

บทความยังเปรียบเทียบประสิทธิภาพเชิงละเอียดของ LightRetriever ในงานต่างๆ อีกด้วย ตัวอย่างเช่นใน BeIR LightRetriever มีประสิทธิภาพดีเยี่ยมในงานค้นคืนความเกี่ยวข้องทั่วไปส่วนใหญ่ โดยมีประสิทธิภาพถึงกว่า 93% ของโครงสร้างแบบสมมาตรเต็มรูปแบบ ในงานที่ท้าทายมากขึ้นนอกการกระจาย (OOD) เช่น คำถาม-ตอบเฉพาะด้าน การค้นคืนเอนทิตี การทำนายการอ้างอิง ประสิทธิภาพยังคงอยู่ที่ 87% ถึง 89% แม้ว่าประสิทธิภาพสัมพัทธ์จะลดลงเล็กน้อย แต่ค่าประสิทธิภาพสัมบูรณ์ของงานเหล่านี้ยังคงมีความสามารถในการแข่งขันที่แข็งแกร่ง

ตาราง: ประสิทธิภาพของ LightRetriever และอัตราการรักษาประสิทธิภาพสัมพัทธ์ (Retention) เมื่อเทียบกับโมเดลฐาน ในงานต่างๆ ของ BeIR

ความเร็วของบริการคำค้นหาเพิ่มขึ้นอย่างมาก

การออกแบบที่ทำให้คำค้นหาเบาบางของ LightRetriever นำมาซึ่งการเพิ่มประสิทธิภาพการอนุมานในระดับก้าวกระโดด

ในการเข้ารหัส 64k คำค้นหาในสถานการณ์การค้นคืน MSMARCO โมเดล Llama-8B แบบเต็มต้องใช้เวลามากกว่า 100 วินาที ในขณะที่เวลาเข้ารหัสคำค้นหาของ LightRetriever ใช้เวลาเพียง 0.04 วินาที ทำให้ได้ความเร่งในการเข้ารหัสมากกว่า 1,000 เท่า แม้จะพิจารณาเวลาในการค้นหาดัชนีของ Faiss (การค้นคืนแบบหนาแน่น) และ Lucene (การค้นคืนแบบเบาบาง) ปริมาณงานแบบ end-to-end (QPS) ยังคงเพิ่มขึ้นมากกว่า 10 เท่า บทความยังได้ลองใช้ baseline การตัดแต่งชั้น Transformer คลาสสิก: ใช้เพียงชั้น Transformer ชั้นแรกของ Llama-8B ที่ฝั่งคำค้นหาในการฝึกฝนและอนุมาน อย่างไรก็ตาม การตั้งค่านี้ทั้งประสิทธิภาพการค้นคืนและ QPS ต่างก็ไม่ดีเท่ากับ LightRetriever เนื่องจากในระหว่างการฝึกฝน ฝั่งคำค้นหายังขาดการสร้างแบบจำลอง LLM แบบเต็ม นี่พิสูจน์ความสมเหตุสมผลของแนวคิดการออกแบบ “ฝึกเต็มรูปแบบ + อนุมานเบา”

ตาราง: การเปรียบเทียบเวลาเข้ารหัสคำค้นหาและ QPS แบบ end-to-end

ทำไมการออกแบบ “ฝึกเต็มรูปแบบ + อนุมานเบา” จึงจำเป็น และไม่ได้มีประสิทธิภาพโดยบังเอิญ?

ในสถาปัตยกรรมการค้นคืนแบบหนาแน่นของ LightRetriever ฝั่งคำค้นหา (Query) ใช้การสร้างแบบจำลองแบบเต็มในระหว่างการฝึกฝน แต่ในระหว่างการอนุมานจะถูกแปลงเป็นชั้นฝัง (Embedding Layer) ที่มีประสิทธิภาพ เพื่อตรวจสอบความสมเหตุสมผลของการออกแบบนี้ การวิจัยได้ทำการทดลอง ablation สองชุดต่อไปนี้:

A1) ฝั่งเอกสาร (Doc) ใช้ชั้นฝังในระหว่างการอนุมานด้วย
A2) ฝั่งคำค้นหา (Query) ใช้ชั้นฝังโดยตรงในระหว่างการฝึกฝน

การทดลองทั้งสองชุดนำไปสู่การลดลงของประสิทธิภาพการค้นคืนอย่างมาก นี่แสดงให้เห็นว่าในการค้นคืนข้อความด้วยโมเดลขนาดใหญ่ การลบการสร้างแบบจำลองเชิงลึกออกไปอย่างง่ายๆ ไม่ใช่ทางเลือกที่เป็นไปได้

การทดลอง ablation ชุดที่หนึ่ง (A1) พิสูจน์ว่า: ฝั่งเอกสารจำเป็นต้องมีกระบวนการสร้างแบบจำลองแบบเต็มเสมอ ในขณะที่ฝั่งคำค้นหาสามารถสร้างแบบจำลองโดยประมาณได้ผ่านวิธีการแบบถุงคำ

การทดลอง ablation ชุดที่สอง (A2) พิสูจน์ว่า: นวัตกรรมหลักของ LightRetriever ไม่ได้อยู่ที่ “การลดการสร้างแบบจำลอง” แต่อยู่ที่การจัดสรรภาระการสร้างแบบจำลองใหม่ไปยังขั้นตอนต่างๆ — ทำการสร้างแบบจำลองอย่างเต็มที่ร่วมกับฝั่งเอกสารในขั้นตอนการฝึกฝน และนำเวกเตอร์คำค้นหาที่สามารถแคชได้กลับมาใช้ใหม่ให้มากที่สุดในขั้นตอนการอนุมาน เพื่อให้บรรลุ “ฝึกเต็มรูปแบบ อนุมานเบา”

จากมุมมองนี้ LightRetriever ไม่ใช่เพียงการปรับโครงสร้างโมเดลเล็กน้อย แต่เป็นการทบทวนกระบวนทัศน์การคำนวณการค้นคืนแบบหอคอยคู่ของโมเดลภาษาขนาดใหญ่อย่างถึงรากฐาน

ตาราง: ผลการทดลอง ablation ความสมมาตร A1) ทำให้ฝั่งเอกสารเบาบางแบบถุงคำในระหว่างการอนุมาน; A2) ใช้ถุงคำฝังโดยตรงที่ฝั่งคำค้นหาในระหว่างการฝึกฝน ทั้งสองอย่างนำไปสู่การลดลงของประสิทธิภาพอย่างมีนัยสำคัญ

สรุป: เมื่อการปรับใช้ฝั่งคำค้นหาไม่ใช่ภาระอีกต่อไป การค้นคืนด้วย LLM จึงจะมีความสามารถในการขยายตัวอย่างแท้จริง

LightRetriever แสดงให้เห็นว่าโมเดลฝัง LLM คุณภาพสูงไม่จำเป็นต้องมาพร้อมกับต้นทุนการอนุมานออนไลน์ที่สูงเสมอไป ด้วยการแยกแยะบทบาทของคำค้นหาและเอกสารในกระบวนการค้นคืนอย่างชัดเจน และการท้าทายสมมติฐานการออกแบบที่ยึดถือมาเป็นเวลานานอย่าง “การสร้างแบบจำลองแบบสมมาตร” ระบบการค้นคืนสามารถรักษาประสิทธิภาพไว้ได้ ในขณะที่เพิ่มประสิทธิภาพในระดับก้าวกระโดด

สำหรับระบบการค้นคืนที่มุ่งสู่สถานการณ์การใช้งานจริง กรอบงาน RAG และบริการค้นหาออนไลน์ แนวคิดการสร้างแบบจำลองที่ทำให้คำค้นหาเบาบางนี้ อาจมีคุณค่าทางการใช้งานจริงมากกว่าการแสวงหาโมเดลที่ใหญ่ขึ้นเพียงอย่างเดียว

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง