Cog-RAG: ทำให้ RAG คิดก่อนการค้นหา โดยใช้โครงสร้างไฮเปอร์กราฟคู่เพื่อจำลองกระบวนการรับรู้ของมนุษย์

2026年2月23日 pm4:39 • วิศวกรรมโมเดลขนาดใหญ่ • 230 views

Retrieval-Augmented Generation (RAG) ได้กลายเป็นวิธีมาตรฐานในการช่วยให้โมเดลภาษาขนาดใหญ่ (LLMs) ยังคง “มีหลักฐาน” อยู่ กระบวนการพื้นฐานเป็นที่รู้จักกันดี: แบ่งเอกสารออกเป็นส่วนย่อย (chunks) ฝังเวกเตอร์ (embedding) ดำเนินการค้นหาเวกเตอร์ (vector retrieval) และสุดท้ายป้อนผลลัพธ์ K อันดับแรกที่ตรงกันที่สุดให้กับ LLM เพื่อสร้างคำตอบ

อย่างไรก็ตาม ไปป์ไลน์มาตรฐานนี้มีข้อจำกัดโดยธรรมชาติบางประการ

ทำไมระบบ RAG ส่วนใหญ่ยังคงเหมือนความทรงจำที่แตกกระจาย

Cog-RAG: ทำให้ RAG คิดก่อนการค้นหา โดยใช้โครงสร้างไฮเปอร์กราฟคู่เพื่อจำลองกระบวนการรับรู้ของมนุษย์

รูปที่ 1: การเปรียบเทียบการสร้างแบบจำลองความรู้ระหว่างกราฟ ไฮเปอร์กราฟ และ Cog-RAG (RAG ที่เสริมด้วยธีม) [ที่มา]

จับคู่เฉพาะส่วน ไม่มีความเข้าใจภาพรวม

RAG แบบดั้งเดิมมองว่าเอกสารเป็นรายการส่วนย่อยแบบแบนราบ ตัวดึงข้อมูล (retriever) จะจับคู่และให้คะแนนแต่ละส่วนย่อยกับข้อคำถามอย่างอิสระโดยสิ้นเชิง โดยไม่เข้าใจความสัมพันธ์ภายในระหว่างส่วนย่อยต่างๆ

สิ่งนี้นำไปสู่ผลลัพธ์การค้นหาที่มักจะเป็นกลุ่มของย่อหน้าที่นำมาต่อกันแบบสะเปะสะปะ ซึ่งอาจเกี่ยวข้องกันอย่างหลวมๆ แต่ขาดโครงสร้างที่ต่อเนื่องและ “ภาพรวม” ที่เป็นเอกภาพ

RAG แบบกราฟ: แก่นแท้ยังคงเป็นการเชื่อมต่อแบบคู่

วิธีการล่าสุด เช่น GraphRAG, LightRAG พยายามปรับปรุงปัญหานี้โดยการสร้างกราฟความรู้ (knowledge graph) จากเอกสาร

พวกมันดึงเอาสิ่งที่เป็นนามธรรม (entities) และความสัมพันธ์ (relations) เปลี่ยนข้อความเป็นโครงสร้างกราฟที่สามารถสืบค้นได้ นี่เพิ่มโครงสร้างบางอย่างขึ้นมาจริงๆ — สามารถสร้างแบบจำลอง “สิ่งใดที่เกี่ยวข้องกัน” แต่ระบบส่วนใหญ่ยังคงถูกจำกัดด้วยการเชื่อมต่อแบบคู่ที่เรียบง่าย หากธีมหนึ่งเกี่ยวข้องกับการทำงานร่วมกันของสิ่งที่เป็นนามธรรมหลายอย่าง ความซับซ้อนที่ละเอียดอ่อนนี้จะถูกทำให้เรียบหายไป

ไฮเปอร์กราฟเพิ่มความซับซ้อน แต่ยังคงพลาด “ธีมใหญ่”

วิธีการแบบไฮเปอร์กราฟ ซึ่งเป็นตัวแทนของ Hyper-RAG ก้าวไปอีกขั้น โดยอนุญาตให้ขอบ (edge) หนึ่งเส้นเชื่อมต่อสิ่งที่เป็นนามธรรมหลายตัว ช่วยในการจับความสัมพันธ์ระดับสูง (high-order) ที่ซับซ้อน อย่างไรก็ตาม วิธีการประเภทนี้มักถูกจำกัดอยู่ที่การแสดงในระดับสิ่งที่เป็นนามธรรม ทำให้ยากต่อการสร้างแบบจำลองการจัดระเบียบธีมระดับโลกที่ข้ามส่วนย่อยของเอกสาร

พวกมันไม่สามารถอธิบายได้ว่าธีมพัฒนาขึ้นในส่วนย่อยต่างๆ อย่างไร หรือข้อมูลมารวมกันภายใต้การเล่าเรื่อง/หัวข้อที่แบ่งปันกันอย่างไร

Cog-RAG: RAG แบบไฮเปอร์กราฟคู่ที่จัดแนวด้วยธีม

เมื่อมนุษย์แก้ปัญหา พวกเราไม่ได้ค้นหาอย่างสุ่มสี่สุ่มห้าในกองบันทึกย่อที่กระจัดกระจาย เรามักจะกำหนดธีมหลักหรือกรอบปัญหาก่อน จากนั้นจึงเจาะลึกลงไปในข้อเท็จจริงหรือตัวอย่างเฉพาะเจาะจง

Cog-RAG ได้รับแรงบันดาลใจจากกระบวนการรับรู้แบบบนลงล่าง (top-down) นี้: มันจะดึงธีมที่เกี่ยวข้องจากเอกสารทั้งหมดก่อน จากนั้นจึงเจาะลึกลงไปในรายละเอียดระดับละเอียดของสิ่งที่เป็นนามธรรม จัดระเบียบกระบวนการค้นหาให้อยู่บน “ภาพใหญ่” แทนที่จะพึ่งพาเพียงการจับคู่ข้อความซ้ำซ้อนในระดับท้องถิ่น

Cog-RAG ตั้งอยู่บนแนวคิดหลักสองประการ:
* ใช้ไฮเปอร์กราฟสองประเภทที่เสริมกันเพื่อจัดทำดัชนีความรู้
* ใช้กระบวนการค้นหาแบบสองขั้นตอน เพื่อเลียนแบบการคิดของมนุษย์: เข้าใจภาพรวมก่อน แล้วจึงเจาะลึกรายละเอียด

รูปที่ 2: กรอบงานโดยรวมของ Cog-RAG [ที่มา]

สถาปัตยกรรมแบบเต็มแสดงในรูปที่ 2 นี่คือไปป์ไลน์แบบสมบูรณ์ตั้งแต่การจัดทำดัชนีเอกสารไปจนถึงการสร้างคำตอบสุดท้าย

โดยเฉพาะอย่างยิ่ง Cog-RAG ประกอบด้วยสองส่วนหลัก: การจัดทำดัชนีแบบไฮเปอร์กราฟคู่ และกระบวนการค้นหาแบบสองขั้นตอนที่คล้ายกับการรับรู้:
* การจัดทำดัชนีแบบไฮเปอร์กราฟคู่: สร้างแบบจำลองโครงสร้างธีมระดับโลกที่ข้ามส่วนย่อยผ่านไฮเปอร์กราฟธีม และสร้างแบบจำลองเครือข่ายสิ่งที่เป็นนามธรรมระดับละเอียดภายในส่วนย่อยผ่านไฮเปอร์กราฟสิ่งที่เป็นนามธรรม เพื่อจัดระเบียบความรู้ในเอกสาร
* การค้นหาแบบสองขั้นตอน:
1. ขั้นตอนที่หนึ่ง: การค้นหาไฮเปอร์กราฟที่รับรู้ธีม ค้นหาธีมและสิ่งที่เป็นนามธรรมหลักที่เกี่ยวข้องกับข้อคำถาม สร้างโครงสร้างเชิงความหมายระดับโลก (global semantic scaffold)
2. ขั้นตอนที่สอง: การค้นหาไฮเปอร์กราฟสิ่งที่เป็นนามธรรมที่จัดแนวด้วยธีม ตามแนวของธีมที่ระบุแล้ว ขยายการค้นหาในไฮเปอร์กราฟสิ่งที่เป็นนามธรรม รวมสิ่งที่เป็นนามธรรมระดับละเอียดและความสัมพันธ์ระดับสูง

แยกย่อยเพิ่มเติม: ไฮเปอร์กราฟคู่และการค้นหาแบบสองขั้นตอน

การจัดทำดัชนีแบบไฮเปอร์กราฟคู่

Cog-RAG ใช้ไฮเปอร์กราฟสองประเภทที่แตกต่างกันเพื่อสร้างความเข้าใจต่อเอกสาร แต่ละประเภทจับโครงสร้างเชิงความหมายในระดับที่ต่างกัน:
* ไฮเปอร์กราฟธีม จับความสัมพันธ์ที่ข้ามส่วนย่อยของเอกสาร แต่ละไฮเปอร์เอดจ์ (hyperedge) แสดงถึงธีมหรือลำดับการเล่าเรื่องที่สรุปโดยอัตโนมัติโดยโมเดลภาษา ธีมเหล่านี้ทำหน้าที่เป็นจุดยึดเชิงความหมายระดับโลก ช่วยให้กระบวนการค้นหามีความโฟกัสและสม่ำเสมอ ลดความเสี่ยงที่คำตอบจะออกนอกเรื่อง
* ไฮเปอร์กราฟสิ่งที่เป็นนามธรรม ทำงานภายในส่วนย่อยเดียว ไฮเปอร์เอดจ์ของมันแสดงถึงความสัมพันธ์ระดับสูงระหว่างสิ่งที่เป็นนามธรรมหลายตัว เช่น เหตุการณ์ ห่วงโซ่เหตุและผล หรือการปรากฏร่วมกันบ่อยครั้งของกลุ่มสิ่งที่เป็นนามธรรม กราฟนี้ให้รายละเอียดระดับละเอียด และสนับสนุนการให้เหตุผลเชิงความหมายระดับสูง เติมเต็มช่องว่างของบริบทเฉพาะภายใต้ธีมระดับมหภาค

รูปที่ 3: ตัวอย่างการแสดงภาพไฮเปอร์กราฟสิ่งที่เป็นนามธรรม [ที่มา]

วิธีการสร้าง:
1. แบ่งเอกสารออกเป็นส่วนย่อยที่ทับซ้อนกันโดยใช้หน้าต่างเลื่อน (sliding window) สำหรับแต่ละส่วนย่อย ใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อดึงบทสรุปธีมและสิ่งที่เป็นนามธรรมหลักของมัน เพื่อใช้สร้างไฮเปอร์กราฟธีม
2. ภายในแต่ละส่วนย่อย ดึงสิ่งที่เป็นนามธรรมและความสัมพันธ์ทั้งแบบคู่ (low-order) และระดับกลุ่ม (high-order) เพื่อประกอบเป็นไฮเปอร์กราฟสิ่งที่เป็นนามธรรม

วิธีการจัดเก็บ:
จัดเก็บไฮเปอร์กราฟธีมและสิ่งที่เป็นนามธรรมทั้งสองประเภทลงในฐานข้อมูลไฮเปอร์กราฟ เมื่อค้นหา จะผสมผสานการค้นหาความคล้ายคลึงเชิงเวกเตอร์ (เช่น บนไฮเปอร์เอดจ์ธีมหรือโหนดสิ่งที่เป็นนามธรรม) กับอัลกอริธึมการแพร่กระจายแบบไฮเปอร์กราฟที่มีโครงสร้าง

การค้นหาแบบสองขั้นตอนที่ได้รับแรงบันดาลใจจากการรับรู้

การค้นหาของ Cog-RAG แบ่งออกเป็นสองขั้นตอน เลียนแบบวิธีการประมวลผลข้อมูลของมนุษย์อย่างหลวมๆ: เข้าใจธีมที่กว้างขึ้นก่อน แล้วจึงเติมเต็มรายละเอียดเฉพาะ
* ขั้นตอนที่หนึ่ง: การค้นหาแบบขับเคลื่อนด้วยธีม ระบบรับข้อคำถามจากผู้ใช้ และดึงคำหลักระดับธีม ใช้คำหลักเหล่านี้เพื่อจับคู่ไฮเปอร์เอดจ์ธีมในไฮเปอร์กราฟธีม และขยายไปยังโหนดใกล้เคียง เพื่อสร้างซับกราฟ (subgraph) ที่มีโฟกัสเพื่อจับธีมที่เกี่ยวข้อง จากนั้นสร้างร่างคำตอบระดับหยาบที่มีความตระหนักรู้ในธีม บันทึกเป็น A_theme
* ขั้นตอนที่สอง: การเรียกคืนรายละเอียด รวม A_theme กับคำหลักระดับสิ่งที่เป็นนามธรรมที่ดึงมาจากข้อคำถามดั้งเดิม ใช้สิ่งนี้เพื่อนำทางในไฮเปอร์กราฟสิ่งที่เป็นนามธรรม ค้นหาสิ่งที่เป็นนามธรรมที่เกี่ยวข้องที่สุด จากนั้นขยายตามขอบระดับสูงเพื่อขุดค้นความสัมพันธ์ที่ลึกขึ้น ได้ซับกราฟสิ่งที่เป็นนามธรรมที่สมบูรณ์ยิ่งขึ้น สุดท้าย ผสานคำตอบธีมเริ่มต้น A_theme กับรายละเอียดสิ่งที่เป็นนามธรรมเหล่านี้ เพื่อสร้างคำตอบสุดท้าย A

การออกแบบหลักอื่นๆ:
* การดึงคำหลักอัตโนมัติเต็มรูปแบบ: ระบบใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อแยกข้อคำถามออกเป็นคำหลักระดับธีมและระดับสิ่งที่เป็นนามธรรมโดยอัตโนมัติ โดยไม่ต้องใช้กฎที่กำหนดด้วยมือ
* การจัดแนวธีม-สิ่งที่เป็นนามธรรมในตัว: ใช้พรอมต์ (prompt) เพื่อชี้นำโมเดลให้เลือกสิ่งที่เป็นนามธรรมที่ “เกี่ยวข้องที่สุดและเสริมกัน” โดยใช้ A_theme เป็นบริบท เพื่อให้แน่ใจว่ารายละเอียดท้องถิ่นสอดคล้องกับธีมระดับโลก

การประเมินผล

รูปที่ 4: อัตราชนะเฉลี่ยของหกเมตริกการประเมินบนห้าชุดข้อมูล เปรียบเทียบระหว่างโมเดลฐานและ Cog-RAG หกเมตริกคือ: ความครอบคลุม (Comprehensiveness) การเสริมพลัง (Empowerment) ความเกี่ยวข้อง (Relevance) ความสอดคล้อง (Consistency) ความชัดเจน (Clarity) และตรรกะ (Logicality) [ที่มา]

ในผลการประเมินแบบเลือก (choice-based) บนชุดข้อมูล Mix ดังแสดงในรูปที่ 4 เมื่อเทียบกับ NaiveRAG อัตราชนะโดยรวมของ Cog-RAG อยู่ที่ 84.5% ในการเปรียบเทียบแบบคู่กับฐานที่แข็งแกร่งที่สุด Hyper-RAG อัตราชนะโดยรวมของ Cog-RAG อยู่ที่ 53.2% ในขณะที่ Hyper-RAG อยู่ที่ 46.8% Cog-RAG นำหน้า 6.4 เปอร์เซ็นต์

ความแข็งแกร่งข้าม LLMs ที่ต่างกัน: ไม่ว่าจะใช้ GPT-4o-mini, Qwen-Plus, GLM-4-Air, DeepSeek-V3 หรือ LLaMA-3.3–70B Cog-RAG ได้รับการปรับปรุงอย่างมีนัยสำคัญในการประเมินแบบให้คะแนนหลายมิติ

ได้รับประโยชน์สูงสุดในด้านการแพทย์ที่เข้มข้นด้วยความรู้: บนชุดข้อมูล Neurology ปรับปรุง 21.0% เมื่อเทียบกับ Hyper-RAG; บนชุดข้อมูล Pathology ข้อได้เปรียบสูงขึ้นถึง 26.4%

ข้อคิด

จากมุมมองการออกแบบ สถาปัตยกรรมที่ประกอบด้วยไฮเปอร์กราฟธีม ไฮเปอร์กราฟสิ่งที่เป็นนามธรรม และการค้นหาแบบสองขั้นตอน มีคุณค่าในฐานะชั้นดัชนีระดับสูงสำหรับคลังความรู้องค์กรหรือคลังข้อความภายใน โดยเฉพาะอย่างยิ่งเหมาะสำหรับชุดข้อมูลที่มีโครงสร้างและค่อนข้างคงที่

แต่ในสถานการณ์ออนไลน์ทั่วไป เป็นเรื่องยากที่จะเรียกใช้กระบวนการสร้างกราฟที่ “หนัก” เช่นนี้สำหรับแหล่งข้อมูลที่อัปเดตอย่างต่อเนื่อง เช่น บันทึก (logs) คำถามที่พบบ่อย (FAQ) หรือตั๋วงาน (tickets) ไปป์ไลน์การจัดทำดัชนีนี้ยากที่จะปรับขนาดได้อย่างราบรื่นเมื่อเนื้อหาเปลี่ยนแปลงอย่างรวดเร็ว

ข้อกังวลที่อาจเกิดขึ้นคือ เกือบทุกขั้นตอนของไฮเปอร์กราฟคู่ต้องพึ่งพา LLM — ตั้งแต่การดึงโครงสร้างไปจนถึงการกำหนดคะแนน Cog-RAG ไม่ได้อภิปรายอย่างเพียงพอว่าสิ่งนี้หมายถึงอะไรในแง่ของต้นทุน ความสม่ำเสมอ หรือการเปลี่ยนแปลงเวอร์ชัน (version drift) ในคลังข้อความขนาดใหญ่และข้อมูลจริง

สิ่งที่ควรสำรวจต่อไปคือ ว่าเราสามารถกลั่นกรองเส้นทางการรับรู้แบบ “ธีมก่อน แล้วจึงรายละเอียด” นี้ลงในโครงสร้างดัชนีที่เบากว่าได้หรือไม่ บางทีอาจใช้เวกเตอร์ฝัง (embedding vectors) เพื่อประมาณบางส่วน ความท้าทายที่แท้จริงอยู่ที่การหาจุดสมดุล: รักษาโครงสร้างที่เพียงพอเพื่อให้สามารถอธิบายได้ (interpretable) ในขณะเดียวกันก็มีประสิทธิภาพและยืดหยุ่นพอที่จะรองรับข้อมูลออนไลน์ที่เติบโตอย่างต่อเนื่องได้ ไม่ใช่แค่เป็นไปป์ไลน์ออฟไลน์ที่สวยงาม

อ้างอิง: Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Generation.

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง