SLM ทีมดังไขปริศนาสามประการของหน่วยความจำ Agent: LightMem เพิ่มประสิทธิภาพการค้นหาในระดับมิลลิวินาทีและเพิ่ม F1 ถึง 2.5 เท่า

2 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 7 views

ในระบบความจำของ LLM Agent ในปัจจุบัน ประสิทธิภาพและความแม่นยำนั้นยากที่จะได้มาพร้อมกัน แม้ว่า Small Language Model (SLM) จะพยายามแก้ปัญหาด้วยความจุและความสามารถในการแสดงผลที่จำกัด แต่ก็ไม่ใช่ยาวิเศษที่ใช้ได้ทุกสถานการณ์

บทความชื่อ “Lightweight LLM Agent Memory with Small Language Models” นี้ ชี้ให้เห็นถึงจุดเจ็บปวดหลักของระบบความจำ LLM Agent ในปัจจุบันได้อย่างแม่นยำ

เมื่อ AI Agent ได้รับความสามารถในการเรียกใช้เครื่องมือและจัดการงานระยะยาวที่ซับซ้อน ‘สามประสานที่ยุ่งยาก’ ก็ปรากฏขึ้น: จะสร้างระบบความจำภายนอกให้กับมันได้อย่างไร ที่ทั้งสามารถก้าวข้ามข้อจำกัดของหน้าต่างบริบท จับข้อมูลเฉพาะบุคคลได้อย่างแม่นยำ และไม่ทำให้ความเร็วในการตอบสนองออนไลน์ช้าลง? โซลูชันที่มีอยู่ในปัจจุบันมักจะรักษาสิ่งหนึ่งแล้วเสียอีกสิ่งหนึ่ง:

โซลูชันการดึงข้อมูลบริสุทธิ์ (เช่น MemoryBank, MemGPT) แม้จะมีประสิทธิภาพสูง แต่ถูกจำกัดด้วยการสร้างคำค้นหาที่หยาบและการจับคู่ความคล้ายคลึงทางความหมายที่อ่อนแอ ทำให้เกิดสัญญาณรบกวนและข้อผิดพลาดด้านข้อเท็จจริงได้ง่าย
ในขณะที่โซลูชันที่ขับเคลื่อนด้วย LLM (เช่น A-MEM) เรียกใช้โมเดลขนาดใหญ่ซ้ำๆ เพื่อเพิ่ม ลบ เปลี่ยนแปลง และค้นหาความจำ แม้จะมีความแม่นยำที่ดีขึ้น แต่ก็สะสมความหน่วงสูงในการสนทนาระยะยาว ทำให้ยากต่อการใช้งานในสถานการณ์จริง

LightMem ที่นำเสนอในบทความนี้ มีขึ้นเพื่อทำลายทางตันนี้ ข้อมูลเชิงลึกหลักอยู่ที่การแยกส่วนโดยธรรมชาติ:

การตัดสินใจด้านความจำออนไลน์ที่มีความถี่สูง (เช่น “หาอะไร” “อันไหนมีประโยชน์”) ควรมีน้ำหนักเบา ควบคุมได้ และมีโครงสร้าง
ในขณะที่การสรุปและหลอมรวมข้อมูลที่มีน้ำหนักมาก (เช่น “เรียนรู้อะไรจากอดีต”) ควรถูกเลื่อนออกไปอย่างปลอดภัยสู่ขั้นตอนออฟไลน์

นี่ไม่ใช่การประนีประนอมทางวิศวกรรมง่ายๆ แต่เป็นการแยกส่วนความซับซ้อนในการคำนวณของกระบวนการรับรู้ที่เรียกว่า ‘ความจำ’ ดังนั้น ผู้เขียนจึงแนะนำชุดของ Small Language Model (SLM ขนาดพารามิเตอร์ 1B-3B) ที่ทำงานร่วมกันอย่างเฉพาะทางในฐานะผู้จัดการความจำ พวกมันไม่ได้มีไว้เพื่อเพิ่มเอฟเฟกต์ที่สวยงามของการสร้างภาษา แต่ทำหน้าที่เป็นหน่วยควบคุมและกรองที่แม่นยำและราคาถูก เพื่อให้แน่ใจว่าภายใต้งบประมาณการคำนวณที่คงที่ การดึงข้อมูลแต่ละครั้งจะได้ความจำที่บริสุทธิ์ที่สุด

รูปที่ 1 แสดงให้เห็นถึงคุณค่าการออกแบบหลักของ LightMem อย่างชัดเจน: มันรวมการดึงข้อมูลที่เพิ่มประสิทธิภาพเข้ากับ Small Language Model เพื่อแก้ปัญหาสองประการของระบบความจำแบบดั้งเดิมระหว่างประสิทธิภาพและความแม่นยำ ระบบความจำแบบดึงข้อมูลมีค่าใช้จ่ายออนไลน์ต่ำแต่ความแม่นยำไม่เสถียร ในขณะที่ระบบที่ขับเคลื่อนด้วย LLM มีความแม่นยำสูงแต่สะสมความหน่วงสูง LightMem ใช้ SLM ในการดำเนินการออนไลน์ความถี่สูง เลื่อนงานคำนวณหนักไปเป็นออฟไลน์ สร้างสมดุลระหว่างความแม่นยำในการดึงข้อมูลและความเร็วในการตอบสนอง มอบโซลูชันความจำน้ำหนักเบาสำหรับ LLM Agent ในสถานการณ์การโต้ตอบระยะยาว และยืนยันความสมเหตุสมผลของสถาปัตยกรรมการแยกส่วนออนไลน์-ออฟไลน์

ข้อมูลการทดลองพิสูจน์ว่า ‘ทีม SLM’ นี้มีพลังที่น่าทึ่ง: ไม่เพียงแต่เพิ่มค่า F1 เฉลี่ยบนเกณฑ์ชี้วัดการอนุมาน LoCoMo ได้ประมาณ 2.5 เท่าอย่างมีนัยสำคัญ แต่ยังบีบอัดบริบทที่มีประสิทธิภาพให้เหลือเพียงประมาณ 1K Tokens และควบคุม P50 ของความหน่วงในการดึงข้อมูลออนไลน์ให้อยู่ที่ 83 มิลลิวินาทีที่น่าทึ่ง

ชุดข้อมูลนี้ประกาศร่วมกันว่า: ระบบความจำของ Agent สามารถมีทั้งสติปัญญาของ LLM และความเร็วของ SLM ยุคใหม่ที่ ‘เบา เร็ว และเสถียร’ ได้เริ่มต้นขึ้นแล้ว

1. นิยามปัญหาและปรัชญาการแยกส่วน

กรอบงานหลักของ LightMem ประกอบด้วยช่องทางควบคุมออนไลน์และช่องทางเสริมกำลังออฟไลน์ ซึ่งทั้งสองช่องทางถูกแยกส่วนผ่านพื้นที่เก็บความจำระยะสั้น (STM) ระยะกลาง (MTM) และระยะยาว (LTM) ที่มีโครงสร้าง

ในสถานการณ์การสนทนาหลายรอบ ระบบจะรับอินพุตจากผู้ใช้ในแต่ละรอบและสร้างการตอบกลับ เนื่องจากหน้าต่างบริบทของ SLM มีความจุจำกัด ระบบจึงต้องพึ่งพาคลังความจำภายนอกที่แยกตามผู้ใช้ โดยใช้กลไกการดึงข้อมูลเพื่อรับชุดความจำที่เกี่ยวข้องเป็นข้อมูลเงื่อนไขเพิ่มเติมเพื่อช่วยในการสร้าง

การตั้งค่านี้เป็นพื้นฐานของระบบความจำภายนอกทั้งหมด แต่ในสถานการณ์การใช้งานจริงทางวิศวกรรม มันนำมาซึ่งข้อจำกัดที่แข็งแกร่งสองประการโดยธรรมชาติ:

งบประมาณการคำนวณที่เข้มงวด: ทุกมิลลิวินาทีของความหน่วงในคำขอออนไลน์ส่งผลโดยตรงต่อประสบการณ์ผู้ใช้ ดังนั้นการดำเนินการ LLN แบบหนักที่มีความหน่วงสูงจะต้องหายไปจากเส้นทางออนไลน์อย่างสิ้นเชิง
การสะสมของมลพิษทางความจำ: เมื่อการโต้ตอบเพิ่มขึ้น ข้อมูลคุณภาพต่ำหรือไม่มีประโยชน์จะค่อยๆ ปนเปื้อนคลังความจำ ส่งผลต่อประสิทธิภาพในระยะยาว

ปรัชญาการออกแบบของ LightMem มีพื้นฐานมาจากสิ่งนี้ มันไม่ถือว่าความจำเป็นฐานข้อมูลที่เหมือนกันอีกต่อไป แต่แบ่งออกเป็นสามระดับอย่างสร้างสรรค์ตามวงจรชีวิตและรูปแบบการเข้าถึง:

ความจำระยะสั้น (STM): คือหน้าต่างบริบทของโมเดลเอง เป็นพื้นที่ทำงานชั่วคราวที่ไม่คงอยู่ สิ่งนี้สอดคล้องกับสิ่งที่มนุษย์จำได้ทันทีในการสนทนาว่า ‘เมื่อไม่กี่วินาทีที่แล้วพูดอะไร’
ความจำระยะกลาง (MTM): นี่คือแกนหลักของระบบ เป็นพาหะความจำเพียงตัวเดียวที่นำข้อมูลสถานการณ์เฉพาะบุคคล แต่ละบันทึก MTM ประกอบด้วยสรุปความหมาย ประทับเวลาและความถี่ในการเข้าถึง เอมเบ็ดดิ้งแบบเวกเตอร์ (สำหรับการดึงข้อมูล) และ ID ผู้ใช้ที่เข้มงวด มันเหมือน ‘สมุดบันทึกส่วนตัว’ ที่มีโครงสร้าง ซึ่งทั้งเก็บข้อมูลและให้บริการการดึงข้อมูลความถี่สูง
ความจำระยะยาว (LTM): กราฟความรู้เชิงความหมายที่ไม่มีรหัสผู้ใช้และข้ามผู้ใช้ มันไม่เก็บการสนทนาส่วนตัวดั้งเดิมใดๆ แต่กลั่นกรองข้อมูลความถี่สูงและมูลค่าสูงจาก MTM ให้เป็นโหนดและความสัมพันธ์ความรู้สากล (เช่น เอนทิตี แนวคิด) เพื่อสนับสนุนการอนุมานแบบหลายขั้นตอนและการแบ่งปันความรู้ทั่วไป

การออกแบบพื้นที่เก็บข้อมูลสามระดับนี้ โดยพื้นฐานแล้วเป็นการเปลี่ยนแปลงกระบวนทัศน์จาก ‘ความจำคือพื้นที่เก็บข้อมูล’ ไปเป็น ‘ความจำคือกระบวนการประมวลผล’ มันแยกส่วนเวลาของความจำ (STM vs. MTM/LTM) ความเป็นส่วนบุคคล (MTM vs. LTM) และระดับของโครงสร้าง (เอกสาร vs. กราฟ) ในเชิงคณิตศาสตร์ ทำให้โมดูล SLM แต่ละตัวที่ตามมาสามารถประมวลผลงานคำนวณที่บริสุทธิ์ที่สุดบนโครงสร้างข้อมูลที่เหมาะสมที่สุด

2. ช่องทางออนไลน์แบบโมดูลาร์: การประสานงานของทีม SLM

นี่คือส่วนที่มีนวัตกรรมมากที่สุดของบทความทั้งหมด ผู้เขียนมอบหมายการดำเนินการความจำออนไลน์อย่างละเอียดให้กับ SLM สามตัวที่ทำหน้าที่ต่างกัน ก่อตัวเป็นสายการประกอบที่มีประสิทธิภาพตั้งแต่ความเข้าใจเจตนาไปจนถึงการควบคุมการดึงข้อมูลและการกรองข้อมูล

ขั้นตอนที่ 1: การสร้างแบบจำลองเจตนาและการควบคุมการดึงข้อมูล (SLM-1: ผู้บัญชาการ)

เมื่ออินพุตของผู้ใช้มาถึงระบบ SLM-1 จะไม่ให้คำตอบทันที แต่จะทำหน้าที่เป็นผู้วางแผนการค้นหาแบบมีโครงสร้าง หน้าที่หลักของมันคือการวิเคราะห์ว่า ‘ผู้ใช้ต้องการอะไรจริงๆ ในตอนนี้’ และแปลงเจตนานี้เป็นคำขอค้นหามาตรฐาน

สูตรนี้ประกอบด้วยคำสั่งสำคัญสามประการ:

ชุดคำค้นหาสมมติฐาน: SLM-1 ระบุข้อมูลที่ขาดหายไปในประโยคของผู้ใช้ก่อน เช่น คำสรรพนามที่คลุมเครือ (‘อันนั้น’, ‘อันก่อนหน้านี้’) หรือการอ้างอิงเวลาที่ไม่ชัดเจน (‘เมื่อเร็วๆ นี้’, ‘ก่อนหน้านี้’) จากนั้น มันจะเขียนคำขอเดิมใหม่เป็นคำค้นหาสมมติฐานที่มีความหมายในตัวเองและเจตนาชัดเจน ตัวอย่างเช่น เมื่อเผชิญกับคำขอเช่น ‘แนะนำที่กินข้าวหน่อย’ มันอาจสร้างคำค้นหาสมมติฐานสองข้อ: ‘สอบถามความชอบและข้อห้ามด้านอาหารในอดีตของผู้ใช้’ (เส้นทางไปยัง MTM) และ ‘สอบถามร้านอาหารที่รีวิวดีใกล้เคียง’ (เส้นทางไปยัง LTM) กลยุทธ์การเขียนใหม่นี้ช่วยลดช่องว่างระหว่างการแสดงออกแบบภาษาพูดและการค้นหาที่แม่นยำได้อย่างมาก
ข้อจำกัดเมตาดาต้า: คำสั่งนี้กำหนดขอบเขตของการค้นหาครั้งนี้อย่างชัดเจน เช่น การแยก ID ผู้ใช้ หน้าต่างเวลา ฯลฯ ซึ่งเป็น แนวป้องกันแข็งแกร่งแนวแรกเพื่อรับประกันความถูกต้องเชิงตรรกะและเพิ่มประสิทธิภาพ
งบประมาณคงที่: ควบคุมจำนวนรายการที่ส่งคืนอย่างเข้มงวด เพื่อให้แน่ใจว่าค่าใช้จ่ายในการคำนวณอยู่ในช่วงที่ควบคุมได้เสมอ

การออกแบบที่แปลง ‘เจตนาที่คลุมเครือ’ เป็น ‘คำสั่งที่ปฏิบัติการได้’ นี้ ความชาญฉลาดของมันอยู่ที่การลดระดับการวางแผนแบบ ‘สวมบทบาท’ ที่มีราคาแพงในยุค LLM ให้เป็นงานการจำแนกประเภทและการสร้างที่มีโครงสร้างซึ่งโมเดลขนาดเล็กที่มีพารามิเตอร์ 1B ก็สามารถทำได้

ขั้นตอนที่ 2: การดึงข้อมูลสองขั้นตอน (SLM-2: อัยการ)

นี่คือแนวป้องกันที่สำคัญที่สุดในการต่อต้าน ‘สัญญาณรบกวนจากการดึงข้อมูล’ โซลูชันดั้งเดิมส่งคืนผลลัพธ์ Top-K โดยตรงหลังจากการดึงข้อมูลเวกเตอร์ แต่ผลลัพธ์ที่อิงตามความคล้ายคลึงของรูปแบบคำมักจะ ‘มีรูปแบบคล้ายแต่ความหมายไม่เหมือน’

LightMem เสนอกลไกการคัดออกสองขั้นตอนที่เข้มงวดสำหรับสิ่งนี้:

ขั้นตอนที่ 1: การดึงข้อมูลหยาบภายใต้ข้อจำกัดเมตาดาต้า เพื่อ ‘วางอวนกว้าง’

ภายใต้กรอบข้อจำกัดเมตาดาต้า ระบบจะดำเนินการค้นหาความคล้ายคลึงของเวกเตอร์อย่างอิสระสำหรับแต่ละคำค้นหาสมมติฐาน เพื่อให้แน่ใจว่ามีความครอบคลุมและมีพื้นที่สำหรับการคัดเลือกในขั้นตอนต่อไป ปริมาณการเรียกคืนทั้งหมดในขั้นตอนนี้ถูกกำหนดเป็นสองเท่าของงบประมาณสุดท้าย และแบ่งสรรให้กับแต่ละคำค้นหาตามหลักการเฉลี่ย

ขั้นตอนที่ 2: การจัดลำดับใหม่ตามความสอดคล้องทางความหมาย เพื่อ ‘คัดเลือกอย่างละเอียด’

นี่คือ ‘อาวุธเด็ด’ ของ LightMem

มันส่งชุดความจำที่เป็นตัวเลือกจากขั้นตอนที่ 1 พร้อมกับชุดคำค้นหาดั้งเดิมไปยัง SLM-2 SLM-2 ไม่พึ่งพาความรู้ภายนอกใดๆ ดำเนินการคัดกรองและบีบอัดความหมายแบบ ‘มีผู้ดูแล’ ภายในกลุ่มตัวเลือกขนาดคงที่นี้เท่านั้น และสุดท้ายเลือกความจำที่เกี่ยวข้องอย่างแท้จริงสูงสุด รายการ การบีบอัดแบบบังคับ 2:1 นี้ให้ประโยชน์สามประการ:

ปริมาณการคำนวณคงที่ (ต้องประมวลผลเพียง รายการ);
การตรวจสอบความหมายสามารถกำจัดสัญญาณรบกวนที่ผ่านเข้ามาได้เพียงเพราะความคล้ายคลึงของรูปแบบคำ
บริบทที่ป้อนให้กับโมเดลการสร้างในที่สุดนั้นกระชับมาก จะไม่เปลืองทรัพยากรความสนใจอันมีค่าของโมเดล

รูปที่ 2: Small Language Model หลายตัวทำงานร่วมกันเพื่อสร้างช่องทางออนไลน์ เพื่อทำการกำหนดเส้นทางเมื่อค้นหาและการดึงข้อมูลความจำระยะสั้น/ระยะกลาง รวมถึงช่องทางออฟไลน์ที่รวมความจำระยะกลางแบบเพิ่มหน่วยเป็นความจำระยะยาวแบบโครงสร้างกราฟ รูปนี้แสดงสถาปัตยกรรมแบบ分层แบบโมดูลาร์ของ LightMem อย่างสมบูรณ์: ช่องทางออนไลน์ใช้ SLM-1/2/3 รับผิดชอบการวางแผนการค้นหา การดึงข้อมูลเชิงความหมาย และการเขียนความจำตามลำดับ เพื่อรับประกันความหน่วงต่ำ ช่องทางออฟไลน์ใช้ LLM บริบทขนาดใหญ่สำหรับการกลั่นความรู้ แปลง MTM เป็น LTM แบบโครงสร้างกราฟ ความจำสามระดับรวมกับการออกแบบแยกตามรหัสผู้ใช้ คำนึงถึงการปกป้องความเป็นส่วนตัว ความสอดคล้องในการโต้ตอบ และความสามารถในการขยายระบบ การออกแบบแบบโมดูลาร์ทำให้แต่ละส่วนประกอบสามารถปรับให้เหมาะสมได้อย่างอิสระ เหมาะสำหรับสถานการณ์การปรับใช้ที่มีทรัพยากรจำกัด

ขั้นตอนที่ 3: การเขียนและบำรุงรักษาความจำออนไลน์ (SLM-3: เสมียน)

เมื่อระบบสร้างการตอบกลับแล้ว ‘การประสานความจำ’ นี้ยังไม่สิ้นสุด SLM-3 จะเริ่มทำงานทันที โดยมีหน้าที่ แยกและบีบอัดข้อมูลส่วนที่มีคุณค่าในอนาคตจากการโต้ตอบที่เพิ่งเกิดขึ้น และเขียนลงใน MTM ของผู้ใช้

กระบวนการนี้เป็นไปตามหลักการน้ำหนักเบาและความเป็นระเบียบที่เข้มงวดเช่นกัน:

การกลั่นคุณค่า: มันแยกเฉพาะข้อมูลที่นำกลับมาใช้ใหม่ได้ เช่น ‘ความชอบของผู้ใช้’ ‘ข้อสรุปการตัดสินใจ’ ไม่ใช่การถอดความ全文แบบกลไก
การล้างข้อมูลซ้ำซ้อนและการตัดสินข้อขัดแย้ง: นี่คือกุญแจสำคัญในการทำให้ MTM ‘ไม่มีวันตาย’ เมื่อตรวจพบบันทึกที่ซ้ำซ้อนหรือทับซ้อนทางความหมายสูง ระบบจะรวมเข้าด้วยกันโดยอัตโนมัติ สำหรับข้อมูลที่ขัดแย้งกัน จะใช้ประทับเวลาและความแข็งแกร่งของหลักฐานในการตัดสิน
กลไกการจำกัดความจุ: ผู้เขียนตั้งข้อจำกัดแบบแข็ง เมื่อ MTM ถึงขีดจำกัด ระบบจะขับไล่ข้อมูลเก่าตามความถี่ในการใช้งานล่าสุดและมูลค่าประสิทธิผล สิ่งนี้ทำให้แน่ใจว่าการดึงข้อมูลออนไลน์จะดำเนินการในคลังที่มีขนาดควบคุมได้เสมอ หลีกเลี่ยงการเสื่อมประสิทธิภาพ

3. การเสริมกำลังออฟไลน์: จากประสบการณ์สู่ความรู้

ส่วนนี้เป็นรากฐานสำหรับการสร้างปัญญาความรู้ความเข้าใจระยะยาวของ LightMem ผู้เขียนมอบหมายงานสำคัญนี้ให้กับ LLM ออฟไลน์ที่มีหน้าต่างบริบทขนาดใหญ่ การออกแบบนี้สะท้อนถึงการจำลองความคิด ‘ระบบ 1’ และ ‘ระบบ 2’ อย่างลึกซึ้ง:

ช่องทางออนไลน์เปรียบเสมือนระบบ 1 ตอบสนองอย่างรวดเร็วและเป็นไปตามสัญชาตญาณ
ช่องทางออฟไลน์คล้ายกับระบบ 2 ช้าและรอบคอบ

กระบวนการนี้ดำเนินการเป็นขั้นตอนอย่างเข้มงวดและไม่ถูกรบกวนจากความหน่วงออนไลน์เลย:

การประมวลผลแบบเพิ่มหน่วย: ประมวลผลเฉพาะรายการ MTM ที่เพิ่งเขียนหรือถูกทำเครื่องหมายว่ามีประสิทธิภาพต่ำภายใต้แรงกดดันด้านความจุ ไม่ใช่สร้างฐานข้อมูลทั้งหมดขึ้นใหม่
การสรุปแบบไม่ระบุตัวตน: กลั่นกรองส่วนของสถานการณ์ที่มีรอยประทับส่วนตัวของผู้ใช้ให้เป็นสามเท่าความรู้ทั่วไป เช่น (Paris, IsA, Capital City) หรือ (High Density, Implies, Congestion)
การรวมเข้ากราฟและการสะสมหลักฐาน: ค้นหาจุดยึดทางความหมายในกราฟความรู้ที่มีอยู่ซึ่งประกอบเป็น LTM จากนั้นดำเนินการแทรกโหนดใหม่ อัปเดตโหนดเก่า หรือรวมเข้าด้วยกัน ในขณะเดียวกัน ระบบจะกำหนดระดับความเชื่อมั่นให้กับความรู้แต่ละชิ้น ความรู้ที่ไม่มีหลักฐานใหม่สนับสนุนเป็นเวลานานจะค่อยๆ เสื่อมลงและถูกลืมในที่สุด ซึ่งเป็นการจำลองกฎวิวัฒนาการความรู้ในโลกแห่งความเป็นจริงได้อย่างยอดเยี่ยม

ตารางที่ 1 แสดงให้เห็นว่า SLM-1 ดำเนินการวางแผนการค้นหาอย่างมีโครงสร้างอย่างไร ซึ่งเป็นตัวอย่างที่ดีเยี่ยมสำหรับเราในการทำความเข้าใจตรรกะภายในของมัน

ตารางที่ 1: พรอมต์ HQ แบบมีโครงสร้างสำหรับการแยกส่วนและกำหนดเส้นทางคำค้นหา ตารางนี้แสดงสามขั้นตอนของ SLM-1: การตรวจจับข้อมูลที่ขาดหายไป การสร้างคำค้นหาสมมติฐาน และการกำหนดเส้นทางและจัดสรรงบประมาณ ผ่านตัวอย่างเฉพาะ มันเปิดเผยอย่างชัดเจนว่าคำขอ ‘แนะนำร้านอาหาร’ ที่คลุมเครือถูกแยกออกเป็นสองคำค้นหาที่แม่นยำสำหรับความชอบส่วนบุคคล (MTM) และความรู้สาธารณะ (LTM) อย่างไร

การวิเคราะห์ประสิทธิภาพการเสริมกำลังออฟไลน์

ตัวชี้วัด	ค่า	คำอธิบายและการวิเคราะห์
ช่วงเวลาการอัปเดตแบบกลุ่ม	ทุก 10–15 รอบ	การเสริมกำลังออฟไลน์จะถูกกระตุ้นเป็นระยะเมื่อ MTM สะสมรายการใหม่เพียงพอหรือถึงแรงกดดันด้านความจุ กลไก แบบเพิ่มหน่วยและเป็นชุด นี้ช่วยให้แน่ใจว่าวิวัฒนาการของความรู้ระยะยาวจะไม่รบกวนการโต้ตอบออนไลน์ใดๆ
อัตราการเติบโตของโหนด	~1 โหนด / 4 รอบ	อัตราส่วนการบีบอัดที่สูงอย่างน่าทึ่ง โดยเฉลี่ยแล้ว ทุกสี่รอบการสนทนาจะสร้างโหนดความรู้ LTM ที่คุ้มค่าแก่การเก็บรักษาถาวรเพียงโหนดเดียว ซึ่งหมายความว่าระบบกรองสัญญาณรบกวนและคำพูดที่ไม่เป็นสาระส่วนใหญ่ทิ้งไป และเก็บเฉพาะผลึกความรู้ที่มีค่าที่สุดไว้ในความจำระยะยาว
เวลาประมวลผลออฟไลน์	~3.5 วินาที / ชุด	3.5 วินาทีนี้เกิดขึ้นในพื้นหลังของเซิร์ฟเวอร์ เป็นการดำเนินการแบบอะซิงโครนัสโดยสมบูรณ์ ผู้ใช้ไม่รับรู้เลย เมื่อเปรียบเทียบกันแล้ว ความหน่วงมัธยฐานของการดึงข้อมูลออนไลน์อยู่ที่เพียง 83 มิลลิวินาที ข้อมูลชุดนี้เป็น หลักฐานโดยตรงที่สุดของความเหนือกว่าของการแยกส่วนออนไลน์-ออฟไลน์
ความแม่นยำในการอนุมาน (F1)	4.12 vs. 3.96	ระบบเต็มรูปแบบที่เปิดใช้งานการเสริมกำลังออฟไลน์มีประสิทธิภาพดีกว่ารูปแบบที่ปิดวิวัฒนาการ LTM ประมาณ 4% ความแตกต่างนี้วัดปริมาณ การมีส่วนร่วมของความจำระยะยาวที่วิวัฒนาการอย่างต่อเนื่องต่อความสามารถในการให้เหตุผลเชิงตรรกะ ได้โดยตรง และเป็นการลงคะแนนความเชื่อมั่นที่สำคัญต่อสถาปัตยกรรมกราฟความรู้สากลที่ไม่ระบุตัวตน

4. งานที่เกี่ยวข้อง

งานในด้านระบบความจำของโมเดลขนาดใหญ่สามารถแบ่งคร่าวๆ ได้เป็นสองค่าย: ความจำภายนอกแบบดึงข้อมูลและการดำเนินการความจำที่ขับเคลื่อนด้วย LLM LightMem ค้นหาจุดสมดุลพาเรโตใหม่ระหว่างสองแนวนี้ด้วย ‘การควบคุมออนไลน์ด้วยโมเดลขนาดเล็ก + กระบวนการอ่าน/เขียนที่ปรับปรุงแล้ว’

ปัญหาความจำของ LLM Agent โดยพื้นฐานแล้วคือการแก้ปัญหาการขยายสถานะของโลกในมิติเวลาและพื้นที่ นักวิชาการและอุตสาหกรรมได้ดำเนินการสำรวจอย่างมากมายในเรื่องนี้

4.1 ความจำแบบดึงข้อมูล

แนวคิดหลักของทิศทางนี้คือการบีบอัดประวัติการโต้ตอบ ทำเวกเตอร์ และเก็บไว้ในฐานข้อมูลภายนอก จากนั้นในระหว่างการอนุมาน ให้ใช้การค้นหาความคล้ายคลึงเพื่อดึงบันทึกที่เกี่ยวข้องมากที่สุดสองสามรายการ ‘ป้อน’ ให้กับโมเดล

งานที่เป็นตัวแทน เช่น MemoryBank ซึ่งสร้างคลังเหตุการณ์ภายนอกสำหรับการสนทนาระยะยาวเฉพาะบุคคล และแนะนำกลไก ‘การลืม’ เพื่อควบคุมขนาด
MemGPT นำอัลกอริทึมการแบ่งหน้าหน่วยความจำเสมือนของระบบปฏิบัติการมาใช้กับ LLM อย่างชาญฉลาด โดยการขับไล่ขณะรันไทม์และการดึงข้อมูลตามความต้องการ ทำให้สามารถขยายหน้าต่างบริบทได้ ‘อย่างไม่สิ้นสุด’
ReadAgent ก็คล้ายกัน โดยสร้างดัชนีสำหรับสรุปที่บีบอัดแล้วและย้อนกลับไปดูตามความต้องการ

ข้อดีที่ใหญ่ที่สุดของวิธีการประเภทนี้คือประสิทธิภาพสูง เพราะหลีกเลี่ยงการเรียกใช้โมเดลขนาดใหญ่ซ้ำๆ ระหว่างรันไทม์ แต่ข้อบกพร่องของมันก็ฝังรากอยู่ในหลักการ: การพึ่งพาความคล้ายคลึงของเวกเตอร์เพียงอย่างเดียวในการวัดความเกี่ยวข้อง โดยเฉพาะในสถานการณ์การค้นหาที่ซับซ้อน มีนัย และหลายขั้นตอน มันง่ายมากที่จะดึงข้อมูลที่ไม่เกี่ยวข้องหรือทำให้เข้าใจผิดเนื่องจาก ‘คำใกล้เคียงไม่เท่ากับความหมายเดียวกัน’ ทำให้ความแม่นยำของเอาต์พุตเหมือนเครื่องสร้างตัวเลขสุ่ม บางครั้งดี บางครั้งไม่ดี

4.2 ความจำที่ขับเคลื่อนด้วย LLM

ค่ายนี้เชื่อว่าการสร้าง การจัดทำดัชนี และการเรียกคืนความจำควรทำโดย LLM ทั้งหมด เพราะมีเพียง LLM เท่านั้นที่สามารถเข้าใจความสัมพันธ์ทางความหมายและตรรกะที่ละเอียดอ่อนในนั้นได้

4.3 ข้อได้เปรียบเชิงเปรียบเทียบของ LightMem

LightMem ระบุความขัดแย้งหลักของสองค่ายใหญ่ข้างต้นได้อย่างแม่นยำ และเปิดเส้นทางเทคโนโลยีที่สาม

การก้าวข้ามค่ายดึงข้อมูล: LightMem ยังคงโครงกระดูกที่มีประสิทธิภาพของโซลูชันการดึงข้อมูล แต่ชดเชยข้อบกพร่องของความสามารถในการทำความเข้าใจของการดึงข้อมูลเวกเตอร์บริสุทธิ์ได้อย่างมากผ่านการปรับเปลี่ยนคำค้นหาอย่างชาญฉลาดของ SLM-1 (การสร้าง HQ) และการกรองความหมายของ SLM-2 ซึ่งเทียบเท่ากับการติดตั้งสมองประมวลผลก่อนและหลังที่มีน้ำหนักเบาและทำงานในเครื่องให้กับเครื่องมือค้นหา ต้นทุนต่ำมาก แต่เอฟเฟกต์แตกต่างกันราวฟ้ากับดิน
การปรับโครงสร้างค่าย LLM: LightMem ไม่ได้ทิ้ง LLM อย่างหยาบคาย แต่แยกส่วนงานโดยรวมที่เรียกว่า ‘การดำเนินการความจำ’
- มัน แยกงานควบคุมที่มีความถี่สูง มิติต่ำ และรูปแบบคงที่ (เช่น การวางแผนค้นหา การคัดเลือกตัวเลือก การเขียนแบบบีบอัด) ออกมา และให้ SLM ที่มีต้นทุนต่ำมากจัดการ
- ในขณะที่ งานนามธรรมที่มีความถี่ต่ำ มิติสูง และไม่มีโครงสร้าง (เช่น การเสริมกำลังความรู้แบบออฟไลน์) ยังคงไว้ให้ LLM ที่ทรงพลัง นี่คือกลยุทธ์การจำแนกประเภทและแบ่งแยกความซับซ้อนของงานอย่างแม่นยำ ซึ่งหลีกเลี่ยงการสิ้นเปลืองทรัพยากร ‘ใช้มีดฆ่าไก่’ ได้อย่างมีประสิทธิภาพ

5. การวิเคราะห์การทดลอง

ชุดผลการทดลองที่เข้มงวดเปิดเผยความจริงอย่างไร้ความปราณี: ในการโต้ตอบของ Agent ระยะยาว สิ่งที่กำหนดโครงสร้างส่วนบน (ความสามารถในการให้เหตุผล) ไม่ใช่จำนวนพารามิเตอร์ของฐานราก (โมเดลพื้นฐาน) ทั้งหมด แต่ขึ้นอยู่กับประสิทธิภาพการจัดหา ‘ความจำที่มีคุณภาพ’ มากกว่า

5.1 เกณฑ์ชี้วัดประสิทธิภาพและประสิทธิผลหลัก

ผู้เขียนเปรียบเทียบ LightMem กับเส้นฐานที่แข็งแกร่ง เช่น A-MEM, MemGPT, MemoryBank บนชุดข้อมูลสองชุดคือ LoCoMo และ DialSim

การค้นพบหลักของการทดลองก่อให้เกิดข้อสรุปที่ทะลุทะลวงในหลายระดับ:

ข้อสรุปที่ 1: ครองอันดับทุกด้าน เชี่ยวชาญการให้เหตุผลแบบเข้มข้น

ในการทดสอบการให้เหตุผลที่ซับซ้อนของ LoCoMo LightMem ทำคะแนนดีที่สุดภายใต้โครงร่างโมเดลเกือบทั้งหมด (GPT-4o/mini, Qwen2.5, Llama 3.2)

ตารางที่ 2: ผลลัพธ์หลักสำหรับคำถามแต่ละประเภทในชุดข้อมูล LoCoMo ตารางนี้เปรียบเทียบประสิทธิภาพของ LightMem กับเส้นฐานภายใต้โมเดลฐานหลายตัว LightMem เหนือกว่าเส้นฐานเช่น A-MEM ในงานแบบหลายขั้นตอน ตามลำดับเวลา และแบบ adversarial ความยาวบริบทที่มีประสิทธิภาพต่ำกว่า LoCoMo, MemGPT มาก มีความเสถียรเป็นผู้นำในโมเดลหลายขนาดข้าม GPT-4o, Qwen, Llama พิสูจน์ว่าสถาปัตยกรรมไม่ต้องพึ่งพาบริบทยาวของโมเดลขนาดใหญ่ก็สามารถบรรลุความสามารถด้านความจำที่แข็งแกร่ง พร้อมลดต้นทุนการอนุมาน มีความสามารถในการวางนัยทั่วไปและความเหมาะสมในการปรับใช้ที่ดีเยี่ยม

ที่น่าสังเกตเป็นพิเศษคือ ในคำถามตอบแบบหลายขั้นตอนที่เกี่ยวข้องกับการเชื่อมโยงตรรกะและการให้เหตุผลตามลำดับเวลาที่ต้องเรียงลำดับไทม์ไลน์ ข้อได้เปรียบของมันชัดเจนที่สุด ตัวอย่างเช่น:

ภายใต้การตั้งค่า GPT-4o-mini ค่า F1 แบบหลายขั้นตอนถึง 28.85 สูงกว่า A-MEM ที่ 27.02 อย่างมีนัยสำคัญ
ค่า F1 ตามลำดับเวลาเพิ่มขึ้นจาก 45.85 ของ A-MEM เป็น 46.20

สิ่งนี้บ่งชี้ว่ากลไกการคัดกรองแบบละเอียดสองขั้นตอนมีบทบาทชี้ขาดในการป้องกันการสูญเสียบริบทที่สำคัญ

ข้อสรุปที่ 2: ข้อได้เปรียบอย่างมากในมิติความสอดคล้องทางความหมาย

ในชุดข้อมูล DialSim ซึ่งเน้นความเข้าใจการสนทนาพูดหลายรอบมากกว่า LightMem ได้คะแนนความคล้ายคลึงทางความหมาย SBERT ที่สูงกว่าอย่างมีนัยสำคัญ (เวอร์ชันเต็ม 23.4) มากกว่ากลุ่มควบคุมที่พึ่งพาการดึงข้อมูลเวกเตอร์เพียงอย่างเดียว สิ่งนี้พิสูจน์ได้อย่างมีประสิทธิภาพว่า ในการสนทนาแบบสร้างสรรค์ ความจำที่ LightMem จัดหาให้นั้นไม่เพียงเกี่ยวข้องเท่านั้น แต่ยังเหมาะสมกว่าในเชิงความหมายและเหมาะสมที่จะใช้โดยตรงมากกว่า

ตารางที่ 3: การเปรียบเทียบกลไกความจำต่างๆ บนชุดข้อมูล DialSim โดยใช้ GPT-4o-mini ตารางนี้ตรวจสอบผลกระทบโดยรวมของ LightMem บนชุดข้อมูลการสนทนาระยะยาว ตัวชี้วัดทางคำศัพท์และความหมายอยู่ในอันดับที่ดีที่สุด ความคล้ายคลึง SBERT เพิ่มขึ้นจาก 19.51 ของ A-MEM เป็น 23.40 สิ่งนี้พิสูจน์ว่า LightMem ไม่เพียงเพิ่มการทับซ้อนของคำศัพท์ แต่ยังเสริมสร้างความสอดคล้องทางความหมายของการสนทนา ปรับให้เข้ากับสถานการณ์ที่มีรูปแบบการแสดงออกที่หลากหลายในการสนทนาระยะยาว แก้ปัญหาจุดอ่อนของการจัดตำแหน่งความหมายที่ไม่ดีและความต่อเนื่องของการสนทนาที่อ่อนแอของระบบความจำแบบดั้งเดิม รองรับความลื่นไหลของการโต้ตอบหลายรอบในระยะยาว ผลลัพธ์ชุดนี้พิสูจน์ว่าความจำที่ LightMem จัดหาให้นั้นไม่เพียงเพิ่มความแม่นยำในการแก้ปัญหา (F1) แต่ยังปรับปรุงคุณภาพความหมายหลักของเนื้อหาที่สร้างขึ้น ทำให้คำตอบของ Agent สอดคล้องกับสาระสำคัญของบริบทการสนทนามากขึ้น ตารางที่ 5: ความเสถียรของประสิทธิภาพภายใต้การเติบโตของ MTM ตามธรรมชาติเมื่อใช้ Llama-3.2-1B บน DialSim คำนวณสถิติสะสมภายใต้ขนาด MTM ที่แตกต่างกันตามเส้นทางการสนทนาที่สมบูรณ์เดียวกัน การวิเคราะห์นี้มีนัยสำคัญทางวิศวกรรมอย่างยิ่ง: ไม่เพียงบอกเราว่า LightMem ดี แต่ยังบอกเราว่ามัน ‘ดีและเสถียรแค่ไหน’ เมื่อคลังความจำเพิ่มขึ้นจาก 100 เป็น 10,000 ช่องว่าง F1 ระหว่าง LightMem และการดึงข้อมูลเวกเตอร์บริสุทธิ์ขยายจาก 0.03 เป็น 0.29 ซึ่งอธิบายอย่างเต็มที่ถึงความสามารถในการระงับสัญญาณรบกวนของกลไกการจัดลำดับความหมายใหม่เมื่อเผชิญกับความจำจำนวนมาก และเป็นกุญแจสำคัญในการกำหนดความน่าเชื่อถือในระยะยาว