ก้าวข้ามข้อจำกัดด้านความจำ! สถาปัตยกรรม MSA บรรลุความจำระยะยาว 100M Token เปิดศักราชใหม่แห่งความจำตลอดชีวิตสำหรับโมเดลขนาดใหญ่

3 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 10 views

ปัญญาของมนุษย์ประกอบด้วยความสามารถในการให้เหตุผลและความสามารถในการจำระยะยาว ในช่วงไม่กี่ปีที่ผ่านมา ความสามารถในการให้เหตุผลของโมเดลขนาดใหญ่พัฒนาอย่างรวดเร็ว แต่ความสามารถในการจำระยะยาวยังคงถูกจำกัดด้วยความยาวของบริบท (context length) และยากที่จะก้าวข้ามข้อจำกัดนี้ ในประวัติศาสตร์ มีหลายแนวทางทางเทคนิคที่พยายามแก้ไขปัญหานี้ แต่ไม่สามารถตอบสนองข้อกำหนดทั้งสามด้านได้พร้อมกัน ได้แก่ ความสามารถในการขยายขนาด (Scalability), ความแม่นยำ (Precision) และประสิทธิภาพ (Efficiency) ก่อให้เกิดสิ่งที่เรียกว่า “สามเหลี่ยมที่เป็นไปไม่ได้” (Impossible Triangle) เมื่อเร็วๆ นี้ งานวิจัยเรื่อง “MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens” ได้เสนอแนวทางแก้ไขใหม่

งานวิจัยนี้เสนอสถาปัตยกรรมหน่วยความจำรูปแบบใหม่ที่ชื่อว่า MSA (Memory Sparse Attention) โดยใช้กลไกความสนใจแบบเบาบางในหน่วยความจำ (Memory Sparse Attention), การเข้ารหัสตำแหน่งแบบหมุนระดับเอกสาร (Document-wise RoPE) ที่รองรับการคาดการณ์บริบท (extrapolation) ยาวมาก, การบีบอัดแคช KV และการทำงานแบบขนานของหน่วยความจำ (Memory Parallel), รวมถึงกลไกการสลับหน่วยความจำ (Memory Interleave) ที่รองรับการให้เหตุผลที่ซับซ้อน เพื่อสร้างกรอบงานหน่วยความจำระยะยาวสำหรับโมเดลขนาดใหญ่ที่สามารถขยายขนาดได้ถึง 100 ล้านโทเค็น ในการประเมินหลักๆ เช่น การถามตอบข้อความยาวและการทดสอบ “เข็มในมหาสมุทร” (Needle-in-a-Haystack) วิธีนี้ได้ผลลัพธ์ที่นำหน้า ข้อสำคัญคือ เมื่อความยาวบริบทเพิ่มจาก 16K เป็น 100M ประสิทธิภาพของโมเดลลดลงเพียง 9% เท่านั้น แสดงให้เห็นถึงความสามารถในการขยายขนาดที่แข็งแกร่งมาก

วิธีนี้สามารถมองได้ว่าเป็นปลั๊กอินหน่วยความจำสำหรับโมเดลขนาดใหญ่ ซึ่งให้แนวคิดใหม่ในการแก้ไขปัญหาหน่วยความจำระยะยาว ในยุคที่การใช้งานเอเจนต์อัจฉริยะกำลังเติบโตอย่างรวดเร็ว งานวิจัยนี้มีศักยภาพที่จะกลายเป็นจุดเปลี่ยนสำคัญที่เปิดฉากกระบวนทัศน์ใหม่ของ “หน่วยความจำในฐานะบริการ” (Memory-as-a-Service)

ก้าวข้ามข้อจำกัดด้านความจำ! สถาปัตยกรรม MSA บรรลุความจำระยะยาว 100M Token เปิดศักราชใหม่แห่งความจำตลอดชีวิตสำหรับโมเดลขนาดใหญ่

ลิงก์ GitHub：https://github.com/EverMind-AI/MSA
ลิงก์งานวิจัย：https://zenodo.org/records/19103670

ก้าวข้ามข้อจำกัดด้านความจำ! สถาปัตยกรรม MSA บรรลุความจำระยะยาว 100M Token เปิดศักราชใหม่แห่งความจำตลอดชีวิตสำหรับโมเดลขนาดใหญ่
รูปที่ 1: คะแนนของ MSA-4B ในงานถามตอบข้อความยาวลดลงตามความยาวบริบทน้อยกว่าโมเดลฐาน (baseline) อย่างมีนัยสำคัญ (รูปจากงานวิจัย)

1. “สามเหลี่ยมที่เป็นไปไม่ได้” ของหน่วยความจำระยะยาวใน LLM

ในช่วงไม่กี่ปีที่ผ่านมา ขอบเขตความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) กว้างขึ้นเรื่อยๆ แต่ในการจำลองหน่วยความจำระยะยาวระดับตลอดชีวิต (Life Long) ที่ละเอียดอ่อน ยังคงเผชิญกับความท้าทายมหาศาล ไม่ว่าจะเป็นการวิเคราะห์วรรณกรรมที่ต้องอ่านและเข้าใจนวนิยายยาวๆ การสร้างฝาแฝดดิจิทัล (Digital Twin) ที่ต้องรักษาบุคลิกภาพให้สอดคล้องกันในการสนทนาหลายรอบ หรือระบบเอเจนต์อัจฉริยะที่ต้องติดตามบันทึกประวัติศาสตร์อันยาวนาน ล้วนแต่ต้องการความยาวบริบทที่มีประสิทธิภาพสูงจากโมเดล อย่างไรก็ตาม LLM กระแสหลักถูกจำกัดด้วยความซับซ้อนกำลังสองของกลไกความสนใจแบบเต็ม (Full Attention) ทำให้หน้าต่างบริบทที่มีประสิทธิภาพถูกจำกัดอยู่ในระดับล้าน (1M) โทเค็นมาเป็นเวลานาน ซึ่งห่างไกลจากความจุหน่วยความจำหลายร้อยล้านโทเค็นตลอดชีวิตของมนุษย์

เพื่อก้าวข้ามคอขวดนี้ วงการวิชาการและอุตสาหกรรมได้สำรวจสามแนวทางทางเทคนิคหลัก แต่แต่ละแนวทางก็ได้นำข้อจำกัดใหม่ๆ เข้ามาพร้อมกับการแก้ไขปัญหาบางส่วน ก่อให้เกิด “สามเหลี่ยมที่เป็นไปไม่ได้” ที่ยากจะประสานกัน:

หน่วยความจำแบบมีพารามิเตอร์ (Parametric Memory): การทำให้ความรู้ฝังแน่นในพารามิเตอร์โมเดลผ่านการฝึกอย่างต่อเนื่องหรือการปรับแต่ง (fine-tuning) วิธีนี้มีความแม่นยำสูง แต่ขยายขนาดได้ยาก ค่าใช้จ่ายในการอัปเดตสูง และเสี่ยงต่อการลืมแบบหายนะ (catastrophic forgetting)
หน่วยความจำภายนอก (External Storage Memory): ตัวแทนคือการสร้างเสริมด้วยการดึงข้อมูล (Retrieval-Augmented Generation – RAG) ซึ่งเก็บหน่วยความจำไว้นอกโมเดลในฐานข้อมูลเวกเตอร์ วิธีนี้ขยายขนาดได้ดี แต่ลักษณะที่ไม่ใช่แบบ end-to-end ที่แยกขั้นตอน “ดึงข้อมูล-สร้าง” ออกจากกัน ทำให้ความแม่นยำในการดึงข้อมูลกลายเป็นคอขวดประสิทธิภาพ และยากที่จะทำให้เกิดการจัดแนวความหมาย (semantic alignment) ลึกๆ
หน่วยความจำสถานะแฝง (Latent State Memory): การใช้สถานะภายในของโมเดล (เช่น KV cache) เป็นหน่วยความจำทำงาน (working memory) วิธีนี้รักษาความหมายได้ดี (semantic fidelity สูง) แต่เผชิญกับความขัดแย้งโดยตรงระหว่างประสิทธิภาพและความจุ วิธีการที่เก็บ KV cache เฉพาะส่วน (เช่น StreamingLLM) มีความแม่นยำสูงแต่ขยายขนาดได้จำกัด ในขณะที่วิธีการที่ใช้ความสนใจเชิงเส้น (Linear Attention) (เช่น RWKV) แม้จะทำให้ความซับซ้อนเป็นเชิงเส้นได้ แต่กลับทำให้ความแม่นยำลดลงอย่างรุนแรงในบริบทที่ยาวมาก เนื่องจากการบีบอัดแบบสูญเสียข้อมูล (lossy compression)

ในบริบทนี้เอง งานวิจัย “MSA” ได้เสนอเป้าหมายที่ทะเยอทะยานอย่างยิ่ง: การออกแบบกรอบงานหน่วยความจำสถานะแฝงที่สามารถฝึกแบบ end-to-end ได้ ขยายขนาดด้วยความซับซ้อนเชิงเส้นไปถึงระดับร้อยล้านโทเค็น และยังคงความแม่นยำสูงไว้ได้ การปรากฏตัวของ MSA มีเป้าหมายเพื่อท้าทายและทำลาย “สามเหลี่ยมที่เป็นไปไม่ได้” ข้างต้นโดยตรง เพื่อมอบ “หน่วยความจำตลอดชีวิต” ที่แท้จริงให้กับ LLM

2. การวิเคราะห์เชิงลึกของสถาปัตยกรรม MSA: เสาหลักนวัตกรรมสี่ประการ

ความปฏิวัติของ MSA ไม่ได้มาจากการก้าวข้ามเทคโนโลยีเดียว แต่มาจากชุดนวัตกรรมทางสถาปัตยกรรมที่เป็นระบบและเชื่อมโยงกัน ชุด “สแต็กนวัตกรรม” นี้ทำงานร่วมกัน เป็นรากฐานของประสิทธิภาพสูงของมัน

2.1 รากฐานหลัก: ความสนใจแบบเบาบางในหน่วยความจำ (Memory Sparse Attention)

แนวคิดหลักของ MSA คือการนำกลไกการทำให้เบาบาง (sparsification) แบบหาอนุพันธ์ได้ (differentiable) และอิงตามเนื้อหา (content-based) เข้ามาในชั้นความสนใจ (Attention layer) ของ Transformer แทนที่จะให้โมเดลสนใจประวัติหน่วยความจำทั้งหมดขณะให้เหตุผล MSA ได้ออกแบบโมดูล “การกำหนดเส้นทาง” (Routing) ที่มีประสิทธิภาพ เพื่อเลือกชุดย่อยของหน่วยความจำที่เกี่ยวข้องที่สุดมาใช้ในการคำนวณแบบไดนามิก

ก้าวข้ามข้อจำกัดด้านความจำ! สถาปัตยกรรม MSA บรรลุความจำระยะยาว 100M Token เปิดศักราชใหม่แห่งความจำตลอดชีวิตสำหรับโมเดลขนาดใหญ่
รูปที่ 2: โครงสร้างชั้นความสนใจแบบเบาบางในหน่วยความจำ (รูปจากงานวิจัย)

รูปด้านบนคือหัวใจของการนำ MSA ไปปฏิบัติ แสดงให้เห็นว่าเลเยอร์ Transformer ที่ได้รับการปรับให้เหมาะสมสูงสามารถผสานหน่วยความจำภายนอกปริมาณมหาศาล (Docs) กับคำถามปัจจุบัน (Query) ได้อย่างมีประสิทธิภาพอย่างไร กระบวนการสามารถแยกย่อยออกเป็นสองโมดูลที่ทำงานร่วมกันด้านซ้ายและขวา

ด้านซ้ายคือโครงสร้างมาตรฐานของ Transformer ชั้น MSA ถูกห่อหุ้มอยู่ในโมดูล Transformer แบบ Pre-Norm มาตรฐาน มันแทนที่ชั้นความสนใจภายในตัวเอง (Self-Attention) แบบดั้งเดิม ผลลัพธ์ของมันและอินพุตจะถูกบวกผ่านการเชื่อมต่อแบบตกค้าง (residual connection) (สัญลักษณ์ ⊕ ในรูป) จากนั้นผ่านการทำให้เป็นมาตรฐาน RMSNorm และเลเยอร์เครือข่ายฟีดฟอร์เวิร์ด (FFN) การออกแบบนี้รับประกันว่า MSA สามารถทำหน้าที่เป็นโมดูลแบบ plug-and-play ที่ผสานเข้ากับสถาปัตยกรรมโมเดลขนาดใหญ่ที่มีอยู่ได้อย่างราบรื่น

ด้านขวาคือกลไกความสนใจแบบเบาบาง “กำหนดเส้นทางสองชั้น” ของ MSA นี่คือหัวใจของนวัตกรรม ผ่านกลไก “กำหนดเส้นทางสองชั้น” ที่ประณีต ทำให้เกิดกระบวนการ “เลือกที่ดีที่สุดจากสิ่งที่ดี” จากเอกสารมหาศาล หลีกเลี่ยงการคำนวณแบบ brute force ทั้งหมดกับหน่วยความจำทั้งหมด

อินพุตและการฉายภาพ (Projection): โมเดลรับฐานความรู้ภายนอก (Docs) และคำถามปัจจุบัน (Query) ฐานความรู้ถูกฉายภาพออกเป็นสี่การแสดงอิสระ: คำถาม (Q), กุญแจ (K), ค่า (V) และกุญแจพิเศษสำหรับการกำหนดเส้นทาง (K^R)
การกำหนดเส้นทางชั้นแรก (การกรองระดับหัวข้อ): โมเดลทำการ “กรองหัวข้อ” แบบหยาบ (coarse-grained) ก่อนกับฐานความรู้ทั้งหมด ผ่านกลไกความสนใจและการดำเนินการรวมค่าเฉลี่ยระดับโทเค็น (Token-wise mean pooling) เพื่อคำนวณความเกี่ยวข้องระหว่าง Query ปัจจุบันกับ “หัวข้อ” ของเอกสารทั้งหมด (แทนด้วย K^R) ส่งออกการกระจายความน่าจะเป็นของหัวข้อ เพื่อตัดสินใจว่าเอกสารใดเกี่ยวข้องกับคำถามปัจจุบันในระดับมหภาคมากที่สุด ในขณะเดียวกัน การสูญเสียเสริม (L_aux) จะถูกคำนวณที่นี่ เพื่อรับประกันความเบาบางและประสิทธิผลของการกำหนดเส้นทาง ป้องกันไม่ให้คำถามทั้งหมดไหลไปยังเอกสารยอดนิยมเพียงไม่กี่ฉบับ รับประกันการใช้หน่วยความจำอย่างสมดุล
การกำหนดเส้นทางชั้นที่สอง (การกรองละเอียดระดับโทเค็น): ภายในเอกสารที่เกี่ยวข้องที่ถูก锁定จากขั้นตอนแรก โมเดลทำการ “กรองเนื้อหา” ที่ละเอียดยิ่งขึ้น ผ่านการรวมค่า (Pooling) และการดำเนินการ Top-k เพื่อคำนวณความคล้ายคลึงระหว่างคำถามกับบล็อกเนื้อหาเฉพาะในระดับโทเค็น เลือกประโยคหรือย่อหน้าที่สำคัญที่สุด (สี่เหลี่ยมเล็กๆ ที่ไฮไลต์สีเขียวในรูป) จากเอกสารที่เกี่ยวข้องออกมาอีกครั้ง
การคำนวณความสนใจขั้นสุดท้าย: หลังจาก “กำหนดเส้นทางสองชั้น” แล้ว มีเพียงเวกเตอร์ K และ V ที่ถูกเลือกและเป็นส่วน精华ที่สุดเท่านั้นที่จะถูกโหลดเข้าสู่การคำนวณความสนใจ หน่วยความจำ K/V เหล่านี้ที่ผ่านการทำให้เบาบาง จะถูกต่อ (Concat) กับ K/V ของ Query ดั้งเดิม แล้วเข้าสู่เลเยอร์ Multi-head Attention ขั้นสุดท้ายร่วมกัน เพื่อสร้างผลลัพธ์สุดท้าย

ความแปลกใหม่ของกลไกนี้อยู่ที่ว่า มันได้ทำให้ขั้นตอน “การดึงข้อมูล” ในระบบ RAG กลายเป็นโมดูลเครือข่ายประสาทเทียมที่สามารถฝึกแบบ end-to-end ได้ ต่างจาก RAG ที่พึ่งพาการวัดความคล้ายคลึงภายนอกและคงที่ (เช่น ระยะโคไซน์ของเวกเตอร์) ตัวกำหนดเส้นทางของ MSA ถูกปรับให้เหมาะสมร่วมกับงานสร้าง (generation task) ในระหว่างกระบวนการฝึก (ผ่านการสูญเสียการเรียนรู้เชิงเปรียบเทียบเสริม L_aux) ซึ่งหมายความว่ามันสามารถเรียนรู้กลยุทธ์การดึงข้อมูลที่สอดคล้องกับ “โลกทัศน์” ภายในของโมเดลมากขึ้น และจัดแนวกับเป้าหมายงานสุดท้ายได้ดีกว่า นี่เป็นการแก้ไขจุดอ่อนหลักของ RAG ที่ “การดึงข้อมูล” และ “การสร้าง” ไม่สอดคล้องกันโดยพื้นฐาน และเป็นกุญแจสำคัญในการทำให้ได้ความแม่นยำสูง

2.2 ความสามารถในการขยายขนาด: การเข้ารหัสตำแหน่งแบบหมุนระดับเอกสาร (Document-wise RoPE)

2.2 การแยกการเข้ารหัสตำแหน่ง: หัวใจของการคาดการณ์ที่เสถียร

หัวใจของความสำเร็จในการคาดการณ์ (extrapolation) จากข้อความฝึกสั้น (เช่น 64K) ไปสู่ข้อความให้เหตุผลระดับร้อยล้านโทเค็น คือการจัดการข้อมูลตำแหน่ง หากใช้การเข้ารหัสตำแหน่งแบบทั่วโลก (global position encoding) แบบดั้งเดิม เมื่อความยาวลำดับในการให้เหตุผลยาวเกินช่วงการฝึกมาก ดัชนีตำแหน่งจะเกิดการเลื่อนอย่างรุนแรง ทำให้ประสิทธิภาพโมเดลดิ่งลงอย่างรวดเร็ว

MSA เสนอวิธีแก้ปัญหาที่เรียบง่ายและมีประสิทธิภาพสำหรับเรื่องนี้: การกำหนดการเข้ารหัสตำแหน่งแบบหมุน (RoPE) ชุดอิสระให้กับแต่ละหน่วยความจำอิสระ (เอกสาร) ซึ่งหมายความว่า ไม่ว่าฐานความจำจะมีเอกสารกี่ฉบับ เมื่อโมเดลประมวลผลแต่ละหน่วย “ระบบพิกัดตำแหน่ง” ภายในของมันจะเริ่มจากศูนย์และคงที่เสมอ การออกแบบนี้แยกตำแหน่งสัมพัทธ์ภายในเอกสารออกจากตำแหน่งสัมบูรณ์ของมันในหน่วยความจำระดับโลก ทำให้ความสามารถในการรับรู้ตำแหน่งที่โมเดลเรียนรู้ระหว่างการฝึก สามารถถ่ายโอน (generalize) ไปยังสถานการณ์ให้เหตุผลที่มีเอกสารมหาศาลได้โดยไม่สูญเสียข้อมูล นี่คือพื้นฐานทางทฤษฎีของความสามารถในการคาดการณ์ความยาวที่น่าทึ่งของ MSA

2.3 การนำไปปฏิบัติทางวิศวกรรม: การบีบอัดแคช KV และการทำงานแบบขนานของหน่วยความจำ

ความเป็นไปได้ทางทฤษฎีต้องถูกทำให้เป็นจริงผ่านการนำไปปฏิบัติ ในระดับร้อยล้านโทเค็น แม้จะผ่านการบีบอัดแล้ว ความต้องการพื้นที่เก็บแคช KV ก็ยังสูงถึงหลายร้อย GB ซึ่งเกินความจุหน่วยความจำของ GPU โหนดเดียวไปมาก MSA แก้ปัญหาคอขวดทางกายภาพนี้ผ่านกลยุทธ์ “การทำงานแบบขนานของหน่วยความจำ” ที่ประณีต

การเก็บข้อมูลแบบชั้น (Hierarchical Storage): MSA สังเกตว่า ในขั้นตอนกำหนดเส้นทาง โมเดลต้องการเพียงกุญแจกำหนดเส้นทาง (K_R) ที่มีขนาดเล็กเพื่อการจับคู่ที่รวดเร็ว ในขณะที่คีย์-ค่าเนื้อหา (K, V) ที่กินพื้นที่ส่วนใหญ่ จะถูกต้องการก็ต่อเมื่อเลือกเอกสาร Top-k เสร็จแล้วเท่านั้น ดังนั้นจึงออกแบบระบบเก็บข้อมูลแบบชั้น:
- กุญแจกำหนดเส้นทางที่อยู่ใน GPU ตลอดเวลา: เก็บ K_R ของเอกสารทั้งหมดแบบกระจายในหน่วยความจำความเร็วสูงของ GPU หลายตัว เพื่อรับประกันการดึงข้อมูลทั่วโลกที่มีความหน่วงต่ำ
- การย้ายคีย์-ค่าเนื้อหาไปยัง CPU: เก็บเมทริกซ์ K และ V ขนาดใหญ่ไว้ในหน่วยความจำหลัก CPU ที่มีความจุสูง
การจัดตารางแบบอะซิงโครนัส: เมื่อ GPU คำนวณการกำหนดเส้นทางเสร็จและกำหนดเอกสาร Top-k แล้ว ระบบจึงเรียกคีย์-ค่าเนื้อหาที่ต้องการจากหน่วยความจำหลัก CPU ไปยัง GPU แบบอะซิงโครนัส เพื่อใช้ในการคำนวณการสร้างขั้นสุดท้าย

กลยุทธ์ ”

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/26459