DeepSeek Engram ความลับของความทรงจำถูกเปิดเผย: ความทรงจำภายนอกคือ “ภาระเทียม” การปรับโครงสร้างคือกุญแจสู่ประสิทธิภาพ

2 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 11 views

DeepSeek Engram ตำนานความจำพังทลาย: ความจำภายนอกคือ “โหลดปลอม” จริงๆ แล้ว การปรับโครงสร้างคือกุญแจสำคัญของประสิทธิภาพ (ตอนที่ 1)

คำสำคัญ: DeepSeek Engram, LLM, ความจำภายนอก, การทำให้เป็นปกติ, เส้นทางเรซิดวล

ในการสร้างสรรค์สถาปัตยกรรม LLM, DeepSeek Engram ยึดถือ “การแยกการให้เหตุผลและความรู้” เป็นหลักการสำคัญ ด้วยคุณสมบัติต่างๆ เช่น การฝากความรู้ในตารางความจำ N-gram ภายนอก การค้นหา O(1) ฯลฯ เคยถูกคาดหวังว่าจะแก้ไขข้อบกพร่องในการค้นหาความรู้ดั้งเดิมของ Transformer โดยอ้างว่าสามารถอ่านความจำได้อย่างแม่นยำผ่านคลังความจำภายนอกระดับหลายหมื่นล้านพารามิเตอร์ ทำให้กลายเป็นทิศทางยอดนิยมของสถาปัตยกรรมเสริมความจำ

อย่างไรก็ตาม การทดลองควบคุมตัวแปรของทีมผู้เขียนบทความนี้กลับทำลายความเชื่อนี้: แม้จะแทนที่ตารางความจำด้วยเสียงไวท์เกาส์เซียน เวกเตอร์ร่วมแบบเดียวกัน หรือแม้แต่เก็บรักษาเพียงหน่วยเก็บข้อมูลเดียว ประสิทธิภาพของโมเดลก็ยังดีกว่าเส้นฐานการฝึกล้วนๆ อย่างมีนัยสำคัญ และไม่แตกต่างจากเวอร์ชันดั้งเดิมมากนัก การวิจัยเปิดเผยว่า การเพิ่มประสิทธิภาพของ Engram ไม่ได้มาจากการค้นหาความรู้ที่อ้างอิง แต่มาจากคุณสมบัติการปรับให้เหมาะสมที่เกิดจากโครงสร้างเกตและเส้นทางเรซิดวล ตารางความจำภายนอกจริงๆ แล้วมีบทบาทเพียงแค่ “โหลดปลอม” ในการทำให้เป็นปกติ

การค้นพบนี้ไม่เพียงแต่ทำลายความเชื่อเดิมเกี่ยวกับฟังก์ชันความจำของ Engram เท่านั้น แต่ยังให้แนวคิดใหม่สำหรับการปรับโครงสร้าง LLM อีกด้วย – ไม่จำเป็นต้องใช้การจัดตารางระดับระบบที่ซับซ้อนและการใช้หน่วยความจำกราฟิกจำนวนมหาศาล เพียงแค่ปรับโครงสร้างก็สามารถเพิ่มประสิทธิภาพได้ ซึ่งให้ข้อคิดสำคัญสำหรับการพัฒนารุ่นโมเดลที่ลดต้นทุนและเพิ่มประสิทธิภาพ

DeepSeek Engram ความลับของความทรงจำถูกเปิดเผย: ความทรงจำภายนอกคือ "ภาระเทียม" การปรับโครงสร้างคือกุญแจสู่ประสิทธิภาพ

สารบัญ

หนึ่ง ต้นกำเนิด: สถาปัตยกรรมเสริมความจำที่สมบูรณ์แบบ
- 1.1 คำถามเรียบง่ายแต่ร้ายแรง
สอง การทดลองควบคุมตัวแปร: การทดสอบความจริงของความจำกับโมเดลสี่กลุ่ม
- 2.1 ผลการทดลองที่น่าขัน
สาม เสื้อคลุมของการทำให้เป็นปกติ: เมื่อคลังความจำกลายเป็นทางอ้อมของเกรเดียนต์
- 3.1 การเพิ่มประสิทธิภาพของ “ความจำจริง” ที่อ่อนแอ
- 3.2 สัญชาตญาณทางคณิตศาสตร์เรียบง่ายเบื้องหลัง
สี่ มันมีความจำจริงๆ หรือ? คำตอบคือไม่
- 4.1 ความล้มเหลวของการทดลองแทรกแซงเนื้อหาโดยตรง
- 4.2 การตรวจสอบเพิ่มเติมภายใต้พรอมต์ข้อเท็จจริง
ห้า ข้อสรุปที่แข็งแกร่งขึ้นหลังขยายขนาด: การตรวจสอบโมเดล 3 พันล้านพารามิเตอร์
- 5.1 ข้อสรุปสุดท้ายจากการตัดออกห้าสภาวะ
หก แนวคิดทางวิศวกรรม: โยนคลังความจำทิ้งไป หันมากอดเสียงสุ่ม
บทสรุป: กรุณาสอบถามตารางความจำขนาดใหญ่ด้วยความสุภาพ

หนึ่ง ต้นกำเนิด: สถาปัตยกรรมเสริมความจำที่สมบูรณ์แบบ

ในเอกสารวิชาการอ้างว่า Transformer ขาดตัวดำเนินการค้นหาความรู้ดั้งเดิม เสนอให้ฝากความรู้คงที่ให้ตารางฝัง N-gram ภายนอก ปลดปล่อยชั้นการคำนวณก่อนหน้าผ่านการค้นหา O(1) … ฟังดูเหมือนสถาปัตยกรรมเสริมความจำที่สมบูรณ์แบบ เป็น “อารยธรรมที่ดี”!

1.1 คำถามเรียบง่ายแต่ร้ายแรง

คำถามที่เกิดขึ้นตามธรรมชาติคือ: ตารางความจำภายนอกที่มีพารามิเตอร์หลายหมื่นล้านตัว ที่ถูกพูดถึงอย่างมากว่าอุดมไปด้วยความรู้โลกจำนวนมหาศาลนั้น จริงๆ แล้วจำเป็นไหม? ความรู้ข้างในถูกใช้อย่างมีประสิทธิภาพจริงๆ หรือ?

สอง การทดลองควบคุมตัวแปร: การทดสอบความจริงของความจำกับโมเดลสี่กลุ่ม

เพื่อจุดประสงค์นี้ เราได้ออกแบบการทดลองควบคุมตัวแปรง่ายๆ ซึ่งประกอบด้วยโมเดลเปรียบเทียบสี่กลุ่ม:

Real: Engram แบบดั้งเดิม ใช้ตารางความจำขนาดใหญ่ที่ฝึกแล้ว
Randomize: แทนที่ตาราง N-gram ขนาดใหญ่ทั้งหมดด้วยเสียงไวท์เกาส์เซียน (เริ่มต้นแบบสุ่มและแช่แข็ง ไม่มีการอัปเดต)
Uniform: บังคับให้ฟังก์ชันแฮชทั้งหมดแมปไปยังหน่วยเก็บข้อมูลเดียวกัน นั่นคือทุกโทเค็นที่ค้นหาจากตารางจะได้เวกเตอร์ร่วมเดียวกัน
Dense Baseline: โมเดลเส้นฐานการฝึกล้วนๆ ที่ไม่มีสาขา Engram เลย

2.1 ผลการทดลองที่น่าขัน

ผลการทดลองคาดไม่ถึงและน่าคิด

ข้อสรุปเบื้องต้นคือ: Real > Uniform ≈ Randomize >>>>> Dense Baseline

สาม เสื้อคลุมของการทำให้เป็นปกติ: เมื่อคลังความจำกลายเป็นทางอ้อมของเกรเดียนต์

คุณอ่านไม่ผิด แม้จะยัดเสียงสุ่มล้วนๆ (Randomize) ลงในคลังความจำที่ถูกคาดหวังไว้สูงนั้น หรือให้ทุกโทเค็นค้นหาเวกเตอร์เดียวกัน (Uniform) ผลลัพธ์ของมันก็ยังดีกว่าโมเดลเส้นฐาน Dense ที่ฝึกล้วนๆ อย่างมีนัยสำคัญ แม้เราจะทำลายความจุที่มีประสิทธิภาพของตารางความจำจนเหลือเพียงหน่วยเก็บข้อมูลเดียว โมเดลก็ยังทำงานได้ดี

สิ่งนี้เปิดเผยข้อเท็จจริงสำคัญ: นี่คือโครงสร้างการทำให้เป็นปกติขนาดใหญ่ที่สวมเสื้อคลุมของความจำ

3.1 การเพิ่มประสิทธิภาพของ “ความจำจริง” ที่อ่อนแอ

บางคนอาจแย้งว่า: “เวอร์ชัน Real ก็ยังดีกว่า Uniform นิดหน่อย นี่แสดงว่าความรู้ยังมีประโยชน์อยู่!”

จริงอยู่ เนื้อหาในตารางความจำมีส่วนช่วยเพิ่มประสิทธิภาพเล็กน้อย แต่นี่เหมือนกับคุณคิดว่าตัวเองกิน “ยาบำรุงสิบเต็ม” (ความรู้ภายนอก) แต่จริงๆ แล้วสิ่งที่ทำให้ร่างกายแข็งแรงคือ “ดื่มน้ำตรงเวลาทุกวัน” (มีเส้นทางเรซิดวลเพิ่มขึ้นอีกเส้น) การเพิ่มประสิทธิภาพที่เรียกว่า Engram ส่วนใหญ่ไม่ได้มาจากการอ่านความจำแบบละเอียดแม่นยำ แต่มาจากคุณสมบัติการปรับให้เหมาะสมที่เกิดจากโครงสร้าง/เส้นทางเอง เราอาจไม่ต้องการความจำเอง เพียงแค่ “จินตนาการ” ว่ามีความจำอยู่ก็พอ

3.2 สัญชาตญาณทางคณิตศาสตร์เรียบง่ายเบื้องหลัง

เหตุผลทางคณิตศาสตร์เบื้องหลังนี้อาจเรียบง่ายมาก: โครงสร้าง เกต * เวกเตอร์ความจำ ที่ดูสวยหรูของ Engram ที่จริงแล้วแค่เปิดเส้นทางอ้อมเพิ่มเติมบนกระแสเกรเดียนต์เดิม

กลไกเกตที่รับรู้บริบทต่างหากที่เป็นส่วนที่มีความหมายจริงๆ มันเรียนรู้แบบไดนามิกว่าจะปรับคุณลักษณะอย่างไรตามสถานะที่ซ่อนอยู่ปัจจุบัน ส่วนตารางความจำภายนอกมีบทบาทเพียงแค่ “โหลดเสมือน” – แม้โหลดนี้จะเป็นเสียงสุ่มล้วนๆ แต่เพียงเพิ่มเกตไม่เชิงเส้นนี้เข้าไป ก็สามารถให้คำแนะนำเกรเดียนต์และสนามสถิติมหภาคที่ดีแก่ชั้นเครือข่ายต้นๆ ส่งเสริมให้โมเดลลู่เข้าอย่างรวดเร็ว

อุปมาที่ให้แนวคิดคือ: คุณสร้างทางหลวงพิเศษเพิ่มอีกเส้น ส่วนบนนั้นวิ่งรถขนเงิน (ความรู้จริง) หรือรถขยะ (เสียงสุ่ม) ผลในการบรรเทาการจราจรติดขัดบนถนนหลัก (การแพร่กระจายเกรเดียนต์) ก็ไม่ต่างกันมาก

สี่ มันมีความจำจริงๆ หรือ? คำตอบคือไม่

แล้วมันมีบทบาทความจำจริงๆ หรือ? คำตอบคือไม่

4.1 ความล้มเหลวของการทดลองแทรกแซงเนื้อหาโดยตรง

หากโมดูลหนึ่งกำลังทำการค้นหาในความหมายที่เข้มข้นจริงๆ เมื่อเราแทรกแซงเนื้อหาความจำของมันอย่างเจาะจง ผลลัพธ์ของโมเดลควรแสดงการเปลี่ยนแปลงที่สอดคล้องกันและคาดการณ์ได้ ตัวอย่างเช่น หากเราเลือกหน่วยความจำที่ได้เปรียบที่สุดในทางทฤษฎี และจงใจฉีดเนื้อหา “ผู้ให้” เฉพาะลงไป โมเดลควรแสดงทิศทาง “ผู้ให้” ที่แข็งแกร่งขึ้น การเปลี่ยนแปลงอันดับ หรือแม้แต่การเพิ่มขึ้นของความสามารถมองเห็นในผลลัพธ์ที่สร้างขึ้น อย่างน้อยที่สุดในตำแหน่งเหล่านี้ อย่างไรก็ตาม ผลการทดลองไม่สนับสนุนสมมติฐานนี้

แม้ในหน่วยความจำที่มีประสิทธิภาพสูงสุด การควบคุมเนื้อหาโดยตรงก็ไม่สามารถสร้างผลการควบคุมที่ทรงพลัง มีเสถียรภาพ และสามารถโปรแกรมได้ คล้ายกับการค้นหา สิ่งนี้สำคัญมาก มันบ่งชี้ว่าในกลไก Engram แม้จะมีสัญญาณเนื้อหาจริงๆ แต่วิธีการทำงานของมันไม่ใช่อย่างที่เอกสารวิชาการดั้งเดิมอ้างว่าเป็นคลังความจำความหมายแบบจ้าง外包

4.2 การตรวจสอบเพิ่มเติมภายใต้พรอมต์ข้อเท็จจริง

บางคนอาจแย้งว่า: บางทีงานทดสอบที่คุณเลือกไม่ “เป็นความจำ” พอ หากเปลี่ยนเป็นพรอมต์ที่มีความเป็นข้อเท็จจริงมากขึ้น บทบาทของเนื้อหาภายนอกอาจชัดเจนขึ้น

การคัดค้านนี้สมเหตุสมผล ดังนั้นเราจึงทำการทดลองชุดนี้ด้วย ผลลัพธ์ก็ยังไม่ปรากฏพฤติกรรมคล้ายการค้นหาตามที่เราคาดหวังเดิม

ห้า ข้อสรุปที่แข็งแกร่งขึ้นหลังขยายขนาด: การตรวจสอบโมเดล 3 พันล้านพารามิเตอร์

หากมีคนคิดว่าปรากฏการณ์ข้างต้นเป็นเพียงภาพลวงตาที่เกิดขึ้นเมื่อทำซ้ำโมเดลขนาดเล็ก ผลลัพธ์ของโมเดล 3 พันล้านพารามิเตอร์ก็สำคัญมาก ก่อนอื่นสังเกตเส้นทางการฝึก: ในขนาด 3 พันล้านล้าน ความได้เปรียบของ Engram เมื่อเทียบกับเส้นฐาน S0 ที่เข้มงวดไม่ได้ปรากฏเฉพาะที่จุดสิ้นสุดการฝึก แต่มีอยู่ตลอดกระบวนการฝึก (ยกเว้นช่วงต้นบางช่วง) นี่แสดงว่าความได้เปรียบด้านประสิทธิภาพที่ Engram นำมาคือของจริงและมีเสถียรภาพ

5.1 ข้อสรุปสุดท้ายจากการตัดออกห้าสภาวะ

แต่สิ่งที่ตัดสินใจมากกว่าคือผลการทดลองตัดออกห้าสภาวะสุดท้าย

ในโมเดล 3 พันล้านพารามิเตอร์ เราเห็นว่าการใช้เนื้อหาความจำจริง (real) ให้ผลดีที่สุด แต่การปิดความจำ (off) เนื้อหาสุ่ม (random) และเนื้อหาแบบเดียวกัน (uniform) สามอย่างนี้มีประสิทธิภาพใกล้เคียงกัน และโดยรวมแล้วดีกว่าเส้นฐาน S0 ที่เข้มงวดอย่างมีนัยสำคัญ เมื่อขยายขนาดโมเดล เราไม่สังเกตเห็นแนวโน้มที่พฤติกรรมของมันจะเหมือนการค้นหามากขึ้น แต่กลับเห็นรูปแบบที่ถูกชี้นำโดยเส้นทาง (pathway) มากขึ้น ซึ่งขัดกับสัญชาตญาณเดิมของเราที่มีต่อกลไก Engram อย่างสิ้นเชิง

หก แนวคิดทางวิศวกรรม: โยนคลังความจำทิ้งไป หันมากอดเสียงสุ่ม

คิดในอีกมุมหนึ่ง นี่เป็นข่าวดีสำคัญ เอกสารวิชาการดั้งเดิมใช้พื้นที่จำนวนมากอธิบายการออกแบบร่วมกันของอัลกอริทึม-ระบบ อธิบายวิธีใช้หน่วยความจำหลัก CPU ขนถ่ายตารางความจำระดับหลายแสนล้านพารามิเตอร์ วิธีทำการดึงล่วงหน้าแบบอะซิงโครนัสผ่าน PCIe เพื่อปกปิดความล่าช้า…

เนื่องจากเราพบว่า การใช้เส้นทางแบบเดียวกัน (กำหนดเส้นทางข้อมูลทั้งหมดไปยังหน่วยความจำเดียวกัน) หรือเนื้อหาที่สุ่มทั้งหมด สามารถได้รับผลประโยชน์ด้านประสิทธิภาพส่วนใหญ่แล้ว เราจึงไม่จำเป็นต้องบังคับให้เพื่อนร่วมงานในทีมโครงสร้างพื้นฐานพัฒนาแผนการจัดตารางระดับระบบที่ซับซ้อน

เราเพียงแค่ต้องเก็บพารามิเตอร์หนึ่งตัวในหน่วยความจำ หรือไม่ก็สร้างเทนเซอร์สุ่มในแต่ละครั้งที่ส่งต่อ (เช่น torch.randn) และกระจายไปยังทุกชั้นก็พอ! ไม่ต้องค้นหาจากตาราง ไม่ต้องสื่อสารข้าม PCIe และไม่ต้องใช้กลยุทธ์การแบ่งชั้นแคช Zipfian ที่ซับซ้อน การใช้หน่วยความจำกราฟิกสามารถลดลงจากหลายร้อย GB อย่างรวดเร็วเหลือเพียงไม่กี่ไบต์ ในขณะที่ประสิทธิภาพยังดีกว่าเส้นฐาน นี่คือปาฏิหาริย์ทางวิศวกรรมที่ลดต้นทุนและเพิ่มประสิทธิภาพ

บทสรุป: กรุณาสอบถามตารางความจำขนาดใหญ่ด้วยความสุภาพ

เขียนอย่างเร่งรีบ อาจมีข้อบกพร่องหลงเหลือ แต่ปรากฏการณ์การทดลองและข้อสรุปหลักน่าจะไม่ผิดพลาดใหญ่

โดยสรุป โมเดล DeepSeek Engram ของคุณอาจไม่ต้องการตารางความจำภายนอกขนาดใหญ่นั้นเลย ครั้งต่อไปที่มีคนคุยโวกับคุณว่าโมเดลภาษาขนาดใหญ่ของเขาติดตั้งคลังความจำ N-gram ภายนอกขนาดใหญ่แค่ไหน ผู้อ่านอาจถามด้วยความสุภาพว่า: “ในตารางของคุณนี้ ไม่ได้ใส่เพียงอคติการทำให้เป็นปกติทั้งหมดใช่ไหม?”