บอกลาการมองเห็นระยะสั้นของเส้นทาง! RMS-MoE ใช้การดึงข้อมูลความจำเพื่อเพิ่มประสิทธิภาพการทำงานร่วมกันของผู้เชี่ยวชาญ MoE อย่างก้าวกระโดด

3 days ago • วิศวกรรมโมเดลขนาดใหญ่ • 49 views

เมื่อขนาดพารามิเตอร์ของโมเดลขนาดใหญ่ขยายตัวอย่างต่อเนื่อง Mixture-of-Experts (MoE) จึงกลายเป็นสถาปัตยกรรมหลักที่ช่วยสร้างสมดุลระหว่างความจุของโมเดลและต้นทุนการคำนวณ อย่างไรก็ตาม ในระบบระดับเว็บในโลกแห่งความเป็นจริง กลไกการกำหนดเส้นทางของ MoE มีข้อบกพร่องที่มักถูกมองข้าม นั่นคือ โดยพื้นฐานแล้วมัน “ไร้ความทรงจำ”

ในสถานการณ์ที่มีการทำงานพร้อมกันสูง เช่น การค้นหา การถาม-ตอบ และการสนทนา อินพุตจำนวนมากไม่ได้แยกจากกันโดยสิ้นเชิง แต่มีความซ้ำซ้อนทางความหมายและความคล้ายคลึงทางโครงสร้างอย่างมีนัยสำคัญ เราเตอร์ MoE แบบดั้งเดิมจะตัดสินใจโดยอิสระตามอินพุตปัจจุบันแต่ละครั้งเท่านั้น โดยประเมินใหม่ว่าควรเปิดใช้งานผู้เชี่ยวชาญคนใด ซึ่งหมายความว่า แม้ว่าโมเดลจะเคยพบชุดผู้เชี่ยวชาญที่เหมาะสมที่สุดสำหรับอินพุตที่คล้ายคลึงกันมาก่อน เมื่อพบปัญหาที่คล้ายกันอีกครั้ง โมเดลก็อาจเริ่มสำรวจตั้งแต่ต้นอีกครั้ง

วิธีการกำหนดเส้นทางที่ “สายตาสั้น” นี้ก่อให้เกิดปัญหาสามประการ ประการแรก การคำนวณซ้ำซ้อนทำให้เกิดความหน่วงในการอนุมานและสิ้นเปลืองทรัพยากร ประการที่สอง การกำหนดเส้นทางไม่เสถียร การรบกวนเล็กน้อยในอินพุตอาจทำให้เกิดชุดผู้เชี่ยวชาญที่แตกต่างกันโดยสิ้นเชิง ประการที่สาม ความร่วมมือระหว่างผู้เชี่ยวชาญนั้นยากที่จะสะสม โมเดลจะเลือกเฉพาะผู้เชี่ยวชาญแต่ละคนเท่านั้น แต่ไม่สามารถนำ “ทีมผู้เชี่ยวชาญ” ที่ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในอดีตกลับมาใช้ใหม่ได้อย่างชัดเจน

เพื่อรับมือกับความท้าทายนี้ ทีมวิจัยจากสถาบันต่างๆ เช่น Moshang Consumer Finance, Nanjing University of Aeronautics and Astronautics และ Alibaba ได้เสนอ RMS-MoE (Retrieval-Memory Synergy Mixture-of-Experts) งานนี้ได้นิยามการกำหนดเส้นทาง MoE ใหม่จากการตัดสินใจแบบจำแนกประเภทครั้งเดียวเป็นกระบวนการ “การดึงข้อมูล-ความทรงจำ-การผสาน” โมเดลจะไม่พึ่งพาการตัดสินใจทันทีของเราเตอร์ปัจจุบันอีกต่อไป แต่จะดึงข้อมูลชุดผู้เชี่ยวชาญที่มีประสิทธิภาพซึ่งเคยถูกเปิดใช้งานโดยอินพุตที่คล้ายคลึงกันจากหน่วยความจำประวัติ และผสานรวมกับผลลัพธ์การกำหนดเส้นทางปัจจุบันแบบไดนามิก

บอกลาการมองเห็นระยะสั้นของเส้นทาง! RMS-MoE ใช้การดึงข้อมูลความจำเพื่อเพิ่มประสิทธิภาพการทำงานร่วมกันของผู้เชี่ยวชาญ MoE อย่างก้าวกระโดด

ชื่อบทความ: Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination
การประชุม: The ACM Web Conference 2026 (WWW 2026)
ผู้เขียน: Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen
สถาบัน: Moshang Consumer Finance, Nanjing University of Aeronautics and Astronautics, Alibaba
ลิงก์บทความ: https://dl.acm.org/doi/epdf/10.1145/3774904.3792922

ทำไมการกำหนดเส้นทาง MoE ถึงต้องการ “ความทรงจำ”?

ข้อได้เปรียบหลักของ MoE คือการเปิดใช้งานแบบกระจัดกระจาย เมื่อกำหนดอินพุต เราเตอร์จะเลือกผู้เชี่ยวชาญเพียงไม่กี่คนจากหลาย ๆ คนเพื่อเข้าร่วมในการคำนวณ ซึ่งช่วยรักษาความจุของโมเดลในขณะที่ลดต้นทุนของการส่งผ่านไปข้างหน้าแต่ละครั้ง

อย่างไรก็ตาม วิธีการกำหนดเส้นทาง MoE หลักในปัจจุบันส่วนใหญ่ยังคงเป็นไปตามกระบวนทัศน์แบบไร้สถานะ อินพุตแต่ละรายการจะถูกประมวลผลอย่างอิสระ และประสบการณ์การเลือกผู้เชี่ยวชาญจากอินพุตที่คล้ายคลึงกันในอดีตไม่ได้ถูกนำมาใช้อย่างเป็นระบบ

สิ่งนี้อาจไม่ชัดเจนในการทดสอบเกณฑ์มาตรฐานแบบออฟไลน์ แต่มีความสำคัญอย่างยิ่งในสถานการณ์เว็บจริง ตัวอย่างเช่น ในการค้นหา การถาม-ตอบแบบเปิดโดเมน ฝ่ายบริการลูกค้าอัจฉริยะ และการสนทนาหลายรอบ คำขอของผู้ใช้มักจะมีการทับซ้อนทางความหมายจำนวนมาก คำถามประเภทเดียวกัน งานประเภทเดียวกัน และสำนวนประเภทเดียวกันจะเกิดขึ้นซ้ำๆ หากระบบคำนวณการจัดสรรผู้เชี่ยวชาญใหม่ทุกครั้ง จะทำให้เกิดความซ้ำซ้อนในการคำนวณอย่างชัดเจน ที่สำคัญกว่านั้น สำหรับอินพุตที่มีความหมายใกล้เคียงกัน หากชุดการเปิดใช้งานผู้เชี่ยวชาญผันผวนบ่อยครั้ง พฤติกรรมของโมเดลก็จะไม่เสถียร

จุดเริ่มต้นของ RMS-MoE คือ เนื่องจากอินพุตของผู้ใช้มีความซ้ำซ้อน รูปแบบความร่วมมือของผู้เชี่ยวชาญจึงควรสามารถบันทึกและนำกลับมาใช้ใหม่ได้ แตกต่างจาก RAG แบบดั้งเดิมที่ดึงข้อมูลเนื้อหาจากฐานความรู้ภายนอก RMS-MoE ไม่ได้ดึงข้อมูลชิ้นส่วนความรู้ แต่ดึงรูปแบบความร่วมมือของผู้เชี่ยวชาญภายในโมเดล กล่าวอีกนัยหนึ่ง มันใช้หน่วยความจำเชิงสถาปัตยกรรม: ให้โมเดลจดจำว่ามันเคยจัดตารางผู้เชี่ยวชาญอย่างไรในอดีต

RMS-MoE: จาก “การกำหนดเส้นทางทันที” สู่ “การกำหนดเส้นทางที่เสริมด้วยการดึงข้อมูล”

กรอบงานโดยรวมของ RMS-MoE ประกอบด้วยสามโมดูลหลัก: หน่วยความจำการเปิดใช้งานร่วม (Co-Activation Memory, CAM), โมดูลการผสานแบบปรับตัว (Adaptive Fusion Module, AFM) และการอัปเดตหน่วยความจำที่นำโดยการเสริมแรง (Reinforcement-Guided Memory Update) CAM ใช้สำหรับจัดเก็บและดึงข้อมูลชุดผู้เชี่ยวชาญที่มีประสิทธิภาพในอดีต AFM ใช้สำหรับผสานความน่าจะเป็นจากหน่วยความจำกับการตัดสินใจแบบเรียลไทม์ของเราเตอร์ปัจจุบันแบบไดนามิก และการอัปเดตแบบป้อนกลับด้วยการเสริมแรงใช้ประโยชน์จากผลตอบรับของงานเพื่อรักษาคุณภาพของหน่วยความจำอย่างต่อเนื่อง

ในแง่ของขั้นตอน เมื่ออินพุตใหม่เข้าสู่โมเดล RMS-MoE จะได้รับการแสดงอินพุตผ่านตัวเข้ารหัสอินพุตก่อน ในขณะที่เราเตอร์มาตรฐานจะสร้างผลลัพธ์การเปิดใช้งานผู้เชี่ยวชาญแบบเรียลไทม์ ในเวลาเดียวกัน CAM จะดึงข้อมูลตัวอย่างประวัติที่คล้ายคลึงกันมากที่สุดจากคลังหน่วยความจำตามการแสดงอินพุตปัจจุบัน และแยกรูปแบบการเปิดใช้งานผู้เชี่ยวชาญที่สอดคล้องกับตัวอย่างเหล่านี้ จากนั้น โมเดลจะรวมความคล้ายคลึงในการดึงข้อมูลและข้อมูลยูทิลิตี้ในอดีตเพื่อสร้างความน่าจะเป็นจากหน่วยความจำ นั่นคือ “ทีมผู้เชี่ยวชาญใดที่มีแนวโน้มจะเหมาะสมกว่าสำหรับอินพุตที่คล้ายคลึงกันในอดีต” สุดท้าย AFM จะเรียนรู้ค่าน้ำหนักการผสานแบบไดนามิกเพื่อรวมความน่าจะเป็นจากหน่วยความจำกับเอาต์พุตของเราเตอร์แบบเรียลไทม์ เพื่อให้ได้ผลลัพธ์การเปิดใช้งานผู้เชี่ยวชาญขั้นสุดท้าย

ข้อดีของการออกแบบนี้คือ สำหรับอินพุตที่คุ้นเคย ซ้ำซาก และมีความหมายใกล้เคียงกัน โมเดลสามารถพึ่งพาชุดผู้เชี่ยวชาญที่ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในอดีตได้มากขึ้น สำหรับอินพุตที่แปลกใหม่หรือมีความคล้ายคลึงต่ำ โมเดลสามารถกลับไปใช้เราเตอร์แบบเรียลไทม์เพื่อรักษาความยืดหยุ่น

แผนภาพกรอบงานวิธีการ RMS-MoE

หน่วยความจำการเปิดใช้งานร่วม: จดจำไม่ใช่ความรู้ แต่เป็น “ทีมผู้เชี่ยวชาญ”

โมดูลสำคัญของ RMS-MoE คือหน่วยความจำการเปิดใช้งานร่วม CAM สามารถเข้าใจได้ว่าเป็นคลังหน่วยความจำแบบคีย์-ค่าแบบไดนามิก แต่ละหน่วยความจำประกอบด้วยสองส่วน: คีย์คือการฝังอินพุต และค่าคือรูปแบบการเปิดใช้งานผู้เชี่ยวชาญที่สอดคล้องกันพร้อมข้อมูลเมตาที่เกี่ยวข้อง เช่น รางวัลในอดีต การใช้งานล่าสุด ฯลฯ

เมื่ออินพุตใหม่มาถึง โมเดลจะใช้การฝังอินพุตปัจจุบันเพื่อดึงข้อมูลรายการ top-K ที่คล้ายคลึงกันใน CAM แต่ละรายการไม่เพียงแสดงถึงอินพุตที่คล้ายคลึงกัน แต่ยังมีชุดผู้เชี่ยวชาญที่ถูกเปิดใช้งานโดยอินพุตนั้นอีกด้วย จากนั้น RMS-MoE จะรวมความคล้ายคลึงและยูทิลิตี้ในอดีตเพื่อรวมชุดผู้เชี่ยวชาญเหล่านี้แบบถ่วงน้ำหนัก เพื่อให้ได้ความน่าจะเป็นในการเลือกผู้เชี่ยวชาญ

แนวคิดหลักที่นี่คือ ความสัมพันธ์ในการเปิดใช้งานร่วมกันระหว่างผู้เชี่ยวชาญนั้นเป็นความรู้เชิงโครงสร้างที่สามารถนำกลับมาใช้ใหม่ได้ เราเตอร์ MoE แบบดั้งเดิมมักจะประเมินผู้เชี่ยวชาญแต่ละคนอย่างอิสระว่าควรถูกเปิดใช้งานหรือไม่ ในขณะที่ RMS-MoE ให้ความสำคัญกับ “ผู้เชี่ยวชาญคนใดที่เคยทำงานร่วมกันอย่างมีประสิทธิภาพ” ซึ่งทำให้โมเดลไม่เพียงแค่เลือกผู้เชี่ยวชาญ แต่ยังนำประสบการณ์ความร่วมมือของทีมผู้เชี่ยวชาญกลับมาใช้ใหม่อีกด้วย

การผสานแบบปรับตัว: ทั้งเชื่อถือความทรงจำและรักษาการตัดสินใจแบบเรียลไทม์

การมีเพียงความทรงจำนั้นไม่เพียงพอ หากโมเดลพึ่งพาประสบการณ์ในอดีตมากเกินไป เมื่อพบงานใหม่ สำนวนใหม่ หรือสถานการณ์ที่เกิดขึ้นน้อย อาจเกิดการถ่ายโอนที่ผิดพลาด ดังนั้น RMS-MoE จึงแนะนำโมดูลการผสานแบบปรับตัว ซึ่งใช้ค่าสัมประสิทธิ์เกตแบบไดนามิกที่เรียนรู้ได้ β เพื่อควบคุมสมดุลระหว่างความน่าจะเป็นจากหน่วยความจำและการกำหนดเส้นทางแบบเรียลไทม์

เมื่ออินพุตปัจจุบันมีความคล้ายคลึงสูงกับตัวอย่างประวัติใน CAM ค่า β จะมากขึ้น และโมเดลจะโน้มเอียงไปใช้ชุดผู้เชี่ยวชาญที่ได้จากการดึงข้อมูลหน่วยความจำมากขึ้น เมื่อความคล้ายคลึงต่ำ ค่า β จะลดลง และโมเดลจะพึ่งพาการตัดสินใจทันทีของเราเตอร์ปัจจุบันมากขึ้น ทำให้ RMS-MoE ไม่ใช่ระบบแคชธรรมดา แต่เป็นกรอบงานการกำหนดเส้นทางที่สามารถตัดสินใจแบบปรับตัวตามความคุ้นเคยของอินพุต

กล่าวโดยสรุป ตรรกะการกำหนดเส้นทางของ RMS-MoE สามารถสรุปได้ดังนี้: สำหรับปัญหาที่คุ้นเคย ให้จัดลำดับความสำคัญในการนำทีมผู้เชี่ยวชาญที่ทำงานได้ดีในอดีตกลับมาใช้ใหม่ สำหรับปัญหาที่ไม่คุ้นเคย ให้กลับไปใช้เราเตอร์ปัจจุบันเพื่อรักษาความสามารถในการสำรวจ สำหรับปัญหาที่คลุมเครือ ให้ประนีประนอมระหว่างความทรงจำและการตัดสินใจแบบเรียลไทม์แบบไดนามิก

การอัปเดตหน่วยความจำแบบป้อนกลับด้วยการเสริมแรง: ให้ความทรงจำวิวัฒนาการอย่างต่อเนื่อง

เพื่อหลีกเลี่ยงไม่ให้ CAM เสื่อมสภาพเป็นแคชแบบคงที่ RMS-MoE ยังได้ออกแบบกลไกการอัปเดตหน่วยความจำที่นำโดยการเสริมแรง ในระหว่างการฝึก โมเดลจะอัปเดตคะแนนยูทิลิตี้ของรายการหน่วยความจำตามผลตอบรับของงาน บทความใช้การสูญเสียการฝึกเชิงลบเป็นสัญญาณรางวัล และใช้ค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียลเพื่ออัปเดตรางวัลในอดีต

ในเวลาเดียวกัน CAM จะบันทึกความใหม่ของรายการ และเมื่อความจุถูกจำกัด จะทำการคัดออกรายการตามคะแนนยูทิลิตี้-ความใหม่ กล่าวคือ หากชุดผู้เชี่ยวชาญนำมาซึ่งประสิทธิภาพงานที่ดีหลายครั้งในอดีต ก็มีแนวโน้มที่จะถูกเก็บรักษาและดึงข้อมูลอีกครั้ง หากชุดผู้เชี่ยวชาญไม่ได้ผลหรือล้าสมัยเป็นเวลานาน ก็จะค่อยๆ ถูกลดความสำคัญหรือถูกลบออก

นอกจากนี้ การอัปเดต CAM ถูกออกแบบให้เป็นกลไกแบบอะซิงโครนัส โมเดลจะไม่แก้ไขดัชนีแบบซิงโครนัสในการส่งผ่านไปข้างหน้าทุกครั้ง แต่จะบัฟเฟอร์การดำเนินการอัปเดตแล้วดำเนินการเป็นชุด การออกแบบนี้หลีกเลี่ยงการรบกวนของดัชนีการดึงข้อมูลต่อการคำนวณเกรเดียนต์ และลดค่าใช้จ่ายของระบบที่เกิดจากการอัปเดตแบบออนไลน์

การทดลอง: ปรับปรุงความแม่นยำ ความหน่วง และความเสถียรพร้อมกันบน WebQA และ MultiWOZ

ผลการเขียนใหม่เชิงลึกและการลดความซ้ำซ้อน

การประเมินหลักของบทความดำเนินการบนชุดข้อมูล WebQA ชุดข้อมูลนี้ประกอบด้วยตัวอย่างคำถาม-คำตอบ 1.2 ล้านตัวอย่าง และประมาณ 30% ของคำค้นหามีความซ้ำซ้อน ซึ่งทำให้เหมาะอย่างยิ่งสำหรับการทดสอบประสิทธิภาพของการกำหนดเส้นทางที่เสริมด้วยหน่วยความจำในสถานการณ์เว็บที่มีการทำซ้ำสูง นอกจากนี้ ทีมวิจัยยังได้ตรวจสอบความสามารถในการสรุปทั่วไปของวิธีการนี้ในงานสนทนาหลายรอบตามภารกิจบนชุดข้อมูล MultiWOZ

ในการทดลอง ทีมวิจัยได้เปรียบเทียบ RMS-MoE กับโมเดลพื้นฐาน MoE ที่ทรงพลังหลายตัว รวมถึง Switch Transformer, Expert-Choice MoE, Hash-MoE, Soft-MoE และ DeepSeekMoE โมเดลทั้งหมดใช้สถาปัตยกรรมพื้นฐาน MoE เดียวกัน: กำหนดค่าผู้เชี่ยวชาญ 32 คน มิติเลเยอร์ที่ซ่อนอยู่ 1024 และเปิดใช้งานผู้เชี่ยวชาญ 4 อันดับแรกต่อโทเค็น RMS-MoE กำหนดความจุ CAM เพิ่มเติมเป็น 10^5 และดึงข้อมูลรายการหน่วยความจำ top-5 รายการ การทดลองทั้งหมดดำเนินการบน GPU NVIDIA A100 จำนวน 8 ตัว และรายงานค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานจากผลการทำงาน 10 ครั้ง

บนชุดข้อมูล WebQA RMS-MoE มีประสิทธิภาพดีที่สุด เมื่อเทียบกับ DeepSeekMoE คะแนน F1 ของ RMS-MoE เพิ่มขึ้น 2.7 จุดเปอร์เซ็นต์ และความหน่วงที่ทำให้เป็นมาตรฐานลดลงจาก 0.72× เป็น 0.53× หรือลดลงประมาณ 26% เมื่อเทียบกับ Switch Transformer ความหน่วงแบบ end-to-end ของ RMS-MoE ลดลงเกือบครึ่งหนึ่ง บนชุดข้อมูล MultiWOZ RMS-MoE ยังคงรักษาข้อได้เปรียบที่คล้ายคลึงกัน โดยเพิ่มคะแนน BLEU ขึ้น 2.5 คะแนน และลดความหน่วงลง 34% ซึ่งแสดงให้เห็นว่าวิธีการนี้ไม่เพียงเหมาะสำหรับงานถาม-ตอบเดี่ยวเท่านั้น แต่ยังสามารถถ่ายโอนไปยังสถานการณ์การสนทนาหลายรอบได้อย่างมีประสิทธิภาพ

คำอธิบายรูป: ผลการทดลองหลักของ WebQA (ความหน่วงถูกทำให้เป็นมาตรฐานเป็น Switch Transformer)

การทดลองการตัดทอน: CAM เป็นกุญแจสำคัญในการปรับปรุงประสิทธิภาพ

เพื่อวิเคราะห์การมีส่วนร่วมของแต่ละโมดูลอย่างลึกซึ้ง บทความได้ดำเนินการทดลองการตัดทอนเพิ่มเติม ผลลัพธ์แสดงให้เห็นว่าหลังจากลบ CAM คะแนน F1 ของโมเดลลดลงจาก 82.5 เป็น 77.3 และความเสถียรลดลงจาก 0.94 เป็น 0.85 ซึ่งเป็นการเสื่อมประสิทธิภาพที่ชัดเจนที่สุด ซึ่งแสดงให้เห็นอย่างเต็มที่ว่าการดึงข้อมูลและนำรูปแบบความร่วมมือของผู้เชี่ยวชาญในอดีตกลับมาใช้ใหม่เป็นแหล่งที่มาของผลประโยชน์หลักของ RMS-MoE

เมื่อลบการผสานแบบปรับตัว (Adaptive Fusion) คะแนน F1 ลดลงเหลือ 78.2 ซึ่งแสดงให้เห็นว่าการมีเพียงหน่วยความจำนั้นไม่เพียงพอ โมเดลต้องสามารถตัดสินใจแบบไดนามิกตามอินพุตปัจจุบันว่าจะ “เชื่อถือหน่วยความจำ” หรือ “เชื่อถือเราเตอร์ปัจจุบัน” หลังจากลบการอัปเดตที่นำโดยการเสริมแรง (reinforcement-guided update) คะแนน F1 ลดลงเหลือ 79.8 และความเสถียรก็ลดลงเช่นกัน ซึ่งแสดงให้เห็นว่าการรักษาคุณภาพของหน่วยความจำอย่างต่อเนื่องก็มีความสำคัญเช่นกัน

การวิเคราะห์ความไวเพิ่มเติมแสดงให้เห็นว่า RMS-MoE มีความทนทานต่อไฮเปอร์พารามิเตอร์ที่สำคัญค่อนข้างดี ความจุ CAM ที่ประมาณ 10^5 ให้ผลลัพธ์ที่ดี จำนวนการดึงข้อมูล top-K ที่ K=5 สามารถสร้างสมดุลที่ดีระหว่างความแม่นยำและความหน่วง และเกตการผสาน β ในที่สุดก็ลู่เข้าที่ประมาณ 0.6 ซึ่งแสดงให้เห็นว่าโมเดลใช้ความน่าจะเป็นจากหน่วยความจำอย่างแข็งขันในการตัดสินใจส่วนใหญ่

คำอธิบายรูป: ผลการทดลองการตัดทอนของ WebQA

ทำไมงานนี้ถึงสำคัญ?

ความสำคัญของ RMS-MoE ไม่เพียงแต่อยู่ที่การเสนอตัวแปร MoE ใหม่เท่านั้น แต่ยังอยู่ที่การทบทวนธรรมชาติของการกำหนดเส้นทาง MoE อีกด้วย ในอดีต การกำหนดเส้นทาง MoE มักถูกมองว่าเป็นปัญหาการตัดสินใจทันที: เมื่อกำหนดโทเค็นปัจจุบัน ให้เลือกผู้เชี่ยวชาญบางคน ในขณะที่ RMS-MoE ขยายขอบเขตนี้เป็นกระบวนการแบบไดนามิกที่มีประสบการณ์ทางประวัติศาสตร์: อินพุตปัจจุบันไม่เพียงถูกกำหนดโดยเราเตอร์ปัจจุบันเท่านั้น แต่ยังสามารถอ้างอิงรูปแบบความร่วมมือของผู้เชี่ยวชาญที่ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพจากอินพุตที่คล้ายคลึงกันในอดีต

สิ่งนี้นำมาซึ่งการเปลี่ยนแปลงในสามระดับ ประการแรก การกำหนดเส้นทางเปลี่ยนจาก “ไร้สถานะ” เป็น “มีความทรงจำ” โมเดลสามารถนำชุดผู้เชี่ยวชาญที่ประสบความสำเร็จในอดีตกลับมาใช้ใหม่ ซึ่งช่วยลดการสำรวจซ้ำซ้อน ประการที่สอง การเลือกผู้เชี่ยวชาญเปลี่ยนจาก “การให้คะแนนผู้เชี่ยวชาญเดี่ยว” ไปสู่ “การนำทีมผู้เชี่ยวชาญกลับมาใช้ใหม่” RMS-MoE สร้างแบบจำลองรูปแบบการเปิดใช้งานร่วมอย่างชัดเจน ทำให้ความสัมพันธ์ความร่วมมือของผู้เชี่ยวชาญกลายเป็นโครงสร้างที่สามารถดึงข้อมูล เสริมกำลัง และคัดออกได้ ประการที่สาม การเสริมด้วยการดึงข้อมูลไม่ได้จำกัดอยู่ที่ระดับเนื้อหาอีกต่อไป RAG แบบดั้งเดิมดึงข้อมูลความรู้ภายนอกหรือชิ้นส่วนข้อความ ในขณะที่ RMS-MoE ดึงข้อมูลพฤติกรรมทางสถาปัตยกรรมภายในโมเดล

สำหรับระบบการอนุมานระดับเว็บ สิ่งนี้มีความสำคัญอย่างยิ่ง สถานการณ์ต่างๆ เช่น การค้นหา การถาม-ตอบ การสนทนา การแนะนำ และฝ่ายบริการลูกค้าอัจฉริยะ ล้วนมีคำขอของผู้ใช้ที่เกิดขึ้นบ่อย ซ้ำซาก และคล้ายคลึงกัน วิธีลดต้นทุนการอนุมานและปรับปรุงความเสถียรในการตอบสนองในขณะที่รับประกันประสิทธิภาพของโมเดล เป็นปัญหาที่เป็นรูปธรรมมากในกระบวนการนำโมเดลขนาดใหญ่ไปใช้ RMS-MoE นำเสนอแนวคิดที่มีน้ำหนักเบาแต่มีประสิทธิภาพ: ให้โมเดลจดจำการคำนวณที่มีประสิทธิภาพที่เคยทำในอดีต และนำประสบการณ์เหล่านี้กลับมาใช้ใหม่ในสถานการณ์ที่คล้ายคลึงกัน

บทสรุป

เมื่อขนาดของโมเดลขนาดใหญ่ยังคงเพิ่มขึ้นอย่างต่อเนื่อง MoE ได้กลายเป็นเส้นทางสำคัญในการปรับปรุงความจุของโมเดลและประสิทธิภาพการอนุมาน อย่างไรก็ตาม MoE ที่มีประสิทธิภาพอย่างแท้จริงไม่ควรเป็นเพียง “การเปิดใช้งานผู้เชี่ยวชาญมากขึ้นแบบกระจัดกระจาย” แต่ควรสามารถเรียนรู้และนำกฎความร่วมมือระหว่างผู้เชี่ยวชาญกลับมาใช้ใหม่ได้

RMS-MoE รวมการดึงข้อมูล หน่วยความจำ และการกำหนดเส้นทางผู้เชี่ยวชาญเข้าด้วยกัน โดยแนะนำหน่วยความจำทางสถาปัตยกรรมรูปแบบใหม่ให้กับสถาปัตยกรรม MoE ผลการทดลองแสดงให้เห็นว่าการออกแบบนี้สามารถปรับปรุงความแม่นยำ ความหน่วงในการอนุมาน และความเสถียรในการกำหนดเส้นทางพร้อมกันในงาน QA ระดับเว็บและการสนทนาหลายรอบ

เมื่อมองไปข้างหน้า ด้วยการปรับใช้โมเดลขนาดใหญ่เพิ่มเติมในระบบการค้นหา การสนทนา ฝ่ายบริการลูกค้าอัจฉริยะ และระบบงานที่ซับซ้อน วิธีทำให้เส้นทางการคำนวณภายในของโมเดลมีความเสถียร นำกลับมาใช้ใหม่ได้ และอธิบายได้มากขึ้น จะกลายเป็นทิศทางสำคัญในการปรับปรุงประสิทธิภาพของระบบโมเดลขนาดใหญ่ งานของ RMS-MoE แสดงให้เห็นว่า โมเดลขนาดใหญ่ไม่เพียงต้องจดจำความรู้ภายนอกเท่านั้น แต่ยังต้องจดจำ “วิธีคิด” และ “วิธีจัดสรรทรัพยากรการคำนวณ” ของตัวเองด้วย

แนะนำผู้เขียน

Wanjie Tao: ปัจจุบันดำรงตำแหน่งรองผู้อำนวยการฝ่ายอัลกอริทึมของสถาบันวิจัยปัญญาประดิษฐ์ของ Moshang Consumer Finance สำเร็จการศึกษาระดับปริญญาโทจาก Beijing University of Posts and Telecommunications เขาทำการวิจัยระยะยาวในด้านโมเดลขนาดใหญ่แนวตั้งทางการเงิน ฝ่ายบริการลูกค้าอัจฉริยะ วิศวกรรมความรู้ และระบบบริการ AI ที่มีความน่าเชื่อถือสูง ปัจจุบันให้ความสำคัญกับการเสริมด้วยการดึงข้อมูล โมเดลผู้เชี่ยวชาญแบบผสม การทำงานร่วมกันของตัวแทนหลายตัว และการประยุกต์ใช้โมเดลขนาดใหญ่ที่ควบคุมได้ อธิบายได้ และปรับขนาดได้ในสถานการณ์ทางการเงิน โดยมุ่งมั่นที่จะสร้างระบบบริการอัจฉริยะที่มีประสิทธิภาพ เสถียร และเชื่อถือได้สำหรับสถานการณ์ทางธุรกิจจริง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง