ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

โมเดลภาษาขนาดใหญ่ที่ทรงพลังที่สุด ได้นำการปรับขนาด (scaling) ไปสู่มิติใหม่: บริบทระดับล้านโทเค็น

ไม่กี่วันก่อน Claude Opus 4.6 เปิดตัว ทำให้ผู้คนได้สัมผัสถึงความสามารถที่เกิดขึ้นจริงของบริบทระดับล้านโทเค็นเป็นครั้งแรก — สามารถประมวลเนื้อหาภาษาจีนได้มากถึง 500,000 คำในครั้งเดียว ดำเนินการวิเคราะห์เอกสารกฎหมายข้ามไฟล์ การวางแผนเอเจนต์หลายรอบ…

และลมแห่งการปรับขนาดนี้ ก็พัดมาถึงฝั่งอุปกรณ์ปลายทางอย่างรวดเร็ว

Mianbi Intelligence ได้เปิดตัว โมเดลความสนใจแบบผสมระหว่างแบบเบาบางและเชิงเส้น ที่ผ่านการฝึกฝนครั้งใหญ่เป็นครั้งแรก สถาปัตยกรรมความสนใจใหม่นี้ ไม่เพียงแต่แก้ปัญหาความซ้ำซ้อนในการคำนวณของ Transformer แบบดั้งเดิม แต่ยังทำให้โมเดลขนาด 9B สำหรับอุปกรณ์ปลายทางสามารถ ประมวลข้อความยาวระดับล้านโทเค็นบนการ์ดจอ 5090 ได้ โดยไม่สูญเสียประสิทธิภาพ เป็นครั้งแรก

ในเวลาเดียวกัน โมเดล MiniCPM-SALA ที่ใช้สถาปัตยกรรมความสนใจ SALA ก็จะถูกเปิดเผยเป็นโอเพ่นซอร์สด้วย

นอกจากนี้ Mianbi ยังได้ร่วมกับชุมชน OpenBMB, SGLang และ NVIDIA จัดตั้ง การแข่งขันรางวัลใหญ่เพื่อเร่งความเร็วโอเปอเรเตอร์แบบเบาบางปี 2026 (SOAR) โดยมีเป้าหมายเพื่อส่งมอบความสามารถในการปรับขนาดนี้ให้ถึงมือนักพัฒนาโดยตรง และผลักดันให้เกิดความก้าวหน้าด้านประสิทธิภาพในการปรับใช้งานเอเจนต์บนอุปกรณ์ปลายทาง

สถาปัตยกรรมความสนใจแบบผสม Linear-Sparse

สถาปัตยกรรมใหม่ล่าสุดของ Mianbi ที่ผสมผสานระหว่างความสนใจเชิงเส้นและแบบเบาบาง SALA (Sparse Attention-Linear Attention) นั้น มีวิธีการผสมผสานอย่างไร?

พูดง่ายๆ คือ สถาปัตยกรรมนี้รวม ความสนใจเชิงเส้น 75% (Lightning Attention) กับ ความสนใจแบบเบาบาง 25% (InfLLM v2) เข้าด้วยกัน และผ่าน การเข้ารหัสตำแหน่งแบบผสม HyPE (Hybrid Position Encoding) ทำให้ทั้งสองส่วนทำงานร่วมกันได้อย่างมีประสิทธิภาพและมีความสามารถในการขยายความยาว (length extrapolation) ที่ยอดเยี่ยม

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

ในโมดูล ความสนใจเชิงเส้น Linear-Sparse เลือกใช้ Lightning Attention เป็นโอเปอเรเตอร์หลัก รับผิดชอบในการสร้างแบบจำลอง ข้อมูลภาพรวมของข้อความยาว อย่างรวดเร็วและมีเสถียรภาพ

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

วิธีการคำนวณของ Lightning Attention ใกล้เคียงกับความสนใจแบบเต็ม (Full Attention) แบบดั้งเดิม ทำให้โมเดลความสนใจแบบเต็มที่มีอยู่สามารถย้ายมาสู่สถาปัตยกรรมแบบผสมได้โดยตรง โดยไม่จำเป็นต้องฝึกฝนใหม่ตั้งแต่เริ่มต้น ในเวลาเดียวกัน ด้วย QK-normalization และ กลไกควบคุมเอาต์พุต (output gating mechanism) ทำให้เลเยอร์เชิงเส้นมีเสถียรภาพเชิงตัวเลขภายใต้การฝึกฝนบริบทระดับล้านโทเค็น หลีกเลี่ยงการระเบิดหรือไหลล้นของเกรเดียนต์

ในโมดูล ความสนใจแบบเบาบาง Linear-Sparse ใช้ InfLLMv2 เพื่อจับข้อมูลเฉพาะส่วนที่สำคัญในลำดับยาวได้อย่างแม่นยำ

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

InfLLM v2 สามารถเลือก KV ที่สำคัญตามความต้องการ ทำให้แต่ละ Query คำนวณเฉพาะส่วนที่จำเป็นเท่านั้น จึงช่วยเพิ่มประสิทธิภาพในการประมวลผลข้อความยาวได้อย่างมาก สิ่งที่ควรค่าแก่การกล่าวถึงคือ InfLLM v2 ยังสามารถเปิดใช้งานโหมดเบาบางโดยอัตโนมัติในข้อความยาว และกลับไปใช้การคำนวณแบบหนาแน่น (dense) ในความยาวมาตรฐาน ทำให้สามารถสลับระหว่างข้อความสั้นและยาวได้อย่างราบรื่น

สุดท้าย การนำ การเข้ารหัสตำแหน่งแบบผสม HyPE (Hybrid Position Encoding) มาใช้ ทำให้มั่นใจได้ว่ากลไกความสนใจทั้งสองแบบ คือเชิงเส้นและเบาบาง จะทำงานร่วมกันได้อย่างเต็มที่ ในด้านหนึ่ง เลเยอร์เชิงเส้นยังคงใช้ RoPE เพื่อรักษาความสอดคล้องกับโมเดลความสนใจแบบเต็มเดิมในแง่ของการกระจายพารามิเตอร์และพื้นที่คุณลักษณะ ทำให้ประสิทธิภาพของข้อความความยาวปานกลางและสั้นมีเสถียรภาพ ในอีกด้านหนึ่ง เลเยอร์เบาบางใช้ NoPE (ไม่มีการเข้ารหัสตำแหน่ง) ทำให้ KV-Cache ไม่ผูกติดกับข้อมูลตำแหน่ง หลีกเลี่ยงปัญหาการลดลงในระยะยาว ทำให้โมเดลยังสามารถดึงข้อมูลที่อยู่ไกลมากได้อย่างมีประสิทธิภาพแม้ในบริบทความยาวล้านโทเค็น

ในด้านการฝึกฝน MiniCPM-SALA ใช้ วิธีการสร้างต้นทุนต่ำจาก Transformer สู่ Hybrid (HALO)

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

โดยเฉพาะอย่างยิ่ง โมเดลใช้วิธี HALO เพื่อแปลงเลเยอร์ความสนใจแบบเต็ม 75% เป็นเลเยอร์ความสนใจเชิงเส้น กระบวนการทั้งหมดประกอบด้วยสี่ขั้นตอน: การแปลงพารามิเตอร์ การจัดตำแหน่งสถานะแฝง (hidden state) การเลือกเลเยอร์ และการกลั่นความรู้ (knowledge distillation) ในท้ายที่สุด การออกแบบ Linear-Sparse นี้ทำให้ MiniCPM-SALA เมื่อประมวลผลข้อความยาวพิเศษบนอุปกรณ์ปลายทาง ไม่เพียงแต่ใช้หน่วยความจำแสดงผล (VRAM) น้อยมากและคำนวณได้อย่างมีประสิทธิภาพ แต่ความแม่นยำทางความหมายยังคงอยู่ในระดับแนวหน้าอีกด้วย

ทำไมบริบทระดับล้านโทเค็น ต้องเป็น “ความสนใจแบบผสม”?

เพื่อตอบคำถามนี้ ต้องย้อนกลับไปที่ Full Attention แบบดั้งเดิม

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

ใน Transformer แบบคลาสสิก ทุกครั้งที่สร้างโทเค็นใหม่ ต้องคำนวณแบบคู่กับโทเค็นก่อนหน้าทั้งหมด ความซับซ้อนในการคำนวณเป็น O(N²) แบบดั้งเดิม นี่หมายความว่า การขยายบริบทจาก 10,000 เป็น 1 ล้านโทเค็น ปริมาณการคำนวณไม่ได้เพิ่มขึ้น 100 เท่า แต่พุ่งสูงขึ้นถึง 10,000 เท่า ในเวลาเดียวกัน เพื่อให้โมเดล “จำ” ข้อมูลประวัติทั้งหมดได้ ต้องเก็บคู่ KV ทั้งหมดไว้ในหน่วยความจำแสดงผล เมื่อความยาวของบริบทเพิ่มขึ้น KV Cache จะขยายตัวอย่างรวดเร็วและจะเต็มหน่วยความจำแสดงผลในไม่ช้า

จากนี้จะเห็นได้ว่า หากต้องการแก้ปัญหาบริบทยาว กลไกความสนใจคือคอขวดหลัก

ในช่วงหลายปีที่ผ่านมา อุตสาหกรรมได้สำรวจหลายเส้นทางรอบคอขวดนี้ โดยพื้นฐานแล้วคือการ หาจุดสมดุลระหว่างความแม่นยำ ประสิทธิภาพ และความสามารถในการปรับใช้:

ประเภทแรกคือ ความสนใจเชิงเส้น โดยทั่วไปเป็นการออกแบบแบบผสมระหว่างเชิงเส้นและความสนใจแบบเต็ม ใช้สถานะความจำแทนการให้คะแนนแบบคู่แบบดั้งเดิม สามารถลดความซับข้อนในการคำนวณจาก O(N²) เป็น O(N) ข้อดีคือสามารถรองรับบริบทระดับล้านโทเค็นได้ แต่ระดับล่างใช้การบีบอัดแบบสูญเสีย (lossy compression) ยิ่งลำดับยาว ข้อมูลในช่วงต้นก็ยิ่ง容易被เจือจาง นำไปสู่การลืมบริบทและความสามารถของโมเดลลดลง

ประเภทที่สองคือ ความสนใจแบบเบาบางดั้งเดิม (Native Sparse Attention) คำนวณเฉพาะตำแหน่งสำคัญเท่านั้น ความแม่นยำใกล้เคียงกับความสนใจแบบเต็ม แต่เพื่อสนับสนุนการทบทวนประวัติศาสตร์ในระยะยาว ยังจำเป็นต้องบันทึก KV Cache แบบเต็มจำนวนทั้งหมด ทำให้ต้นทุนการปรับใช้บนอุปกรณ์ปลายทางสูง

ประเภทที่สามคือ โมเดลสเปซสเตต (State Space Model) ที่ละทิ้งความสนใจแบบชัดแจ้ง เช่น Mamba วิธีการประเภทนี้มีประสิทธิภาพการอนุมานสูง เกือบไม่ต้องการ KV Cache แต่ในด้านการปฏิบัติตามคำสั่งที่แม่นยำและการดึงข้อมูลระยะยาวที่แม่นยำ ยังไม่เสถียรพอ

โดยสรุป เราไม่難เห็นว่า การปรับเปลี่ยนกลไกความสนใจคือสนามรบหลักของการปรับขนาดบริบทยาว แต่โซลูชันที่สามารถ兼顾ความสามารถบริบทระดับล้านโทเค็น ประสิทธิภาพการอนุมาน และความสามารถในการปรับใช้บนอุปกรณ์ปลายทางได้พร้อมกัน ยังคงหายาก

นี่คือเหตุผลที่ Mianbi เสนอ สถาปัตยกรรมความสนใจแบบผสม Linear-Sparse: ใช้กลไกเชิงเส้นในการรองรับบริบทขนาดใหญ่ ใช้กลไกแบบเบาบางเพื่อเสริมสร้างความสามารถในการสร้างแบบจำลองตำแหน่งสำคัญอย่างแม่นยำ

ภายใต้สถาปัตยกรรมนี้ โมเดลไม่จำเป็นต้องคำนวณแบบคู่ที่สมบูรณ์สำหรับโทเค็นทั้งหมดอีกต่อไป และไม่จำเป็นต้องบันทึก KV Cache แบบเต็มจำนวนทั้งหมดโดยไม่มีเงื่อนไข สถาปัตยกรรมความสนใจแบบผสมใหม่สามารถลดต้นทุนการอนุมานและการใช้หน่วยความจำแสดงผลได้อย่างมีนัยสำคัญ ในขณะเดียวกันก็หลีกเลี่ยงการสูญเสียความแม่นยำในการเรียกคืนข้อมูลระยะยาวของความสนใจเชิงเส้นล้วน และข้อจำกัดของความสนใจแบบเบาบางในข้อกำหนดของอุปกรณ์ปลายทาง

基于การออกแบบนี้ Mianbi ได้เปิดเผย MiniCPM-SALA เป็นโอเพ่นซอร์ส เพื่อใช้ตรวจสอบศักยภาพของสถาปัตยกรรมนี้ในสถานการณ์บริบทยาวจริง ในด้านประสิทธิภาพ 得益于การใช้หน่วยความจำแสดงผลที่ต่ำกว่าอย่างมีนัยสำคัญและประสิทธิภาพการอนุมานที่สูงกว่า MiniCPM-SALA เป็นครั้งแรกที่สามารถรันบริบท 1M โทเค็นได้สมบูรณ์บนการ์ดจอระดับผู้บริโภคเช่น 5090 ได้สำเร็จ เป็นเส้นทางที่เป็นไปได้จริงสำหรับการย้ายบริบทยาวจากคลาวด์ไปสู่อุปกรณ์ปลายทาง

ในเวลาเดียวกัน โดยไม่พึ่งพาอัลกอริธึมเร่งความเร็วเพิ่มเติม เช่น speculative inference เมื่อเทียบกับโมเดลโอเพ่นซอร์สขนาดเดียวกัน MiniCPM-SALA บรรลุความเร็วที่เพิ่มขึ้นมากกว่า 2 เท่า บนลำดับความยาว 256K เมื่อความยาวลำดับเพิ่มขึ้นเป็น 512K หรือแม้แต่ 1M โมเดลขนาดเดียวกันบางรุ่นประสบกับคอขวดหน่วยความจำแสดงผลแล้ว ในขณะที่ MiniCPM-SALA ยังคงสามารถทำงานได้อย่างมีเสถียรภาพ

จากผลลัพธ์เหล่านี้ โมเดลภาษาขนาดใหญ่ในอนาคต ไม่จำเป็นต้องใช้ Full Attention เสมอไปจึงจะมีประสิทธิภาพครบถ้วน เมื่อบริบทกลายเป็นทรัพยากรอันดับแรก การออกแบบความสนใจใหม่ๆ เช่น ความสนใจแบบผสม Linear-Sparse กำลังกลายเป็นตัวแปรสำคัญที่ส่งผลต่อว่าโมเดลจะสามารถปรับใช้ได้จริงหรือไม่

การแข่งขันรางวัลใหญ่เพื่อเร่งความเร็วโอเปอเรเตอร์แบบเบาบางปี 2026

如果说 MiniCPM-SALA ทำให้ความสามารถของสถาปัตยกรรมแบบผสม Linear-Sparse มีหลักฐานเชิงประจักษ์แล้วล่ะก็ SOAR (การแข่งขันรางวัลใหญ่เพื่อเร่งความเร็วโอเปอเรเตอร์แบบเบาบาง) ในปีนี้คือเวทีที่ทำให้เทคโนโลยีนี้ “ลงมือปฏิบัติและทำงานได้จริง”

การแข่งขันนี้ริเริ่มโดย Mianbi Intelligence, OpenBMB ร่วมกับชุมชน SGLang และ NVIDIA โดยมีเป้าหมายเพื่อสำรวจขีดจำกัดประสิทธิภาพของ MiniCPM-SALA โมเดลสถาปัตยกรรมแบบผสม “เบาบาง+เชิงเส้น” ที่เป็นครั้งแรกของโลก ในการอนุมานข้อความยาว 1M โทเค็น ผ่านความร่วมมือเชิงลึกของนักพัฒนาทั่วโลก

กล่าวโดยเฉพาะ การแข่งขันมุ่งเน้นไปที่ความท้าทายด้านเทคโนโลยีระดับล่าง เช่น การหลอมรวมโอเปอเรเตอร์แบบเบาบางและการปรับแต่งคอมไพเลอร์ พยายามบรรลุประสิทธิภาพสูงสุดในการอนุมานล้านโทเค็นบน GPU ระดับผู้บริโภค โดยมี KV Cache <6GB ระยะเวลาการแข่งขันตั้งแต่ 11 กุมภาพันธ์ ถึง 29 พฤษภาคม มีรางวัลรวมมูลค่าเกิน 700,000 หยวน ผู้เข้าแข่งขันไม่เพียงแต่สามารถทดสอบขีดจำกัดของสถาปัตยกรรมแบบผสมบนฮาร์ดแวร์จริง แต่ยังสามารถสำรวจวิธีการใหม่ๆ ในการประมวลผลข้อความยาวอย่างมีประสิทธิภาพบนอุปกรณ์ปลายทาง

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

ทำไม Mianbi จึงยึดมั่นในการสร้างบริบทยาวใหม่ด้วย SALA?

นี่ไม่ใช่เพื่อ “แข่งขันตัวชี้วัดบริบทยาว”

正是基于对注意力机制的创新 MiniCPM-SALA โมเดลจึงมีประสิทธิภาพเพียงพอและใช้หน่วยความจำแสดงผลต่ำเพียงพอ ทำให้ Mianbi Intelligence เป็นครั้งแรกที่สามารถรันการอนุมานข้อความยาวระดับพันล้านโทเค็นบนอุปกรณ์ปลายทางได้จริง บน GPU ระดับผู้บริโภคเช่น 5090

เมื่อขั้นตอนนี้สำเร็จ บริบทยาว就不再เป็นสิทธิพิเศษของโมเดลบนคลาวด์อีกต่อไป แต่กลายเป็นความสามารถพื้นฐานที่ปัญญาปลายทาง (edge intelligence) สามารถพึ่งพาได้

纵观 Mianbi Intelligence ในปีนี้ แนวคิดโดยรวมของพวกเขาในด้านปัญญาปลายทางสามารถเห็นได้ชัดเจน: จากระดับล่างของโมเดล สู่ระบบนิเวศปลายทาง โดยแกนหลักคือ บริบท ไม่ว่าจะเป็นการพัฒนารูปแบบสถาปัตยกรรมโมเดล หรือการแข่งขันความสามารถข้อความยาว โดยพื้นฐานแล้วล้วนเป็นกลยุทธ์ “สองขั้นตอน” ที่มุ่งเป้าไปที่การปรับใช้บนอุปกรณ์ปลายทาง และนี่ไม่ใช่เรื่องบังเอิญ

放眼整个行业 คอขวดหลักของเอเจนต์ (Agent) ได้เปลี่ยนจากเพียงแค่จำนวนพารามิเตอร์ ไปสู่ความสามารถด้านบริบท — จากระดับโมเดลอย่าง Claude Opus 4.6 ไปจนถึงระดับแอปพลิเคชันอย่าง Claude Cowork, Clawdbot (ปัจจุบันคือ OpenClaw) และระดับการประเมินอย่าง CL-Bench ความเห็นพ้องต้องกันในอุตสาหกรรมได้ชัดเจนมากแล้ว:

ความสามารถในการดูดซับ ทำความเข้าใจ และใช้ประโยชน์จากบริบทจำนวนมากในครั้งเดียว เป็นกุญแจสำคัญที่กำหนดความสามารถในการใช้งานของเอเจนต์

与此同时 การปรับปรุงการประมวลผลบริบท基于การปรับปรุงกลไกความสนใจ ก็กลายเป็นสนามรบหลักที่ได้รับการยอมรับจากทั้งแวดวงวิชาการและอุตสาหกรรม ปีที่แล้ว NeurIPS 2025 มอบรางวัล Best Paper ให้กับ Gated Attention; ด้านอุตสาหกรรม มีการเปิดตัวโซลูชันใหม่ๆ เช่น KDA ของ Kimi, NSA ของ DeepSeek, Lightning ของ MiniMax — ผู้เล่นหลักเกือบทั้งหมด ต่างให้ความสำคัญอย่างต่อเนื่องกับเส้นทางความสนใจนี้

เพราะนี่ไม่ใช่ปัญหา “การปรับแต่งทางวิศวกรรม” แต่เป็นปัญหาเชิงสถาปัตย


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22964

Like (0)
Previous 2026年2月11日 pm5:13
Next 2026年2月11日 pm8:32

相关推荐