เมื่อเร็วๆ นี้ บริษัท Apple ได้เปิดเผยความก้าวหน้าทางเทคนิคที่สำคัญทางวิศวกรรม นั่นคือการปรับเปลี่ยนสถาปัตยกรรม Transformer ที่มีประสิทธิภาพสูงแต่มีต้นทุนสูง ให้เป็นสถาปัตยกรรม Mamba ที่มีต้นทุนต่ำกว่าและสูญเสียประสิทธิภาพน้อยมาก การอัปเกรดนี้เปรียบเสมือนการเปลี่ยนจากแหล่งพลังงานพิเศษที่มีต้นทุนสูง มาเป็นโครงสร้างพื้นฐานที่ทั่วถึงและเข้าถึงได้
เหตุใดจึงต้องมีการปรับเปลี่ยนเช่นนี้?
สาเหตุหลักคือ แม้ว่า Transformer จะครองโดเมนการเรียนรู้เชิงลึกในช่วงทศวรรษที่ผ่านมา แต่ต้นทุนการคำนวณของมันจะเพิ่มขึ้นแบบกำลังสองตามความยาวของลำดับ การประมวลผลข้อความสั้นๆ อาจจะพอใช้ได้ แต่เมื่อเกี่ยวข้องกับงานที่มีบริบทยาว (เช่น การสร้างโค้ด เอเจนต์ การอนุมานแบบหลายรอบ) ต้นทุนจะเพิ่มสูงขึ้นอย่างรวดเร็วจนยากจะรับไหว
ด้วยเหตุนี้ อุตสาหกรรมจึงพยายามหาทางเลือกอื่นๆ อย่างต่อเนื่อง เช่น Linear Attention, RWKV และ Mamba ที่เพิ่งเกิดขึ้นใหม่ โมเดลเหล่านี้มีเป้าหมายร่วมกันคือการลดความซับซ้อนแบบกำลังสองให้เป็นเชิงเส้น เพื่อให้ได้ความเร็วที่สูงขึ้น การใช้หน่วยความจำที่น้อยลง และการอนุมานที่ราบรื่นขึ้น อย่างไรก็ตาม จุดอ่อนหลักของพวกมันคือประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อขนาดโมเดลใหญ่ขึ้น ยังคงมีช่องว่างที่ชัดเจนกับ Transformer สิ่งนี้ก่อให้เกิดภาวะกลืนไม่เข้าคายไม่ออก:
ต้องการประสิทธิภาพ เลือก Transformer (แต่ต้นทุนสูง);
ต้องการต้นทุนต่ำ เลือก Mamba (แต่ประสิทธิภาพอ่อน)
แล้ว มีความเป็นไปได้ไหมที่จะ “ได้ทั้งสองอย่าง”? เป็นไปได้หรือไม่ที่จะถ่ายโอนความสามารถของ Transformer ไปยัง Mamba โดยตรง โดยไม่ต้องฝึกซ้ำ?
การกลั่นความรู้โดยตรงจะทำให้ประสิทธิภาพพังทลาย Transformer เปรียบเสมือน “นักเรียนเก่งที่เปิดหนังสือได้” ซึ่งสามารถค้นหาข้อมูลได้ตลอดเวลา ในขณะที่ Mamba เปรียบเสมือน “นักเรียนที่สอบแบบปิดหนังสือ” ซึ่งพึ่งพาความจำเพียงอย่างเดียว การบังคับให้ฝ่ายหลังสอบแบบปิดหนังสือโดยไม่ให้ช่วงเปลี่ยนผ่าน ผลลัพธ์ที่ได้จะเลวร้าย
Apple ไม่ได้เลือกที่จะเผชิญหน้าโดยตรง แต่ใช้กลยุทธ์ “สองขั้นตอน”:
- สร้างรูปแบบกลาง: ขั้นแรก ทำให้ Transformer ง่ายขึ้นเป็นเวอร์ชันที่ใกล้เคียงกับสถาปัตยกรรม Mamba มากขึ้น
- แปลงโครงสร้าง: จากนั้น แปลงจากเวอร์ชันกลางนี้ไปเป็นโมเดล Mamba ขั้นสุดท้าย

โดยเฉพาะอย่างยิ่ง พวกเขาแทนที่ Softmax Attention ที่มีต้นทุนการคำนวณสูงมาก ใน Transformer ด้วย โมดูล Mamba ที่มีประสิทธิภาพสูงกว่า มีการนำรูปแบบเปลี่ยนผ่านเข้ามา: ขั้นแรกแปลง Attention เป็น Linear Attention ที่เรียนรู้ได้ (Hedgehog) จากนั้นรวมกับ Mamba ในที่สุดก็เกิดเป็นโมดูลไฮบริดที่ชื่อว่า HedgeMamba
ขั้นตอนที่ 1: จาก Softmax Attention สู่ Linear Attention
เป้าหมายของขั้นตอนนี้คือการแทนที่ Softmax Attention ดั้งเดิมด้วย Linear Attention ในขณะที่พยายามรักษาประสิทธิภาพไม่ให้ลดลง Linear Attention แบบดั้งเดิมมีช่องว่างด้านประสิทธิภาพกับ Softmax Attention ค่อนข้างมาก เพื่อชดเชยช่องว่างนี้ นักวิจัยใช้ทฤษฎีบทของ Mercer โดยใช้วิธีการที่เรียกว่า Hedgehog ซึ่งใช้โครงข่ายประสาทเทียมขนาดเล็ก (MLP) เพื่อเรียนรู้การแมปคุณลักษณะ ทำให้ Linear Attention เลียนแบบพฤติกรรมดั้งเดิมให้มากที่สุด
จากนั้น ผ่าน การกลั่นด้วยความคล้ายคลึงโคไซน์ ทำให้เอาต์พุตของโครงสร้างใหม่นี้สอดคล้องกับ Transformer ดั้งเดิม เมื่อเสร็จสิ้นขั้นตอนนี้ ก็จะได้โมเดลกลางที่ “ถูกกว่าแต่ยังคงทำงานเหมือน Transformer”
ขั้นตอนที่ 2: จาก Linear Attention สู่ Mamba
ต่อไป จะฝัง Linear Attention ที่สอดคล้องกันแล้วเข้าไปในโครงสร้าง Mamba ขั้นตอนสำคัญคือ: จับคู่วิธีการคำนวณหลักในกลไก Attention กับพารามิเตอร์ภายในของ Mamba ด้วยวิธีนี้ พฤติกรรมของ Mamba เมื่อเริ่มต้นจะใกล้เคียงกับโมเดลในระยะก่อนหน้าแล้ว แทนที่จะเริ่มเรียนรู้จากศูนย์ โดยพื้นฐานแล้วนี่คือการจัดแนวโครงสร้าง
นอกจากนี้ เนื่องจาก Attention ดั้งเดิมมีกลไกการทำให้เป็นมาตรฐานในตัว ในขณะที่เวอร์ชันเชิงเส้นไม่มี นักวิจัยจึงเพิ่มขั้นตอนการทำให้เป็นมาตรฐานอีกขั้น เพื่อให้รูปแบบเอาต์พุตใกล้เคียงกับ Attention ดั้งเดิมมากขึ้น โดยไม่ทำลายประสิทธิภาพการคำนวณ
หลังจากเตรียมการเหล่านี้เสร็จแล้ว จึงเข้าสู่ขั้นตอนการฝึกจริง พวกเขาปรับแต่งโมเดลทั้งหมด โดยใช้ฟังก์ชันการสูญเสีย Cross-Entropy มาตรฐาน และเปิดใช้งานความสามารถดั้งเดิมของ Mamba อีกครั้ง เช่น Convolution และ Gating Mechanism จุดประสงค์ของขั้นตอนนี้คือเพื่อให้โมเดลไม่เพียงแค่เลียนแบบ แต่ยังเรียนรู้ความสามารถด้วยวิธีการของตัวเองอีกครั้ง
หัวใจสำคัญของวิธีนี้ไม่ได้อยู่ที่เทคนิคเดียว แต่อยู่ที่เส้นทางของมันเอง: ขั้นแรกจัดแนวโมเดลทั้งสองใน “รูปแบบการแสดงออก” จากนั้นจึงแปลงโครงสร้าง และสุดท้ายฟื้นฟูความสามารถผ่านการฝึก การจัดการแบบเป็นขั้นตอนนี้เองที่หลีกเลี่ยงปัญหาประสิทธิภาพพังทลายที่พบได้ทั่วไปในการกลั่นโดยตรง
ผลลัพธ์เป็นอย่างไร? ประสิทธิภาพแทบไม่สูญเสีย ตรรกะด้านต้นทุนเปลี่ยนไปแล้ว
ตารางที่สำคัญที่สุดในรายงานวิจัยเปรียบเทียบโมเดลพารามิเตอร์ 1B สามประเภท: โมเดลครู Transformer (Pythia), พื้นฐานการกลั่นแบบดั้งเดิม (Hedgehog) และวิธีการใหม่ (HedgeMamba) ภายใต้การใช้โทเค็นเพียง 10B (ประมาณ 2.7% ของข้อมูลฝึกของโมเดลครู) ผลลัพธ์ชัดเจนมาก:
- ค่า Perplexity ของโมเดลครูคือ 13.86
- วิธีการพื้นฐานลดลงเหลือ 14.89
- HedgeMamba ดึงกลับมาเป็น 14.11 ซึ่งใกล้เคียงกับโมเดลครูมาก

พวกเขาทดลองกับโมเดล 1B ที่ฝึกด้วยโทเค็นประมาณ 10B และในที่สุดก็ได้โมเดล Mamba ที่สามารถรักษาประสิทธิภาพของ Transformer Pythia-1B ดั้งเดิมในงานปลายน้ำได้ ค่า Perplexity ยังคงอยู่ที่ 14.11 ใกล้เคียงกับ 13.86 ของโมเดลครู
ความสำคัญของงานนี้ยิ่งใหญ่มาก
ในอดีต อุตสาหกรรมถือเป็นค่าเริ่มต้นว่าการเปลี่ยน Transformer เป็นสถาปัตยกรรมอื่นจะทำให้ประสิทธิภาพลดลงอย่างเห็นได้ชัด แต่รายงานวิจัยนี้ชี้ให้เห็นว่าการสูญเสียนี้สามารถกู้คืนได้อย่างมาก ไม่เพียงแต่ทำงานได้ดีเยี่ยมในเมตริกการสร้างแบบจำลองภาษาเท่านั้น แต่ในงานปลายน้ำ เช่น ARC, PIQA, BoolQ, RACE, LogiQA นั้น HedgeMamba ก็มีประสิทธิภาพเหนือกว่าพื้นฐานอย่างครอบคลุม โดยรวมแล้วเข้าใกล้โมเดลครู ซึ่งแสดงให้เห็นว่าสิ่งที่มันรักษาไว้ไม่ใช่แค่การกระจายความน่าจะเป็นบนพื้นผิว แต่รวมถึงความสามารถในการอนุมานและโครงสร้างความหมายที่เทียบเท่า
ที่สำคัญกว่านั้น ผลกระทบนี้มีพื้นฐานมาจากวิธีการ นักวิจัยลองวิธีที่ตรงที่สุด—การกลั่นจาก Transformer ไปเป็น Mamba ในขั้นตอนเดียว ผลลัพธ์คือค่า Perplexity พุ่งสูงถึงกว่า 100 แทบจะใช้ไม่ได้เลย กล่าวอีกนัยหนึ่ง การกลั่นแบบสองขั้นตอนที่นี่ไม่ใช่ตัวเลือกในการปรับให้เหมาะสม แต่เป็นเงื่อนไขเชิงโครงสร้างที่หลีกเลี่ยงไม่ได้

การทดลองการตัดทอนและการวิเคราะห์ในภายหลัง อธิบายเพิ่มเติมว่าเหตุใดเส้นทางนี้จึงได้ผล
- ด้านสถาปัตยกรรม: สิ่งที่ได้ผลจริงไม่ใช่การซ้อนโมดูลแบบง่ายๆ แต่เป็น Gating Mechanism—ที่ช่วยให้โมเดลเรียนรู้ว่าควรจำอะไรและควรลืมอะไร
- กลยุทธ์การฝึก: การจัดสรรข้อมูลในสองขั้นตอนไม่ได้ดีที่สุดเมื่อเท่าๆ กัน แต่เอนเอียงไปทางขั้นตอนที่สองอย่างชัดเจน ซึ่งแสดงให้เห็นว่าการแสดงผลระดับกลางเป็นเพียงการเปลี่ยนผ่าน การถ่ายโอนความสามารถที่แท้จริงเกิดขึ้นในช่วงครึ่งหลัง
- ขนาดข้อมูล: จากโทเค็น 1B ถึง 10B ประสิทธิภาพเพิ่มขึ้นอย่างคงที่ โดยไม่มีสัญญาณของการไม่ลู่เข้าหรือความผันผวน ซึ่งพิสูจน์ว่าเส้นทางนี้มีศักยภาพในการขยายขนาด

การทดลองการตัดทอนสถาปัตยกรรมแสดงให้เห็นว่ากุญแจสำคัญที่ทำให้ Mamba ใช้งานได้ดีไม่ใช่การซ้อนโครงสร้างแบบง่ายๆ แต่เป็น Gating Mechanism

ในสองขั้นตอนของการกลั่น (S1 และ S2) กลยุทธ์การจัดสรรข้อมูลที่ดีที่สุดคือ “S1 เบา + S2 หนัก”

ผลกระทบของจำนวนโทเค็นในระหว่างกระบวนการกลั่นต่อประสิทธิภาพ: ตราบใดที่ให้ข้อมูลการกลั่นเพียงพอ ประสิทธิภาพของ Mamba ก็สามารถเข้าใกล้ Transformer ได้
โดยสรุปแล้ว คุณค่าของงานนี้ไม่ได้อยู่ที่ “การสร้างโมเดลที่ดีกว่าได้อีกตัว” แต่อยู่ที่การนำเสนอความเป็นไปได้ทางวิศวกรรมรูปแบบใหม่
โมเดล Transformer จำนวนมากที่สะสมไว้ในช่วงไม่กี่ปีที่ผ่านมา ไม่จำเป็นต้องเริ่มต้นใหม่ทั้งหมด แต่มีโอกาสที่จะถูก “แปลงสภาพ” ให้เป็นรูปแบบที่มีประสิทธิภาพมากขึ้นผ่านกระบวนการชุดหนึ่ง หากวิธีการนี้สามารถทำซ้ำได้อย่างเสถียร ระบบนิเวศของโมเดลโอเพนซอร์สทั้งหมด และแม้แต่โมเดลที่พัฒนาขึ้นเองของหลายบริษัท ก็จะเผชิญกับโอกาสในการปรับโครงสร้างต้นทุนโดยรวมให้ลดลง
ลิงก์อ้างอิง
https://arxiv.org/abs/2604.14191
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31426
