แอปเปิลเปิดกลยุทธ์ใหม่: ยัดประสิทธิภาพของ Transformer เข้าไปใน Mamba ลดต้นทุนลงอย่างมาก

4 days ago • ข่าวสารอุตสาหกรรม AI • 27 views

เมื่อเร็วๆ นี้ บริษัท Apple ได้เปิดเผยความก้าวหน้าทางเทคนิคที่สำคัญทางวิศวกรรม นั่นคือการปรับเปลี่ยนสถาปัตยกรรม Transformer ที่มีประสิทธิภาพสูงแต่มีต้นทุนสูง ให้เป็นสถาปัตยกรรม Mamba ที่มีต้นทุนต่ำกว่าและสูญเสียประสิทธิภาพน้อยมาก การอัปเกรดนี้เปรียบเสมือนการเปลี่ยนจากแหล่งพลังงานพิเศษที่มีต้นทุนสูง มาเป็นโครงสร้างพื้นฐานที่ทั่วถึงและเข้าถึงได้

เหตุใดจึงต้องมีการปรับเปลี่ยนเช่นนี้?

สาเหตุหลักคือ แม้ว่า Transformer จะครองโดเมนการเรียนรู้เชิงลึกในช่วงทศวรรษที่ผ่านมา แต่ต้นทุนการคำนวณของมันจะเพิ่มขึ้นแบบกำลังสองตามความยาวของลำดับ การประมวลผลข้อความสั้นๆ อาจจะพอใช้ได้ แต่เมื่อเกี่ยวข้องกับงานที่มีบริบทยาว (เช่น การสร้างโค้ด เอเจนต์ การอนุมานแบบหลายรอบ) ต้นทุนจะเพิ่มสูงขึ้นอย่างรวดเร็วจนยากจะรับไหว

ด้วยเหตุนี้ อุตสาหกรรมจึงพยายามหาทางเลือกอื่นๆ อย่างต่อเนื่อง เช่น Linear Attention, RWKV และ Mamba ที่เพิ่งเกิดขึ้นใหม่ โมเดลเหล่านี้มีเป้าหมายร่วมกันคือการลดความซับซ้อนแบบกำลังสองให้เป็นเชิงเส้น เพื่อให้ได้ความเร็วที่สูงขึ้น การใช้หน่วยความจำที่น้อยลง และการอนุมานที่ราบรื่นขึ้น อย่างไรก็ตาม จุดอ่อนหลักของพวกมันคือประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อขนาดโมเดลใหญ่ขึ้น ยังคงมีช่องว่างที่ชัดเจนกับ Transformer สิ่งนี้ก่อให้เกิดภาวะกลืนไม่เข้าคายไม่ออก:

ต้องการประสิทธิภาพ เลือก Transformer (แต่ต้นทุนสูง);
ต้องการต้นทุนต่ำ เลือก Mamba (แต่ประสิทธิภาพอ่อน)

แล้ว มีความเป็นไปได้ไหมที่จะ “ได้ทั้งสองอย่าง”? เป็นไปได้หรือไม่ที่จะถ่ายโอนความสามารถของ Transformer ไปยัง Mamba โดยตรง โดยไม่ต้องฝึกซ้ำ?

การกลั่นความรู้โดยตรงจะทำให้ประสิทธิภาพพังทลาย Transformer เปรียบเสมือน “นักเรียนเก่งที่เปิดหนังสือได้” ซึ่งสามารถค้นหาข้อมูลได้ตลอดเวลา ในขณะที่ Mamba เปรียบเสมือน “นักเรียนที่สอบแบบปิดหนังสือ” ซึ่งพึ่งพาความจำเพียงอย่างเดียว การบังคับให้ฝ่ายหลังสอบแบบปิดหนังสือโดยไม่ให้ช่วงเปลี่ยนผ่าน ผลลัพธ์ที่ได้จะเลวร้าย

Apple ไม่ได้เลือกที่จะเผชิญหน้าโดยตรง แต่ใช้กลยุทธ์ “สองขั้นตอน”:

สร้างรูปแบบกลาง: ขั้นแรก ทำให้ Transformer ง่ายขึ้นเป็นเวอร์ชันที่ใกล้เคียงกับสถาปัตยกรรม Mamba มากขึ้น
แปลงโครงสร้าง: จากนั้น แปลงจากเวอร์ชันกลางนี้ไปเป็นโมเดล Mamba ขั้นสุดท้าย

แอปเปิลเปิดกลยุทธ์ใหม่: ยัดประสิทธิภาพของ Transformer เข้าไปใน Mamba ลดต้นทุนลงอย่างมาก

โดยเฉพาะอย่างยิ่ง พวกเขาแทนที่ Softmax Attention ที่มีต้นทุนการคำนวณสูงมาก ใน Transformer ด้วย โมดูล Mamba ที่มีประสิทธิภาพสูงกว่า มีการนำรูปแบบเปลี่ยนผ่านเข้ามา: ขั้นแรกแปลง Attention เป็น Linear Attention ที่เรียนรู้ได้ (Hedgehog) จากนั้นรวมกับ Mamba ในที่สุดก็เกิดเป็นโมดูลไฮบริดที่ชื่อว่า HedgeMamba

ขั้นตอนที่ 1: จาก Softmax Attention สู่ Linear Attention

เป้าหมายของขั้นตอนนี้คือการแทนที่ Softmax Attention ดั้งเดิมด้วย Linear Attention ในขณะที่พยายามรักษาประสิทธิภาพไม่ให้ลดลง Linear Attention แบบดั้งเดิมมีช่องว่างด้านประสิทธิภาพกับ Softmax Attention ค่อนข้างมาก เพื่อชดเชยช่องว่างนี้ นักวิจัยใช้ทฤษฎีบทของ Mercer โดยใช้วิธีการที่เรียกว่า Hedgehog ซึ่งใช้โครงข่ายประสาทเทียมขนาดเล็ก (MLP) เพื่อเรียนรู้การแมปคุณลักษณะ ทำให้ Linear Attention เลียนแบบพฤติกรรมดั้งเดิมให้มากที่สุด

จากนั้น ผ่าน การกลั่นด้วยความคล้ายคลึงโคไซน์ ทำให้เอาต์พุตของโครงสร้างใหม่นี้สอดคล้องกับ Transformer ดั้งเดิม เมื่อเสร็จสิ้นขั้นตอนนี้ ก็จะได้โมเดลกลางที่ “ถูกกว่าแต่ยังคงทำงานเหมือน Transformer”

ขั้นตอนที่ 2: จาก Linear Attention สู่ Mamba

ต่อไป จะฝัง Linear Attention ที่สอดคล้องกันแล้วเข้าไปในโครงสร้าง Mamba ขั้นตอนสำคัญคือ: จับคู่วิธีการคำนวณหลักในกลไก Attention กับพารามิเตอร์ภายในของ Mamba ด้วยวิธีนี้ พฤติกรรมของ Mamba เมื่อเริ่มต้นจะใกล้เคียงกับโมเดลในระยะก่อนหน้าแล้ว แทนที่จะเริ่มเรียนรู้จากศูนย์ โดยพื้นฐานแล้วนี่คือการจัดแนวโครงสร้าง

นอกจากนี้ เนื่องจาก Attention ดั้งเดิมมีกลไกการทำให้เป็นมาตรฐานในตัว ในขณะที่เวอร์ชันเชิงเส้นไม่มี นักวิจัยจึงเพิ่มขั้นตอนการทำให้เป็นมาตรฐานอีกขั้น เพื่อให้รูปแบบเอาต์พุตใกล้เคียงกับ Attention ดั้งเดิมมากขึ้น โดยไม่ทำลายประสิทธิภาพการคำนวณ

หลังจากเตรียมการเหล่านี้เสร็จแล้ว จึงเข้าสู่ขั้นตอนการฝึกจริง พวกเขาปรับแต่งโมเดลทั้งหมด โดยใช้ฟังก์ชันการสูญเสีย Cross-Entropy มาตรฐาน และเปิดใช้งานความสามารถดั้งเดิมของ Mamba อีกครั้ง เช่น Convolution และ Gating Mechanism จุดประสงค์ของขั้นตอนนี้คือเพื่อให้โมเดลไม่เพียงแค่เลียนแบบ แต่ยังเรียนรู้ความสามารถด้วยวิธีการของตัวเองอีกครั้ง

หัวใจสำคัญของวิธีนี้ไม่ได้อยู่ที่เทคนิคเดียว แต่อยู่ที่เส้นทางของมันเอง: ขั้นแรกจัดแนวโมเดลทั้งสองใน “รูปแบบการแสดงออก” จากนั้นจึงแปลงโครงสร้าง และสุดท้ายฟื้นฟูความสามารถผ่านการฝึก การจัดการแบบเป็นขั้นตอนนี้เองที่หลีกเลี่ยงปัญหาประสิทธิภาพพังทลายที่พบได้ทั่วไปในการกลั่นโดยตรง

ผลลัพธ์เป็นอย่างไร? ประสิทธิภาพแทบไม่สูญเสีย ตรรกะด้านต้นทุนเปลี่ยนไปแล้ว

ตารางที่สำคัญที่สุดในรายงานวิจัยเปรียบเทียบโมเดลพารามิเตอร์ 1B สามประเภท: โมเดลครู Transformer (Pythia), พื้นฐานการกลั่นแบบดั้งเดิม (Hedgehog) และวิธีการใหม่ (HedgeMamba) ภายใต้การใช้โทเค็นเพียง 10B (ประมาณ 2.7% ของข้อมูลฝึกของโมเดลครู) ผลลัพธ์ชัดเจนมาก:

ค่า Perplexity ของโมเดลครูคือ 13.86
วิธีการพื้นฐานลดลงเหลือ 14.89
HedgeMamba ดึงกลับมาเป็น 14.11 ซึ่งใกล้เคียงกับโมเดลครูมาก

พวกเขาทดลองกับโมเดล 1B ที่ฝึกด้วยโทเค็นประมาณ 10B และในที่สุดก็ได้โมเดล Mamba ที่สามารถรักษาประสิทธิภาพของ Transformer Pythia-1B ดั้งเดิมในงานปลายน้ำได้ ค่า Perplexity ยังคงอยู่ที่ 14.11 ใกล้เคียงกับ 13.86 ของโมเดลครู

ความสำคัญของงานนี้ยิ่งใหญ่มาก

ในอดีต อุตสาหกรรมถือเป็นค่าเริ่มต้นว่าการเปลี่ยน Transformer เป็นสถาปัตยกรรมอื่นจะทำให้ประสิทธิภาพลดลงอย่างเห็นได้ชัด แต่รายงานวิจัยนี้ชี้ให้เห็นว่าการสูญเสียนี้สามารถกู้คืนได้อย่างมาก ไม่เพียงแต่ทำงานได้ดีเยี่ยมในเมตริกการสร้างแบบจำลองภาษาเท่านั้น แต่ในงานปลายน้ำ เช่น ARC, PIQA, BoolQ, RACE, LogiQA นั้น HedgeMamba ก็มีประสิทธิภาพเหนือกว่าพื้นฐานอย่างครอบคลุม โดยรวมแล้วเข้าใกล้โมเดลครู ซึ่งแสดงให้เห็นว่าสิ่งที่มันรักษาไว้ไม่ใช่แค่การกระจายความน่าจะเป็นบนพื้นผิว แต่รวมถึงความสามารถในการอนุมานและโครงสร้างความหมายที่เทียบเท่า

ที่สำคัญกว่านั้น ผลกระทบนี้มีพื้นฐานมาจากวิธีการ นักวิจัยลองวิธีที่ตรงที่สุด—การกลั่นจาก Transformer ไปเป็น Mamba ในขั้นตอนเดียว ผลลัพธ์คือค่า Perplexity พุ่งสูงถึงกว่า 100 แทบจะใช้ไม่ได้เลย กล่าวอีกนัยหนึ่ง การกลั่นแบบสองขั้นตอนที่นี่ไม่ใช่ตัวเลือกในการปรับให้เหมาะสม แต่เป็นเงื่อนไขเชิงโครงสร้างที่หลีกเลี่ยงไม่ได้

การทดลองการตัดทอนและการวิเคราะห์ในภายหลัง อธิบายเพิ่มเติมว่าเหตุใดเส้นทางนี้จึงได้ผล

ด้านสถาปัตยกรรม: สิ่งที่ได้ผลจริงไม่ใช่การซ้อนโมดูลแบบง่ายๆ แต่เป็น Gating Mechanism—ที่ช่วยให้โมเดลเรียนรู้ว่าควรจำอะไรและควรลืมอะไร
กลยุทธ์การฝึก: การจัดสรรข้อมูลในสองขั้นตอนไม่ได้ดีที่สุดเมื่อเท่าๆ กัน แต่เอนเอียงไปทางขั้นตอนที่สองอย่างชัดเจน ซึ่งแสดงให้เห็นว่าการแสดงผลระดับกลางเป็นเพียงการเปลี่ยนผ่าน การถ่ายโอนความสามารถที่แท้จริงเกิดขึ้นในช่วงครึ่งหลัง
ขนาดข้อมูล: จากโทเค็น 1B ถึง 10B ประสิทธิภาพเพิ่มขึ้นอย่างคงที่ โดยไม่มีสัญญาณของการไม่ลู่เข้าหรือความผันผวน ซึ่งพิสูจน์ว่าเส้นทางนี้มีศักยภาพในการขยายขนาด

การทดลองการตัดทอนสถาปัตยกรรมแสดงให้เห็นว่ากุญแจสำคัญที่ทำให้ Mamba ใช้งานได้ดีไม่ใช่การซ้อนโครงสร้างแบบง่ายๆ แต่เป็น Gating Mechanism

ในสองขั้นตอนของการกลั่น (S1 และ S2) กลยุทธ์การจัดสรรข้อมูลที่ดีที่สุดคือ “S1 เบา + S2 หนัก”

ผลกระทบของจำนวนโทเค็นในระหว่างกระบวนการกลั่นต่อประสิทธิภาพ: ตราบใดที่ให้ข้อมูลการกลั่นเพียงพอ ประสิทธิภาพของ Mamba ก็สามารถเข้าใกล้ Transformer ได้

โดยสรุปแล้ว คุณค่าของงานนี้ไม่ได้อยู่ที่ “การสร้างโมเดลที่ดีกว่าได้อีกตัว” แต่อยู่ที่การนำเสนอความเป็นไปได้ทางวิศวกรรมรูปแบบใหม่

โมเดล Transformer จำนวนมากที่สะสมไว้ในช่วงไม่กี่ปีที่ผ่านมา ไม่จำเป็นต้องเริ่มต้นใหม่ทั้งหมด แต่มีโอกาสที่จะถูก “แปลงสภาพ” ให้เป็นรูปแบบที่มีประสิทธิภาพมากขึ้นผ่านกระบวนการชุดหนึ่ง หากวิธีการนี้สามารถทำซ้ำได้อย่างเสถียร ระบบนิเวศของโมเดลโอเพนซอร์สทั้งหมด และแม้แต่โมเดลที่พัฒนาขึ้นเองของหลายบริษัท ก็จะเผชิญกับโอกาสในการปรับโครงสร้างต้นทุนโดยรวมให้ลดลง

ลิงก์อ้างอิง

https://arxiv.org/abs/2604.14191

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/31426

Like (0)

0 0

ด้านมืดของดวงจันทร์ Kimi K2.6 เปิดตัวครั้งใหญ่: ราชาใหม่ของโมเดลโค้ดโอเพ่นซอร์ส, เข้ารหัสต่อเนื่อง 12 ชั่วโมง, บังคับบัญชากลุ่มเอเจนต์ 300 ตัว

Previous 5 days ago

ChatGPT Images 2.0 เปิดตัวอย่างเป็นทางการ: สร้างภาพหน้าจอและโปสเตอร์ที่เหมือนจริงด้วยคำพูดเพียงประโยคเดียว

Next 4 days ago

ข่าวสารอุตสาหกรรม AI

CEO เอ็นวิเดีย เจิ้นซวนหวง ประกาศอย่างมั่นใจ: ชิป AI ที่พัฒนาด้วยตัวเองทั้งหมดเป็น “เสือกระดาษ” เผยแนวป้องกันขั้นสุด “จากอิเล็กตรอนสู่โทเค็น”

ในการสัมภาษณ์เชิงลึกครั้งล่าสุด เจินซุน หวง ผู้ก่อตั้งและ CEO ของ NVIDIA ได้แสดงมุมมองที่ชัดเจนเกี่ยวกับข้อได้เปรียบทางเทคโนโลยีของบริษัทและโครงสร้างการแข่งขันในอุตสาหกรรม เขาให้คว…

2026年4月18日
77000
ข่าวสารอุตสาหกรรม AI

PyTorch Conf EU 2026: RISC-V จะแก้ปัญหาการปรับตัวของเฟรมเวิร์ก AI อย่างไร? จากเวกเตอร์ RVV ไปสู่การปฏิบัติจริงของ CI/CD

คำสำคัญ: RISC-V, PyTorch, CI/CD, RVV เวกเตอร์ไอเซชัน, โครงการ RISE ในงาน PyTorch Conf EU 2026 Ludovic Henry วิศวกรซอฟต์แวร์ของ Meta และประธานร่วมคณะกรรมการกำกับดูแลทางเทคนิคของโครง…

2026年4月17日
71000
ข่าวสารอุตสาหกรรม AI

ข่าวด่วน! NeurIPS ห้ามสถาบันจีน 873 แห่ง รวมถึง Huawei ส่งบทความ ชุมชนวิชาการ AI ตื่นตระหนก ICML และ ICLR อาจดำเนินการตาม

นโยบายการรับบทความสำหรับการประชุม NeurIPS 2026 มีการเปลี่ยนแปลงครั้งสำคัญ จากเอกสารทางการ ‘MainTrackHandbook’ ที่เผยแพร่ NeurIPS จะไม่รับบทความวิจัยจากสถาบันที่อยู่ในบั…

2026年3月25日
201000
ข่าวสารอุตสาหกรรม AI

จาก LLM ไปสู่ระบบมัลติเอเจนต์: แผนที่การเรียนรู้เทคโนโลยี AI ฟรีและคู่มือวิศวกรรม

หากคุณกำลังติดตาม LLM, AI Agent, MCP, ระบบ Multi-Agent อยู่ล่ะก็ คุณคงเคยรู้สึกแบบนี้: ข้อมูลเยอะเกินไป แต่ไม่มีเส้นทางหลักที่ชัดเจน มีวิดีโอ งานวิจัย คอร์สเรียนมากมาย แต่ไม่รู้ว่า…

2026年2月9日
229000
ข่าวสารอุตสาหกรรม AI

โมเดลทางการเงินขนาดใหญ่ปี 2026: การปฏิวัติเทคโนโลยีที่ผสานคลาวด์เนทีฟและ AI ที่มีอยู่ทุกหนแห่ง

คำนำ ภูเขาไม่ปฏิเสธฝุ่นละออง แม่น้ำไม่รังเกียจความเต็มเปี่ยม ปี 2024 เป็นปีที่ 30 ที่อินเทอร์เน็ตเข้าสู่ประเทศจีน และอุตสาหกรรมการเงินของจีนก็ผ่านพ้น 10 ปีแห่งเทคโนโลยีการเงินและดิ…

2026年2月21日
281000

แอปเปิลเปิดกลยุทธ์ใหม่: ยัดประสิทธิภาพของ Transformer เข้าไปใน Mamba ลดต้นทุนลงอย่างมาก

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

PyTorch Conf EU 2026: RISC-V จะแก้ปัญหาการปรับตัวของเฟรมเวิร์ก AI อย่างไร? จากเวกเตอร์ RVV ไปสู่การปฏิบัติจริงของ CI/CD

ข่าวด่วน! NeurIPS ห้ามสถาบันจีน 873 แห่ง รวมถึง Huawei ส่งบทความ ชุมชนวิชาการ AI ตื่นตระหนก ICML และ ICLR อาจดำเนินการตาม

จาก LLM ไปสู่ระบบมัลติเอเจนต์: แผนที่การเรียนรู้เทคโนโลยี AI ฟรีและคู่มือวิศวกรรม

โมเดลทางการเงินขนาดใหญ่ปี 2026: การปฏิวัติเทคโนโลยีที่ผสานคลาวด์เนทีฟและ AI ที่มีอยู่ทุกหนแห่ง