Kimi เปิดตัว ‘Attention Residuals’ อย่างยิ่งใหญ่: ทำลายกรอบการเชื่อมต่อแบบ Residual ที่มีมานานทศวรรษ บรรลุประสิทธิภาพเพิ่มขึ้น 1.25 เท่าด้วยกำลังประมวลผลเท่าเดิม

2026年3月18日 pm7:59 • วิศวกรรมโมเดลขนาดใหญ่ • 219 views

Attention Residuals: การปรับปรุงโครงสร้างของ Residual Connections

บทนำ: ปัญหาพื้นฐาน

โมเดลภาษาขนาดใหญ่สมัยใหม่ส่วนใหญ่ใช้สถาปัตยกรรมเครือข่ายประสาทเทียมแบบลึก ข้อมูลจะถูกส่งผ่านจากชั้นอินพุตไปยังชั้นบนสุดทีละชั้นและได้รับการประมวลผล จนในที่สุดก็สร้างเอาต์พุต อย่างไรก็ตาม เมื่อจำนวนชั้นของเครือข่ายเพิ่มขึ้น กระบวนการฝึกฝนต้องเผชิญกับความท้าทายพื้นฐาน: สัญญาณเกรเดียนต์ในระหว่างการแพร่กระจายย้อนกลับ หลังจากผ่านการส่งผ่านหลายสิบหรือหลายร้อยชั้น อาจลดลงหรือหายไปอย่างรุนแรง ส่งผลให้พารามิเตอร์ในชั้นล่างได้รับการอัปเดตอย่างมีประสิทธิภาพได้ยาก

ในปี 2015 ทีมของ He Kaiming ได้เสนอ การเชื่อมต่อแบบเรซิดวล (Residual Connections) ในบทความ “Deep Residual Learning for Image Recognition” ซึ่งเป็นการออกแบบที่สำคัญในการแก้ไขปัญหานี้ แนวคิดหลักคือการเพิ่ม “ช่องทางเชื่อมต่อตรง” ให้กับแต่ละชั้นของเครือข่าย เพื่อส่งผ่านข้อมูลอินพุตไปโดยไม่มีการเปลี่ยนแปลงและบวกเข้ากับเอาต์พุตที่แปลงของชั้นนั้น สิ่งนี้ทำให้เกรเดียนต์สามารถไหลไปยังชั้นล่างได้โดยตรงโดยไม่ต้องผ่านการแปลงแบบไม่เชิงเส้นที่ซับซ้อนในระหว่างการแพร่กระจายย้อนกลับ ทำให้สามารถฝึกเครือข่ายที่ลึกมากได้ การเชื่อมต่อแบบเรซิดวลจึงกลายเป็นรากฐานที่ขาดไม่ได้สำหรับการเรียนรู้เชิงลึก โดยเฉพาะอย่างยิ่งสำหรับโมเดลที่มีสถาปัตยกรรม Transformer

อย่างไรก็ตาม การเชื่อมต่อแบบเรซิดวลมาตรฐานใช้วิธีการรวมข้อมูลแบบคงที่และไม่แยกแยะ: เพียงแค่บวกอินพุตของชั้นปัจจุบันกับเอาต์พุตที่แปลง สิ่งนี้นำไปสู่ปัญหาที่เรียกว่า “PreNorm Dilution”: เมื่อความลึกของเครือข่ายเพิ่มขึ้น ผลงานของแต่ละชั้นเองจะมีสัดส่วนน้อยลงเรื่อยๆ ในปริมาณข้อมูลสะสมทั้งหมดที่เพิ่มขึ้นอย่างต่อเนื่อง เพื่อให้เอาต์พุตของมันยังคง “ถูกได้ยิน” ในการคำนวณต่อไป ชั้นเครือข่ายลึกมักต้องส่งออกค่าการกระตุ้นที่มีค่าตัวเลขมากขึ้น การวิจัยที่มีอยู่แสดงให้เห็นว่าแม้ว่าจะลบชั้นจำนวนมากในโมเดลขนาดใหญ่ออก ก็มีผลกระทบเพียงเล็กน้อยต่อประสิทธิภาพโดยรวมของโมเดล ซึ่งบ่งชี้ว่าผลงานจริงของหลายชั้นกลางมีจำกัด

Attention Residuals: การ “หมุน” ทิศทาง

ทีม MoonShot AI (Kimi) ได้เสนอวิธีการปรับปรุงใหม่ที่สง่างามสำหรับปัญหาข้างต้นในรายงานทางเทคนิค “Attention Residuals” ข้อมูลเชิงลึกหลักมาจากการเปรียบเทียบที่สง่างาม: ปัญหาการรวมข้อมูลที่การเชื่อมต่อแบบเรซิดวลพบในมิติความลึก มีความคล้ายคลึงกันอย่างมากในโครงสร้างทางคณิตศาสตร์กับปัญหาการพึ่งพาระยะยาวที่เครือข่ายประสาทเทียมแบบวนซ้ำ (RNN) พบในมิติลำดับ

กลไกความสนใจใน Transformer แก้ไขปัญหาความจำระยะยาวของ RNN ได้สำเร็จ: เมื่อโมเดลประมวลผลตำแหน่งใดๆ ในลำดับ มันสามารถทบทวนและรวมข้อมูลประวัติได้แบบไดนามิกผ่านน้ำหนักความสนใจ แนวคิดหลักของ Attention Residuals (AttnRes) คือการนำกลไกนี้มาใช้จากมิติลำดับโดยการ “หมุน” ไปยังมิติความลึก

กล่าวโดยเฉพาะ ใน Transformer แบบดั้งเดิม กลไกความสนใจจะทำงานระหว่างโทเค็น (Token) ต่างๆ ภายในชั้นเครือข่ายเดียวกัน (มิติลำดับ) ในขณะที่ AttnRes แนะนำ“เวกเตอร์แบบสอบถาม” ที่สามารถเรียนรู้ได้สำหรับแต่ละชั้นเครือข่าย เมื่อคำนวณ ชั้นนั้นจะใช้เวกเตอร์แบบสอบถามของมันเป็นแนวทาง เพื่อคำนวณน้ำหนักความสนใจจากสถานะเอาต์พุตของชั้นเครือข่ายก่อนหน้าทั้งหมด (สำหรับโทเค็นเดียวกัน) จึงรวมข้อมูลจากชั้นประวัติแบบไดนามิกและมีเลือกสรร แทนที่จะเป็นการบวกแบบให้น้ำหนักเท่ากัน

Kimi เปิดตัว 'Attention Residuals' อย่างยิ่งใหญ่: ทำลายกรอบการเชื่อมต่อแบบ Residual ที่มีมานานทศวรรษ บรรลุประสิทธิภาพเพิ่มขึ้น 1.25 เท่าด้วยกำลังประมวลผลเท่าเดิม

การออกแบบนี้นำมาซึ่งการเปลี่ยนแปลงขั้นพื้นฐาน:
1. ความกระตือรือร้น: แต่ละชั้นสามารถตัดสินใจอย่างกระตือรือร้นว่าจะดึงข้อมูลจากชั้นประวัติมากน้อยเพียงใด และพึ่งพาชั้นใดมากกว่า
2. ความไดนามิก: น้ำหนักการรวมไม่ใช่พารามิเตอร์คงที่ แต่สร้างขึ้นแบบไดนามิกตามเนื้อหาที่เครือข่ายกำลังประมวลผลในปัจจุบัน
3. น้ำหนักเบา: แต่ละชั้นเพิ่มเพียงเวกเตอร์แบบสอบถามหนึ่งตัวและการดำเนินการทำให้เป็นมาตรฐานหนึ่งครั้ง การเพิ่มปริมาณพารามิเตอร์แทบจะไม่มีนัยสำคัญ

การนำไปใช้ทางวิศวกรรม: จากทฤษฎีสู่เส้นทางปฏิบัติสำหรับการฝึกขนาดใหญ่

แม้ว่า AttnRes แบบเต็ม (ทุกชั้นสามารถให้ความสนใจกับทุกชั้นในประวัติ) จะมีประสิทธิภาพโดดเด่นในการทดลองขนาดเล็ก แต่ในการฝึกโมเดลขนาดใหญ่ ลักษณะที่ต้องจัดเก็บและส่งผ่านเอาต์พุตของทุกชั้นกลาง จะนำมาซึ่งต้นทุนหน่วยความจำและการสื่อสารที่ยากจะรับได้

เพื่อแก้ไขปัญหานี้ ทีม Kimi ได้เสนอแผนการปฏิบัติจริงของ “Block Attention Residuals”

การออกแบบแบบบล็อก: แบ่งเครือข่ายทั้งหมดออกเป็นบล็อกต่อเนื่องหลายบล็อก ภายในบล็อก ยังคงใช้การเชื่อมต่อแบบเรซิดวลแบบดั้งเดิม เพื่อรักษาความเสถียรและประสิทธิภาพของการไหลของข้อมูลในระดับท้องถิ่น ระหว่างบล็อกกับบล็อก ใช้กลไก AttnRes เพื่ออนุญาตให้ข้อมูลส่งผ่านแบบกระโดดแบบไดนามิกและมีเลือกสรรระหว่างส่วนสำคัญของเครือข่าย
ความสมดุลระหว่างผลลัพธ์และต้นทุน: การทดลองแสดงให้เห็นว่า การแบ่งเครือข่ายออกเป็นประมาณ 8 บล็อก สามารถรักษาประโยชน์ด้านประสิทธิภาพส่วนใหญ่ของ AttnRes แบบเต็มได้ ในขณะที่ลดปริมาณข้อมูลที่ต้องสื่อสารทั่วโลกจากระดับ “จำนวนชั้น” ลงสู่ระดับ “จำนวนบล็อก” ซึ่งลดต้นทุนลงอย่างมาก
การปรับปรุงทางวิศวกรรม:
- ฝั่งการฝึก: ออกแบบกลไกแคชข้ามเฟส เพื่อเพิ่มประสิทธิภาพการถ่ายโอนข้อมูลในการฝึกแบบขนานแบบไปป์ไลน์ ทำให้ต้นทุนเพิ่มเติมโดยรวมของการฝึกอยู่ที่ต่ำกว่า 4%
- ฝั่งการอนุมาน: ใช้กลยุทธ์การคำนวณสองเฟส โดยรวมการคำนวณภายในบล็อกเข้าด้วยกันเพื่อแบ่งเบาต้นทุนการเข้าถึงหน่วยความจำ ในที่สุดความล่าช้าในการอนุมานเพิ่มขึ้นไม่เกิน 2%

ผลการทดลองและการวิเคราะห์

ทีมวิจัยได้ตรวจสอบประสิทธิผลของ Block AttnRes ในหลายขนาดโมเดล

1. การเพิ่มประสิทธิภาพ
ในการทดลองบนโมเดลสถาปัตยกรรม Kimi Linear ที่มีพารามิเตอร์ทั้งหมด 48 พันล้าน (พารามิเตอร์ที่กระตุ้น 3 พันล้าน) Block AttnRes ภายใต้งบประมาณการคำนวณเดียวกัน บรรลุระดับการสูญเสียในการตรวจสอบ (validation loss) ที่โมเดลฐาน (ที่ใช้การเชื่อมต่อแบบเรซิดวล PreNorm มาตรฐาน) ต้องใช้กำลังการคำนวณ 1.25 เท่า ถึงจะบรรลุได้ ในเกณฑ์มาตรฐานหลัก 15 รายการ ประสิทธิภาพของมันเท่ากันหรือดีกว่าโมเดลฐาน โดยเฉพาะอย่างยิ่งมีการปรับปรุงอย่างมีนัยสำคัญในงานที่ต้องใช้การให้เหตุผลเชิงลึก (เช่น GPQA-Diamond ปรับปรุง 7.5%)

2. การบรรเทาการเจือจางของเกรเดียนต์
การแสดงภาพกระบวนการฝึกแสดงให้เห็นว่า ค่าเอาต์พุตของแต่ละชั้นของโมเดลฐานเพิ่มขึ้นแบบโมโนโทนิกตามความลึกของเครือข่าย ซึ่งยืนยันการมีอยู่ของปัญหา PreNorm Dilution ในขณะที่โมเดลที่ใช้ AttnRes ค่าเอาต์พุตของมันได้รับการ “รีเซ็ต” ที่ขอบเขตของบล็อก แสดงการเปลี่ยนแปลงเป็นคาบ การกระจายตัวของเกรเดียนต์ของแต่ละชั้นก็สม่ำเสมอกว่าด้วย ซึ่งบ่งชี้ว่าชั้นเครือข่ายจำนวนมากขึ้นมีส่วนร่วมในการเรียนรู้ที่มีประสิทธิภาพจริงๆ

3. รูปแบบความสนใจที่เรียนรู้ได้
การวิเคราะห์การแสดงภาพน้ำหนักความสนใจของโมเดลหลังการฝึก เผยให้เห็นรูปแบบที่น่าสนใจบางประการ:
* ความเป็นท้องถิ่นเป็นหลัก: ชั้นใดๆ ก็ตามยังพึ่งพาชั้นก่อนหน้าที่ใกล้ที่สุดมากที่สุด
* มีการเชื่อมต่อแบบข้าม: ชั้นบางชั้นจะให้ความสนใจอย่างสม่ำเสมอกับชั้นต้นๆ ของเครือข่าย หรือแม้แต่ชั้นการฝัง (embedding) แรกสุด
* ความแตกต่างของประเภทชั้น: ชั้นความสนใจมีแนวโน้มที่จะให้ความสนใจกับชั้นประวัติที่กว้างขึ้น ในขณะที่ชั้น MLP พึ่งพาชั้นที่ใกล้เคียงมากกว่า ซึ่งสอดคล้องกับการแบ่งหน้าที่การทำงานของพวกมัน

4. แนวทางสำหรับการออกแบบสถาปัตยกรรมโมเดล
การวิจัยยังพบว่า ภายใต้ข้อจำกัดของปริมาณการคำนวณทั้งหมดและปริมาณพารามิเตอร์ที่คงที่ การเชื่อมต่อแบบเรซิดวลมาตรฐานชอบโมเดลที่ “กว้างกว่า ตื้นกว่า” ในขณะที่จุดที่ดีที่สุดของ AttnRes โน้มไปทางโมเดลที่ “แคบกว่า ลึกกว่า” นี่แสดงว่า AttnRes สามารถใช้ประโยชน์จากความลึกของเครือข่ายได้อย่างมีประสิทธิภาพมากขึ้น ทำให้การเพิ่มจำนวนชั้นนำมาซึ่งผลตอบแทนด้านประสิทธิภาพที่เป็นรูปธรรม แทนที่จะเป็นผลตอบแทนที่ลดลง ซึ่งให้มิติอ้างอิงใหม่สำหรับการออกแบบสถาปัตยกรรมโมเดลขนาดใหญ่ในอนาคต

การอภิปรายและแนวโน้มในอนาคต

การเสนอ Attention Residuals มีความหมายไม่เพียงแค่การปรับปรุงประสิทธิภาพเฉพาะอย่าง มันแสดงถึงการกลับมาของกระบวนทัศน์การวิจัยและพัฒนา: ไม่พอใจเพียงแค่การตกแต่งภายในบน “ตึก” Transformer ที่มีอยู่ (เช่น การปรับปรุงรูปแบบความสนใจ กลยุทธ์การกำหนดเส้นทาง ฯลฯ) แต่กล้าที่จะทบทวนและปรับเปลี่ยนองค์ประกอบพื้นฐานที่ถูกมองว่า “แก้ไขแล้ว” หรือ “แตะต้องไม่ได้”

การเชื่อมต่อแบบเรซิดวลตั้งแต่ได้รับการยอมรับในปี 2015 ได้กลายเป็นหนึ่งในรากฐานที่มั่นคงที่สุดของการเรียนรู้เชิงลึก งานนี้ของ Kimi แสดงให้เห็นว่า แม้แต่โครงสร้างพื้นฐานดังกล่าว ยังมีพื้นที่สำหรับการปรับโครงสร้างและเพิ่มประสิทธิภาพใหม่จากหลักการแรก (first principles) สิ่งนี้ชี้ไปสู่การคิดที่กว้างขึ้นโดยธรรมชาติ: องค์ประกอบพื้นฐานอื่นๆ เช่น ตัวเพิ่มประสิทธิภาพ วิธีการทำให้เป็นมาตรฐาน การเข้ารหัสตำแหน่ง ฯลฯ มีความเป็นไปได้ในการปรับปรุงที่คล้ายกันหรือไม่?

แน่นอนว่าเทคโนโลยีนี้ยังต้องได้รับการตรวจสอบเพิ่มเติม เช่น ในโมเดลขนาดพันล้านหรือล้านล้านพารามิเตอร์ ประโยชน์ของมันจะยังคงอยู่หรือไม่ หลังจากผ่านกระบวนการหลังการฝึก เช่น การปรับแต่งด้วยคำสั่ง (instruction tuning) การเรียนรู้เสริมแรงจากข้อเสนอแนะมนุษย์ (RLHF) ข้อได้เปรียบของมันจะถูกเจือจางหรือไม่ อย่างไรก็ตาม การปรับเปลี่ยนน้ำหนักเบาที่ต้องการการเปลี่ยนแปลงโค้ดเพียงประมาณร้อยบรรทัดและเพิ่มต้นทุนจำกัด สามารถนำมาซึ่งการปรับปรุงที่สำคัญในโมเดลขนาดกลาง ก็เพียงพอแล้วที่จะทำให้เราคาดหวังกับศักยภาพของมัน

เมื่อนวัตกรรมพื้นฐานที่มุ่งเพิ่มประสิทธิภาพการคำนวณต่อโทเค็น เช่นนี้ รวมเข้ากับแนวโน้มล้ำสมัยอื่นๆ เช่น หน้าต่างบริบทที่ยาวมาก การทำงานร่วมกันของเอเจนต์ อาจทำให้เกิดการเปลี่ยนแปลงกระบวนทัศน์ใหม่ ในกระบวนการพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ นอกจากการแข่งขันอย่างดุเดือดเพื่อเพิ่มอิฐทีละก้อนขึ้นไปแล้ว ยังต้องการการสำรวจอย่างลึกซึ้งเพื่อขุดรากฐานลงไปด้วย Attention Residuals เป็นตัวอย่างที่มีพลังของสิ่งหลัง