เด็กมัธยมอายุ 17 ปีทำให้คำทำนายของ Ilya เป็นจริง! ทีม Kimi “หมุน” กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25% แม้แต่ Elon Musk ยังแวะมาดู

15 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 25 views

นักเรียนมัธยมปลายวัย 17 ปี ทำนายของ Ilya เป็นจริง: ทีม Kimi “หมุน” กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25%

นักเรียนมัธยมปลายวัย 17 ปี ในฐานะผู้เขียนร่วมลำดับแรก ได้ช่วยทีม Kimi ทำให้แนวคิดที่ Ilya Sutskever หัวหน้านักวิทยาศาสตร์ของ OpenAI เสนอขึ้นกลายเป็นความจริง

Ilya เคยทำนายไว้อย่างโด่งดังว่า: การหมุนเครือข่าย LSTM ที่ประมวลผลข้อมูลตามลำดับเวลา “90 องศา” — คือการแทนที่แกนเวลาด้วยแกนความลึกของโมเดล — ก็วิวัฒนาการกลายเป็นเครือข่ายเรซิดวล (ResNet) ที่เป็นกระแสหลักในปัจจุบัน

ทีม Kimi ได้รับแรงบันดาลใจจากเรื่องนี้: เนื่องจาก LSTM ในมิติเวลาสามารถสอดคล้องกับการเชื่อมต่อเรซิดวลในมิติความลึกได้ แล้ว “กลไกความสนใจ” ที่มาแทนที่ LSTM ในโมเดลลำดับต่อมา จะสามารถทำการ “หมุน” แบบเดียวกันได้หรือไม่?

เทคโนโลยี “เรซิดวลความสนใจ” (Attention Residuals) ที่พวกเขาเสนอใหม่นี้ คือการ “หมุนกลไกความสนใจ 90 องศา” โดยย้ายจากมิติเวลาของลำดับไปยังมิติความลึกของเครือข่าย

เด็กมัธยมอายุ 17 ปีทำให้คำทำนายของ Ilya เป็นจริง! ทีม Kimi "หมุน" กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25% แม้แต่ Elon Musk ยังแวะมาดู

หลังจากใช้กลไกใหม่นี้แล้ว โมเดลสามารถ “มองย้อนกลับ” อย่างชาญฉลาดเมื่อคำนวณเลเยอร์ปัจจุบัน โดยดึงข้อมูลที่เป็นประโยชน์จากเลเยอร์ใดๆ ก่อนหน้าตามความต้องการได้อย่างอิสระ แทนที่จะสะสมแบบไม่แยกแยะเหมือนการเชื่อมต่อเรซิดวลแบบดั้งเดิม

ผลงานวิจัยนี้ได้รับความสนใจอย่างกว้างขวาง แม้แต่อีลอน มัสก์ ยังเข้ามาติดตามและแสดงความคิดเห็นว่า “น่าประทับใจ”

นอกจากมัสก์แล้ว อัจฉริยะแห่งวงการ AI อย่าง Andrej Karpathy ก็ได้ไตร่ตรองเกี่ยวกับเรื่องนี้เช่นกัน และ直言ว่าเราเข้าใจบทความ开创 Transformer อย่าง “Attention is All You Need” ยังไม่ลึกซึ้งพอ

เมื่อนำกลไกใหม่นี้ไปทดสอบบนโมเดลขนาดใหญ่ Kimi Linear 48B (พารามิเตอร์ที่เปิดใช้งาน 3B) ของ Kimi เอง ผลลัพธ์แสดงให้เห็นว่าประสิทธิภาพการฝึกเพิ่มขึ้น 25% ในขณะที่ความล่าช้าในการอนุมานเพิ่มขึ้นไม่เกิน 2%

“ภาระความจำ” ของการเชื่อมต่อเรซิดวล

เพื่อให้เข้าใจนวัตกรรมนี้ ต้องย้อนกลับไปดูหลักการทำงานของการเชื่อมต่อเรซิดวลมาตรฐานก่อน

วิธีการดั้งเดิมคือ: ผลลัพธ์ของเลเยอร์ที่ N = ผลลัพธ์การคำนวณของเลเยอร์ที่ N + ผลลัพธ์ของเลเยอร์ที่ N-1 ข้อมูลสะสมแบบนี้ไปทีละเลเยอร์ ทำให้แต่ละเลเยอร์มีข้อมูลจากทุกเลเยอร์ก่อนหน้าทั้งหมดในทางทฤษฎี

แต่ปัญหาก็ตามมา ภายใต้กระบวนทัศน์ PreNorm (การทำให้เป็นมาตรฐานก่อน) ที่เป็นกระแสหลักในโมเดลขนาดใหญ่ปัจจุบัน การมีส่วนร่วมของเลเยอร์ประวัติศาสตร์ทั้งหมดในการเชื่อมต่อเรซิดวลจะถูกสะสมด้วยน้ำหนักที่เท่ากัน

นี่เหมือนกับคนที่ “ความจำดีเกินไป” เก็บทุกประสบการณ์ไว้ในสมองด้วยความเข้มข้นเท่ากัน ส่งผลให้ข้อมูลอินพุตในช่วงต้นถูกเจือจางลงในเลเยอร์ต่อๆ ไป และดึงข้อมูลมาใช้ได้ยาก เลเยอร์จำนวนมากสามารถถูกตัดทิ้งโดยสูญเสียน้อยมาก เรียกว่า “ปัญหา PreNorm Dilution”

ที่ยุ่งยากกว่านั้นคือ Norm ของสถานะซ่อนจะเติบโตขึ้นเรื่อยๆ ตามความลึกของเครือข่าย นักวิจัยพบว่าในเครือข่ายลึก การเติบโตที่ไม่มีข้อจำกัดนี้จะทำให้การฝึกไม่เสถียร

ทีม Moonshot AI เปลี่ยนแนวคิด: เนื่องจากรากของปัญหาอยู่ที่ “การสะสมแบบไม่แยกแยะ” ก็ให้เครือข่ายเรียนรู้ที่จะ “ระลึกแบบเลือกสรร” เอง

ใช้ความสนใจเพื่อให้เกิด “การระลึกแบบเลือกสรร”

ทีมสังเกตเห็นความเป็นคู่ (duality) ที่สำคัญ: มิติความลึกของเครือข่ายกับมิติเวลาของลำดับ มีโครงสร้างที่คล้ายคลึงกันโดยพื้นฐาน

เมื่อ Transformer ประมวลผลลำดับ จะใช้กลไกความสนใจให้ตำแหน่งปัจจุบันสามารถ “ให้ความสนใจแบบเลือกสรร” กับตำแหน่งก่อนหน้าในลำดับได้ แล้วในมิติความลึก ทำไมไม่ให้เลเยอร์ปัจจุบัน “ให้ความสนใจแบบเลือกสรร” กับเลเยอร์ก่อนหน้าได้ล่ะ?

กลไก “เรซิดวลความสนใจ” จึงเกิดขึ้น:
* ใช้เวกเตอร์คิวปลอมที่เรียนรู้ได้ของเลเยอร์ปัจจุบันเป็น query
* ใช้ผลลัพธ์ของเลเยอร์ก่อนหน้าทั้งหมดเป็น key และ value
* ใช้กลไกความสนใจในการรวมข้อมูลจากเลเยอร์ก่อนหน้าด้วยการถ่วงน้ำหนัก

ด้วยวิธีนี้ เครือข่ายจะเรียนรู้ที่จะตัดสินว่าข้อมูลจากเลเยอร์ประวัติศาสตร์ใดสำคัญที่สุดสำหรับการคำนวณปัจจุบัน และให้น้ำหนักสูงกว่า ส่วนเลเยอร์ที่ไม่เกี่ยวข้อง น้ำหนักของมันก็จะลดลงตามธรรมชาติ

อย่างไรก็ตาม สิ่งนี้ทำให้เกิดความท้าทายใหม่: ความซับซ้อนในการคำนวณระเบิด สำหรับเครือข่ายที่มี L เลเยอร์ หากแต่ละเลเยอร์ต้องคำนวณความสนใจแบบเต็มกับทุกเลเยอร์ก่อนหน้า ความซับซ้อนจะสูงถึง O(L²) ซึ่งในทางปฏิบัติรับไม่ได้

บล็อกเรซิดวลความสนใจ: ทำให้ง่ายขึ้น

วิธีแก้ที่เสนอในบทความคือ “บล็อกเรซิดวลความสนใจ”

แนวคิดหลักคือการรวมเลเยอร์ต่อเนื่องหลายเลเยอร์เป็นบล็อกหนึ่ง และบีบอัดข้อมูลภายในบล็อก โดยเก็บไว้เพียงเวกเตอร์ “สรุป” เดียว

ดำเนินการดังนี้:
* แบ่งเครือข่าย L เลเยอร์ออกเป็น B บล็อก แต่ละบล็อกมีหลายเลเยอร์
* เมื่อสิ้นสุดแต่ละบล็อก ให้บีบอัดข้อมูลของทุกเลเยอร์ภายในบล็อกนั้นให้เป็นเวกเตอร์ตัวแทนระดับบล็อกเดียว
* เมื่อเลเยอร์ต่อมาคำนวณความสนใจ จำเป็นต้องให้ความสนใจเฉพาะกับเวกเตอร์ตัวแทนระดับบล็อกเหล่านี้และผลลัพธ์เลเยอร์เรียลไทม์ภายในบล็อกปัจจุบันเท่านั้น ไม่ใช่ทุกเลเยอร์อิสระ L เลเยอร์

ด้วยวิธีนี้ ความซับซ้อนของการคำนวณความสนใจลดลงจาก O(L²) เป็น O(L·B) ในทางปฏิบัติ B สามารถตั้งค่าให้มีค่าน้อยได้ (ในบทความคือ 8-16) จึงลดต้นทุนการคำนวณลงอย่างมาก

นอกจากนี้ ทีมยังดำเนินการปรับปรุงทางวิศวกรรมหลายอย่าง เช่น การสื่อสารแบบไปป์ไลน์พร้อมแคช การแบ่งส่วนลำดับและการเติมล่วงหน้า การปรับปรุงความละเอียดของแคช KV เป็นต้น เพื่อเพิ่มประสิทธิภาพให้ดียิ่งขึ้น

การตรวจสอบบน Kimi Linear: เพิ่มประสิทธิภาพ 1.25 เท่า

ทฤษฎีต้องได้รับการตรวจสอบด้วยการปฏิบัติ ทีมทำการทดสอบขนาดใหญ่บนสถาปัตยกรรม Kimi Linear ที่พัฒนาขึ้นเอง นี่คือโมเดลขนาดใหญ่ที่ใช้ความสนใจเชิงเส้น มีพารามิเตอร์ทั้งหมด 48 พันล้าน พารามิเตอร์ที่เปิดใช้งาน 3 พันล้าน

การทดลองแสดงให้เห็นว่า ด้วยงบประมาณการคำนวณเท่ากัน โมเดลที่ใช้เรซิดวลความสนใจสามารถทำได้ดีกว่าในงานปลายทาง ในทางกลับกัน เพื่อให้ได้ระดับประสิทธิภาพเท่ากัน ต้องใช้ปริมาณการคำนวณในการฝึกน้อยลงประมาณ 20% ซึ่งเทียบเท่ากับได้เปรียบด้านประสิทธิภาพการฝึก 1.25 เท่า

ในงานเฉพาะ เช่น การให้เหตุผลทางคณิตศาสตร์ (MATH, GSM8K) การสร้างโค้ด (HumanEval, MBPP) การประเมินหลายอย่างแสดงผลเทียบเท่าหรือดีขึ้นเล็กน้อย ความสม่ำเสมอในการทำความเข้าใจหลายภาษาก็ดีขึ้นเช่นกัน

ที่สำคัญกว่านั้น เรซิดวลความสนใจเป็นโมดูล “plug-and-play” ไม่จำเป็นต้องแก้ไขส่วนอื่นของเครือข่าย สามารถแทนที่การเชื่อมต่อเรซิดวลเดิมได้โดยตรง

บทความยังให้มุมมองที่น่าสนใจ ทีมเรียกงานนี้ว่าการประยุกต์ใช้ “ความเป็นคู่เวลา-ความลึก” ในมุมมองของพวกเขา “เลเยอร์” ในเครือข่ายประสาทเทียมลึก กับ “ขั้นเวลา” ในเครือข่ายประสาทเทียมแบบวนซ้ำ โดยพื้นฐานแล้วล้วนเป็นการประมวลผลข้อมูลแบบวนซ้ำ ความสำเร็จของ Transformer อยู่ที่การใช้กลไกความสนใจแทนที่โครงสร้างวนซ้ำคงที่ใน RNN แล้วในมิติความลึก ควรใช้กลไกความสนใจแทนที่การเชื่อมต่อเรซิดวลคงที่ด้วยหรือไม่?

นักเรียนมัธยมปลายวัย 17 ปี เป็นผู้เขียนร่วมลำดับแรก

ที่น่าสนใจยิ่งกว่านั้นคือ บทความที่ทำให้มัสก์ คาร์พาธี และคนอื่นๆ ตื่นเต้นนี้ ผู้เขียนร่วมลำดับแรกคนหนึ่งคือนักเรียนมัธยมปลายอายุเพียง 17 ปี — เฉิน กวงยวี่

ผู้เขียนร่วมลำดับแรกอีกสองคน คือบุคคลสำคัญของทีม Kimi ซู เจี้ยนหลิน ผู้เสนอการเข้ารหัสตำแหน่งแบบหมุน (RoPE) และจาง ยวี่ ผู้เขียนลำดับแรกของ Kimi Linear

แม้ว่าเรซิดวลความสนใจจะเป็นผลงานของความร่วมมือในทีม แต่การที่นักเรียนมัธยมปลายคนหนึ่งสามารถเป็นผู้เขียนลำดับแรกร่วมกับนักวิจัยอาวุโสสองคนได้ ก็เพียงพอแล้วที่จะน่าทึ่ง

มาร์ก แอนเดรสเซน ผู้ก่อตั้ง a16z ผู้ร่วมก่อตั้ง Thinking Machines และบุคคลที่มีชื่อเสียงในอุตสาหกรรมต่างติดตามบัญชีโซเชียลมีเดียของเขา

เฉิน กวงยวี่ เพิ่งเริ่มเรียนรู้เกี่ยวกับโมเดลขนาดใหญ่เมื่อประมาณหนึ่งปีที่แล้ว เขาเริ่มต้นจากแฮกกาธอนในปักกิ่ง และในที่สุดก็ไปถึงซิลิคอนแวลลีย์ หลังจากนั้นเมื่อกลับประเทศจีน เขาเลือกที่จะเข้าร่วม Moonshot AI

ตามเส้นทางนี้เอง เขาเริ่มขุดลึกลงไปยังระดับพื้นฐานมากขึ้น จากการอ่านบทความ ดูการนำไปปฏิบัติ ไปจนถึงการวิจัย Triton kernel ทำความเข้าใจว่าทำไมกลไกความสนใจจึงสามารถถูกเขียนใหม่และเร่งความเร็วได้เช่นนี้

ที่ Moonshot AI เส้นทางนี้ดูเหมือนจะวนกลับมาที่จุดเริ่มต้น — เขาถูกดึงดูดด้วยเทคโนโลยีระดับพื้นฐานตั้งแต่แรก และในที่สุดก็ทำงานที่พื้นฐานและสำคัญที่สุด

ประสบการณ์ของเฉิน กวงยวี่ มากกว่าจะเป็นเรื่องราวของ “อัจฉริยะวัยรุ่นที่ประสบความสำเร็จอย่างรวดเร็ว” แต่น่าจะเป็นเส้นทางการเติบโตที่แตกต่าง: ถูกเทคโนโลยีล้ำสมัยที่สุดของยุคสั่นสะเทือนก่อน จากนั้นค่อยๆ ขัดเกลาความสนใจให้เป็นความสามารถ และในที่สุดก็นำความสามารถนี้มาสู่สถานที่จริงของการวิจัยและพัฒนาโมเดลขนาดใหญ่

ลิงก์ที่เกี่ยวข้อง
– ที่อยู่บทความ: https://github.com/MoonshotAI/Attention-Residuals/
– ลิงก์อ้างอิง: [1] https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
– ลิงก์อ้างอิง: [2] https://nathanchen.me/public/About%20me.html