ความท้าทายในการขยายขนาดโมเดลใหญ่
การพัฒนาของโมเดลใหญ่เป็นเวลานานได้ปฏิบัติตามกฎเหล็ก: ตาม Scaling Law เพิ่มพารามิเตอร์และข้อมูล ประสิทธิภาพของโมเดลจะเพิ่มขึ้นอย่างต่อเนื่องตามกฎกำลังลบ อย่างไรก็ตาม เส้นทางนี้กำลังมีราคาแพงขึ้นเรื่อยๆ เพราะวิธีการขยายขนาดแบบดั้งเดิมไม่สามารถหลุดพ้นจากข้อจำกัดพื้นฐานได้ นั่นคือ การเชื่อมโยงอย่างลึกซึ้งระหว่างขนาดพารามิเตอร์และปริมาณการคำนวณ
ในโมเดลหนาแน่นแบบดั้งเดิม ตรรกะการขยายขนาดนั้นตรงไปตรงมา: ขยายความกว้างของเครือข่ายหรือเพิ่มความลึกของชั้น ข้อเสียที่ตามมาคือ: เมื่อขนาดพารามิเตอร์เพิ่มขึ้นอย่างรวดเร็ว ปริมาณการคำนวณและความต้องการหน่วยความจำแสดงผลก็จะเพิ่มขึ้นเป็นเส้นตรงเช่นกัน ในปัจจุบันที่ข้อมูลข้อความคุณภาพสูงกำลังใกล้หมด การเพิ่มพารามิเตอร์หนาแน่นเพียงอย่างเดียวไม่เพียงแต่ผลตอบแทนส่วนเพิ่มจะลดลงอย่างรวดเร็ว แต่ยังอาจนำไปสู่สถานการณ์ที่น่าอึดอัดที่ประสิทธิภาพถดถอยได้ เส้นทาง Scaling แบบดั้งเดิมดูเหมือนจะใกล้ถึงจุดอิ่มตัวแล้ว
ข้อจำกัดของ MoE
เพื่อแยกพารามิเตอร์ออกจากปริมาณการคำนวณ โมเดลผู้เชี่ยวชาญแบบผสม (MoE) เคยถูกคาดหวังไว้สูง โดยผ่านเครือข่ายย่อยของผู้เชี่ยวชาญที่เปิดใช้งานแบบเบาบาง ทำให้สามารถแยกความจุของโมเดลออกจากปริมาณการคำนวณได้ในระดับหนึ่ง อย่างไรก็ตาม การวิจัยล่าสุดแสดงให้เห็นว่านี่ไม่ใช่ “อาหารฟรี” ที่ไม่มีค่าใช้จ่าย: โมเดลแบบเบาบางมักมีประสิทธิภาพการใช้ตัวอย่างต่ำ เมื่อความเบาบางเพิ่มขึ้น การปรับสมดุลโหลดของเส้นทางก็ทำได้ยากขึ้น และค่าใช้จ่ายหน่วยความจำแสดงผลที่มหาศาลและแรงกดดันด้านการสื่อสารทำให้ปริมาณงานการอนุมานมักจะต่ำกว่าโมเดลหนาแน่นที่มีพารามิเตอร์ที่เปิดใช้งานเท่ากันอย่างมาก
แล้วโมเดลภาษาขนาดใหญ่มีทิศทางการขยายขนาดใหม่ที่สามารถนำเราออกจากภาวะลำบากนี้ได้หรือไม่?
มิติใหม่: พารามิเตอร์ที่จัดทำดัชนีด้วยโทเค็น (Token-Indexed Parameters)
เมื่อไม่นานมานี้ ทีมวิจัยร่วมจากมหาวิทยาลัย Shanghai Jiao Tong และ Hi Lab ของ Xiaohongshu ได้เสนอมิติการขยายขนาดใหม่: Token-Indexed Parameters วิธีนี้ไม่พึ่งพาการขยายพารามิเตอร์หลัก และไม่ใช้เส้นทางการคำนวณแบบเบาบาง แต่เพิ่มความจุของโมเดลโดยการแนะนำเวกเตอร์ปรับให้กับแต่ละโทเค็น ในรูปแบบ “ค้นหาตาราง + ปรับแต่งแบบองค์ประกอบต่อองค์ประกอบ”
โมดูล JTok / JTok-M ที่ทีมวิจัยเสนอ สามารถติดตั้งเป็นปลั๊กอินในแต่ละชั้นของ Transformer เพื่อสร้างเส้นทางการปรับแบบคงที่ (JTok) หรือแบบไดนามิกที่รับรู้บริบท (JTok-M) สร้างสะพานเชื่อมปฏิสัมพันธ์ระหว่างโทเค็นและเส้นทางหลัก ที่สำคัญกว่านั้นคือ กลไกนี้ แทบไม่เพิ่มค่าใช้จ่ายด้านพลังการคำนวณและหน่วยความจำแสดงผล แต่สามารถนำมาซึ่งการปรับปรุงประสิทธิภาพที่เห็นได้ชัดและมีเสถียรภาพ
- ประสิทธิภาพเพิ่มขึ้นอย่างเห็นได้ชัด: ในช่วงขนาดโมเดลตั้งแต่ 650M ถึง 61B JTok-M ลดค่าการสูญเสียลงอย่างมีนัยสำคัญ และเพิ่มคะแนนในงานปลายทางหลายงานอย่างมาก: MMLU +4.1, ARC +8.3, CEval +8.9 เมื่อถึงประสิทธิภาพเดียวกัน JTok-M สามารถประหยัดความต้องการพลังการคำนวณได้ประมาณหนึ่งในสาม
- กฎการขยายขนาดชัดเจน: ผลการขยายขนาดแสดงให้เห็นกฎกำลังที่ชัดเจนและคาดการณ์ได้ สามารถขยายขนาดและวัดผลตอบแทนได้อย่างอิสระ สอดคล้องกับองค์ประกอบสำหรับการสร้าง Scaling Law รุ่นใหม่ของ LLM อย่างสมบูรณ์
นวัตกรรมนี้สร้าง เส้นทางการขยายขนาดเส้นทางที่สาม นอกเหนือจากโมเดลหนาแน่นและ MoE เปิดทิศทางใหม่สำหรับการพัฒนาโมเดลใหญ่ในอนาคต:
ไม่จำเป็นต้องเพิ่มพลังการคำนวณ ไม่ต้องพึ่งพาข้อมูลมากขึ้น เพียงผ่านการออกแบบโครงสร้างและการปรับแต่งโดยค้นหาตาราง ก็สามารถขยายความจุของโมเดลได้อย่างต่อเนื่อง ปรับปรุงประสิทธิภาพการทำงานใหม่ระหว่างประสิทธิภาพและการคำนวณ

- ชื่อบทความ: JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation
- ลิงก์บทความ: https://www.arxiv.org/abs/2602.00800
การปรับปรุงแบบปลั๊กอินน้ำหนักเบา: ความจุพุ่งสูงขึ้น ปริมาณการคำนวณแทบไม่เปลี่ยนแปลง
แนวคิดหลักของวิธีนี้คือการใช้ ID โทเค็นเพื่อค้นหาเวกเตอร์ปรับจากตารางโดยตรง จากนั้นฉีดเข้าไปในเครือข่ายหลักผ่านการดำเนินการคูณและบวกแบบองค์ประกอบต่อองค์ประกอบ เพื่อเพิ่มความจุของโมเดล ในขณะที่ปริมาณการดำเนินการทศนิยม (FLOPs) ยังคงเกือบไม่เปลี่ยนแปลง

JTok: การปรับแต่งแบบคงที่
ต่างจากวิธีการขยายขนาดแบบดั้งเดิม JTok ไม่ได้เพิ่มความจุโดยการทำให้โครงสร้างเครือข่ายลึกหรือกว้างขึ้น แต่เป็นการแนะนำเวกเตอร์ปรับเฉพาะสำหรับแต่ละโทเค็น ในแต่ละชั้นของ Transformer เวกเตอร์ปรับนี้จะปรับแต่งผลลัพธ์ตกค้างของ MLP ผ่านการคูณแบบองค์ประกอบต่อองค์ประกอบ เพื่อฉีดความจุแบบไม่รุกล้ำ
กล่าวโดยเฉพาะ: เวกเตอร์ปรับทั้งหมดถูกเก็บไว้ในตารางฝังตัว แต่ละโทเค็นในแต่ละชั้นจะได้รับเวกเตอร์ปรับที่สอดคล้องกันโดยการค้นหาจาก ID ของมัน เวกเตอร์นี้หลังจากทำให้เป็นมาตรฐานแล้ว จะถูกคูณแบบองค์ประกอบต่อองค์ประกอบกับผลลัพธ์ตกค้างของ MLP ในชั้นปัจจุบัน แล้วเขียนกลับไปยังเส้นทางตกค้าง
กระบวนการทั้งหมด ไม่จำเป็นต้องแก้ไขโครงสร้างเครือข่ายหลัก การฉีดพารามิเตอร์ที่มีประสิทธิภาพสามารถทำได้เพียงผ่านปลั๊กอินน้ำหนักเบาที่ติดตั้งเพิ่มเติม ที่สำคัญกว่านั้นคือ มันจะไม่เพิ่ม FLOPs อย่างมีนัยสำคัญ และไม่สร้างคอขวดการสื่อสารเพิ่มเติม มีผลกระทบต่อปริมาณงานการฝึก/การอนุมานเดิมของโมเดลน้อยมาก
JTok-M: การปรับแต่งแบบไดนามิก
แม้ว่า JTok จะมีประสิทธิภาพ แต่มีข้อจำกัดสองประการ: หนึ่งคือการขยายขนาดพารามิเตอร์ไม่ยืดหยุ่นพอ สองคือโทเค็นเดียวกันในบริบทที่ต่างกันมีความหมายที่แตกต่างกันมาก การใช้เวกเตอร์ปรับแบบคงที่เดียวกันตลอดเวลาอาจไม่สามารถปรับให้เข้ากับสถานการณ์จริงได้อย่างเต็มที่
JTok-M ได้แนะนำกลไกหลักสองประการเพื่อ突破ข้อจำกัดเหล่านี้:
- พูลเวกเตอร์ปรับ: แต่ละโทเค็นไม่ใช่มีเพียงเวกเตอร์เดียวอีกต่อไป แต่มีกลุ่มเวกเตอร์ผู้สมัคร ซึ่งประกอบเป็นพื้นที่ย่อยเชิงความหมาย
- เราเตอร์บริบท: ตามสถานะแฝงบริบทปัจจุบันของโทเค็น จะเลือกผู้สมัคร Top-K อย่างไดนามิกและทำการผสานแบบถ่วงน้ำหนัก เพื่อสร้างเวกเตอร์ปรับสุดท้ายที่รับรู้บริบท
กลไกนี้บรรลุข้อได้เปรียบสามประการพร้อมกัน: ความไวเชิงความหมาย การเปิดใช้งานแบบเบาบาง และการขยายแบบปลั๊กอิน ทำให้โมเดลได้รับความสามารถในการรับรู้บริบทที่ทรงพลังในขณะที่แทบไม่เพิ่มปริมาณการคำนวณหลัก เพื่อให้แน่ใจว่าเวกเตอร์ผู้สมัครทั้งหมดมีส่วนร่วมในการฝึก JTok-M ยังแนะนำการสูญเสียการปรับสมดุลโหลดเส้นทางคล้ายกับ MoE เพื่อรักษาการใช้พื้นที่ปรับแต่งที่มีประสิทธิภาพและมีเสถียรภาพ
การนำไปใช้จริง: ประหยัดพลังการคำนวณหนึ่งในสาม
แม้ว่า JTok/JTok-M จะแนะนำพารามิเตอร์ใหม่จำนวนมาก แต่การออกแบบระบบใช้กระบวนทัศน์ “ปลั๊กอินแบบค้นหาตาราง + การจัดกำหนดการแบบอะซิงโครนัสแบบบายพาส” ซึ่งแยกและซ่อนแรงกดดันด้านการคำนวณและการเข้าถึงหน่วยความจำได้อย่างมีประสิทธิภาพ:
- การดำเนินการค้นหาตารางสามารถทับซ้อนกับ การคำนวณหลักแบบอะซิงโครนัสได้ ค่าใช้จ่ายในการเข้าถึงหน่วยความจำถูกซ่อนโดยการจัดกำหนดการ
- ใช้คุณลักษณะการกระจายแบบหางยาวของความถี่โทเค็น การร้องขอค้นหาตารางหลายครั้งสำหรับโทเค็นเดียวกันสามารถรวมการเข้าถึงได้ ลดแรงกดดันหน่วยความจำอย่างมาก
- ขั้นตอนการฝึกสนับสนุนการฝังตัวแบบขนาน ขั้นตอนการอนุมานสนับสนุน CPU Offload ส่งเฉพาะส่วนของเวกเตอร์ที่ต้องการเท่านั้น
ด้วยการสนับสนุนของการปรับปรุงต่างๆ แม้ว่าจะขยาย JTok-M ไปสู่ความจุที่เห็นได้ชัดเจน การสูญเสียปริมาณงานการฝึกก็สามารถควบคุมได้ภายใน 7%; การสูญเสียปริมาณงานในขั้นตอนการอนุมานต่ำกว่า 7.3% และด้าน GPU เกือบไม่ต้องการการใช้หน่วยความจำแสดงผลเพิ่มเติม ทำให้ได้ทั้งการปรับปรุงประสิทธิภาพและความเป็นไปได้ในการนำไปใช้จริง
นิยาม Scaling Law ใหม่
Scaling Law เป็นแนวทางหลักสำหรับการเข้าใจการพัฒนาโมเดลใหญ่: ประสิทธิภาพของโมเดลมักมีความสัมพันธ์แบบกฎกำลังกับขนาดพารามิเตอร์ ปริมาณข้อมูล และปริมาณการคำนวณ — เพื่อเพิ่มประสิทธิภาพ ต้องเพิ่มทรัพยากรการคำนวณพร้อมกัน
การปรากฏตัวของ JTok-M ทำลายตรรกะการผูกมัดระหว่างประสิทธิภาพและพลังการคำนวณนี้ บรรลุการขยายแนวนอนครั้งหนึ่งต่อ Scaling Law แบบดั้งเดิม ในบทความ เพื่อวัดศักยภาพการขยายขนาดของ JTok-M ผู้เขียนตอบคำถามสำคัญสองข้อต่อไปนี้เป็นหลัก:
- เมื่อขนาดโมเดลหลักขยายใหญ่ขึ้น ผลประโยชน์ที่ JTok-M นำมาสามารถรักษาเสถียรภาพได้หรือไม่?
- เมื่อขยายขนาดพารามิเตอร์ของ JTok-M เอง มันแสดงพฤติกรรมการ Scaling แบบใด?
ข้อสรุปน่าตื่นเต้น
ข้อสรุปที่หนึ่ง: ปรับให้เข้ากับโมเดลหลักขนาดใหญ่ ผลประโยชน์มีเสถียรภาพ ประหยัดพลังการคำนวณ 35%
คำถามหลักข้อแรกเกี่ยวข้องกับว่า JTok-M สามารถนำไปใช้กับโมเดลใหญ่ที่แท้จริงได้หรือไม่: เมื่อโมเดลหลักขยายจากหลายสิบล้านพารามิเตอร์ไปสู่หลายร้อยล้านล้านขนาด การปรับปรุงประสิทธิภาพจะล้มเหลวหรือไม่?
ผู้เขียนไม่ได้พึ่งพาการทดลองเพียงอย่างเดียว แต่อธิบายจากระดับทฤษฎีก่อน: รวมพารามิเตอร์ Token-Indexed เข้ากับกรอบ Scaling Law คลาสสิก และเสนอสมมติฐานสำคัญของ “พารามิเตอร์ที่มีประสิทธิผล”
ประสิทธิภาพของโมเดลดั้งเดิมถูกกำหนดโดยปริมาณพารามิเตอร์ที่เปิดใช้งานหลัก (N_c) และปริมาณข้อมูลการฝึก ในขณะที่พารามิเตอร์ใหม่ที่ JTok-M เพิ่ม (N_n) จะสร้างอัตราส่วนการขยาย η = N_n / N_c กับพารามิเตอร์หลัก เมื่อพิจารณาถึงลักษณะความเบาบางของ JTok-M เอง (ความเบาบางของตารางฝังตัวและความเบาบางของการเปิดใช้งาน Top-K) พารามิเตอร์ใหม่เหล่านี้จะมีปัจจัยส่วนลดที่มีประสิทธิผล γ ในที่สุดรวมกันเป็นปริมาณพารามิเตอร์ที่มีประสิทธิผล N_eff

หลังจากแทนที่พารามิเตอร์ที่มีประสิทธิผลลงในสูตรกฎการขยายขนาดเดิม กฎที่ชัดเจนก็ปรากฏขึ้น: JTok-M ไม่ได้เปลี่ยนความสัมพันธ์พื้นฐานของโมเดลที่มีต่อพลังการคำนวณและข้อมูล แต่ทำให้เส้นโค้งแนวหน้า Pareto ประสิทธิภาพ-พลังการคำนวณ ทั้งหมดเลื่อนลงเป็นระยะทางหนึ่ง ซึ่งหมายความว่า ไม่ว่าขนาดโมเดลจะใหญ่แค่ไหน เพื่อให้ถึงระดับประสิทธิภาพเดียวกัน JTok-M ต้องการพลังการคำนวณในการฝึกน้อยลงอย่างมีนัยสำคัญ และผลประโยชน์นี้มีเสถียรภาพและไม่เกี่ยวข้องกับขนาดโมเดลหลัก

การทดลองที่เข้มงวดในภายหลังยืนยันการคาดการณ์นี้อย่างสมบูรณ์: ภายใต้พิกัดลอการิทึม เส้นโค้งแนวหน้า ประสิทธิภาพ-พลังการคำนวณ ของ JTok-M แทบจะขนานกับเส้นฐานของโมเดลดั้งเดิม เพียงเลื่อนลงทั้งหมดเป็นช่วงคงที่ การคำนวณแสดงให้เห็นว่า เพื่อให้ได้ประสิทธิภาพเท่ากับโมเดล MoE ดั้งเดิม JTok-M สามารถประหยัดพลังการคำนวณในการฝึกได้ 35% โดยตรง อัตราส่วนการประหยัดนี้ยังคงมีเสถียรภาพภายใต้ขนาดโมเดลและงบประมาณการฝึกที่แตกต่างกัน ยืนยัน ความไม่แปรเปลี่ยนตามขนาด ในทางทฤษฎี สำหรับองค์กรแล้ว สิ่งนี้แปลเป็นการลดต้นทุนและเพิ่มประสิทธิภาพโดยตรง: ด้วยงบประมาณเท่ากันสามารถฝึกโมเดลที่แข็งแกร่งขึ้นได้ หรือบรรลุผลลัพธ์เป้าหมายด้วยต้นทุนที่ต่ำกว่า

ข้อสรุปที่สอง: พารามิเตอร์ของตัวเองปฏิบัติตามกฎกำลังการขยายขนาด ผลประโยชน์จากการเพิ่มความจุชัดเจน
คำถามหลักข้อที่สองคือ: หลังจากขยายพารามิเตอร์ของ JTok-M เองแล้ว การปรับปรุงประสิทธิภาพจะอิ่มตัวเร็วหรือไม่? มันสามารถเป็นมิติการขยายขนาดอิสระได้หรือไม่?
นักวิจัยได้ทำการทดลองควบคุมตัวแปรที่แม่นยำชุดหนึ่ง: แก้ไขโครงสร้างโมเดลหลักและปริมาณข้อมูลการฝึก เพียงปรับอัตราการขยายพารามิเตอร์ η เพื่อเพิ่มความจุของ JTok-M ผลลัพธ์แสดงให้เห็นถึงกฎเกณฑ์
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23769
