เครซี จาก เอาเฟยซื่อ
หลังจากเปิดตัวโมเดลมาเกือบ 3 เดือน รายงานทางเทคนิคของ Baidu ERNIE 5.0 ก็ได้รับการเผยแพร่ในที่สุด

โมเดลพื้นฐานใช้สถาปัตยกรรม Ultra-Sparse MoE ที่เบาบางยิ่ง พารามิเตอร์สูงถึงล้านล้าน แต่พารามิเตอร์ที่ถูกกระตุ้นจริงระหว่างการอนุมานมีไม่ถึง 3% นับเป็นโมเดลออโตรีเกรสซีฟแบบรวมศูนย์แรกที่เปิดเผยต่อสาธารณะซึ่งบรรลุขนาดนี้
ในการออกแบบสถาปัตยกรรม ERNIE 5.0 ปฏิเสธการ “ต่อเติม” และบรรลุการรวมศูนย์แบบออโตรีเกรสซีฟดั้งเดิมของสี่โมดาลิตี ได้แก่ ข้อความ ภาพ วิดีโอ และเสียงอย่างแท้จริง ทำให้ทุกโมดาลิตีได้รับการฝึกฝนร่วมกันในเครือข่ายหลัก Transformer เดียวกันตั้งแต่เริ่มต้น
ERNIE 5.0 แสดงผลโดดเด่นในการทดสอบมาตรฐานหลายรายการ: ได้คะแนน 83.40 ในการให้คะแนนความหมายวิดีโอ VBench มีอัตราความผิดพลาดของตัวอักษรเพียง 0.31% ในงานจดจำเสียง AISHELL-1 และได้คะแนน 73.89 ในงานให้เหตุผลทางคณิตศาสตร์ MATH แสดงให้เห็นถึงความสามารถหลายโมดาลิตีที่รอบด้าน

การกำหนดเส้นทาง MoE ไม่มองที่โมดาลิตี
เพื่อทำลายกำแพงระหว่างข้อมูลโมดาลิตีที่ต่างกัน ERNIE 5.0 ใช้กลไกการกำหนดเส้นทางผู้เชี่ยวชาญที่ไม่ขึ้นกับโมดาลิตีในสถาปัตยกรรมหลัก
สิ่งนี้แตกต่างอย่างมากจากการออกแบบโมเดลแบบดั้งเดิมที่ “แบ่งแยกและปกครอง” โดยรื้อกำแพงโมดาลิตีที่มนุษย์สร้างขึ้น ไม่ได้ติดป้าย “ภาพ” หรือ “ภาษา” ให้ข้อมูลล่วงหน้าอีกต่อไป
ERNIE 5.0 สร้างพูลผู้เชี่ยวชาญร่วมกัน ทำให้ข้อมูลทุกโมดาลิตีสามารถไหลและโต้ตอบได้อย่างอิสระในเครือข่ายพารามิเตอร์ขนาดใหญ่เดียวกัน

ในการดำเนินการกำหนดเส้นทางเฉพาะ โมเดลตัดสินใจโดยอิงจากการแสดง Token แบบรวมศูนย์อย่างสมบูรณ์ ไม่ว่าข้อมูลนำเข้าดั้งเดิมจะเป็นโมดาลิตีใด จะถูกแปลงเป็นรูปแบบมาตรฐานและจับคู่อย่างแม่นยำกับผู้เชี่ยวชาญที่เหมาะสมที่สุดสำหรับการประมวลผล
กลยุทธ์การจัดการแบบเปิดนี้ทำให้เกิดปรากฏการณ์ความเชี่ยวชาญแบบเกิดขึ้นเองระหว่างการฝึกฝน โดยปราศจากคำสั่งมนุษย์ที่กำหนดการแบ่งงาน ผู้เชี่ยวชาญต่างกำหนดบทบาทของตนเองอย่างเป็นธรรมชาติระหว่างการฝึกฝนด้วยข้อมูลมหาศาล บางส่วนเชี่ยวชาญด้านการประมวลผลภาพโดยอัตโนมัติ บางส่วนเก่งด้านตรรกะข้อความ และบางส่วนวิวัฒนาการเป็น “ผู้รอบรู้” ที่รับผิดชอบการจัดแนวข้ามโมดาลิตี การทำงานร่วมกันโดยนัยนี้ไม่เพียงทำให้การเข้าใจหลายโมดาลิตีราบรื่นขึ้น แต่ยังขยายขอบเขตความสามารถของโมเดลได้อย่างเป็นธรรมชาติ
การฝึกฝนล่วงหน้าแบบยืดหยุ่น ผลิตโมเดลหลายตัวในครั้งเดียว
นอกจากวิธีการกำหนดเส้นทางผู้เชี่ยวชาญแบบใหม่แล้ว ERNIE 5.0 ยังเป็นผู้บุกเบิกกระบวนทัศน์การฝึกแบบยืดหยุ่น “รอบด้านในครั้งเดียว” อีกด้วย
โดยทั่วไป เพื่อให้เหมาะกับอุปกรณ์ที่มีพลังการคำนวณต่างกัน มักต้องฝึกโมเดลหลายรุ่นตั้งแต่เริ่มต้น ทั้งขนาดใหญ่ กลาง และเล็ก ซึ่งใช้เวลาและทรัพยากรพลังการคำนวณจำนวนมาก ตอนนี้ ERNIE 5.0 โดยการสร้างซูเปอร์เน็ตเวิร์กขนาดใหญ่เพียงแค่ฝึกฝนล่วงหน้าครั้งเดียว ก็สามารถแยกเมทริกซ์โมเดลย่อยชุดหนึ่งที่มีข้อกำหนดต่างกันออกมาได้โดยตรงผ่านวิธีการแบ่งปันน้ำหนัก
กล่าวโดยเฉพาะคือ ได้นำกลไกความลึกแบบยืดหยุ่นมาใช้ ในกระบวนการฝึก ระบบใช้กลยุทธ์คล้ายกับการละทิ้งชั้น ไม่ได้สำรวจชั้นการคำนวณทั้งหมดอย่างตายตัวอีกต่อไป แต่ข้ามชั้น Transformer บางส่วนแบบสุ่ม ทำให้เครือข่ายตื้นในโมเดลสามารถรับผิดชอบงานคำนวณที่มีประสิทธิภาพได้อย่างอิสระ
พร้อมกันนี้ ยังรองรับการปรับความกว้างและความเบาบางแบบยืดหยุ่นอีกด้วย ซึ่งหมายความว่าสามารถปรับความจุรวมของพูลผู้เชี่ยวชาญแบบไดนามิก และควบคุมจำนวนผู้เชี่ยวชาญที่ถูกกระตุ้นจริงในแต่ละการอนุมานอย่างยืดหยุ่น จึงสามารถหาจุดสมดุลที่ดีที่สุดระหว่างพารามิเตอร์ล้านล้านเต็มจำนวนกับความต้องการในการปรับใช้แบบเบาได้

ข้อได้เปรียบที่ใหญ่ที่สุดของวิธีการฝึกนี้คือการแยกตัวอย่างแบบซีโรช็อต โมเดลย่อยที่แยกออกมาไม่จำเป็นต้องปรับแต่งใหม่อย่างมีค่าใช้จ่ายสูง หรือกระบวนการบีบอัดโมเดลที่ซับซ้อน ก็สามารถสืบทอดความสามารถหลักของโมเดลเต็มจำนวนได้โดยตรง
การปรับปรุงหลังการฝึก
ในขั้นตอนการจัดแนว ERNIE 5.0 ดำเนินกลยุทธ์การเรียนรู้แบบเสริมแรงหลายโมดาลิตีแบบรวมศูนย์ โดยนำงานการให้เหตุผลเชิงตรรกะ การปฏิบัติตามคำสั่ง และการสร้างหลายโมดาลิตี เข้ามาอยู่ในไปป์ไลน์การเรียนรู้แบบเสริมแรงเดียวกันเพื่อการปรับปรุงร่วมกัน บรรลุการจัดแนวความสามารถข้ามโมดาลิตีอย่างลึกซึ้ง
เพื่อแก้ไขปัญหาประสิทธิภาพการฝึก โมเดลได้นำเทคโนโลยีแคชการเล่นซ้ำแบบไม่เอนเอียงมาใช้ ผ่านข้อจำกัดการเรียงลำดับข้อมูลที่เข้มงวด แก้ไขปัญหาความไม่สมดุลของโหลดการคำนวณที่เกิดจากความยาวงานที่ไม่เท่ากันได้อย่างมีประสิทธิภาพ จึงเพิ่มปริมาณการฝึกโดยรวมอย่างมาก

เพื่อรับประกันความเสถียรของการปรับปรุงกลยุทธ์ ERNIE 5.0 ใช้กลไกการตัดแต่งตัวอย่างสำคัญหลายระดับและหน้ากากตัวอย่างที่เชี่ยวชาญแล้ว เทคโนโลยีทั้งสองนี้มุ่งเน้นไปที่การยับยั้งปรากฏการณ์เอนโทรปีพังทลายที่มักเกิดขึ้นในระยะเริ่มต้นของการฝึก เพื่อให้แน่ใจว่าโมเดลรักษาความแข็งแกร่งของการอัปเดตกลยุทธ์ในกระบวนการปรับปรุงที่ซับซ้อน

นอกจากนี้ เมื่อเผชิญกับงานยากที่สัญญาณรางวัลเบาบาง โมเดลใช้วิธีการเรียนรู้แบบเสริมแรงด้วยพรอมต์แบบปรับตัวได้ โดยฉีด “โครงกระดูกการคิด” เป็นสัญญาณชี้นำในระยะเริ่มต้นของการฝึก และค่อยๆ ลดลงเมื่อการฝึกลึกซึ้งขึ้น ในที่สุดบรรลุการเปลี่ยนผ่านอย่างราบรื่นจากการชี้นำเสริมไปสู่การแก้ไขปัญหาที่ซับซ้อนอย่างอิสระ
นอกจากสถาปัตยกรรมหลักและกระบวนทัศน์การฝึกแล้ว รายงานทางเทคนิคยังอธิบายรายละเอียดการประมวลผลเฉพาะของแต่ละโมดาลิตีอย่างละเอียด รวมถึงตัวแปรการเข้ารหัสตำแหน่งของข้อความ กลยุทธ์การแบ่งบล็อกเชิงพื้นที่และเวลาของภาพและวิดีโอ และแผนการเข้ารหัสแบบไม่ต่อเนื่องของสัญญาณเสียง
รายงานยังเปิดเผยกลยุทธ์การปรับปรุงการสื่อสารของเฟรมเวิร์ก PaddlePaddle ระดับพื้นฐานบนคลัสเตอร์พันการ์ด และการออกแบบกลไกความสนใจที่มีประสิทธิภาพสำหรับบริบทที่ยาวมาก
ที่อยู่รายงาน:
https://arxiv.org/abs/2602.04705
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22977
