คอขวดการสื่อสารในเครือข่ายเชิงลึก: เหตุใดโมเดล 152 ชั้นจึง “เงียบงัน”? ทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีหัวจงไขปริศนาการเจือจางข้อมูลระหว่างชั้น

7 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 13 views

คอขวดการสื่อสารในเครือข่ายเชิงลึก: เหตุใดโมเดล 152 ชั้นจึง “เงียบ”? ทีมวิจัยจาก Huazhong University of Science and Technology เผยปัญหาการเจือจางข้อมูลระหว่างชั้น (ตอนที่ 1)

ในช่วงทศวรรษที่ผ่านมา ความก้าวหน้าในสาขา Deep Learning มีรูปแบบที่สอดคล้องกันอย่างน่าประหลาด: การสร้างโมเดลที่ใหญ่ขึ้น พารามิเตอร์มากขึ้น ข้อมูลมากขึ้น บริบทที่ยาวขึ้น วิธีนี้ได้ผลจริง: ค่าความสูญเสียลดลง ความสามารถเพิ่มขึ้น และกฎการขยายขนาด (Scaling Law) ชี้แนะทีมวิจัยอย่างแม่นยำว่าต้องลงทุนทรัพยากรเท่าใด

อย่างไรก็ตาม ทิศทางการขยายขนาดที่แตกต่างกัน มีความท้าทายและผลกระทบที่แตกต่างกันโดยสิ้นเชิง การขยายความยาวลำดับต้องการนวัตกรรมที่แท้จริง และได้ให้กำเนิดกลไกความใส่ใจ (Attention) และงานวิศวกรรมระบบใหม่ๆ หลายชุด การขยายปริมาณข้อมูลนั้นค่อนข้างตรงไปตรงมา: ข้อมูลยิ่งมาก ค่าความสูญเสียยิ่งต่ำ การทำให้โมเดลกว้างขึ้นหรือลึกขึ้น ดูเผินๆ ก็เหมือนกับการขยายข้อมูลที่เรียบง่าย

แต่ความกว้างและความลึกทำงานได้ดีในระดับเดียวกันจริงหรือ?

ความจริงไม่เป็นเช่นนั้น ความลึกของเครือข่ายเพิ่มขึ้นในเชิงปริมาณ แต่ในเชิงคุณภาพไม่ได้เพิ่มขึ้นตามไปด้วย กลไกการสื่อสารระหว่างชั้นแทบไม่มีการเปลี่ยนแปลงพื้นฐานเลย บทความนี้จะสำรวจว่าทำไมประเด็นนี้จึงสำคัญ ซึ่งไม่เพียงเกี่ยวข้องกับความลึกของเครือข่ายเอง แต่ยังสัมผัสกับจุดบอดร่วมที่ดำรงอยู่มานานในการออกแบบสถาปัตยกรรมเครือข่ายประสาทเทียม

ครึ่งแรก: ความสำเร็จในการขยายขนาดและการสื่อสารที่หยุดนิ่ง

เพื่อเข้าใจสถานการณ์ปัจจุบัน ก่อนอื่นต้องพิจารณาว่าด้านใดที่ถูกขยายขนาดสำเร็จ และทำได้อย่างไร

การขยายความยาวลำดับ เป็นตัวอย่างที่ดี โมเดล Transformer ในยุคแรกสามารถประมวลโทเค็นได้เพียงไม่กี่ร้อยตัว การบรรลุความสามารถในการประมวลโทเค็นมากกว่า 128K ตัว ต้องการนวัตกรรมอย่างต่อเนื่องในหลายทิศทาง: รูปแบบความใส่ใจใหม่ (เช่น แบบเบาบาง เชิงเส้น ผสมผสาน) งานวิศวกรรมระบบ (เช่น FlashAttention) และการปรับปรุงการเข้ารหัสตำแหน่ง (เช่น RoPE Scaling) นักวิจัยและวิศวกรร่วมกันสร้างระบบนิเวศที่สมบูรณ์ ซึ่งปรับปรุงวิธีการไหลของข้อมูลระหว่างโทเค็นอย่างต่อเนื่อง ผลตอบแทนคุ้มค่า ทีมวิจัยไม่เพียงสามารถประมวลเอกสารที่ยาวมากได้ แต่ยังวางรากฐานที่มั่นคงสำหรับความสามารถในการให้เหตุผลแบบโซ่ยาวของโมเดลเช่น o1 ของ OpenAI และ DeepSeek-R1 ของ深度求索 นี่คือผลลัพธ์ที่โดดเด่นเมื่อทีมลงทุนอย่างจริงจังใน “วิธีการไหล ของข้อมูลในมิติลำดับ”

คอขวดการสื่อสารในเครือข่ายเชิงลึก: เหตุใดโมเดล 152 ชั้นจึง "เงียบงัน"? ทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีหัวจงไขปริศนาการเจือจางข้อมูลระหว่างชั้น

△ การเติบโตอย่างรวดเร็วของพารามิเตอร์และขนาดข้อมูลในโมเดลภาษาขนาดใหญ่สมัยใหม่

การขยายพารามิเตอร์และข้อมูล เป็นส่วนที่ตรงตามสัญชาตญาณมากที่สุด ตั้งแต่ยุคแรกเริ่มของ Deep Learning หนังสือเรียนได้ถ่ายทอด “สูตร” เดียวกัน: ข้อมูลมากขึ้น ชั้นที่กว้างขึ้น เครือข่ายที่ลึกขึ้น ย่อมนำมาซึ่งความสามารถในการแทนที่ดีขึ้น จาก GPT-2 ที่มีพารามิเตอร์ 1.5 พันล้าน ไปสู่พารามิเตอร์หลายล้านล้านในปัจจุบัน สูตรนี้ยังคงได้ผลเสมอมา ดูเหมือนจะบ่งชี้ว่าทีมโมเดลขนาดใหญ่ไม่จำเป็นต้องนำกลไกใหม่เข้ามา เพียงแค่ขยายตามทิศทางที่ได้รับการยืนยันแล้วเหล่านี้ต่อไป

อย่างไรก็ตาม สำหรับเครือข่ายแล้ว การกว้างขึ้น และลึกขึ้น มักไม่ใช่เรื่องเดียวกัน การขยายความกว้างเป็นไปโดยธรรมชาติ: GPU สมัยใหม่มีความสามารถโดยกำเนิดในการประมวลการคูณเมทริกซ์ที่กว้างขึ้น กลไกความใส่ใจก็พัฒนาอย่างต่อเนื่องเพื่อเพิ่มประสิทธิภาพ ทำให้เครือข่ายที่กว้างขึ้นสามารถบูรณาการเข้ากับสถาปัตยกรรมที่มีอยู่ได้อย่างราบรื่น

ความลึกเป็นอีกเรื่องหนึ่ง โมเดลลึกขึ้นจริง: จากหลายสิบชั้นเพิ่มเป็นหลายร้อยชั้น แต่กลไกหลักของการสื่อสารระหว่างชั้น โดยพื้นฐานแล้วยังคงเป็นการเชื่อมต่อเรซิดวลเชิงลึก (Residual Connection) ที่ ResNet นำเข้ามาในปี 2015 นั่นคือ “x + F(x)” ตั้งแต่กำเนิดขึ้น มีการปรับปรุงมากมายรอบๆ มัน (เช่น ตำแหน่งการทำให้เป็นมาตรฐาน การปรับขนาดเรซิดวล การเชื่อมต่อข้ามชั้น) แต่ไม่มีสิ่งใดที่สั่นคลอนตำแหน่งที่เด็ดขาดของเครื่องหมาย “+” ในเรซิดวลเชิงลึกนั้นอย่างแท้จริง

การเชื่อมต่อเรซิดวลอาจกล่าวได้ว่าเป็นหนึ่งในรากฐานที่สำคัญที่สุดใน Deep Learning หากไม่มีมัน ก็จะไม่มี Transformer ร้อยชั้น ไม่มีโมเดลภาษาขนาดใหญ่สมัยใหม่ และไม่มีกฎการขยายขนาด แต่บางครั้งโซลูชันพื้นฐานอาจกลายเป็นสิ่งที่ “มองไม่เห็น” เกินไป จนผู้คนไม่ตั้งคำถามอีกต่อไปว่ามันเป็นทางออกที่ดีที่สุด หรือเป็นเพียงโซลูชันแรกที่ใช้งานได้ที่ถูกค้นพบ

การเปรียบเทียบ: เกมส่งข้อความ
ลองนึกภาพเกมส่งข้อความที่มีกฎพิเศษ ในเวอร์ชันมาตรฐาน คนที่ 1 กระซิบให้คนที่ 2 ฟัง คนที่ 2 กระซิบต่อให้คนที่ 3 ฟัง เมื่อส่งถึงคนที่ 18 ข้อมูลอาจผิดเพี้ยนไปแล้ว นี่คล้ายกับเครือข่ายเชิงลึกที่ไม่มีเรซิดวล: แต่ละชั้นเห็นได้เฉพาะผลลัพธ์ของชั้นก่อนหน้า

การเชื่อมต่อเรซิดวลแก้ไขปัญหานี้: แต่ละคนในขณะที่ส่งต่อความเข้าใจของตัวเอง ก็ยังส่งต่อข้อมูลดั้งเดิมที่สะสมมาทั้งหมดโดยไม่มีการเปลี่ยนแปลงไปด้วย คนที่ 3 ได้ยินทั้งการตีความใหม่จากคนที่ 2 และเนื้อหาจากทุกคนก่อนหน้า สัญญาณดั้งเดิมถูกรักษาไว้เสมอ กลายเป็นส่วนหนึ่งของ “เสียงประสาน” ที่เติบโตขึ้นเรื่อยๆ

แต่เมื่อถึงคนที่ 152 คุณได้ยินเสียงผสมของ 152 เสียงพร้อมกัน: ข้อมูลดั้งเดิมบวกกับเนื้อหาที่ซ้อนทับจาก 151 ชั้นก่อนหน้า ในทางทฤษฎี เสียงจากชั้นก่อนหน้าทั้งหมดยังคงอยู่ แต่พวกมันถูกเจือจางอย่างรุนแรง หากคนที่ 152 ต้องการรู้ว่าคนที่ 3 พูดอะไรโดยเฉพาะ เขาต้องพยายามแยกแยะมันออกจาก “เสียงประสาน” อันยิ่งใหญ่นี้

△ ในเกมส่งข้อความที่สะสมข้อความ คนที่อยู่หลังๆ ยากที่จะแยกแยะเนื้อหาเฉพาะที่ต้องการ

โดยปกติ คนที่ 152 ทำไม่ได้

นี่คือปัญหาการเจือจางข้อมูล แต่ละชั้นเผชิญกับภาวะกลืนไม่เข้าคายไม่ออก: หากมีส่วนร่วมข้อมูลใหม่ อาจบดบังเนื้อหาก่อนหน้า หากระมัดระวังไม่ทำอะไร ก็สามารถรักษาข้อมูลที่มีอยู่ได้ แต่สูญเสียคุณค่าของชั้นนั้น ในสถานการณ์เช่นนี้ ชั้นหลายชั้นเรียนรู้ที่จะ “เงียบ” — พวกมันแทบไม่เขียนเนื้อหาใหม่ใดๆ ลงในกระแสเรซิดวลเลย เครือข่ายเชิงลึกเช่นนี้บนกระดาษดูลึก แต่ในทางปฏิบัติกลับ “ตื้น” ทีมซ้อนกัน 152 ชั้น แต่หลายชั้นไม่สามารถมีส่วนร่วมในการคำนวณได้อย่างมีประสิทธิภาพ

คอขวดที่นี่ไม่ใช่กำลังการคำนวณที่เครือข่าย 152 ชั้นต้องการ แต่คือความสามารถในการสื่อสาร ของข้อมูลที่ไหลผ่านชั้นเหล่านี้ มันชวนให้นึกถึงคอขวดที่การพัฒนา CPU เผชิญเมื่อหลายสิบปีก่อน: ความเร็วของโปรเซสเซอร์เร็วขึ้นเรื่อยๆ จนแบนด์วิธของหน่วยความจำกลายเป็นข้อจำกัด บังคับให้อุตสาหกรรมทั้งหมดหันไปสู่การเพิ่มประสิทธิภาพแคชและการสื่อสาร การจัดการองค์กรก็เช่นกัน: ความคิดสร้างสรรค์ของกลุ่มคนฉลาด ก็ถูกจำกัดด้วยวิธีการสื่อสารและความร่วมมือระหว่างพวกเขา Deep Learning กำลังประสบกับเวอร์ชันของตัวเอง: เสริมสร้างความสามารถในการคำนวณของแต่ละชั้นมาเป็นเวลาสิบปี ในขณะที่ช่องทางการสื่อสารระหว่างชั้น โดยพื้นฐานแล้วยังคงเป็น “ถนนเลนเดียว” จากปี 2015

แล้วมีกลไกที่ดีกว่าหรือไม่?

“สูตร” ที่มีอยู่และข้อจำกัด

ก่อนการวิจัยที่นำเสนอในบทความนี้ มีนักวิจัยหลายคนสังเกตเห็นปัญหาคอขวดเชิงลึกแล้ว ตลอดหลายปีที่ผ่านมา โซลูชันการซ่อมแซมมีความซับซ้อนมากขึ้นเรื่อยๆ:

DenseNet (ได้รับรางวัล Best Paper ของ CVPR) รักษาผลลัพธ์ของทุกชั้น แต่ทำให้เกิดต้นทุนหน่วยความจำและการคำนวณในระดับกำลังสอง
วิธีการเช่น DenseFormer, LIMe ใช้โครงร่างการถ่วงน้ำหนักที่เรียนรู้ได้เพื่อรวมผลลัพธ์ของแต่ละชั้น ลดต้นทุน แต่เมื่อการฝึกเสร็จสิ้น น้ำหนักก็ถูกตรึงไว้ ไม่สามารถปรับเปลี่ยนตามอินพุตที่แตกต่างกัน (โทเค็นหรือบริบท) ได้แบบไดนามิก
Hyper-Connections ของ ByteDance และmHC ของ深度求索 ใช้เส้นทางที่แตกต่าง โดยขยายช่องทางการสื่อสารออกเป็นหลายช่องทาง เชื่อมต่อระหว่างชั้นด้วยเมทริกซ์ผสม เทียบเท่ากับเพิ่มเลนบนทางหลวงข้อมูล แต่ข้อมูลยังคงไหลผ่านชั้นต่อชั้น ชั้นที่ 152 ไม่สามารถย้อนกลับไปเข้าถึงข้อมูลของชั้นที่ 3 โดยตรงได้
MUDDFormer ของบริษัท彩云 บรรลุการผสมผสานแบบไดนามิก สร้างน้ำหนักผสมตามการแทนค่า (Representation) ของแต่ละโทเค็น นี่เป็นทิศทางที่ถูกต้อง: ควรดึงข้อมูลจากแต่ละชั้นมากน้อยแค่ไหน ขึ้นอยู่กับเนื้อหาที่กำลังประมวลอยู่ แต่ก็มีข้อจำกัดเช่นกัน: เมื่อชั้นที่ 152 ตัดสินใจว่าจะดึงข้อมูลจากชั้นที่ 3 เท่าไร มันขึ้นอยู่กับสถานะของชั้นที่ 152 เอง มันไม่รู้ว่าชั้นที่ 3 มีอะไรจริงๆ มันกำลังทำนายว่าชั้นใดอาจมีประโยชน์ แทนที่จะมองดู

แต่ละขั้นตอนข้างต้นแก้ไขข้อบกพร่องที่มีอยู่จริง แต่มีวิธีน้อยมากที่ตั้งคำถามกับกรอบการเชื่อมต่อเรซิดวลเชิงลึกโดยพื้นฐาน

ไม่ยากที่จะสังเกตว่าวิธีการเหล่านี้มีจุดร่วมเดียวกัน ตั้งแต่ DenseNet ถึง Hyper-Connections แต่ละวิธีตอบคำถามโดยนัยเดียวกัน: “จะผสมผลลัพธ์ของแต่ละชั้นให้ดีขึ้นได้อย่างไร?” — ผ่านค่าสัมประสิทธิ์ที่ดีขึ้น ช่องทางมากขึ้น น้ำหนักที่ปรับตัวได้ แต่ตลอดเวลา การดำเนินการหลักคือ “การผสม” คือ “การสะสม”

งานวิจัยยุคแรกๆ เช่น ELMo แสดงให้เห็นว่าชั้นต่างๆ ของเครือข่ายประสาทเทียมเข้ารหัสข้อมูลที่แตกต่างกันโดยสิ้นเชิง (เช่น ชั้นตื้นเข้ารหัสไวยากรณ์ ชั้นลึกเข้ารหัสความหมาย) วิธีการหลักสรุปว่า “เรียนรู้น้ำหนักผสมที่ดีขึ้นเพื่อปรับสมดุลระหว่างไวยากรณ์และความหมาย” อย่างไรก็ตาม มีเส้นทางหนึ่งที่ถูกละเลย: หากชั้นต่างๆ มีข้อมูลต่างกัน บางทีแต่ละชั้นควรสามารถดึงข้อมูลโดยตรงจากชั้นเฉพาะที่เก็บข้อมูลที่ต้องการ ตามเนื้อหา (ไม่ใช่ตำแหน่งชั้นที่ตรึงตายตัว)

นี่คือความผิดพลาดเชิงหมวดหมู่ (Category Error): มองการสื่อสารระหว่างชั้นเป็นการสะสม (รวมสัญญาณด้วยค่าสัมประสิทธิ์ที่เรียนรู้หรือสร้างขึ้น) แทนที่จะเป็นการดึงข้อมูล (เลือกข้อมูลผ่านการจับคู่ตามเนื้อหา) ในกรอบการสะสม แม้แต่วิธีการแบบไดนามิกก็สร้างน้ำหนักผสมจากสถานะของชั้นปัจจุบันเท่านั้น โดยไม่ดูว่าแหล่งข้อมูลชั้นนั้นมีเนื้อหาอะไรจริงๆ ในกรอบการดึงข้อมูล คิวรี (Query) เข้ารหัส “ฉันต้องการอะไร” คีย์ (Key) เข้ารหัส “ฉันมีอะไร” การดำเนินการระหว่างพวกมันกำหนดความเกี่ยวข้อง ทั้งฝั่งคิวรีและฝั่งคีย์ควรมีสิทธิ์ออกเสียง

กลับไปที่การเปรียบเทียบเกมส่งข้อความ วิธีการก่อนหน้าทั้งหมดพยายามสร้าง “เสียงประสาน” ที่ชัดเจนขึ้น: ปรับปรุงการออกเสียง เพิ่มช่องทางรีเลย์ ปรับระดับเสียงแบบปรับตัวได้ แต่ไม่มีใครตั้งคำถามกับข้อจำกัดพื้นฐานนี้: เสียงทั้งหมดต้องสะสมเป็นเสียงเดียวหรือไม่? และไม่มีใครถามว่า: เราสามารถเดินกลับไปพูดคุยแบบตัวต่อตัวกับคนก่อนหน้าใดๆ ได้หรือไม่?

ทีมวิจัยเชื่อว่าความผิดพลาดเชิงหมวดหมู่เช่นนี้มีอยู่ทั่วไปในการออกแบบสถาปัตยกรรม เมื่อโซลูชันใดๆ ใช้งานได้ดีพอ ผู้คนมักไม่ตั้งคำถามกับกรอบแนวคิดพื้นฐานของมัน แต่จะปรับปรุงภายในกรอบนั้นเท่านั้น หลังจากผ่านการซ่อมแซมที่ซับซ้อนมากขึ้นเรื่อยๆ ตลอดหลายปี นักวิจัยค่อยๆ ตระหนักว่า: การเชื่อมต่อเรซิดวลในมิติความลึก อาจไม่ต้องการค่าสัมประสิทธิ์การผสมที่ดีขึ้น แต่ต้องการการดำเนินการที่แตกต่างโดยพื้นฐานมาแทนที่

การดำเนินการที่ประสบความสำเร็จในการแก้ปัญหาการรวบรวมข้อมูลที่คล้ายกันในมิติลำดับแล้ว

△ กลไกความใส่ใจแบบเหตุและผล (Causal Attention) รวบรวมข้อมูลในมิติลำดับ (แนวนอน)

ครึ่งหลัง: โปรดติดตามตอนต่อไป

(จบตอนแรกของบทความนี้ ตอนที่สองจะสำรวจแนวคิดใหม่ที่ทีมวิจัยเสนอและผลกระทบที่อาจเกิดขึ้น)

เมื่อเข้าใจการสื่อสารระหว่างชั้นเป็นการดึงข้อมูลแทนการสะสม โซลูชันตามธรรมชาติคือการนำกลไกความใส่ใจเข้ามาในมิติความลึก หลายทีม รวมถึงทีมวิจัยนี้ มาบรรจบกันที่ความคิดนี้อย่างอิสระ: DCA ของ Google, MRLA ของ Huawei, Dreamer ของ Hessian.AI, AttnRes ของ Kimi และ Flash Depth Attention & MoDA ที่ทีมวิจัยนี้เสนอ ล้วนพยายามใช้ดอทโปรดักต์แอตเทนชัน (Dot-Product Attention) ระหว่างชั้น การบรรจบกันอย่างอิสระเช่นนี้เป็นสัญญาณที่ชัดเจน: ทิศทางถูกต้อง

△ กลไกความใส่ใจเชิงลึก (Depth Attention) รวบรวมข้อมูลในมิติความลึก (แนวตั้ง)

อย่างไรก็ตาม การหาทิศทางที่ถูกต้องกับการสร้างผลิตภัณฑ์ที่ใช้งานได้เป็นคนละเรื่อง นักวิจัยเล่าเองว่า: “ครั้งแรกที่ใช้ PyTorch ใช้ Depth Attention และรันมัน เวลารวมสำหรับ Forward และ Backward Propagation ถึง 44,924 มิลล

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง