การเรียนรู้เชิงลึกกำลังจะมีทฤษฎีทางวิทยาศาสตร์หรือไม่? นักวิชาการ 14 คนจาก UC Berkeley และสถาบันอื่นๆ เสนอ ‘กลศาสตร์การเรียนรู้’

2 hours ago • ข่าวสารอุตสาหกรรม AI • 9 views

นี่คือยุคที่ละเอียดอ่อน ด้านหนึ่ง โมเดลขนาดใหญ่กำลังพัฒนาอย่างรวดเร็วจนน่าตกใจ จำนวนพารามิเตอร์เพิ่มขึ้นจากหลายหมื่นล้านเป็นหลายล้านล้าน อีกด้านหนึ่ง วงวิชาการกลับเงียบงัน—เรายังไม่พบทฤษฎีพื้นฐานของการเรียนรู้เชิงลึก โครงข่ายประสาทเทียมยังคงเป็นกล่องดำ

LeCun กล่าวอย่างตรงไปตรงมาบน X: “รากฐานทางทฤษฎีของการเรียนรู้เชิงลึกยังคงเป็นทุ่งร้าง” Geoffrey Hinton ก็แสดงความเห็นคล้ายกันหลายครั้งในที่สาธารณะ: ความสำเร็จของการเรียนรู้เชิงลึกนั้นเหมือนการเล่นแร่แปรธาตุมากกว่าวิทยาศาสตร์—เรารู้ว่าอะไรได้ผล แต่ไม่รู้ว่าทำไมมันถึงได้ผล

แต่ในทุ่งร้างแห่งนี้ รอยร้าวกำลังถูกเปิดออก

เมื่อเร็วๆ นี้ ทีมนักวิจัย 14 คนจากมหาวิทยาลัยชั้นนำ เช่น UC Berkeley, Harvard, Stanford ได้ตีพิมพ์บทความที่รวบรวมชิ้นส่วนทฤษฎีที่กระจัดกระจายอยู่ในที่ต่างๆ ตลอดทศวรรษที่ผ่านมาอย่างเป็นระบบ และประกอบเป็นภาพที่สมบูรณ์

พวกเขาตั้งชื่อระบบทฤษฎีที่กำลังก่อตัวนี้ว่า Learning Mechanics (กลศาสตร์การเรียนรู้)

การเรียนรู้เชิงลึกกำลังจะมีทฤษฎีทางวิทยาศาสตร์หรือไม่? นักวิชาการ 14 คนจาก UC Berkeley และสถาบันอื่นๆ เสนอ 'กลศาสตร์การเรียนรู้'

ชื่อบทความ: There Will Be a Scientific Theory of Deep Learning
ลิงก์บทความ: https://arxiv.org/pdf/2604.21691

เช่นเดียวกับกลศาสตร์คลาสสิกที่รวมการเคลื่อนที่ของเทหวัตถุบนท้องฟ้ากับการตกของวัตถุบนพื้นโลก กลศาสตร์สถิติที่เชื่อมสะพานระหว่างอนุภาคระดับจุลภาคกับปรากฏการณ์ความร้อนระดับมหภาค และกลศาสตร์ควอนตัมที่นิยามรูปแบบพื้นฐานของการดำรงอยู่ของสสารใหม่ “กลศาสตร์การเรียนรู้” พยายามสร้างกรอบทางวิทยาศาสตร์ระดับหลักการแรกสำหรับกระบวนการเรียนรู้ของโครงข่ายประสาทเทียม

ทฤษฎีพื้นฐานหายไปไหน?

ในช่วงสิบห้าปีที่ผ่านมา ความก้าวหน้าทุกครั้งของการเรียนรู้เชิงลึกเกือบทั้งหมดมาจากสัญชาตญาณทางวิศวกรรมและการทดลองขนาดใหญ่ ไม่ใช่จากการ推导ทางทฤษฎี AlexNet อาศัยการค้นพบโดยบังเอิญของการประมวลผลแบบขนานด้วย GPU; ResNet มาจากการแก้ไขปัญหาการหายไปของเกรเดียนต์ของ He Kaiming; กลไกความสนใจของ Transformer เดิมทีถูกออกแบบมาเพื่อแก้ปัญหาการพึ่งพาระยะไกลในการสร้างแบบจำลองลำดับ…

รูปแบบ “ทำก่อนแล้วค่อยว่ากัน” นี้นำมาซึ่งผลลัพธ์การประยุกต์ใช้ที่น่าทึ่ง แต่ก็ทิ้งความจริงที่น่าอึดอัดไว้: นักวิจัยการเรียนรู้เชิงลึกเมื่อเผชิญกับโมเดลที่ฝึกไม่สำเร็จ มักจะพึ่งพาประสบการณ์และโชคในการปรับพารามิเตอร์

ผลงานหลักของทีมวิจัยคือการระบุเส้นทางการวิจัยห้าเส้นทาง ได้แก่:

สมมติฐานในอุดมคติที่แก้ได้: ภายใต้เงื่อนไขที่เรียบง่าย เราสามารถแก้พลศาสตร์ของโครงข่ายประสาทเทียมได้อย่างแม่นยำหรือไม่? — คำตอบที่ดีที่สุดทั่วโลกของโครงข่ายเชิงเส้นลึก การเปรียบเทียบฮาร์มอนิกออสซิลเลเตอร์ภายใต้ขีดจำกัด NTK สอดคล้องกับฮาร์มอนิกออสซิลเลเตอร์และอะตอมไฮโดรเจนในฟิสิกส์
ขีดจำกัดที่จัดการได้: เมื่อโครงข่ายเข้าใกล้ขั้วบางอย่าง พฤติกรรมจะคาดเดาได้หรือไม่? — การแบ่งขั้วเฉื่อย/สมบูรณ์ภายใต้ขีดจำกัดโครงข่ายกว้าง ขีดจำกัดความลึก/แบตช์/อัตราการเรียนรู้ สอดคล้องกับขีดจำกัดทางอุณหพลศาสตร์
กฎเชิงประจักษ์: มีกฎสากลที่ข้ามผ่านสถาปัตยกรรมและชุดข้อมูลหรือไม่? — กฎการปรับขนาดของโครงข่ายประสาท ขอบเขตความเสถียร (Edge of Stability) สอดคล้องกับกฎของเคปเลอร์และกฎของสเนลล์
ทฤษฎีพารามิเตอร์เกิน: สามารถถ่ายโอนพารามิเตอร์เกินแบบ zero-shot ได้หรือไม่? — การกำหนดพารามิเตอร์ μP, การไหลศูนย์กลาง, การแยกและกำจัดพารามิเตอร์เกิน สอดคล้องกับการวิเคราะห์มิติ
พฤติกรรมสากล: ทำไมการแทนค่าที่เรียนรู้จากสถาปัตยกรรม/ชุดข้อมูลที่แตกต่างกันจึงคล้ายกันมาก? — ปรากฏการณ์การลู่เข้าของการแทนค่า สมมติฐานการแทนค่าสากล สอดคล้องกับความเป็นสากลวิกฤต

เส้นทางทั้งห้านี้ไม่ได้พัฒนาแบบขนาน แต่กำลังรวมตัวเข้าสู่แกนกลางเดียวกัน—กรอบทฤษฎีที่เป็นหนึ่งเดียวที่สามารถอธิบายกระบวนการเรียนรู้ของโครงข่ายประสาทเทียม

เรารู้ว่าก่อน Lavoisier เคมีโดยพื้นฐานแล้วก็คือ “การเล่นแร่แปรธาตุ”—ผู้คนรู้ว่าการผสมสารบางอย่างจะทำให้เกิดปฏิกิริยาเฉพาะ แต่ไม่เข้าใจกลไกของอะตอมที่อยู่เบื้องหลัง จนกระทั่งมีการสร้างตารางธาตุและทฤษฎีปฏิกิริยาเคมี เคมีจึงก้าวกระโดดจากการสะสมประสบการณ์มาเป็นวิทยาศาสตร์ที่แม่นยำ

การเรียนรู้เชิงลึกกำลังอยู่ในจุดเปลี่ยนที่คล้ายกัน การเติบโตอย่างรวดเร็วในทศวรรษที่ผ่านมา โดยพื้นฐานแล้วคือ “ยุคแห่งการเล่นแร่แปรธาตุ” ที่ขับเคลื่อนด้วยประสบการณ์นิยม—เราค้นพบสูตรที่มีประสิทธิภาพมากมาย (ResNet, Transformer, Adam optimizer) แต่ขาดความเข้าใจพื้นฐานว่าทำไมสูตรเหล่านี้ถึงได้ผล

เป้าหมายของ “กลศาสตร์การเรียนรู้” คือการเป็น “ตารางธาตุ” ของสาขาการเรียนรู้เชิงลึก

เสาหลักทั้งห้าของ “กลศาสตร์การเรียนรู้”: ดาวคู่แห่งฟิสิกส์

นี่คือส่วนที่น่าสนใจที่สุดของบทความทั้งหมด

สมมติฐานในอุดมคติที่แก้ได้—”อะตอมไฮโดรเจน” ของโครงข่ายประสาทเทียม

ประวัติศาสตร์การพัฒนาฟิสิกส์บอกเราว่า: ทฤษฎีที่成熟ใดๆ ต้องเริ่มต้นจากแบบจำลองที่เรียบง่ายที่สามารถแก้ได้อย่างแม่นยำ กลศาสตร์คลาสสิกมีฮาร์มอนิกออสซิลเลเตอร์และปัญหาของเคปเลอร์ กลศาสตร์ควอนตัมมีอะตอมไฮโดรเจน—สิ่งเหล่านี้เป็นระบบในอุดมคติสูง แต่ให้พื้นฐานแนวคิดสำหรับการทำความเข้าใจระบบที่ซับซ้อนกว่า

สาขาการเรียนรู้เชิงลึกก็พบ “อะตอมไฮโดรเจน” ของตัวเองเช่นกัน:

โครงข่ายเชิงเส้นลึก (Deep Linear Networks) เมื่อฟังก์ชันกระตุ้นถูกแทนที่ด้วยการ映射เอกลักษณ์ เพอร์เซปตรอนหลายชั้นที่มีความลึกใดๆ จะลดรูปเป็นผลคูณเมทริกซ์

นักวิจัยพิสูจน์ว่า SGD บนโครงข่ายประเภทนี้สามารถหาคำตอบที่ดีที่สุดทั่วโลกได้เสมอ และสามารถอธิบายวิถีการอัปเดตในแต่ละขั้นตอนได้อย่างแม่นยำ ที่สำคัญกว่านั้น ลักษณะเชิงคุณภาพหลายอย่างของโครงข่ายเชิงเส้นลึก (เช่น วิวัฒนาการแบบไดนามิกของค่าเอกฐาน) ยังคงอยู่ในโครงข่ายที่ไม่เป็นเชิงเส้น

ขีดจำกัด NTK (Neural Tangent Kernel) เมื่อความกว้างของโครงข่ายประสาทเทียมเข้าใกล้อนันต์ พฤติกรรมของโครงข่ายระหว่างการฝึกสามารถอธิบายได้ด้วยฟังก์ชันเคอร์เนลคงที่—นี่คือข้อมูลเชิงลึกหลักของทฤษฎี NTK ภายใต้ขีดจำกัดนี้ การฝึกโครงข่ายประสาทเทียมเทียบเท่ากับการถดถอยเคอร์เนลในพื้นที่ฮิลเบิร์ตที่สร้างใหม่ (RKHS) ที่กำหนดโดย NTK ซึ่งหมายความว่าเราสามารถใช้ภาษาของวิธีเคอร์เนลเพื่อทำนายพลศาสตร์การฝึกของโครงข่ายกว้างอนันต์ได้อย่างแม่นยำ

บทความเน้นย้ำเป็นพิเศษถึงการเปรียบเทียบระหว่าง NTK กับกลศาสตร์ควอนตัม: โครงข่ายประสาทเทียมภายใต้ขีดจำกัด NTK มีพฤติกรรมคล้ายกับฮาร์มอนิกออสซิลเลเตอร์หรืออะตอมไฮโดรเจนในกลศาสตร์ควอนตัม—ทั้งคู่เป็น “แบบจำลองของเล่น” ที่สามารถแก้ได้อย่างสมบูรณ์ด้วยวิธีการวิเคราะห์ แต่ก็มีลักษณะทางกายภาพที่สำคัญของระบบจริง

ภายใต้ความกว้างอนันต์ ฟังก์ชันเอาต์พุตของโครงข่าย

การเปลี่ยนแปลงเทียบกับพารามิเตอร์ θ สามารถอธิบายได้ด้วยฟังก์ชันเคอร์เนลที่ไม่ขึ้นกับเวลา

และฟังก์ชันเคอร์เนลนี้คงที่ระหว่างการฝึก—ซึ่งมีความคล้ายคลึงอย่างน่าทึ่งกับการอนุรักษ์แฮมิลโทเนียนในระบบควอนตัม

ขีดจำกัดที่จัดการได้—เมื่อโครงข่ายกลายเป็น “ใหญ่ไม่สิ้นสุด”

หากส่วนก่อนหน้าถามว่า “โครงข่ายประสาทเทียมที่ง่ายที่สุดคืออะไร” ส่วนนี้ก็ถามว่า “จะเกิดอะไรขึ้นเมื่อมิติใดมิติหนึ่งของโครงข่ายถูกผลักไปสู่ขั้ว” นี่คือรูปแบบความคิดของขีดจำกัดทางอุณหพลศาสตร์ในฟิสิกส์: โดยการศึกษาระบบที่จำนวนอนุภาคเข้าใกล้อนันต์ เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับระบบที่มีขอบเขตจำกัด

ในการเรียนรู้เชิงลึก มีการค้นพบ “ขีดจำกัด” ดังกล่าวหลายประการ:

ขีดจำกัดโครงข่ายกว้าง (Lazy vs. Rich Regime) นี่คือหนึ่งในการค้นพบทางทฤษฎีที่สำคัญที่สุดในปีที่ผ่านมา เมื่อความกว้างของโครงข่ายเพิ่มขึ้น พลศาสตร์การฝึกจะเข้าสู่สองสถานะที่แตกต่างกันอย่างสิ้นเชิง:

ระบบเฉื่อย (Lazy Training): พารามิเตอร์ของโครงข่ายแทบจะไม่ออกจากการเริ่มต้น เทียบเท่ากับวิธีเคอร์เนลในเชิงฟังก์ชัน ในเวลานี้ โครงข่ายมีพฤติกรรมเหมือน “นักเรียนขี้เกียจ”—มันไม่เต็มใจที่จะเปลี่ยนแปลงตัวเองจริงๆ เพียงใช้การรบกวนเล็กน้อยจากสถานะเริ่มต้นเพื่อ拟合ข้อมูล
ระบบสมบูรณ์ (Feature Learning): การแทนค่าคุณลักษณะของโครงข่ายเกิดการเปลี่ยนแปลงอย่างมีนัยสำคัญระหว่างการฝึก เรียนรู้การแทนค่าภายในที่มีประโยชน์อย่างแท้จริง

การเปลี่ยนแปลงระหว่างสองระบบนี้ขึ้นอยู่กับความสมดุลที่ละเอียดอ่อนระหว่างความกว้าง ความลึก อัตราการเรียนรู้ และขนาดแบตช์ งานนี้กำหนดขอบเขตการเปลี่ยนเฟสนี้อย่างเคร่งครัด และบทความชี้ให้เห็นว่าความสำคัญของการค้นพบนี้เกินกว่ารายละเอียดทางเทคนิค—มันเผยให้เห็นว่ามีปรากฏการณ์ “การเปลี่ยนเฟส” ที่แท้จริงในการฝึกโครงข่ายประสาทเทียม เช่นเดียวกับน้ำกลายเป็นน้ำแข็งที่ 0°C พฤติกรรมของโครงข่ายประสาทเทียมสามารถเปลี่ยนแปลงเชิงคุณภาพที่จุดวิกฤตบางจุด

ขีดจำกัดสำคัญอื่นๆ ได้แก่:

ขีดจำกัดความลึก: เมื่อจำนวนชั้นเข้าใกล้อนันต์ สถาปัตยกรรมบางอย่างแสดงลักษณะของพลศาสตร์ต่อเนื่อง
ขีดจำกัดแบตช์: มีความแตกต่างอย่างเป็นระบบระหว่างการฝึกด้วยแบตช์ขนาดใหญ่และแบตช์ขนาดเล็ก
ขีดจำกัดอัตราการเรียนรู้: อัตราการเรียนรู้ที่เล็กมากสอดคล้องกับการไหลของเกรเดียนต์ ในขณะที่อัตราการเรียนรู้ที่ใหญ่มากจะกระตุ้นพลศาสตร์ใหม่ทั้งหมด

คุณค่าร่วมของการศึกษาขีดจำกัดเหล่านี้คือ: พวกมันเปลี่ยนการสังเกตเชิงประจักษ์ที่ไม่ต่อเนื่องและมีขอบเขต ให้เป็นวัตถุทางคณิตศาสตร์ที่ต่อเนื่องและวิเคราะห์ได้

กฎเชิงประจักษ์—”กฎของเคปเลอร์” เวอร์ชันการเรียนรู้เชิงลึก

ส่วนนี้คือการค้นพบเชิงประจักษ์—เช่นเดียวกับที่เคปเลอร์สกัดกฎการเคลื่อนที่ของดาวเคราะห์สามข้อจากข้อมูลการสังเกตของไทโค นักวิจัยการเรียนรู้เชิงลึกก็สรุปกฎสากลหลายข้อที่ข้ามผ่านสถาปัตยกรรมและชุดข้อมูลจากการทดลองจำนวนมาก

กฎการปรับขนาดของโครงข่ายประสาท (Neural Scaling Laws) เป็นหนึ่งในกฎที่มีชื่อเสียงที่สุด การสูญเสียการทดสอบของโมเดลจะลดลงแบบกฎกำลังเมื่อปริมาณการคำนวณ จำนวนพารามิเตอร์ หรือปริมาณข้อมูลเพิ่มขึ้น:

โดยที่ α คือเลขชี้กำลังกฎกำลังที่ขึ้นอยู่กับงานและสถาปัตยกรรม สิ่งที่น่าทึ่งเกี่ยวกับกฎนี้คือความเป็นสากล: ไม่ว่าคุณจะใช้ Transformer หรือ ResNet ไม่ว่างานจะเป็นการสร้างแบบจำลองภาษาหรือการจำแนกภาพ ความสัมพันธ์แบบกฎกำลังก็ยังคงอยู่ เพียงแต่เลขชี้กำลังต่างกัน

อีกกฎหนึ่งที่ได้รับการยืนยันซ้ำแล้วซ้ำเล่าในระดับเชิงประจักษ์คือขอบเขตความเสถียร (Edge of Stability, EoS) เมื่อใช้ อัตราการเรียนรู้ที่ค่อนข้างใหญ่ในการฝึก ค่าเฉพาะสูงสุดของเกรเดียนต์ (นั่นคือ ค่าเฉพาะสูงสุดของเมทริกซ์ Hessian

) จะคงที่โดยอัตโนมัติใกล้กับ 2/η โดยที่ η แทนอัตราการเรียนรู้

ปรากฏการณ์นี้ถูกตั้งชื่อว่า “ขอบเขตความเสถียร” มันเผยให้เห็นว่ามีการวิกฤตแบบจัดระเบียบตนเอง (Self-Organized Criticality) ในกระบวนการปรับให้เหมาะสมของการเรียนรู้เชิงลึก—ซึ่งใช้กรอบทางคณิตศาสตร์เดียวกันกับปรากฏการณ์วิกฤตในธรรมชาติ เช่น การพังทลายของกองทราย แผ่นดินไหว

บทความเปรียบเทียบสิ่งนี้กับกฎของสเนลล์ (Snell’s Law) ในทัศนศาสตร์: กฎของสเนลล์อธิบายพฤติกรรมการหักเหของแสงที่รอยต่อระหว่างตัวกลางต่างๆ แต่ไม่ได้อธิบายสาเหตุที่ลึกซึ้ง (ซึ่งต้องใช้สมการของแมกซ์เวลล์); EoS จับปรากฏการณ์ที่เกรเดียนต์คงที่ที่ค่าวิกฤตระหว่างการฝึก แต่กลไกภายในยังคงต้องรอทฤษฎีที่สมบูรณ์ของ “กลศาสตร์การเรียนรู้” มาชี้แจง

ทฤษฎีพารามิเตอร์เกิน—”การวิเคราะห์มิติ” ในการเรียนรู้เชิงลึก

ใครก็ตามที่เคยปรับโมเดลจะรู้ดีถึงความเจ็บปวด: ตั้งอัตราการเรียนรู้ใหญ่เกินไป โมเดลจะกระจาย; ตั้งเล็กเกินไป การลู่เข้าก็ช้า; batch size และอัตราการเรียนรู้ต้องปรับร่วมกัน; การลดน้ำหนักของเลเยอร์ต่างๆ ควรเหมือนกันหรือไม่? เป็นเวลานานที่การเลือกพารามิเตอร์เกินเหล่านี้อาศัยประสบการณ์และการค้นหาตามกริด ขาดหลักการชี้นำที่เป็นระบบ

การเกิดขึ้นของ μP (Maximal Update Parameterization) ได้เปลี่ยนแปลงสถานการณ์นี้ กรอบ μP นำเสนอวิธีการที่สง่างาม: โดยการแปลงสเกลเฉพาะสำหรับการเริ่มต้นพารามิเตอร์และกฎการอัปเดต ทำให้พารามิเตอร์เกินสามารถถ่ายโอนแบบ zero-shot ระหว่างโมเดลที่มีขนาดต่างกัน กล่าวอีกนัยหนึ่ง อัตราการเรียนรู้ที่คุณปรับบนโมเดลเล็กสามารถนำไปใช้กับโมเดลใหญ่ที่มีสถาปัตยกรรมเดียวกันได้โดยตรง โดยไม่ต้องปรับใหม่

μP โดยพื้นฐานแล้วคือ “การวิเคราะห์มิติ” (Dimensional Analysis) ในการเรียนรู้เชิงลึก

ในฟิสิกส์ การวิเคราะห์มิติช่วยให้เราสามารถสรุปข้อสรุปที่สำคัญได้โดยการตรวจสอบความสอดคล้องของมิติของปริมาณทางกายภาพ โดยไม่ต้องเข้าใจสมการเฉพาะอย่างสมบูรณ์ μP ทำสิ่งที่คล้ายกัน: มันไม่จำเป็นต้องรู้รูปร่างเฉพาะของภูมิทัศน์การสูญเสีย เพียงแค่ต้องแน่ใจว่า “มิติ” ของการปรับให้เหมาะสมมีความสอดคล้องกันในขนาดที่แตกต่างกัน ก็สามารถบรรลุการถ่ายโอนพารามิเตอร์เกินได้

บทความยังกล่าวถึงแนวคิดสำคัญสองประการที่เกี่ยวข้อง:

การไหลศูนย์กลาง (Central Flow) นี่คือรูปแบบการกำหนดพารามิเตอร์ใหม่ที่มุ่งให้วิถีการปรับให้เหมาะสมรักษาคุณสมบัติทางเรขาคณิตที่ดีในพื้นที่พารามิเตอร์ หลีกเลี่ยงความยากในการปรับให้เหมาะสมที่เกิดจากความไม่สอดคล้องของสเกล

การแยกและกำจัดพารามิเตอร์เกิน (Decoupling and Elimination of Hyperparameters) แนวคิดที่รุนแรงกว่าคือ: เราสามารถลดจำนวนพารามิเตอร์เกินอิสระโดยพื้นฐานได้หรือไม่? หากสามารถพิสูจน์ได้ว่าพารามิเตอร์เกินบางตัวไม่จำเป็นในทางทฤษฎี (หรือสามารถถูกดูดซับโดยพารามิเตอร์อื่น) การปรับพารามิเตอร์เองก็จะง่ายขึ้นอย่างมาก

พฤติกรรมสากล—โครงข่ายที่แตกต่างกันเรียนรู้สิ่งที่คล้ายกันอย่างน่าทึ่ง

โครงข่ายประสาทเทียมที่มีสถาปัตยกรรมต่างกัน หลังจากฝึกบนชุดข้อมูลต่างกัน การแทนค่าภายในที่เรียนรู้กลับคล้ายกันอย่างมาก ปรากฏการณ์นี้เรียกว่าการลู่เข้าของการแทนค่า (Representation Convergence) หรือสมมติฐานการแทนค่าสากล (Universal Representation Hypothesis)

โดยเฉพาะ หากคุณฝึกโครงข่ายที่แตกต่างกันโดยสิ้นเชิงสองตัว—ตัวหนึ่งเป็น ResNet อีกตัวเป็น Vision Transformer—บน ImageNet จนกระทั่งลู่เข้า แล้วเปรียบเทียบรูปแบบการกระตุ้นของเลเยอร์กลาง คุณจะพบว่าโครงสร้างการแทนค่าของพวกมันสอดคล้องกันอย่างน่าประหลาดใจ ที่น่าทึ่งยิ่งกว่านั้นคือ ความสอดคล้องนี้มีอยู่แม้ข้ามโมดอล: โครงข่ายภาพและโครงข่ายภาษาแสดงรูปแบบการจัดระเบียบการแทนค่าที่คล้ายกันในระดับนามธรรมบางระดับ

บทความเปรียบเทียบปรากฏการณ์นี้กับความเป็นสากลวิกฤต (Critical Universality) ในฟิสิกส์ ในกลศาสตร์สถิติ ระบบกายภาพที่แตกต่างกันโดยสิ้นเชิง (เช่น สารแม่เหล็กเหล็กและการเปลี่ยนเฟสของเหลว-แก๊ส) เมื่อเข้าใกล้จุดวิกฤตจะแสดงพฤติกรรมเดียวกัน—เลขชี้กำลังวิกฤตของพวกมันขึ้นอยู่กับมิติของพื้นที่และสมมาตรของพารามิเตอร์ลำดับเท่านั้น ไม่ขึ้นอยู่กับรายละเอียดระดับจุลภาค สิ่งนี้เรียกว่า “คลาสความเป็นสากล” (Universality Class)

หากการเรียนรู้เชิงลึกมีความเป็นสากลที่คล้ายกัน นั่นหมายความว่า: ไม่ว่าคุณจะใช้สถาปัตยกรรมอะไร การเริ่มต้นอะไร ออปติไมเซอร์อะไร ตราบใดที่ตรงตามเงื่อนไขพื้นฐานบางประการ โครงข่ายจะลู่เข้าสู่การแทนค่า “ตัวดึงดูด” ประเภทเดียวกัน สิ่งนี้ไม่เพียงอธิบายว่าทำไมโมเดลที่แตกต่างกันจึงมีประสิทธิภาพที่สอดคล้องกัน แต่ยังให้มุมมองใหม่สำหรับการทำความเข้าใจธรรมชาติของความฉลาด—บางทีความฉลาดอาจสอดคล้องกับ “ตัวดึงดูดสากล” ในพื้นที่มิติสูง

ปริศนาที่แก้ไม่ได้สิบข้อ

ส่วนสุดท้ายของบทความระบุปัญหาสำคัญสิบข้อที่ยังไม่ได้รับการแก้ไขอย่างตรงไปตรงมา ปัญหาเหล่านี้เป็นทั้งความท้าทายและแผนที่นำทาง—ความก้าวหน้าในข้อใดข้อหนึ่งอาจผลักดันให้ “กลศาสตร์การเรียนรู้” เปลี่ยนจากวิสัยทัศน์เป็นความจริง

ทฤษฎีการวิเคราะห์พลศาสตร์ไม่เชิงเส้น ปัจจุบัน ผลลัพธ์ที่แก้ได้ส่วนใหญ่จำกัดอยู่ที่โครงข่ายเชิงเส้นหรือขีดจำกัดกว้างอนันต์ พลศาสตร์การฝึกของโครงข่ายไม่เชิงเส้นที่มีความกว้างจำกัดจริงยังคงเป็นหลุมดำ
ต้นกำเนิดและจุดหักเหของกฎการปรับขนาด เหตุใดความสัมพันธ์แบบกฎกำลังจึงมีอยู่? ภายใต้เงื่อนไขใดที่มันจะ失效? งานล่าสุดบางชิ้นชี้ให้เห็นว่ากฎการปรับขนาดอาจเกิดการเปลี่ยนเฟสที่ขนาดสูงมาก
แผนภาพเฟสที่สมบูรณ์ของระบบเฉื่อยและสมบูรณ์ เรารู้ว่าทั้งสองระบบมีอยู่ แต่บริเวณเปลี่ยนผ่านระหว่างพวกมันมีลักษณะอย่างไร? มีระบบที่สามหรือไม่?
“แบบจำลองมาตรฐาน” ของพารามิเตอร์เกิน เราสามารถสร้างกรอบที่เป็นหนึ่งเดียวที่รวม μP, การไหลศูนย์กลาง และรูปแบบการกำหนดพารามิเตอร์ต่างๆ เข้าด้วยกัน และให้คำแนะนำการเลือกพารามิเตอร์เกินที่สมบูรณ์ได้หรือไม่?
การพิสูจน์ทางคณิตศาสตร์ของการลู่เข้าของการแทนค่า ปัจจุบันพฤติกรรมสากลส่วนใหญ่เป็นการสังเกตเชิงประจักษ์ เราสามารถพิสูจน์อย่างเคร่งครัดจากมุมมองของพลศาสตร์การปรับให้เหมาะสมว่าการแทนค่าต้องลู่เข้าได้หรือไม่?
ขอบเขตบนทางทฤษฎีของข้อผิดพลาดการวางนัยทั่วไป เหตุใดโครงข่ายที่มีพารามิเตอร์เกิน (พารามิเตอร์มากกว่าจำนวนตัวอย่างมาก) จึงไม่เกิด overfitting อย่างรุนแรง? ปัญหานี้รบกวนทฤษฎีการเรียนรู้ทางสถิติมาเป็นเวลายี่สิบปี
คำแนะนำทางทฤษฎีสำหรับการออกแบบสถาปัตยกรรม เราสามารถ推导出สถาปัตยกรรมโครงข่ายที่เหมาะสมที่สุดจากหลักการแรกได้หรือไม่ แทนที่จะพึ่งพาการลองผิดลองถูก?
กลไกการเกิดของภาษาและการให้เหตุผล ความสามารถเช่น in-context learning, การให้เหตุผลแบบลูกโซ่ความคิด เกิดขึ้นภายใต้เงื่อนไขใด? เราสามารถทำนายและควบคุมการเกิดนี้ได้หรือไม่?
ความเชื่อมโยงระหว่างสมมาตรทางกายภาพกับอคติอุปนัยของโครงข่ายประสาทเทียม โลกทางกายภาพมีความไม่แปรเปลี่ยนภายใต้การเลื่อนตำแหน่ง สมมาตรการหมุน ความไม่แปรเปลี่ยนของสเกล—โครงข่ายประสาทเทียมเข้ารหัสสมมาตรเหล่านี้โดยธรรมชาติหรือไม่? หรือสมมาตรเหล่านี้เรียนรู้จากข้อมูล?
ระบบสัจพจน์ที่เป็นทางการของ “กลศาสตร์การเรียนรู้” ในที่สุด เราต้องการกรอบทางคณิตศาสตร์ที่เคร่งครัดคล้ายกับกฎสามข้อของนิวตันหรือสัจพจน์ของกลศาสตร์ควอนตัม ไม่ใช่แค่การเปรียบเทียบและการโต้แย้งแบบฮิวริสติก

ในอดีต คำถามเกี่ยวกับทฤษฎีการเรียนรู้เชิงลึกมักเป็นเรื่องของวิธีทำให้โมเดลมีประสิทธิภาพมากขึ้น “กลศาสตร์การเรียนรู้” กลับตั้งคำถามในอีกระดับหนึ่ง: “กฎพื้นฐานที่支配กระบวนการเรียนรู้ของโครงข่ายประสาทเทียมคืออะไร?”

ในประวัติศาสตร์วิทยาศาสตร์ ช่วงเวลาเช่นนี้หาได้ยาก นิวตันกำลังคิดเกี่ยวกับแรงโน้มถ่วงใต้ต้นแอปเปิ้ล ในขณะที่ข้อมูลดาวเคราะห์ของเคปเลอร์รอเขาอยู่บนชั้นหนังสือมาครึ่งศตวรรษแล้ว ดาร์วินกำลังเก็บตัวอย่างบนเรือบีเกิล ในขณะที่การทดลองถั่วของเมนเดลได้ดำเนินการอย่างเงียบๆ ในสวนของอารามเป็นเวลาแปดปี

และวันนี้ เบื้องหลังความก้าวหน้ามากมายที่เกิดขึ้นทุกวันในสาขา AI เบื้องหลังคลัสเตอร์ GPU ที่ยังคงรันการทดลองในยามดึก เบื้องหลังเสียงเชียร์ทุกครั้งที่โมเดลวิวัฒนาการ—ชิ้นส่วนทั้งหมดที่จำเป็นสำหรับ “กลศาสตร์การเรียนรู้” อาจกระจัดกระจายอยู่ที่นั่นแล้ว

สิ่งที่จำเป็นคือมีคนหยิบมันขึ้นมา และประกอบเข้าด้วยกัน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง