กำแพงสตรีมมิ่งของ Reinforcement Learning ถูกทำลาย: ข้อผิดพลาดของหน่วยความยาวก้าวเป็นสาเหตุ วิธีการใหม่ใช้การเปลี่ยนแปลงของเอาต์พุตเพื่อย้อนกลับหาความยาวก้าว

2 days ago • การฝึกโมเดลขนาดใหญ่ • 30 views

ปลายปี 2024 เอกสารวิจัยเรื่อง “ในที่สุด การเรียนรู้เสริมกำลังแบบสตรีมมิ่งเชิงลึกก็ทำงานได้” (arXiv:2410.14606) ได้สร้างความปั่นป่วนในวงการวิชาการ งานวิจัยนี้มาจากทีม Mahmood แห่งมหาวิทยาลัยอัลเบอร์ตา ผู้เขียนใช้พื้นที่จำนวนมากเพื่อเปิดเผยความจริงที่น่าอึดอัด: การเรียนรู้เสริมกำลัง ซึ่งเป็นวิธีการที่เหมาะสมโดยธรรมชาติสำหรับการเรียนรู้แบบ “เรียนรู้ไปพร้อมทำไป” แทบจะเป็นไปไม่ได้ในยุคของโครงข่ายประสาทเทียมเชิงลึก เมื่อลบบัฟเฟอร์การเล่นซ้ำ หรือตั้งค่าขนาดแบตช์เป็น 1 กระบวนการฝึกจะพังทลายลงอย่างสิ้นเชิง พวกเขาเรียกสิ่งนี้ว่า “อุปสรรคสตรีมมิ่ง” (stream barrier)

อัลกอริทึมซีรีส์ StreamX ที่นำเสนอในเอกสารนี้ สามารถฝ่าฟันอุปสรรคนี้ได้อย่างยากลำบาก ผ่านการปรับแต่งไฮเปอร์พารามิเตอร์อย่างละเอียด การเริ่มต้นแบบกระจัดกระจาย และเทคนิคการรักษาเสถียรภาพต่างๆ

อย่างไรก็ตาม ไม่ถึงหนึ่งปีครึ่งต่อมา สมาชิกในกลุ่มวิจัยเดียวกัน ร่วมกับผู้ร่วมงานจากสถาบันวิจัย Openmind ได้ให้คำอธิบายที่แตกต่างอย่างสิ้นเชิง: รากเหง้าของอุปสรรคสตรีมมิ่งไม่ใช่ “ข้อมูลไม่เพียงพอ” แต่เป็น “การเลือกหน่วยของขั้นตอนที่ผิด”

กำแพงสตรีมมิ่งของ Reinforcement Learning ถูกทำลาย: ข้อผิดพลาดของหน่วยความยาวก้าวเป็นสาเหตุ วิธีการใหม่ใช้การเปลี่ยนแปลงของเอาต์พุตเพื่อย้อนกลับหาความยาวก้าว

ชื่อเอกสาร: Intentional Updates for Streaming Reinforcement Learning
ที่อยู่เอกสาร: https://arxiv.org/pdf/2604.19033v1
คลังโค้ด: https://github.com/sharifnassab/Intentional_RL

เหยียบคันเร่งครั้งเดียว ขุดหลุมลึกแค่ไหน

ลองนึกภาพคุณกำลังเรียนรู้การขับรถเข้าซอง ครูฝึกบอกให้คุณ “เหยียบคันเร่ง 0.1 วินาที” ทุกครั้ง ปัญหาคือ 0.1 วินาทีเดียวกัน บนทางขึ้น ทางลง ไม่ว่าจะบรรทุกเปล่าหรือบรรทุกเต็ม ระยะทางที่รถเคลื่อนที่อาจแตกต่างกันอย่างฟ้ากับเหว บางครั้งห่างไปหนึ่งเซนติเมตรก็เข้าซองพอดี บางครั้งห่างไป 30 เซนติเมตรก็ชนกำแพง

ขนาดขั้นตอนของการเรียนรู้แบบเกรเดียนต์ดั้งเดิมก็เป็นเช่นนี้: มันกำหนดขนาดของการเคลื่อนที่ของพารามิเตอร์แต่ละครั้ง แต่ไม่สามารถควบคุมได้ว่าฟังก์ชันเอาต์พุตจะเปลี่ยนแปลงไปเท่าใด ในการฝึกแบบแบตช์ ข้อผิดพลาดจากตัวอย่างหลายร้อยหลายพันตัวอย่างจะถูกเฉลี่ยซึ่งกันและกัน สถานการณ์ที่รุนแรงจะถูกเจือจาง ปัญหาจึงไม่เด่นชัด แต่ในสภาพแวดล้อมแบบ “สตรีมมิ่ง” แต่ละขั้นตอนมีเพียงตัวอย่างเดียว ไม่มีการเฉลี่ยเลย เมื่อทิศทางของเกรเดียนต์ไม่เสถียร ขนาดการอัปเดตก็จะผันผวนขึ้นลงอย่างมาก — วันนี้เดินหน้า 30 เซนติเมตร พรุ่งนี้ถอยหลัง 50 เซนติเมตร กระบวนการเรียนรู้จะพังทลายลงท่ามกลางการสั่นไหวอย่างรุนแรง

ปรากฏการณ์ “เกินเป้าหรือต่ำกว่าเป้า” นี้เด่นชัดเป็นพิเศษในการเรียนรู้เสริมกำลัง เนื่องจากเกรเดียนต์ในแต่ละขั้นตอนเวลาไม่เพียงมีขนาดแตกต่างกัน แต่ทิศทางก็เปลี่ยนแปลงอย่างรวดเร็วเช่นกัน

นิยามใหม่ “แต่ละขั้นตอนควรทำเท่าไร”

Arsalan Sharifnassab จากสถาบันวิจัย Openmind ร่วมกับ Mohamed Elsayed, A. Rupam Mahmood และ Richard Sutton จากมหาวิทยาลัยอัลเบอร์ตา ได้นำเสนอแนวทางที่แตกต่างในเอกสารที่เพิ่งตีพิมพ์: แทนที่จะกำหนดว่าพารามิเตอร์ควรเคลื่อนที่เท่าใด ให้กำหนดโดยตรงว่าเอาต์พุตของฟังก์ชันควรเปลี่ยนแปลงเท่าใด

แนวคิดนี้ไม่ได้เกิดขึ้นจากความว่างเปล่า ในปี 1967 นักวิชาการชาวญี่ปุ่น Nagumo และ Noda ได้นำเสนออัลกอริทึม “Normalized Least Mean Squares” (NLMS) ในสาขาการกรองแบบปรับตัวได้ในเอกสารเรื่อง “A learning method for system identification”; สาระสำคัญของมันก็คือการใช้การเปลี่ยนแปลงเอาต์พุตที่คาดหวังเพื่อย้อนกลับหาขนาดขั้นตอน แทนที่จะทำตรงกันข้าม เพียงแต่อัลกอริทึมนี้ใช้ได้เฉพาะในสถานการณ์เชิงเส้นอย่างง่ายเท่านั้น

นักวิจัยได้ขยายแนวคิดนี้ไปสู่การเรียนรู้เสริมกำลังเชิงลึก เรียกมันว่า “การอัปเดตตามเจตนา” (Intentional Updates): ก่อนการอัปเดตแต่ละครั้ง ให้กำหนดก่อนว่า “ฉันต้องการให้ขั้นตอนนี้บรรลุอะไร” จากนั้นจึงย้อนกลับคำนวณขนาดขั้นตอนที่ควรใช้

สำหรับการเรียนรู้ค่า (การทำนายรางวัลในอนาคต) พวกเขากำหนดเจตนาว่า: หลังการอัปเดตแต่ละครั้ง ข้อผิดพลาดในการทำนายค่าของสถานะปัจจุบันควรลดลงตามสัดส่วนคงที่ — เช่น ลดลง 5% พอดี ไม่มากไม่น้อย สำหรับการเรียนรู้กลยุทธ์ (การปรับพฤติกรรมการตัดสินใจ) พวกเขากำหนดเจตนาว่า: ความน่าจะเป็นในการเลือกการกระทำปัจจุบัน ในแต่ละขั้นตอนอนุญาตให้เปลี่ยนแปลงในปริมาณที่ “เหมาะสม” เท่านั้น

ในเชิงอุปมาของการขับรถ: เปรียบเสมือนคนขับตัดสินใจก่อนการดำเนินการแต่ละครั้งว่า “ฉันต้องการให้รถเคลื่อนที่ไปข้างหน้า 20 เซนติเมตร” จากนั้นคำนวณโดยอัตโนมัติตามสภาพถนนปัจจุบัน (ความชัน น้ำหนักบรรทุก) ว่าควรเหยียบคันเร่งลึกแค่ไหน แทนที่จะเหยียบความลึกเท่าเดิมทุกครั้งแล้วปล่อยให้เป็นไปตามโชคชะตา

ผู้ชนะรางวัลทัวริงกับจิ๊กซอว์ของเขา

หนึ่งในผู้ร่วม署名ของเอกสารคือ Richard S. Sutton — ผู้ชนะรางวัลทัวริงปี 2024 ซึ่งได้รับการยกย่องอย่างกว้างขวางว่าเป็น “บิดาแห่งการเรียนรู้เสริมกำลังสมัยใหม่”

สถานะของ Sutton ในวงการวิชาการ ประมาณได้เทียบเท่ากับ Richard Feynman ในวงการฟิสิกส์: เขาไม่เพียงแต่เสนอกรอบพื้นฐานสองประการของการเรียนรู้เสริมกำลังสมัยใหม่ นั่นคือ Temporal Difference Learning (TD learning) และ Policy Gradient แต่ยังร่วมกับ Andrew Barto เขียนตำราที่มีอำนาจมากที่สุดในสาขานี้คือ “Reinforcement Learning: An Introduction” (ปัจจุบันออกถึงฉบับที่สองแล้ว สามารถอ่านออนไลน์ได้ฟรี) เขาและ Barto ได้รับรางวัลทัวริงร่วมกันในปี 2024 โดยคำประกาศรางวัลกล่าวว่า “สำหรับการวางรากฐานแนวคิดและอัลกอริทึมสำหรับการเรียนรู้เสริมกำลัง”

หลังจากได้รับรางวัล Sutton ไม่ได้เลือกที่จะเกษียณ แต่กลับนำเงินรางวัลไปลงทุนในสถาบันวิจัย Openmind ที่เขาก่อตั้งขึ้น เพื่อสนับสนุนนักวิจัยรุ่นใหม่ที่เต็มใจ “สำรวจปัญหาพื้นฐานในสภาพแวดล้อมที่ไม่ถูกกดดันทางการค้า” โดยเฉพาะ เอกสารใหม่นี้มาจากองค์กรไม่แสวงหากำไรแห่งนี้

ส่วนผู้เขียนคนแรก Sharifnassab เพิ่งตีพิมพ์กรอบ MetaOptimize ใน ICML 2025 ซึ่งศึกษาวิธีปรับอัตราการเรียนรู้แบบอัตโนมัติออนไลน์ หัวข้อของงานวิจัยทั้งสองมีความสอดคล้องกันสูง: จะทำให้ขนาดขั้นตอนมีความชาญฉลาดมากขึ้นได้อย่างไร

รายละเอียดอัลกอริทึม: เรียบง่ายกว่าที่คิด

การ推导ทางคณิตศาสตร์ของ “การอัปเดตตามเจตนา” ไม่ซับซ้อน สูตรหลักสามารถอธิบายได้ด้วยประโยคเดียว: ขนาดขั้นตอนเท่ากับ “การเปลี่ยนแปลงเอาต์พุตที่คาดหวัง” หารด้วย “อิทธิพลที่แท้จริงของทิศทางเกรเดียนต์ต่อเอาต์พุต”

ในการเรียนรู้ค่า “อิทธิพลที่แท้จริง” นี้คือノルムของเวกเตอร์เกรเดียนต์ (เทียบเท่ากับการวัดว่าบริเวณพารามิเตอร์ปัจจุบัน “ชัน” แค่ไหน): ยิ่งชันมาก ขนาดขั้นตอนยิ่งเล็ก ยิ่งราบมาก ขนาดขั้นตอนยิ่งใหญ่ เพื่อให้แน่ใจว่าผลกระทบของการอัปเดตแต่ละครั้งต่อฟังก์ชันค่ายังคงสม่ำเสมอ

ในการเรียนรู้กลยุทธ์ “การเปลี่ยนแปลงที่คาดหวัง” ถูกกำหนดให้เป็นสัดส่วนกับฟังก์ชัน Advantage: การกระทำปัจจุบันดีกว่าค่าเฉลี่ยเท่าใด กลยุทธ์ก็จะเคลื่อนที่ไปในทิศทางนั้นเท่านั้น — โดยการทำให้ขนาดเป็นมาตรฐานผ่านค่าเฉลี่ยเคลื่อนที่ เพื่อให้แน่ใจว่าในระยะยาว ขนาดของการเปลี่ยนแปลงกลยุทธ์จะคงที่อยู่ในช่วงที่สามารถอธิบายได้

นักวิจัยยังรวมแนวคิดหลักนี้เข้ากับแนวปฏิบัติทางวิศวกรรมสองประการ: การปรับขนาดแนวทแยงแบบ RMSProp (เพื่อจัดการกับความแตกต่างของขนาดในมิติพารามิเตอร์ต่างๆ) และร่องรอยคุณสมบัติ (Eligibility Traces, ช่วยให้สัญญาณรางวัลแพร่กระจายไปยังขั้นตอนเวลาในอดีต)

ในที่สุดก็เกิดเป็นอัลกอริทึมที่สมบูรณ์สามแบบ: Intentional TD (λ) สำหรับการทำนายค่า, Intentional Q (λ) สำหรับการควบคุมการกระทำแบบไม่ต่อเนื่อง และ Intentional Policy Gradient สำหรับการควบคุมแบบต่อเนื่อง

ผลการทดลอง: ไม่ต้องพึ่ง GPU ก็เทียบเท่า SAC

เอกสารประเมินวิธีการนี้บนเกณฑ์มาตรฐานมาตรฐานหลายรายการ ผลลัพธ์น่าประทับใจ

ในงานควบคุมต่อเนื่อง MuJoCo (รวมถึงหุ่นยนต์จำลองที่ซับซ้อนอย่าง Ant, Humanoid, HalfCheetah) วิธีการใหม่ Intentional AC ภายใต้การตั้งค่าแบบสตรีมมิ่ง (ขนาดแบตช์=1, ไม่มีบัฟเฟอร์การเล่นซ้ำ) มีประสิทธิภาพสุดท้ายหลายครั้งใกล้เคียงหรือเทียบเท่า SAC — อัลกอริทึมที่ใช้บัฟเฟอร์การเล่นซ้ำขนาดใหญ่ ซึ่งเกือบจะเป็นมาตรฐานทองคำสำหรับงานควบคุมต่อเนื่องในปัจจุบัน ในขณะที่ปริมาณการคำนวณ การอัปเดต Intentional AC แต่ละครั้งใช้การดำเนินการจุดลอยตัวประมาณ 1/140 ของการอัปเดต SAC หนึ่งครั้ง

ในเกมการกระทำแบบไม่ต่อเนื่อง Atari และ MinAtar Intentional Q-learning มีประสิทธิภาพเทียบเท่ากับ DQN ที่ใช้บัฟเฟอร์การเล่นซ้ำ และสามารถทำงานทั้งหมดได้สำเร็จด้วยการตั้งค่าไฮเปอร์พารามิเตอร์ชุดเดียวกัน โดยไม่ต้องปรับพารามิเตอร์ทีละรายการ

นักวิจัยยังตรวจสอบโดยเฉพาะว่า “เจตนา” ได้รับการบรรลุจริงหรือไม่: พวกเขาวัดอัตราส่วนระหว่างการอัปเดตจริงกับการอัปเดตที่คาดหวัง ในการตั้งค่าแบบง่ายที่ไม่ใช้ร่องรอยคุณสมบัติ ค่าเบี่ยงเบนมาตรฐานของอัตราส่วนนี้อยู่ที่เพียง 0.016 ถึง 0.029 และเปอร์เซ็นไทล์ที่ 99 อยู่ภายใน 1.07 หมายความว่าในกรณีส่วนใหญ่ การอัปเดตทำได้ “พูดเท่าไรทำเท่านั้น” จริงๆ

นอกจากนี้ ชุดการทดลองแบบตัดทอน (ablation) แสดงให้เห็นว่าหลังจากลบการทำให้เป็นมาตรฐานแบบ RMSProp หรือเทอม σ ออกไป ประสิทธิภาพลดลงแต่ยังคงมีการแข่งขัน ในขณะที่ “การปรับขนาดตามเจตนา” นี้เป็นผู้มีส่วนสำคัญอันดับแรก ส่วนประกอบอื่นๆ เป็นตัวช่วย

ยังมีปัญหาอยู่

ข้อได้เปรียบด้านความทนทานและปัญหาที่ยังไม่แก้

กรอบ “การอัปเดตตามเจตนา” ยังแสดงข้อได้เปรียบที่สำคัญในด้านความทนทาน เมื่อนักวิจัยค่อยๆ ถอดเทคนิคช่วยรักษาเสถียรภาพต่างๆ ที่วิธี StreamX อาศัย (เช่น การเริ่มต้นแบบกระจัดกระจาย การปรับขนาดรางวัล การทำให้อินพุตเป็นมาตรฐาน และ LayerNorm) ออกทีละอย่าง ประสิทธิภาพของ Intentional AC ลดลงน้อยกว่าของ StreamAC ดั้งเดิมมาก ซึ่งแสดงให้เห็นอย่างชัดเจนว่ากลไกการปรับขนาดตามเจตนาช่วยลดการพึ่งพา “เครื่องมือช่วยเหลือ” ภายนอกเหล่านี้ตั้งแต่รากฐาน

อย่างไรก็ตาม เอกสารก็ยอมรับปัญหาที่ยังไม่ได้รับการแก้ไขอย่างสมบูรณ์: ในกระบวนการเรียนรู้กลยุทธ์ ขนาดขั้นตอนขึ้นอยู่กับการกระทำที่สุ่มตัวอย่างในปัจจุบัน ซึ่งนำไปสู่การกำหนด “น้ำหนัก” ที่แตกต่างกันโดยปริยายให้กับการกระทำต่างๆ และอาจเปลี่ยนทิศทางที่คาดหวังของเกรเดียนต์กลยุทธ์ ในงาน Humanoid และ HumanoidStandup โดยการวัดความคล้ายคลึงโคไซน์ของทิศทางการอัปเดตที่คาดหวัง นักวิจัยพบว่าความเบี่ยงเบนนี้ใกล้เคียง 0.96 (แทบจะละเลยได้) ในช่วงการเรียนรู้ที่สำคัญ แต่ในงาน Ant-v4 ความสอดคล้องลดลงเหลือค่ามัธยฐาน 0.63 แสดงให้เห็นว่าปัญหานี้ไม่สามารถละเลยได้เสมอไป

ผู้เขียนชี้ให้เห็นว่างานวิจัยในอนาคตควรมุ่งเน้นไปที่การสำรวจกลยุทธ์การเลือกขนาดขั้นตอนที่ไม่ขึ้นอยู่กับการกระทำ เพื่อให้ “เจตนา” ยังคงเป็นกลางในความหมายที่คาดหวัง ซึ่งเป็นการกำหนดเป้าหมายการโจมตีสำหรับงานติดตามผลในทิศทางนี้

บทสรุป: ทำให้ AI เรียนรู้จากการกระทำเหมือนมนุษย์

กระบวนทัศน์การฝึกโมเดลขนาดใหญ่ในปัจจุบัน อาศัยการย่อยข้อมูลจำนวนมหาศาลแบบแบตช์: ป้อนข้อความและโค้ดทั้งหมดจากอินเทอร์เน็ต ทำซ้ำแล้วซ้ำเล่า จนกระทั่งเกิดความสามารถที่น่าทึ่ง เส้นทางนี้ได้รับการพิสูจน์แล้วว่าได้ผล แต่สาระสำคัญของมันคือ “เรียนรู้ก่อนแล้วค่อยใช้” — เมื่อการฝึกเสร็จสิ้น โมเดลจะถูกแช่แข็ง ไม่สามารถอัปเดตอย่างต่อเนื่องจากการโต้ตอบจริงในแต่ละครั้งที่ตามมา

สิ่งที่การเรียนรู้เสริมกำลังแบบสตรีมมิ่งแสวงหาคือรูปแบบการเรียนรู้ที่แตกต่างอย่างสิ้นเชิง: ไม่พึ่งพาการเล่นซ้ำจำนวนมหาศาล ไม่พึ่งพาคลัสเตอร์ GPU ขนาดใหญ่ ทุกประสบการณ์ในแต่ละขั้นตอนจะถูกแปลงเป็นการอัปเดตพารามิเตอร์ทันที ทำให้เกิดการเรียนรู้ที่ต่อเนื่อง ราคาถูก และปรับตัวได้เอง ซึ่งใกล้เคียงกับรูปแบบการเรียนรู้ที่แท้จริงของมนุษย์และสัตว์

จากความก้าวหน้าเบื้องต้นของ Elsayed และคณะในปี 2024 ที่ “ในที่สุดก็ทำงานได้” ไปจนถึงหลักการ “การอัปเดตตามเจตนา” ที่นำเสนอในเอกสารนี้ การเรียนรู้เสริมกำลังเชิงลึกแบบสตรีมมิ่งกำลังเติบโตเต็มที่ด้วยความเร็วที่น่าประหลาดใจ มันจะไม่แทนที่โมเดลขนาดใหญ่ที่ฝึกแบบแบตช์ แต่สำหรับหุ่นยนต์ที่ต้องการการปรับตัวแบบออนไลน์ในระยะยาว อุปกรณ์ขอบ และสถานการณ์การใช้งานใดๆ ที่ไม่สามารถรองรับบัฟเฟอร์การเล่นซ้ำขนาดใหญ่และคลัสเตอร์ GPU เส้นทางนี้กำลังน่าเชื่อถือมากขึ้นเรื่อยๆ

ขนาดขั้นตอนไม่ใช่แค่ไฮเปอร์พารามิเตอร์ มันคือคำมั่นสัญญาของ AI ว่า “ต้องการทำเท่าใด” ในแต่ละก้าว เมื่อคำมั่นสัญญานี้สามารถควบคุมได้ในที่สุด การเรียนรู้ก็จะเสถียร

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง