PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

 

ในการฝึกอบรมเอเจนต์การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ปัญหาที่พบบ่อยคือ ด่านบางด่านง่ายเกินไป เอเจนต์สามารถเรียนรู้ได้หลังจากทำซ้ำเพียงไม่กี่ครั้ง ในขณะที่ด่านอื่นๆ ยากเกินไปจนเอเจนต์แทบไม่ได้รับข้อเสนอแนะที่มีประสิทธิภาพ ด่านแรกเพียงแค่เสริมทักษะที่มีอยู่ ส่วนด่านหลังทำให้ทรัพยากรการฝึกอบรมสูญเปล่าไปกับการสำรวจที่ไร้ประโยชน์ สภาพแวดล้อมการฝึกอบรมที่มีคุณค่าอย่างแท้จริง มักจะอยู่ระหว่างสองสิ่งนี้ คือ เหนือขีดความสามารถปัจจุบันของเอเจนต์เล็กน้อย แต่ก็ไม่ยากจนเกินไปจนไม่สามารถเรียนรู้ได้ กล่าวอีกนัยหนึ่ง การฝึกอบรมแบบเสริมกำลังก็มี “โซนพัฒนาการใกล้เคียง” (Zone of Proximal Development) เช่นกัน: กุญแจสำคัญของการฝึกอบรมที่มีประสิทธิภาพไม่ใช่การสร้างด่านให้มากขึ้น แต่คือการหาด่านที่คุ้มค่าที่สุดในการเรียนรู้ในแต่ละช่วง

Unsupervised Environment Design (UED) เกิดขึ้นมาเพื่อรับมือกับความท้าทายนี้โดยเฉพาะ UED ไม่ได้มองสภาพแวดล้อมการฝึกอบรมเป็นชุดข้อมูลคงที่อีกต่อไป แต่จะสร้าง เลือก หรือเล่นซ้ำด่านต่างๆ โดยอัตโนมัติ เพื่อปรับเปลี่ยนการกระจายตัวของการฝึกอบรมแบบไดนามิก ทำให้เอเจนต์ได้รับความสามารถในการสรุปทั่วไป (generalization) ที่แข็งแกร่งขึ้นจากการเรียนรู้อย่างต่อเนื่อง อย่างไรก็ตาม UED เผชิญกับปัญหาหลัก: ระบบต้องตัดสินว่าด่านใดที่ผลักดันการเรียนรู้ของเอเจนต์ได้อย่างแท้จริง

เมื่อเร็วๆ นี้ นักวิจัยจากมหาวิทยาลัยเทคโนโลยีกลาโหมแห่งชาติ มหาวิทยาลัยเซียะเหมิน และสถาบันอื่นๆ ได้เสนอ PACE (Parameter Change Environment Design) PACE ใช้การเปลี่ยนแปลงพารามิเตอร์นโยบายที่เกิดจากด่านเป็นสัญญาณคุณค่าการฝึกอบรม โดยวัดโดยตรงว่าด่านนั้นนำมาซึ่งความก้าวหน้าในการเรียนรู้ที่สำคัญหรือไม่ งานวิจัยนี้ได้รับการตอบรับให้ตีพิมพ์ใน ICML 2026

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

  • ชื่อบทความ: PACE: Parameter Change for Unsupervised Environment Design
  • ลิงก์บทความ: https://doi.org/10.48550/arXiv.2605.01358

UED: ให้สภาพแวดล้อมการฝึกอบรมสร้างหลักสูตรของตัวเอง

แนวคิดพื้นฐานของ UED ไม่ซับซ้อน การเรียนรู้แบบเสริมกำลังแบบดั้งเดิมมักจะกำหนดชุดสภาพแวดล้อมการฝึกอบรมก่อน แล้วให้เอเจนต์เรียนรู้ซ้ำๆ ในนั้น แต่สภาพแวดล้อมการฝึกอบรมไม่ได้ยิ่งมากยิ่งดี หรือยิ่งยากยิ่งดี หากด่านง่ายเกินไป เอเจนต์จะเข้าสู่ “เขตสบาย” อย่างรวดเร็ว และสามารถเสริมพฤติกรรมที่เรียนรู้แล้วเท่านั้น หากด่านยากเกินไป เอเจนต์จะตกอยู่ใน “เขตตื่นตระหนก” และไม่ได้รับรางวัลที่มีประสิทธิภาพเป็นเวลานาน ทั้งสองกรณีนี้จะลดประสิทธิภาพการเรียนรู้และความสามารถในการสรุปทั่วไปในที่สุด

ก่อน UED การสุ่มพารามิเตอร์โดเมน (Domain Randomization) ได้พิสูจน์แล้วว่าความหลากหลายของสภาพแวดล้อมช่วยเพิ่มความสามารถในการสรุปทั่วไป แต่วิธีการเหล่านี้มักจะสุ่มตัวอย่างพารามิเตอร์สภาพแวดล้อมแบบคงที่เท่านั้น และยากที่จะปรับเนื้อหาการฝึกอบรมแบบไดนามิกตามสถานะการเรียนรู้ปัจจุบันของเอเจนต์

UED ก้าวไปอีกขั้นโดยรวม “สิ่งที่จะฝึก” เข้าไปในกระบวนการเรียนรู้: ระบบไม่ได้มองสภาพแวดล้อมการฝึกอบรมเป็นฉากหลังคงที่อีกต่อไป แต่จะสร้าง เลือก หรือเล่นซ้ำด่านแบบไดนามิก และตัดสินใจว่าด่านใดควรค่าแก่การเก็บไว้ เล่นซ้ำ หรือปรับเปลี่ยนเพิ่มเติม ตามสัญญาณประเมินบางอย่าง ในอุดมคติ ด่านเหล่านี้ควรอยู่ใกล้กับขีดความสามารถปัจจุบันของเอเจนต์อย่างต่อเนื่อง: ไม่ควรแก้ไขได้ง่ายเกินไป และไม่ควรเกินขอบเขตที่เรียนรู้ได้โดยสิ้นเชิง

วิธีการ UED ที่มีอยู่มักต้องใช้คะแนนเพื่อประเมินด่าน วิธีปฏิบัติทั่วไป ได้แก่ regret, GAE, MaxMC เป็นต้น สัญญาณเหล่านี้มีประสิทธิภาพในทางปฏิบัติ แต่ส่วนใหญ่เริ่มต้นจากช่องว่างความสามารถในการแก้ไข ข้อผิดพลาดในการประมาณค่าหรือการประมาณผลตอบแทน และไม่ได้ประเมินว่า “การฝึกอบรมครั้งนี้นำมาซึ่งการปรับปรุงนโยบายมากน้อยเพียงใด” อีกวิธีหนึ่งที่ตรงกว่า เช่น Marginal Benefit จะเปรียบเทียบการเปลี่ยนแปลงประสิทธิภาพก่อนและหลังการอัปเดตนโยบาย ดังนั้นจึงใกล้เคียงกับความก้าวหน้าในการเรียนรู้ที่แท้จริงมากกว่า แต่วิธีนี้ต้องการการรันเพิ่มเติม (rollout) เพื่อประมาณผลตอบแทนก่อนและหลังการอัปเดต ซึ่งมีค่าใช้จ่ายในการคำนวณสูงกว่า และความแปรปรวนในการประมาณก็สูงกว่าด้วย

ดังนั้น ปัญหาหลักของ UED จึงกลายเป็น: จะตัดสินได้อย่างไรอย่างง่ายและแม่นยำว่าด่านหนึ่งผลักดันการเรียนรู้ของเอเจนต์ได้จริงหรือไม่?

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์

การตัดสินใจหลักของ PACE นั้นตรงไปตรงมา: หากด่านส่งเสริมการเรียนรู้จริง พารามิเตอร์นโยบายของเอเจนต์ควรเปลี่ยนแปลงอย่างมีความหมายหลังจากฝึกอบรมบนด่านนั้น กล่าวคือ PACE ไม่ได้สร้างคุณค่าของด่านบนสัญญาณทางอ้อม เช่น regret, GAE หรือ Monte Carlo return อีกต่อไป แต่สังเกตการอัปเดตนโยบายที่เกิดจากด่านนั้นโดยตรง

ประการแรก สำหรับด่านหนึ่ง บทความนี้มุ่งเน้นไปที่การปรับปรุงเป้าหมายก่อนและหลังการอัปเดตนโยบาย:

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

โดยที่ แสดงถึงพารามิเตอร์นโยบายก่อนโต้ตอบกับด่าน และ แสดงถึงพารามิเตอร์หลังจากทำการอัปเดตนโยบายเฉพาะที่บนด่านนั้น หากประมาณค่าโดยตรง

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

โดยปกติแล้วจำเป็นต้องประเมินประสิทธิภาพของนโยบายก่อนและหลังการอัปเดตแยกกัน ซึ่งต้องมีการรันเพิ่มเติม สิ่งนี้ทำให้เกิดค่าใช้จ่ายในการคำนวณที่สูงขึ้น และนำไปสู่ความแปรปรวนในการประมาณที่มากขึ้นในงานที่มีรางวัลเบาบางหรือระยะเวลายาวนาน

PACE เลือกที่จะเริ่มต้นจากกระบวนการปรับให้เหมาะสมเอง ใกล้กับพารามิเตอร์ปัจจุบัน ทำการขยายอนุกรมเทย์เลอร์อันดับหนึ่งของฟังก์ชันเป้าหมาย

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

:

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

สมมติเพิ่มเติมว่าการอัปเดตนี้ดำเนินไปตามทิศทางเกรเดียนต์เฉพาะที่ นั่นคือ

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

โดยที่ แสดงถึงอัตราการเรียนรู้ ดังนั้น

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

แทนค่านี้ลงในการขยายอันดับหนึ่ง จะได้รูปแบบประมาณของการปรับปรุงเป้าหมาย:

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

ความสัมพันธ์โดยประมาณนี้แสดงให้เห็นว่า ภายใต้สมมติฐานการอัปเดตเกรเดียนต์เฉพาะที่ การปรับปรุงเป้าหมายที่เกิดจากด่านหนึ่งเป็นสัดส่วนกับค่ากำลังสองของบรรทัดฐานการเปลี่ยนแปลงพารามิเตอร์นโยบายที่เหนี่ยวนำ ดังนั้น PACE จึงกำหนดคะแนนด่านเป็น:

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

โดยที่

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

แสดงถึงคุณค่าการฝึกอบรมของด่าน โดยสัญชาตญาณ หากด่านหนึ่งเหนี่ยวนำให้เกิดการอัปเดตพารามิเตอร์ที่มีประสิทธิภาพมากขึ้น ก็มีแนวโน้มที่จะมีเนื้อหาที่นโยบายปัจจุบันยังไม่เชี่ยวชาญ แต่สามารถให้สัญญาณการเรียนรู้ได้ PACE ไม่ได้สนใจว่าด่านนั้นดูยากแค่ไหน แต่สนใจว่ามันทำให้นโยบายก้าวไปในทิศทางที่ดีขึ้นจริงหรือไม่

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

รูปที่ 1: แผนผังการทำงานของ PACE

จากคะแนนนี้ กระบวนการทำงานของ PACE สามารถแบ่งออกเป็นสองส่วน: การให้คะแนนด่านและการฝึกอบรมนโยบาย (รูปที่ 1)

ในขั้นตอนการให้คะแนนด่าน ระบบจะสร้างด่านตัวเลือกจากตัวสร้างด่านก่อน และใช้นโยบายปัจจุบัน

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

เก็บข้อมูลบนด่านนั้น จากนั้น PACE จะทำการอัปเดตนโยบายชั่วคราวหนึ่งครั้ง เพื่อให้ได้

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

ขั้นตอนนี้ใช้สำหรับคำนวณคะแนนเท่านั้น และไม่ได้เขียนกลับไปยังนโยบายปัจจุบันโดยตรง จากนั้น PACE จะคำนวณคะแนนตามสูตรข้างต้น

หากบัฟเฟอร์ด่านยังไม่เต็ม PACE จะเพิ่มด่านนั้นเข้าไปโดยตรง หากบัฟเฟอร์เต็มแล้ว เมื่อคะแนน

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

ของด่านปัจจุบันสูงกว่าคะแนนต่ำสุดในบัฟเฟอร์ PACE จะแทนที่ด่านคะแนนต่ำนั้นด้วยด่านปัจจุบัน ด้วยวิธีนี้ บัฟเฟอร์จะคงไว้ซึ่งด่านที่สามารถเหนี่ยวนำการอัปเดตนโยบายได้มากกว่า

ในขั้นตอนการฝึกอบรมนโยบาย PACE จะสุ่มตัวอย่างด่านจากบัฟเฟอร์ด่าน และใช้ด่านเหล่านั้นเพื่ออัปเดตพารามิเตอร์นโยบายอย่างเป็นทางการ เมื่อสุ่มตัวอย่าง PACE จะสร้างการกระจายลำดับความสำคัญตามคะแนน ทำให้ด่านที่มีคะแนนสูงมีโอกาสถูกเล่นซ้ำมากขึ้น

กระบวนการทั้งหมดดำเนินการสลับกันอย่างต่อเนื่อง: ด่านใหม่ถูกสร้างและให้คะแนน ด่านที่มีคุณค่าสูงถูกเขียนลงในบัฟเฟอร์ และด่านในบัฟเฟอร์ถูกเล่นซ้ำตามลำดับความสำคัญเพื่อฝึกอบรมนโยบาย ดังนั้น PACE จึงใช้การเปลี่ยนแปลงพารามิเตอร์นโยบายเพื่อสร้างสัญญาณความก้าวหน้าในการเรียนรู้จากภายใน และใช้มันเพื่อขับเคลื่อนหลักสูตรการฝึกอบรมให้วิวัฒนาการแบบไดนามิกตามความสามารถของเอเจนต์

ผลการทดลอง: จากการสรุปทั่วไปในเขาวงกตสู่งานแบบเปิด

บทความนี้ตรวจสอบ PACE บน MiniGrid และ Craftax โดยพิจารณาความสามารถในการสรุปทั่วไปแบบ zero-shot ในเขาวงกตที่มีโครงสร้าง และความสามารถในการเรียนรู้อย่างต่อเนื่องในงานระยะยาวที่ไม่คงที่ วิธีการเปรียบเทียบ ได้แก่ DR, PLR, PLR และ ACCEL

ในสภาพแวดล้อม MiniGrid ทุกวิธีจะเรียนรู้จากเขาวงกตฝึกอบรมที่แสดงใน

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

และในขั้นตอนการทดสอบ จะถูกย้ายไปยังด่านที่ออกแบบด้วยมือ 12 ด่านที่ไม่เคยเห็นมาก่อน โดยไม่มีการปรับแต่งเพิ่มเติมใดๆ การตั้งค่าการทดลองนี้ใช้เพื่อประเมินความสามารถในการสรุปทั่วไปแบบ zero-shot จากรูปที่ 2 จะเห็นได้ว่าในด่าน FourRooms ที่ค่อนข้างง่าย ทุกวิธีสามารถบรรลุอัตราความสำเร็จที่สูง อย่างไรก็ตาม เมื่อโครงสร้างของด่านซับซ้อนขึ้น ความแตกต่างของประสิทธิภาพระหว่างวิธีต่างๆ ก็เริ่มขยายตัวอย่างมีนัยสำคัญ ในด่านที่ท้าทายกว่า เช่น Labyrinth, Maze3 PACE ไม่เพียงแสดงอัตราความสำเร็จที่สูงขึ้นเท่านั้น แต่ยังมีความแปรปรวนของผลลัพธ์ที่ต่ำกว่าอีกด้วย

นักวิจัยได้ประเมินประสิทธิภาพโดยรวมเพิ่มเติมโดยใช้ไลบรารี rliable ตารางที่ 1 แสดงให้เห็นว่าค่า IQM ของ PACE อยู่ที่ 0.964 ซึ่งดีกว่าค่า 0.808 ของ PLR ซึ่งเป็นเส้นฐานที่แข็งแกร่งที่สุดอย่างเห็นได้ชัด ค่า Optimality Gap ของ PACE ลดลงเหลือ 0.172 ซึ่งดีกว่าวิธีการต่างๆ เช่น DR, PLR, PLR และ ACCEL เช่นกัน ซึ่งบ่งชี้ว่าการปรับปรุงประสิทธิภาพของ PACE ไม่ได้มาจากด่านเฉพาะเพียงไม่กี่ด่าน แต่สะท้อนถึงความสามารถในการสรุปทั่วไปที่เสถียรกว่าโดยรวม

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

รูปที่ 2: ประสิทธิภาพการถ่ายโอนแบบ zero-shot บน MiniGrid

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

ตารางที่ 1: ตัวชี้วัดการสรุปทั่วไปโดยรวมบน MiniGrid

เพื่อตรวจสอบความเหมาะสมของ PACE ในงานที่ซับซ้อนยิ่งขึ้น บทความนี้ยังได้ทำการทดลองบน Craftax อีกด้วย Craftax เป็นแพลตฟอร์มเกณฑ์มาตรฐาน JAX สำหรับการเรียนรู้แบบเสริมกำลังแบบเปิด (open-ended) เมื่อกระบวนการสำรวจดำเนินไป เอเจนต์จะพบกับพื้นที่ กลไก และเป้าหมายใหม่ๆ อย่างต่อเนื่อง การกระจายของงานก็จะเปลี่ยนแปลงไปเรื่อยๆ ดังนั้นจึงเหมาะที่จะทดสอบว่าวิธี UED สามารถให้หลักสูตรที่มีประสิทธิภาพอย่างต่อเนื่องในระหว่างการฝึกอบรมระยะยาวหรือไม่

การทดลองเป็นไปตามการตั้งค่า Craftax-1B โดยมีงบประมาณการฝึกอบรมประมาณ จำนวนการโต้ตอบกับสภาพแวดล้อม ในขั้นตอนการประเมิน นักวิจัยเปรียบเทียบรางวัลแบบเป็นตอน (episodic reward) ของนโยบายสุดท้ายบนด่าน Craftax ที่ไม่เคยเห็น 20 ด่าน ดังแสดงในตารางที่ 2 PACE ได้รับผลตอบแทนการประเมินสูงสุดภายใต้งบประมาณการฝึกอบรมเดียวกัน โดยมีรางวัลเฉลี่ยถึง

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

สูงกว่า DR ที่

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

และดีกว่าวิธีการต่างๆ เช่น PLR, PLR และ ACCEL

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

ตารางที่ 2: รางวัลเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานบนด่านที่ไม่เคยเห็น 20 ด่านของ Craftax

บทสรุปและแนวโน้มในอนาคต

ในบริบทที่เอเจนต์การเรียนรู้แบบเสริมกำลังต้องปรับตัวให้เข้ากับสภาพแวดล้อมที่ไม่เคยเห็นอย่างต่อเนื่อง การระบุอย่างแม่นยำว่าด่านใดที่ผลักดันการเรียนรู้อย่างแท้จริงเป็นปัญหาสำคัญของ UED PACE ใช้สัญญาณภายในที่เรียบง่าย มีความแปรปรวนต่ำ และเป็นมิตรต่อการคำนวณ นั่นคือการเปลี่ยนแปลงพารามิเตอร์ เพื่อสร้างการประเมินสภาพแวดล้อมโดยตรงบนความก้าวหน้าในการเรียนรู้ที่เกิดขึ้นจริง (realized learning progress) ซึ่งช่วยลดผลกระทบจากอคติของตัวบ่งชี้แทน การประมาณค่าที่มีความแปรปรวนสูง และค่าใช้จ่ายในการรันเพิ่มเติม และนำเสนอแนวทางใหม่สำหรับการสร้างหลักสูตรการฝึกอบรมแบบปรับตัวที่เสถียรและปรับขนาดได้มากขึ้น


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35862

Like (0)
Previous 16 hours ago
Next 16 hours ago

相关推荐