การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transformer เป็นพื้นฐาน เช่น Decision Transformer (DT) ได้รับความสนใจอย่างมาก เนื่องจากสามารถสร้างแบบจำลองการตัดสินใจเป็นลำดับแบบมีเงื่อนไขได้ อย่างไรก็ตาม วิธีการเหล่านี้มักใช้ “เส้นทางทั้งหมด” เป็นหน่วยการเรียนรู้: หากเส้นทางหนึ่งให้ผลตอบแทนสุดท้ายไม่สูง แม้จะมีขั้นตอนการดำเนินการที่มีประสิทธิภาพหรือช่วงเวลาที่ประสบความสำเร็จบางส่วนอยู่ภายใน คุณค่าของมันก็มักจะถูก “เจือจาง” ด้วยผลตอบแทนโดยรวมที่ต่ำ
เพื่อแก้ไขจุดเจ็บปวดนี้ ทีมวิจัยจากมหาวิทยาลัยซานตง, สถาบันวิทยาศาสตร์จีน, Li Auto และมหาวิทยาลัยชิงหวา ได้ร่วมกันเสนอกรอบงานใหม่ชื่อว่า PRGS
กรอบ PRGS มีเป้าหมายเพื่อคัดกรองเส้นทางย่อยที่มีคุณค่าต่อการเรียนรู้มากกว่าออกมาจากเส้นทางดั้งเดิมโดยอัตโนมัติ โดยไม่เปลี่ยนแหล่งที่มาของข้อมูลออฟไลน์ เพื่อใช้ฝึกวิธีการเรียนรู้เสริมแรงแบบออฟไลน์ที่ใช้ Transformer เป็นพื้นฐาน และในขั้นตอนการอนุมาน จะหลีกเลี่ยงการรบกวนการตัดสินใจในปัจจุบันจาก “ประวัติที่แย่” เพิ่มเติม
ในการทดสอบมาตรฐานหลัก เช่น D4RL และ BabyAI กรอบ PRGS ไม่เพียงแต่ทำได้ดีกว่าวิธีพื้นฐานหลายวิธี แต่ยังเพิ่มประสิทธิภาพโดยเฉลี่ยของวิธีการที่ใช้ Transformer ขึ้น 15.8%
ผู้เขียนหลักของบทความวิจัยนี้คือ ผู้ช่วยศาสตราจารย์ Xu Zhiwei จากห้องปฏิบัติการปัญญาทั่วไป มหาวิทยาลัยซานตง เขาได้รับปริญญาเอกจากสถาบันอัตโนมัติ สถาบันวิทยาศาสตร์จีนในปี 2024 งานวิจัยของเขามุ่งเน้นไปที่การเรียนรู้เสริมแรง ระบบหลายตัวแทน และตัวแทนอัจฉริยะที่ใช้แบบจำลองภาษาขนาดใหญ่ วิทยานิพนธ์ปริญญาเอกของเขาได้รับการเสนอชื่อเข้าชิงรางวัลวิทยานิพนธ์ปริญญาเอกดีเด่นด้านตัวแทนอัจฉริยะและระบบหลายตัวแทนของจีนประจำปี 2025
ปัจจุบัน บทความวิจัยนี้ได้รับการตีพิมพ์ในที่ประชุมระดับโลกด้านการเรียนรู้ของเครื่อง ICLR 2026 ICLR เป็นหนึ่งในที่ประชุมระดับโลกชั้นนำด้านการเรียนรู้ของเครื่องและการเรียนรู้การแทนค่า ถือเป็นหนึ่งในที่ประชุมวิชาการที่มีอิทธิพลมากที่สุดในสาขาปัญญาประดิษฐ์ ร่วมกับ NeurIPS และ ICML ICLR 2026 ได้รับการส่งบทความวิจัยที่มีผลประมาณ 19,000 เรื่อง อัตราการตีพิมพ์ประมาณ 28%

- ชื่อบทความวิจัย: Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
- ลิงก์บทความวิจัย: https://openreview.net/pdf?id=7vpehpWnnY
01 จุดเจ็บปวด: การเรียนรู้จาก “เส้นทางทั้งหมด” ความละเอียดไม่เพียงพอ
ในการเรียนรู้เสริมแรงแบบออฟไลน์ ข้อมูลเป็นสิ่งตายตัว ไม่สามารถปรับปรุงได้ด้วยการลองผิดลองถูกเหมือนการเรียนรู้แบบออนไลน์ วิธีการที่มีอยู่ที่ใช้ Transformer เป็นพื้นฐาน (เช่น DT) โดยพื้นฐานแล้วเป็นการสร้างแบบจำลองลำดับแบบมีเงื่อนไข โดยมักใช้ “ผลตอบแทนสุดท้าย” ของเส้นทางเป็นเงื่อนไขในการสร้างขั้นตอนการดำเนินการ
สิ่งนี้นำมาซึ่งปัญหาที่ชัดเจนสองประการ:
- ความละเอียดของการเรียนรู้ค่อนข้างหยาบ: แบบจำลองสามารถรับรู้สัญญาณผลตอบแทนโดยรวมของเส้นทางทั้งหมดได้เท่านั้น ทำให้แยกความแตกต่างของความแตกต่างของคุณภาพในช่วงเวลาต่างๆ ภายในเส้นทางได้ยาก
- ขาดความสามารถในการเชื่อมต่อช่วงเวลา: เนื่องจากขาดเป้าหมายการปรับให้เหมาะสมสำหรับช่วงเวลาท้องถิ่น แบบจำลองจึงยากที่จะดึงช่วงเวลาที่ดีที่สุดออกมาจากเส้นทางธรรมดาหลายเส้นทาง และรวมเข้าด้วยกันเป็นกลยุทธ์ที่ดีกว่า
แม้ว่าจะมีงานวิจัยที่พยายามบรรเทาปัญหาเหล่านี้ด้วยวิธีการเช่น การสุ่มตัวอย่างใหม่ หรือการให้น้ำหนัก แต่ส่วนใหญ่ก็แก้ไขที่ปลายเหตุ ไม่ได้ลงลึกไปถึงระดับขั้นเวลาเพื่อดำเนินการอย่างละเอียด การเสนอกรอบ PRGS นี้ ก็เพื่อทำลายทางตันนี้
02 วิธีแก้ไขหลัก: จากแบบจำลองระดับโลกสู่การแบ่งส่วนอย่างละเอียด
กรอบ PRGS สามารถเข้าใจได้ว่าเป็นกรอบงานสำหรับการประมวลผลข้อมูลและการเพิ่มประสิทธิภาพการอนุมานสำหรับการเรียนรู้เสริมแรงแบบออฟไลน์ที่ใช้ Transformer ซึ่งประกอบด้วยสามส่วนหลัก: การประมาณผลตอบแทน การแบ่งส่วนแบบละโมบ และการตัดตอนตามบริบทแบบปรับตัวได้ในขั้นตอนอนุมาน

ตรรกะหลักของมันคล้ายกับกระบวนการเรียนรู้ของมนุษย์: เมื่อมองย้อนกลับไปถึงประสบการณ์ในอดีต แม้ผลลัพธ์สุดท้ายจะล้มเหลว ก็ต้องค้นหาส่วนที่ทำได้ดีที่สุดและเรียนรู้จากมัน
กรอบ PRGS ประกอบด้วยสามโมดูลที่เชื่อมโยงกัน:
ขั้นตอนแรก: ตัวประมาณผลตอบแทนแบบ MMD – การประมาณผลตอบแทนในมุมมองการกระจายตัวที่ “มองโลกในแง่ดี” มากขึ้น
PRGS ต้องตอบคำถามก่อนว่า: ภายในเส้นทางหนึ่ง ช่วงเวลาใดมีแนวโน้มที่จะนำมาซึ่งผลตอบแทนสูง? เพื่อจุดประสงค์นี้ นักวิจัยได้แนะนำตัวประมาณผลตอบแทนแบบ Maximum Mean Discrepancy (MMD) เพื่ออธิบายการกระจายตัวของผลตอบแทนที่มีศักยภาพของคู่สถานะ-การกระทำ
ต่างจากการพยากรณ์ค่าเฉลี่ยแบบดั้งเดิม ตัวประมาณ MMD สามารถพยากรณ์การกระจายตัวของผลตอบแทนที่มีศักยภาพของคู่สถานะ-การกระทำได้ โดยการสุ่มตัวอย่างจากการกระจายตัวนี้และหาค่าเฉลี่ยของกลุ่มบนสุด (Top-n) PRGS จะได้ค่าประมาณผลตอบแทนที่ “มองโลกในแง่ดี” กล่าวโดยสรุปคือ มันสามารถขุดค้นผลลัพธ์ที่ดีที่สุดที่อาจบรรลุได้ในสถานะปัจจุบัน แทนที่จะเป็นผลลัพธ์โดยเฉลี่ย
ขั้นตอนที่สอง: การแบ่งส่วนเส้นทางย่อยแบบละโมบ – การแบ่งส่วนแบบเรียกซ้ำโดยเน้นที่ผลตอบแทนสูงสุด
หลังจากได้ค่าประมาณ “ผลตอบแทนที่มองโลกในแง่ดี” สำหรับแต่ละขั้นเวลาแล้ว PRGS จะดำเนินอัลกอริทึมการแบ่งส่วนแบบละโมบบนเส้นทางเดียว: สแกนเส้นทางทั้งหมดเพื่อหาจุดที่มี “ผลตอบแทนที่มองโลกในแง่ดี” สูงที่สุด – จุดสูงสุด
* การแบ่งส่วนครั้งแรก: ใช้จุดสูงสุดนี้เป็นขอบเขต กำหนดส่วนจากจุดเริ่มต้นเส้นทางถึงจุดสูงสุดว่าเป็น “เส้นทางย่อยคุณภาพสูง” และนำไปใช้ฝึกแบบจำลอง Transformer โดยตรง
* การแบ่งส่วนแบบเรียกซ้ำ: ทำซ้ำกระบวนการข้างต้นกับส่วนที่เหลือ เพื่อค้นหาจุดสูงสุดใหม่และแบ่งส่วนต่อไป จนกว่าจะประมวลผลเส้นทางทั้งหมดเสร็จสิ้น
กลยุทธ์แบบละโมบแบบเรียกซ้ำนี้แบ่งเส้นทางยาวออกเป็นชุดของเส้นทางย่อยที่สั้นกว่าและมีคุณภาพเข้มข้นกว่า ทำให้ Transformer ในกระบวนการฝึกสามารถสัมผัสกับช่วงการตัดสินใจที่ “ค่อนข้างให้ผลตอบแทนสูง” บ่อยครั้งขึ้น
ขั้นตอนที่สาม: การตัดตอนประวัติแบบปรับตัวได้ – การจัดการบริบทแบบไดนามิกในขั้นตอนอนุมาน
PRGS ยังคำนึงถึงปัญหาจริงอีกประการหนึ่ง: ในระหว่างการฝึก แบบจำลองเห็นเส้นทางย่อยที่ถูกตัดตอนมาจากช่วงกลางของเส้นทาง แต่ในขั้นตอนอนุมาน หากป้อนบริบทประวัติทั้งหมดให้แบบจำลองตลอดเวลา การกระทำคุณภาพต่ำในอดีตช่วงต้นอาจรบกวนการตัดสินใจในภายหลัง
เพื่อแก้ปัญหานี้ PRGS ได้แนะนำกลไกการตัดตอนประวัติแบบปรับตัวได้: ในแต่ละขั้นตอน แบบจำลองจะประเมินมูลค่าของสถานะปัจจุบัน หากพบว่าสถานการณ์ปัจจุบันมีแนวโน้มดีกว่าที่บันทึกไว้ในประวัติ แสดงว่าข้อมูลประวัติก่อนหน้านี้ไม่เพียงแต่ไม่มีประโยชน์ แต่ยังอาจกลายเป็นภาระได้ ในเวลานั้น แบบจำลองจะ “ลืม” บริบทประวัติบางส่วน และตัดสินใจขั้นต่อไปด้วยสถานะที่เบากว่า
03 การทดลอง: บรรลุประสิทธิภาพระดับ SOTA ในหลายสถานการณ์ โดดเด่นในสถานการณ์ซับซ้อน
ทีมวิจัยได้ทำการทดสอบบนมาตรฐานสามแบบที่แตกต่างกันอย่างชัดเจน ได้แก่ D4RL (การควบคุมต่อเนื่อง), BabyAI (การปฏิบัติตามคำสั่งภาษาธรรมชาติ) และ AuctionNet (การประมูลโฆษณาขนาดใหญ่)
ประสิทธิภาพโดดเด่นในสถานการณ์ D4RL
ในงานคลาสสิก MuJoCo และ AntMaze PRGS แสดงผลงานดีเยี่ยม โดยเฉพาะในงานเขาวงกต Maze2D-Large ที่ต้องการ “ความสามารถในการเชื่อมต่อช่วงเวลา” ที่แข็งแกร่งมาก แบบจำลอง DT ที่ใช้ PRGS ได้คะแนนสูงถึง 127.5 ในขณะที่แบบจำลอง DT ดั้งเดิมได้คะแนนไม่ถึง 30

ผลการแสดงภาพของงานเขาวงกตยังแสดงให้เห็นว่า เส้นทางย่อยที่สกัดผ่าน PRGS ครอบคลุม “เส้นทางทอง” ที่นำไปสู่เป้าหมายอย่างแม่นยำ และตัดเส้นทางสำรวจที่ไม่มีประสิทธิภาพออกไปเกือบทั้งหมด

แสดงศักยภาพในสถานการณ์ธุรกิจจริง
นอกจากแบบทดสอบมาตรฐานทางวิชาการแล้ว PRGS ยังแสดงผลงานดีเยี่ยมบน AuctionNet (ชุดข้อมูลการประมูลโฆษณาโอเพนซอร์สของ Alimama) เมื่อเทียบกับอัลกอริทึมการลอกเลียนแบบพฤติกรรมพื้นฐาน อัลกอริทึม BC ที่ได้รับการเสริมด้วย PRGS บรรลุการเพิ่มผลกำไรที่โดดเด่นในหลายรอบ

04 สรุปและมุมมองอนาคต
ความสำเร็จของ PRGS พิสูจน์ว่าในการเรียนรู้เสริมแรงแบบออฟไลน์ ข้อมูลไม่เพียงแต่ต้องมี “ปริมาณมาก” แต่ยังต้องมี “คุณภาพสูง” ด้วย
ผ่านชุดเทคโนโลยีที่ประกอบด้วยตัวประมาณผลตอบแทน MMD การแบ่งส่วนแบบละโมบ และการตัดตอนแบบปรับตัวได้ PRGS ประสบความสำเร็จในการทำให้แบบจำลอง Transformer มีความสามารถ “เลือกรับส่วนที่ดี เลือกทิ้งส่วนที่แย่” ผลลัพธ์นี้ให้ข้อมูลอ้างอิงทางเทคนิคที่มีคุณค่าอย่างยิ่งสำหรับการประยุกต์ใช้ในระดับอุตสาหกรรม เช่น การขับขี่อัตโนมัติและการควบคุมหุ่นยนต์
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25627
