PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%

2026年3月14日 am10:56 • วิศวกรรมโมเดลขนาดใหญ่ • 194 views

การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transformer เป็นพื้นฐาน เช่น Decision Transformer (DT) ได้รับความสนใจอย่างมาก เนื่องจากสามารถสร้างแบบจำลองการตัดสินใจเป็นลำดับแบบมีเงื่อนไขได้ อย่างไรก็ตาม วิธีการเหล่านี้มักใช้ “เส้นทางทั้งหมด” เป็นหน่วยการเรียนรู้: หากเส้นทางหนึ่งให้ผลตอบแทนสุดท้ายไม่สูง แม้จะมีขั้นตอนการดำเนินการที่มีประสิทธิภาพหรือช่วงเวลาที่ประสบความสำเร็จบางส่วนอยู่ภายใน คุณค่าของมันก็มักจะถูก “เจือจาง” ด้วยผลตอบแทนโดยรวมที่ต่ำ

เพื่อแก้ไขจุดเจ็บปวดนี้ ทีมวิจัยจากมหาวิทยาลัยซานตง, สถาบันวิทยาศาสตร์จีน, Li Auto และมหาวิทยาลัยชิงหวา ได้ร่วมกันเสนอกรอบงานใหม่ชื่อว่า PRGS

กรอบ PRGS มีเป้าหมายเพื่อคัดกรองเส้นทางย่อยที่มีคุณค่าต่อการเรียนรู้มากกว่าออกมาจากเส้นทางดั้งเดิมโดยอัตโนมัติ โดยไม่เปลี่ยนแหล่งที่มาของข้อมูลออฟไลน์ เพื่อใช้ฝึกวิธีการเรียนรู้เสริมแรงแบบออฟไลน์ที่ใช้ Transformer เป็นพื้นฐาน และในขั้นตอนการอนุมาน จะหลีกเลี่ยงการรบกวนการตัดสินใจในปัจจุบันจาก “ประวัติที่แย่” เพิ่มเติม

ในการทดสอบมาตรฐานหลัก เช่น D4RL และ BabyAI กรอบ PRGS ไม่เพียงแต่ทำได้ดีกว่าวิธีพื้นฐานหลายวิธี แต่ยังเพิ่มประสิทธิภาพโดยเฉลี่ยของวิธีการที่ใช้ Transformer ขึ้น 15.8%

ผู้เขียนหลักของบทความวิจัยนี้คือ ผู้ช่วยศาสตราจารย์ Xu Zhiwei จากห้องปฏิบัติการปัญญาทั่วไป มหาวิทยาลัยซานตง เขาได้รับปริญญาเอกจากสถาบันอัตโนมัติ สถาบันวิทยาศาสตร์จีนในปี 2024 งานวิจัยของเขามุ่งเน้นไปที่การเรียนรู้เสริมแรง ระบบหลายตัวแทน และตัวแทนอัจฉริยะที่ใช้แบบจำลองภาษาขนาดใหญ่ วิทยานิพนธ์ปริญญาเอกของเขาได้รับการเสนอชื่อเข้าชิงรางวัลวิทยานิพนธ์ปริญญาเอกดีเด่นด้านตัวแทนอัจฉริยะและระบบหลายตัวแทนของจีนประจำปี 2025

ปัจจุบัน บทความวิจัยนี้ได้รับการตีพิมพ์ในที่ประชุมระดับโลกด้านการเรียนรู้ของเครื่อง ICLR 2026 ICLR เป็นหนึ่งในที่ประชุมระดับโลกชั้นนำด้านการเรียนรู้ของเครื่องและการเรียนรู้การแทนค่า ถือเป็นหนึ่งในที่ประชุมวิชาการที่มีอิทธิพลมากที่สุดในสาขาปัญญาประดิษฐ์ ร่วมกับ NeurIPS และ ICML ICLR 2026 ได้รับการส่งบทความวิจัยที่มีผลประมาณ 19,000 เรื่อง อัตราการตีพิมพ์ประมาณ 28%

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining 'Golden Segments' from Failed Trajectories, Transformer Performance Improves by 15.8%

ชื่อบทความวิจัย: Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
ลิงก์บทความวิจัย: https://openreview.net/pdf?id=7vpehpWnnY

01 จุดเจ็บปวด: การเรียนรู้จาก “เส้นทางทั้งหมด” ความละเอียดไม่เพียงพอ

ในการเรียนรู้เสริมแรงแบบออฟไลน์ ข้อมูลเป็นสิ่งตายตัว ไม่สามารถปรับปรุงได้ด้วยการลองผิดลองถูกเหมือนการเรียนรู้แบบออนไลน์ วิธีการที่มีอยู่ที่ใช้ Transformer เป็นพื้นฐาน (เช่น DT) โดยพื้นฐานแล้วเป็นการสร้างแบบจำลองลำดับแบบมีเงื่อนไข โดยมักใช้ “ผลตอบแทนสุดท้าย” ของเส้นทางเป็นเงื่อนไขในการสร้างขั้นตอนการดำเนินการ

สิ่งนี้นำมาซึ่งปัญหาที่ชัดเจนสองประการ:

ความละเอียดของการเรียนรู้ค่อนข้างหยาบ: แบบจำลองสามารถรับรู้สัญญาณผลตอบแทนโดยรวมของเส้นทางทั้งหมดได้เท่านั้น ทำให้แยกความแตกต่างของความแตกต่างของคุณภาพในช่วงเวลาต่างๆ ภายในเส้นทางได้ยาก
ขาดความสามารถในการเชื่อมต่อช่วงเวลา: เนื่องจากขาดเป้าหมายการปรับให้เหมาะสมสำหรับช่วงเวลาท้องถิ่น แบบจำลองจึงยากที่จะดึงช่วงเวลาที่ดีที่สุดออกมาจากเส้นทางธรรมดาหลายเส้นทาง และรวมเข้าด้วยกันเป็นกลยุทธ์ที่ดีกว่า

แม้ว่าจะมีงานวิจัยที่พยายามบรรเทาปัญหาเหล่านี้ด้วยวิธีการเช่น การสุ่มตัวอย่างใหม่ หรือการให้น้ำหนัก แต่ส่วนใหญ่ก็แก้ไขที่ปลายเหตุ ไม่ได้ลงลึกไปถึงระดับขั้นเวลาเพื่อดำเนินการอย่างละเอียด การเสนอกรอบ PRGS นี้ ก็เพื่อทำลายทางตันนี้

02 วิธีแก้ไขหลัก: จากแบบจำลองระดับโลกสู่การแบ่งส่วนอย่างละเอียด

กรอบ PRGS สามารถเข้าใจได้ว่าเป็นกรอบงานสำหรับการประมวลผลข้อมูลและการเพิ่มประสิทธิภาพการอนุมานสำหรับการเรียนรู้เสริมแรงแบบออฟไลน์ที่ใช้ Transformer ซึ่งประกอบด้วยสามส่วนหลัก: การประมาณผลตอบแทน การแบ่งส่วนแบบละโมบ และการตัดตอนตามบริบทแบบปรับตัวได้ในขั้นตอนอนุมาน

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining 'Golden Segments' from Failed Trajectories, Transformer Performance Improves by 15.8%

ตรรกะหลักของมันคล้ายกับกระบวนการเรียนรู้ของมนุษย์: เมื่อมองย้อนกลับไปถึงประสบการณ์ในอดีต แม้ผลลัพธ์สุดท้ายจะล้มเหลว ก็ต้องค้นหาส่วนที่ทำได้ดีที่สุดและเรียนรู้จากมัน

กรอบ PRGS ประกอบด้วยสามโมดูลที่เชื่อมโยงกัน:

ขั้นตอนแรก: ตัวประมาณผลตอบแทนแบบ MMD – การประมาณผลตอบแทนในมุมมองการกระจายตัวที่ “มองโลกในแง่ดี” มากขึ้น
PRGS ต้องตอบคำถามก่อนว่า: ภายในเส้นทางหนึ่ง ช่วงเวลาใดมีแนวโน้มที่จะนำมาซึ่งผลตอบแทนสูง? เพื่อจุดประสงค์นี้ นักวิจัยได้แนะนำตัวประมาณผลตอบแทนแบบ Maximum Mean Discrepancy (MMD) เพื่ออธิบายการกระจายตัวของผลตอบแทนที่มีศักยภาพของคู่สถานะ-การกระทำ

ต่างจากการพยากรณ์ค่าเฉลี่ยแบบดั้งเดิม ตัวประมาณ MMD สามารถพยากรณ์การกระจายตัวของผลตอบแทนที่มีศักยภาพของคู่สถานะ-การกระทำได้ โดยการสุ่มตัวอย่างจากการกระจายตัวนี้และหาค่าเฉลี่ยของกลุ่มบนสุด (Top-n) PRGS จะได้ค่าประมาณผลตอบแทนที่ “มองโลกในแง่ดี” กล่าวโดยสรุปคือ มันสามารถขุดค้นผลลัพธ์ที่ดีที่สุดที่อาจบรรลุได้ในสถานะปัจจุบัน แทนที่จะเป็นผลลัพธ์โดยเฉลี่ย

ขั้นตอนที่สอง: การแบ่งส่วนเส้นทางย่อยแบบละโมบ – การแบ่งส่วนแบบเรียกซ้ำโดยเน้นที่ผลตอบแทนสูงสุด
หลังจากได้ค่าประมาณ “ผลตอบแทนที่มองโลกในแง่ดี” สำหรับแต่ละขั้นเวลาแล้ว PRGS จะดำเนินอัลกอริทึมการแบ่งส่วนแบบละโมบบนเส้นทางเดียว: สแกนเส้นทางทั้งหมดเพื่อหาจุดที่มี “ผลตอบแทนที่มองโลกในแง่ดี” สูงที่สุด – จุดสูงสุด
* การแบ่งส่วนครั้งแรก: ใช้จุดสูงสุดนี้เป็นขอบเขต กำหนดส่วนจากจุดเริ่มต้นเส้นทางถึงจุดสูงสุดว่าเป็น “เส้นทางย่อยคุณภาพสูง” และนำไปใช้ฝึกแบบจำลอง Transformer โดยตรง
* การแบ่งส่วนแบบเรียกซ้ำ: ทำซ้ำกระบวนการข้างต้นกับส่วนที่เหลือ เพื่อค้นหาจุดสูงสุดใหม่และแบ่งส่วนต่อไป จนกว่าจะประมวลผลเส้นทางทั้งหมดเสร็จสิ้น

กลยุทธ์แบบละโมบแบบเรียกซ้ำนี้แบ่งเส้นทางยาวออกเป็นชุดของเส้นทางย่อยที่สั้นกว่าและมีคุณภาพเข้มข้นกว่า ทำให้ Transformer ในกระบวนการฝึกสามารถสัมผัสกับช่วงการตัดสินใจที่ “ค่อนข้างให้ผลตอบแทนสูง” บ่อยครั้งขึ้น

ขั้นตอนที่สาม: การตัดตอนประวัติแบบปรับตัวได้ – การจัดการบริบทแบบไดนามิกในขั้นตอนอนุมาน
PRGS ยังคำนึงถึงปัญหาจริงอีกประการหนึ่ง: ในระหว่างการฝึก แบบจำลองเห็นเส้นทางย่อยที่ถูกตัดตอนมาจากช่วงกลางของเส้นทาง แต่ในขั้นตอนอนุมาน หากป้อนบริบทประวัติทั้งหมดให้แบบจำลองตลอดเวลา การกระทำคุณภาพต่ำในอดีตช่วงต้นอาจรบกวนการตัดสินใจในภายหลัง

เพื่อแก้ปัญหานี้ PRGS ได้แนะนำกลไกการตัดตอนประวัติแบบปรับตัวได้: ในแต่ละขั้นตอน แบบจำลองจะประเมินมูลค่าของสถานะปัจจุบัน หากพบว่าสถานการณ์ปัจจุบันมีแนวโน้มดีกว่าที่บันทึกไว้ในประวัติ แสดงว่าข้อมูลประวัติก่อนหน้านี้ไม่เพียงแต่ไม่มีประโยชน์ แต่ยังอาจกลายเป็นภาระได้ ในเวลานั้น แบบจำลองจะ “ลืม” บริบทประวัติบางส่วน และตัดสินใจขั้นต่อไปด้วยสถานะที่เบากว่า

03 การทดลอง: บรรลุประสิทธิภาพระดับ SOTA ในหลายสถานการณ์ โดดเด่นในสถานการณ์ซับซ้อน

ทีมวิจัยได้ทำการทดสอบบนมาตรฐานสามแบบที่แตกต่างกันอย่างชัดเจน ได้แก่ D4RL (การควบคุมต่อเนื่อง), BabyAI (การปฏิบัติตามคำสั่งภาษาธรรมชาติ) และ AuctionNet (การประมูลโฆษณาขนาดใหญ่)

ประสิทธิภาพโดดเด่นในสถานการณ์ D4RL
ในงานคลาสสิก MuJoCo และ AntMaze PRGS แสดงผลงานดีเยี่ยม โดยเฉพาะในงานเขาวงกต Maze2D-Large ที่ต้องการ “ความสามารถในการเชื่อมต่อช่วงเวลา” ที่แข็งแกร่งมาก แบบจำลอง DT ที่ใช้ PRGS ได้คะแนนสูงถึง 127.5 ในขณะที่แบบจำลอง DT ดั้งเดิมได้คะแนนไม่ถึง 30

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining 'Golden Segments' from Failed Trajectories, Transformer Performance Improves by 15.8%

ผลการแสดงภาพของงานเขาวงกตยังแสดงให้เห็นว่า เส้นทางย่อยที่สกัดผ่าน PRGS ครอบคลุม “เส้นทางทอง” ที่นำไปสู่เป้าหมายอย่างแม่นยำ และตัดเส้นทางสำรวจที่ไม่มีประสิทธิภาพออกไปเกือบทั้งหมด

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining 'Golden Segments' from Failed Trajectories, Transformer Performance Improves by 15.8%

แสดงศักยภาพในสถานการณ์ธุรกิจจริง
นอกจากแบบทดสอบมาตรฐานทางวิชาการแล้ว PRGS ยังแสดงผลงานดีเยี่ยมบน AuctionNet (ชุดข้อมูลการประมูลโฆษณาโอเพนซอร์สของ Alimama) เมื่อเทียบกับอัลกอริทึมการลอกเลียนแบบพฤติกรรมพื้นฐาน อัลกอริทึม BC ที่ได้รับการเสริมด้วย PRGS บรรลุการเพิ่มผลกำไรที่โดดเด่นในหลายรอบ

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining 'Golden Segments' from Failed Trajectories, Transformer Performance Improves by 15.8%

04 สรุปและมุมมองอนาคต

ความสำเร็จของ PRGS พิสูจน์ว่าในการเรียนรู้เสริมแรงแบบออฟไลน์ ข้อมูลไม่เพียงแต่ต้องมี “ปริมาณมาก” แต่ยังต้องมี “คุณภาพสูง” ด้วย

ผ่านชุดเทคโนโลยีที่ประกอบด้วยตัวประมาณผลตอบแทน MMD การแบ่งส่วนแบบละโมบ และการตัดตอนแบบปรับตัวได้ PRGS ประสบความสำเร็จในการทำให้แบบจำลอง Transformer มีความสามารถ “เลือกรับส่วนที่ดี เลือกทิ้งส่วนที่แย่” ผลลัพธ์นี้ให้ข้อมูลอ้างอิงทางเทคนิคที่มีคุณค่าอย่างยิ่งสำหรับการประยุกต์ใช้ในระดับอุตสาหกรรม เช่น การขับขี่อัตโนมัติและการควบคุมหุ่นยนต์

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง