
- ชื่อบทความวิจัย: Heterogeneous Agent Collaborative Reinforcement Learning
- ลิงก์บทความวิจัย: https://arxiv.org/abs/2603.02604
- Github Page: https://zzx-peter.github.io/hacrl/
- Huggingface: https://huggingface.co/papers/2603.02604
ผลงานหลัก
- กระบวนทัศน์ใหม่: การเรียนรู้เสริมกำลังแบบร่วมมือของเอเจนต์ต่างชนิด (HACRL): เสนอกระบวนทัศน์การฝึกใหม่ที่อนุญาตให้เอเจนต์หลายตัวซึ่งมีความแตกต่างกันในด้านสถานะพารามิเตอร์ ขนาดโมเดล หรือแม้แต่ตระกูลสถาปัตยกรรม สามารถแบ่งปันการทดลอง (rollouts) ที่ผ่านการตรวจสอบแล้วในระหว่างขั้นตอนการฝึก เพื่อปรับปรุงกลยุทธ์ร่วมกัน ในขณะที่ขั้นตอนการอนุมาน (inference) แต่ละเอเจนต์จะถูกนำไปใช้และทำงานอย่างอิสระ กระบวนทัศน์นี้แตกต่างทั้งจากการเรียนรู้เสริมกำลังแบบหลายเอเจนต์ (MARL) ที่ต้องการการทำงานร่วมกันในการดำเนินการ และแตกต่างจากการกลั่นความรู้ (Knowledge Distillation) แบบทางเดียว “ครู-นักเรียน” HACRL ประสบความสำเร็จเป็นครั้งแรกในการรวมการเรียนรู้ร่วมกันสองทางระหว่างเอเจนต์ต่างชนิดและการนำไปใช้อย่างอิสระไว้ด้วยกัน: ร่วมมือปรับปรุงระหว่างการฝึก ทำงานอิสระระหว่างการอนุมาน
- อัลกอริทึมการปรับปรุงกลยุทธ์ร่วมกันของเอเจนต์ต่างชนิด (HACPO): เพื่อสนับสนุนกระบวนทัศน์ HACRL ได้เสนออัลกอริทึมใหม่ โดยใช้เทคนิคสำคัญสี่ประการเพื่อเชื่อมช่องว่างความสามารถและความแตกต่างของการกระจายกลยุทธ์ระหว่างเอเจนต์
- ผลการทดลอง: บนเกณฑ์มาตรฐานการให้เหตุผลทางคณิตศาสตร์หลายชุด เอเจนต์ต่างชนิดทั้งหมดที่เข้าร่วมการฝึกร่วมกันมีประสิทธิภาพเพิ่มขึ้นอย่างสม่ำเสมอ โดยมีประสิทธิภาพเฉลี่ยสูงกว่าวิธีพื้นฐาน 3.3% ในขณะที่ใช้ต้นทุนการสุ่มตัวอย่างเพียงครึ่งเดียว ชี้แนะทิศทางใหม่สำหรับการเรียนรู้ร่วมกันของหลายเอเจนต์อย่างมีประสิทธิภาพ
ภูมิหลังปัญหา: การ “ต่อสู้แบบตัวคนเดียว” ที่มีต้นทุนสูง และ “ข้อมูลต่างชนิด” ที่มีค่ามหาศาล
- การ “ต่อสู้แบบตัวคนเดียว” ที่มีต้นทุนสูง: ในการปรับแต่งโมเดลใหญ่ด้วยการเรียนรู้เสริมกำลังในปัจจุบัน ต้นทุนของการสุ่มตัวอย่างและตรวจสอบการทดลอง (rollouts) เป็นคอขวดหลักของกระบวนการฝึก ซึ่งจำกัดประสิทธิภาพและการนำไปใช้ในระดับใหญ่อย่างรุนแรง การปรับแต่งการเรียนรู้เสริมกำลังในปัจจุบันมักใช้กระบวนทัศน์การปรับให้เหมาะสมแบบแยกเดี่ยว โดยโมเดลแต่ละตัวจะสุ่มตัวอย่าง ตรวจสอบ และอัปเดตกลยุทธ์ของตนเองอย่างอิสระ ส่งผลให้การทดลองคุณภาพสูงที่โมเดลสร้างขึ้นถูกใช้เฉพาะสำหรับการปรับปรุงของตัวเองเท่านั้น ประสบการณ์การสำรวจอันมีค่าไม่สามารถนำกลับมาใช้ใหม่ได้ อัตราการใช้ตัวอย่างต่ำมาก สร้างความสูญเสียพลังการคำนวณอย่างมหาศาล
- ข้อมูลต่างชนิดที่มีค่ามหาศาล: ระบบนิเวศของโมเดลใหญ่ในปัจจุบันมีความหลากหลายอย่างเห็นได้ชัด การทดลองที่สร้างขึ้นโดยโมเดลที่มีสถาปัตยกรรม ขนาด และสถานะต่างกันสำหรับงานเดียวกัน มีความเข้ากันได้สูงในด้านเป้าหมายงานและรูปแบบ และยังนำพาความรู้ที่เสริมกัน อย่างไรก็ตาม การเรียนรู้เสริมกำลังแบบหลายเอเจนต์ในปัจจุบันส่วนใหญ่มุ่งเน้นไปที่การฝึกและการอนุมานร่วมกันของระบบที่ประกอบด้วยหลายเอเจนต์เป็นหนึ่งเดียว ไม่สามารถสนับสนุนสถานการณ์ “ร่วมมือระหว่างการฝึก ทำงานอิสระระหว่างการอนุมาน” ได้ ส่วนการกลั่นความรู้มุ่งเน้นไปที่การถ่ายทอดความรู้ทางเดียวระหว่างโมเดลชนิดเดียวกันหรือต่างชนิด ยากที่จะสนับสนุนการเรียนรู้ร่วมกันสองทางระหว่างโมเดลต่างชนิด ดังนั้นคุณค่าของข้อมูลต่างชนิดภายใต้กระบวนทัศน์ที่มีอยู่นี้จึงยังไม่ถูกค้นพบอย่างมีประสิทธิภาพ
ปัญหาหลักของบทความวิจัย: เอเจนต์หนึ่งสามารถใช้การทดลองที่สร้างขึ้นโดยเอเจนต์ต่างชนิดอื่น เพื่อปรับปรุงประสิทธิภาพและประสิทธิภาพการฝึกของตัวเองไปพร้อมๆ กันได้หรือไม่?
การแบ่งปันการทดลองของเอเจนต์ต่างชนิด: กระบวนทัศน์ HACRL
เพื่อแก้ไขปัญหาการ “ต่อสู้แบบตัวคนเดียว” ของโมเดลในระหว่างกระบวนการฝึก งานวิจัยนี้ได้เสนอกระบวนทัศน์การเรียนรู้เสริมกำลังแบบร่วมมือของเอเจนต์ต่างชนิด (HACRL) ในกระบวนทัศน์นี้ เอเจนต์ต่างชนิดหลายตัวสามารถแบ่งปันการทดลองของกันและกัน (รวมถึงการตอบสนองและรางวัล) ในระหว่างการฝึกได้ แต่เมื่อถึงขั้นตอนการอนุมาน แต่ละตัวจะทำงานอิสระเพื่อทำงานให้สำเร็จ HACRL ทำให้เอเจนต์ที่เดิมทีแยกจากกันสามารถเรียนรู้จากกันและกันได้ ในขณะเดียวกันก็เพิ่มอัตราการใช้ข้อมูลการทดลองอย่างมีนัยสำคัญ
HACRL มีความแตกต่างโดยพื้นฐานจากกระบวนทัศน์อื่นที่มีอยู่:
- แตกต่างจากการเรียนรู้เสริมกำลังแบบหลายเอเจนต์ (MARL): HACRL เน้นที่เอเจนต์อิสระหลายตัวแบ่งปันการทดลองเพื่อปรับให้เหมาะสมร่วมกันระหว่างการฝึก แต่ทำงานอิสระจากกันระหว่างการอนุมาน ในขณะที่ MARL กำหนดให้เอเจนต์หลายตัวต้องทำงานร่วมกันระหว่างการอนุมาน พูดง่ายๆ คือ HACRL ฝึกโมเดลอิสระหลายตัว ในขณะที่ MARL ฝึกระบบความร่วมมือที่เป็นหนึ่งเดียว
- แตกต่างจากการกลั่นความรู้แบบออนไลน์/ออฟไลน์ (KD): HACRL สนับสนุนให้เอเจนต์ต่างชนิดหลายตัวเรียนรู้ร่วมกันสองทาง ในขณะที่การกลั่นความรู้มักเป็นการถ่ายทอดความรู้ทางเดียวจากโมเดลครูที่แข็งแกร่งกว่าไปยังโมเดลนักเรียนที่อ่อนแอกว่า พูดง่ายๆ คือ HACRL คือการเรียนรู้ร่วมกันระหว่างโมเดลต่างชนิด ในขณะที่การกลั่นคือการถ่ายทอดทางเดียวระหว่างโมเดลชนิดเดียวกันหรือต่างชนิด

การเปรียบเทียบระหว่างการเรียนรู้เสริมกำลังแบบร่วมมือของเอเจนต์ต่างชนิด (HACRL) การเรียนรู้เสริมกำลังแบบหลายเอเจนต์ (MARL) และการกลั่นความรู้ (KD)
อัลกอริทึมหลัก: HACPO
การนำ HACRL ไปใช้นั้นไม่ใช่แค่การแบ่งปันการทดลองแบบง่ายๆ เนื่องจากมีความแตกต่างด้านความสามารถและความแตกต่างของการกระจายกลยุทธ์ระหว่างเอเจนต์ต่างชนิด และอาจมาจากผู้ผลิตต่างกัน (ตัวแยกคำไม่เข้ากัน) การแบ่งปันข้อมูลโดยตรงจะเผชิญกับความท้าทายด้านวิศวกรรมและอัลกอริทึม
เพื่อจุดประสงค์นี้ งานวิจัยนี้ได้เสนออัลกอริทึมการปรับปรุงกลยุทธ์ร่วมกันของเอเจนต์ต่างชนิด (HACPO) มันได้นำเทคโนโลยีสี่ประการที่ออกแบบมาเฉพาะเพื่อเชื่อมช่องว่างความสามารถและการกระจายระหว่างเอเจนต์ต่างชนิด มาบนพื้นฐานของวิธีการปรับให้เหมาะสมการเรียนรู้เสริมกำลังพื้นฐาน การวิเคราะห์ทางทฤษฎีพิสูจน์ว่า ทิศทางการอัปเดตเกรเดียนต์ที่เอเจนต์ใช้จากการทดลองของตัวเองและเอเจนต์อื่น มีมุมที่คาดหวังน้อยกว่า 90 องศา ซึ่งสนับสนุนประสิทธิผลของ HACPO ในทางทฤษฎี

แผนภาพการไหลของอัลกอริทึม HACPO
1. การประมาณค่าความได้เปรียบที่ตระหนักถึงความสามารถของเอเจนต์
เสนอตัวประมาณค่าความได้เปรียบที่ตระหนักถึงความ能力 โดยกำหนดเส้นฐานความได้เปรียบระหว่างกลุ่มที่แตกต่างกันให้กับแต่ละเอเจนต์ตามประสิทธิภาพสัมพัทธ์ของมัน ตามสัญชาตญาณ หากการตอบสนองถูกสร้างขึ้นโดยเอเจนต์ที่แข็งแกร่งกว่า ค่าความได้เปรียบของมันควรได้รับการประเมินค่าที่สูงกว่า ในทางกลับกัน หากถูกสร้างขึ้นโดยเอเจนต์ที่อ่อนแอกว่า ก็ควรได้รับการประเมินค่าที่ต่ำกว่า ตัวประมาณค่านี้เป็นกลางในทางทฤษฎี
ในขั้นตอนการฝึก ( t ) สำหรับเอเจนต์ ( i ) ค่าความได้เปรียบ ( hat{A}{i,j}^{(t)} ) สำหรับการตอบสนองที่ ( j ) คำนวณดังนี้:
[
hat{A}{i,j}^{(t)} = R_{i,j}^{(t)} – b_i^{(t)}
]
โดยที่เส้นฐาน ( b_i^{(t)} ) คำนวณดังนี้:
[
b_i^{(t)} = frac{sum_{k in mathcal{A}} omega_k^{(t)} cdot bar{R}k^{(t)}}{sum{k in mathcal{A}} omega_k^{(t)}
]
ที่นี่ ( omega_k^{(t)} ) คืออัตราส่วนความสามารถของเอเจนต์ ( k ) ในขั้นตอน ( t ) (คำนวณจากความแม่นยำที่ปรับให้เรียบ)
2. สัมประสิทธิ์ความแตกต่างความสามารถของโมเดล
เพื่อส่งเสริมให้เอเจนต์เรียนรู้จากเพื่อนที่แข็งแกร่งกว่า ในขณะเดียวกันก็รักษาความอนุรักษ์นิยมของกลยุทธ์ต่อเพื่อนที่อ่อนแอกว่า งานวิจัยนี้ใช้อัตราส่วนความสามารถ ( omega ) เพื่อปรับค่าความได้เปรียบที่มีประสิทธิภาพ ( omega ) ทำหน้าที่สองบทบาทที่เสริมกัน:
(i) การปรับเทียบเส้นฐาน: ปรับขนาดรางวัลใหม่เมื่อประมาณค่าเส้นฐานที่ตระหนักถึงความสามารถ เพื่อจัดแนวสถิติรางวัลระหว่างเอเจนต์ต่างชนิด
(ii) การปรับแต่งเกรเดียนต์: เป็นปัจจัยคล้ายอัตราการเรียนรู้ ขยายเกรเดียนต์จากเอเจนต์ที่แข็งแกร่งกว่า และลดทอนเกรเดียนต์จากเอเจนต์ที่อ่อนแอกว่า
ค่าความได้เปรียบที่ปรับแต่งแล้วคือ:
[
tilde{A}{i,j}^{(t)} = omega_i^{(t)} cdot hat{A}{i,j}^{(t)}
]
3. การสุ่มตัวอย่างความสำคัญแบบเอกซ์โพเนนเชียล
งานวิจัยนี้ใช้อัตราส่วนความสำคัญระดับลำดับ และขยายไปสู่การตั้งค่าหลายเอเจนต์ต่างชนิด พร้อมทั้งแนะนำกลไกการให้น้ำหนักใหม่แบบเอกซ์โพเนนเชียลที่ไม่ใช่เกรเดียนต์ การออกแบบนี้ทำให้เอเจนต์มีแนวโน้มที่จะเรียนรู้จากการทดลองที่การกระจายผลลัพธ์สอดคล้องกับการกระจายของตัวเองมากขึ้น สำหรับการรวมกันของเอเจนต์ต่างชนิดที่มีตัวแยกคำไม่เข้ากัน ขั้นแรกจะแปลงการทดลองกลับเป็นข้อความโดยใช้ตัวแยกคำย้อนกลับของเอเจนต์ต้นทาง จากนั้นจึงใช้ตัวแยกคำของเอเจนต์เป้าหมายแยกคำใหม่
[
rho_{i leftarrow j}^{(t)} = expleft(-beta cdot text{KL}left(pi_{theta_i^{(t)}} | pi_{theta_j^{(t)}}right)right)
]
โดยที่ ( beta ) ควบคุมระดับความอนุรักษ์นิยม
4. การตัดทีละขั้น
อัตราส่วนการสุ่มตัวอย่างความสำคัญข้ามเอเจนต์อาจผันผวนไม่สม่ำเสมอทั้งระหว่างขั้นตอนลำดับและภายในขั้นตอนลำดับ เพื่อจุดประสงค์นี้ ขั้นแรกให้ใช้ขอบเขตการตัดแบบไม่สมมาตรกับการตอบสนองข้ามเอเจนต์ เพื่อให้แน่ใจว่าประสบการณ์ข้ามเอเจนต์สามารถถูกลดน้ำหนักได้เท่านั้น และจะไม่ถูกเพิ่มน้ำหนัก จากนั้นจึงใช้กลยุทธ์การตัดทีละขั้น เพื่อป้องกันไม่ให้ประสบการณ์ข้ามเอเจนต์ครอบงำการอัปเดตในภายหลังภายในชุดการฝึก ซึ่งจะช่วยเพิ่มความเสถียรของการฝึก
[
text{clip}(rho, c_{text{step}}) = min(rho, 1 + (c_{text{step}} cdot u))
]
โดยที่ ( u ) แสดงถึงจำนวนครั้งของการอัปเดตพารามิเตอร์ที่ดำเนินการแล้วภายในขั้นตอนปัจจุบัน ( c_{text{step}} ) แสดงถึงปัจจัยการรัดแน่นในแต่ละการอัปเดต
ปรากฏการณ์การทดลอง: ไม้สั้นไม้ยาวต่างมีข้อดี – การแลกเปลี่ยนข้อดีระหว่างโมเดลต่างชนิด
การตั้งค่าการทดลองและเส้นฐานเปรียบเทียบ
งานวิจัยนี้เลือกปัญหาคณิตศาสตร์คุณภาพสูง 7500 ข้อจากชุดข้อมูล MATH และประเมินประสิทธิภาพของ HACPO บนเกณฑ์มาตรฐานที่ท้าทายเจ็ดชุด เพื่อตรวจสอบประสิทธิผลของกระบวนทัศน์การฝึกร่วมกันอย่างเข้มงวด ได้เปรียบเทียบ HACPO กับวิธีเส้นฐานสามประเภทดังต่อไปนี้:
- เส้นฐานเอเจนต์เดี่ยวมาตรฐาน: รวมถึง GRPO, GSPO (ต้นทุนการสุ่มตัวอย่างการทดลองเท่ากับ HACPO แต่ต้นทุนการอัปเดตพารามิเตอร์เพียงครึ่งหนึ่งของ HACPO)
- เส้นฐานทรัพยากรเท่ากัน (GSPO×2): ใช้จำนวนครั้งการสุ่มตัวอย่างการทดลองและการอัปเดตเป็นสองเท่า เพื่อแยกการเพิ่มประสิทธิภาพที่เกิดจากการเพิ่มปริมาณข้อมูลเพียงอย่างเดียว (ต้นทุนการทดลองเป็นหนึ่งเท่าของ HACPO ต้นทุนการอัปเดตพารามิเตอร์เท่ากัน)
- เส้นฐานร่วมกันแบบง่าย (Naive): การตั้งค่าหลายเอเจนต์ที่แบ่งปันการทดลองแบบง่ายๆ แต่ไม่รวมโมดูลนวัตกรรมใดๆ ของ HACPO (ต้นทุนการทดลองและการอัปเดตพารามิเตอร์เท่ากับ HACPO)
งานวิจัยนี้สรุปความแตกต่างสามประเภท และดำเนินการทดลองตรวจสอบแยกกัน:
| ประเภทความแตกต่าง | คำจำกัดความ | ตัวอย่าง |
| :— | :— | :— |
| ความแตกต่างของสถานะ | สถาปัตยกรรมและขนาดพารามิเตอร์เหมือนกัน แต่ค่าน้ำหนักต่างกัน | |
คำจำกัดความประเภทความแตกต่าง
| ประเภทความแตกต่าง | คำจำกัดความ | ตัวอย่าง |
| :— | :— | :— |
| ความแตกต่างของสถานะ | โมเดลเดียวกัน สถานะการปรับแต่งต่างกัน (เช่น โมเดลพื้นฐานและโมเดลที่ปรับแต่งด้วยคำสั่ง) | Qwen3-4B-Base และ Qwen3-4B-Instruct |
| ความแตกต่างของขนาด | ผู้ผลิตโมเดลเดียวกัน ขนาดพารามิเตอร์ต่างกัน | Qwen3-1.7B-Base และ Qwen3-4B-Base |
| ความแตกต่างของโมเดล | ผู้ผลิตโมเดลต่างกัน สถาปัตยกรรมและตัวแยกคำต่างกัน | Qwen3-4B-Base และ Llama3.2-3B-Instruct |
ผลการทดลองหลักและการวิเคราะห์
งานวิจัยนี้ได้ดำเนินการทดลองภายใต้การตั้งค่าความแตกต่างสามประเภท: สถานะ ขนาด และโมเดล ผลลัพธ์แสดงให้เห็นถึงประสิทธิผลของอัลกอริทึม HACPO ผลกระทบหลักเกิดจากกลไกสองประการ:
* คำแนะนำที่ขับเคลื่อนโดยความสามารถ: โมเดล
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/26539
