ในสถานการณ์ถามตอบแบบรอบเดียว กลไก “ดูแค่ผลลัพธ์” นี้ยังพอรับมือได้ อย่างไรก็ตาม เมื่อภารกิจเปลี่ยนเป็นงานที่ซับซ้อนและยาวนานซึ่งต้องการการสนทนาหลายรอบ การค้นหา การท่องเว็บ การเขียนโค้ด การอ่านไฟล์ และการดำเนินการที่ซับซ้อนอื่นๆ การสรุปเส้นทางการกระทำที่ซับซ้อนทั้งหมดด้วยบิตเดียว (ถูก/ผิด) ก็ดูหยาบเกินไป
ผลที่ตามมาคือ: ความพยายามที่ล้มเหลวเพียงขั้นตอนเดียวกับความพยายามที่ผิดทางตั้งแต่ต้น ในมุมมองของกลไกรางวัลนั้นไม่มีความแตกต่าง กระบวนการฝึกไม่สามารถแยกแยะคุณค่าของความล้มเหลวที่แตกต่างกันได้ ในขณะที่การพึ่งพากฎที่เขียนด้วยมือหรือการให้คะแนนแบบละเอียด ก็ยากที่จะครอบคลุมสถานการณ์ที่ซับซ้อน เช่น สภาพแวดล้อมแบบเปิด ปฏิสัมพันธ์แบบมัลติโมดัล
ทีมวิจัยจากมหาวิทยาลัยจีนแห่งฮ่องกงและ Meituan ในงานวิจัยชิ้นนี้ มุ่งเป้าไปที่ความขัดแย้งหลักนี้: เอเจนต์ต้องการคำติชมที่ละเอียดและยาวไกลเพื่อชี้นำการเรียนรู้ แต่โดยปกติเราสามารถให้ได้เพียงสัญญาณรางวัลที่หยาบ เช่น ความถูกผิดในตอนจบ

- ชื่อบทความ: Exploring Reasoning Reward Model for Agents
- ลิงก์บทความ: https://arxiv.org/pdf/2601.22154
- ที่อยู่โปรเจกต์: https://github.com/kxfan2002/Reagent
เพื่อแก้ไขความขัดแย้งนี้ ผู้เขียนได้สร้างแบบจำลองผู้ประเมินที่ “เข้าใจการให้เหตุผลและเข้าใจการเรียกใช้เครื่องมือ” ก่อน เพื่อให้ “คะแนนกระบวนการ” และให้ “ความคิดเห็น” สำหรับเส้นทางการกระทำที่สมบูรณ์ของเอเจนต์ จากนั้นจึงใช้คำติชมนี้สำหรับการฝึกอบรม
นี่คือจุดเริ่มต้นหลักของเฟรมเวิร์ก Reagent: ทำให้เอเจนต์ไม่เพียงรับผิดชอบต่อผลลัพธ์สุดท้ายเท่านั้น แต่ยังต้องรับผิดชอบต่อกระบวนการคิดและพฤติกรรมการเรียกใช้เครื่องมือด้วย
ให้คะแนนแนวคิดของเอเจนต์
ขั้นตอนสำคัญของงานนี้คือ ไม่ได้มุ่งเน้นเพียงว่าเอเจนต์ตอบคำถามถูกต้องในตอนท้ายหรือไม่ แต่เริ่มให้คะแนนกระบวนการคิดทั้งหมดอย่างเป็นระบบ
ทีมวิจัยได้สร้างชุดข้อมูล “การให้คะแนนการคิด” สำหรับเอเจนต์ก่อน: ซึ่งรวบรวมเส้นทางการกระทำที่แท้จริงของเอเจนต์ต่างๆ รวมถึงกรณีที่ให้เหตุผลราบรื่นแต่ดำเนินการผิดพลาด เดาสุ่มตลอดทางแต่โชคดีตอบถูก และกรณีที่ใช้เครื่องมืออย่างสับสนวุ่นวาย แต่ละเส้นทางถูกทำเครื่องหมายเป็น “ความคิดเห็นการตรวจข้อสอบ” ซึ่งชี้ให้เห็นทั้งจุดที่สมเหตุสมผลและความเบี่ยงเบนที่ชัดเจนของแนวคิด พร้อมทั้งให้คะแนนรวมระหว่าง 0 ถึง 1
จากชุดข้อมูลนี้ พวกเขาฝึกแบบจำลอง “การให้คะแนนการคิด” เฉพาะทาง – Agent-RRM แบบจำลองนี้จะไม่ตรวจสอบแค่คำตอบสุดท้าย แต่จะดูกระบวนการทั้งหมด จากนั้นจึงส่งออกสามส่วน: การวิเคราะห์ภายใน, ข้อคิดเห็นสั้นๆ สำหรับเอเจนต์ และคะแนนรวม
ตัวอย่างเช่น:
* เส้นทางสองเส้นสุดท้ายตอบถูกทั้งคู่ แต่เส้นหนึ่งมีตรรกะที่กระโดดข้ามขั้นรุนแรงและใช้เครื่องมือในทางที่ผิด เพียงแค่โชคดีได้คำตอบที่ถูกต้อง Agent-RRM อาจให้คะแนนเพียง 0.3
* อีกเส้นหนึ่งวิเคราะห์ได้ชัดเจนตั้งแต่เริ่มต้น ระบุชัดเจนว่าเมื่อใดควรค้นหา เมื่อใดควรคลิกเว็บไซต์ วิธีใช้ข้อมูล แนวคิดเช่นนี้อาจได้คะแนน 0.9
นี่คล้ายกับการที่ครูตรวจข้อสอบ ไม่เพียงดูว่าเลือกตัวเลือกใดในตอนท้าย แต่ยังตรวจสอบขั้นตอนการคำนวณระหว่างทาง ให้ “คะแนนกระบวนการ” เป้าหมายของการกระทำนี้ชัดเจน: สอนเอเจนต์ให้รู้ว่า “จะคิดอย่างไร” และ “จะใช้เครื่องมืออย่างไร” ไม่ใช่แค่ “จะเดาคำตอบให้ถูกอย่างไร”
รวมข้อคิดเห็นข้อความและสัญญาณรางวัล: เฟรมเวิร์ก Reagent
เมื่อมี Agent-RRM ที่สามารถให้ “คะแนนการคิด” ได้แล้ว ยังต้องแก้ไขปัญหาว่าจะใช้คำติชมเหล่านี้สำหรับการฝึกเอเจนต์ได้อย่างมีประสิทธิภาพอย่างไร นี่คือภารกิจของเฟรมเวิร์ก Reagent: รวม “ความคิดเห็นเป็นข้อความ” และ “รางวัลคะแนน” เข้าด้วยกัน และนำไปใช้ในการฝึกเอเจนต์

ผู้เขียนออกแบบสามวิธีในการประยุกต์ใช้ ซึ่งสามารถเข้าใจได้ว่าเป็นการ “เสริมพลัง” ในสามระดับ:
① เพิ่มเฉพาะความคิดเห็น ไม่แก้ไขโมเดล (Reagent-C)
นี่เป็นวิธีที่เบาที่สุด: ไม่เปลี่ยนพารามิเตอร์ของเอเจนต์ เพียงเพิ่มขั้นตอน “รับฟังความคิดเห็น” ในระหว่างการให้เหตุผล
กระบวนการคร่าวๆ คือ: เอเจนต์พยายามแก้ปัญหาก่อน จากนั้น Agent-RRM ตรวจสอบและให้ข้อคิดเห็นสั้นๆ ชี้ให้เห็นปัญหาสำคัญ จากนั้นเอเจนต์ตอบคำถามใหม่ตามความคิดเห็นนั้น นี่เทียบเท่ากับการเพิ่มกระบวนการ “ให้ครูช่วยดูก่อนส่งข้อสอบ” ให้กับโมเดลขนาดใหญ่ที่มีอยู่ใดๆ
② เพิ่ม “คะแนนกระบวนการ” ให้กับรางวัล (Reagent-R)
ก้าวไปอีกขั้น คือการนำคะแนนที่ Agent-RRM ให้มาใช้เป็นรางวัลเพิ่มเติมในการฝึก
การฝึกในอดีตมุ่งเน้นเฉพาะสัญญาณสุดท้าย “ทำถูก/ทำผิด” ตอนนี้เปลี่ยนเป็นสองเส้นรางวัลที่คำนวณควบคู่กัน: “ความถูกผิดของผลลัพธ์” และ “ความดีของกระบวนการ”: แม้สุดท้ายจะทำไม่สำเร็จทั้งหมด แต่ตราบใดที่แนวคิดชัดเจน การใช้เครื่องมือสมเหตุสมผล ก็จะไม่ถูกมองว่าเป็นตัวอย่างที่ไร้ประโยชน์และถูกปฏิเสธทั้งหมด สิ่งนี้สำคัญอย่างยิ่งสำหรับงานที่ยาวและใช้เครื่องมือหลายอย่าง ช่วยบรรเทาปัญหาความเบาบางของรางวัล “เผลอๆ ก็ได้ศูนย์หมด”
③ ฝึก “ความพยายามครั้งแรก” และ “ความพยายามใหม่หลังได้รับคำวิจารณ์” พร้อมกัน (Reagent-U)
นี่คือโหมดที่แข็งแกร่งที่สุดที่บทความเน้นย้ำ – Reagent-U มันใช้คำติชมสองประเภทพร้อมกัน:
* ในด้านหนึ่ง สอนให้เอเจนต์ลดข้อผิดพลาดพื้นฐานตั้งแต่ความพยายามครั้งแรก
* ในอีกด้านหนึ่ง สอนให้มัน “รู้วิธีแก้ไขคำตอบอย่างชาญฉลาดยิ่งขึ้นหลังจากรับฟังคำวิจารณ์”
ระหว่างการฝึก คำถามเดียวกันจะสร้างเส้นทางสองเส้น: “คำตอบครั้งแรก” และ “คำตอบหลังจากรับฟังความคิดเห็น” ทั้งคู่ได้รับ “รางวัลผลลัพธ์ + คะแนนกระบวนการ” และถูกนำเข้าสู่ลูปการฝึกเพื่อปรับให้เหมาะสม ประโยชน์ของการทำเช่นนี้คือ: โมเดลจะไม่ถูกปรับให้เหมาะสมในโหมดเดียวเท่านั้น แต่เรียนรู้โดยรวมว่า “จะคิดให้ชัดเจนอย่างไร”, “จะใช้เครื่องมือให้ดีอย่างไร” และ “จะแก้ไขตัวเองตามคำติชมอย่างไร”
ในการใช้งานจริง Reagent-U ไม่จำเป็นต้องพึ่งพา Agent-RRM ภายนอกเพื่อให้ความคิดเห็นอีกต่อไป แต่สามารถใช้งานได้โดยตรงเหมือนเอเจนต์ทั่วไป – คำพูดที่ “ครูพูดตอนตรวจข้อสอบ” ได้ถูกหลอมรวมเข้าไปในพารามิเตอร์ของโมเดลแล้ว
ผลลัพธ์จริงเป็นอย่างไร?
ในการทดลอง ผู้เขียนประเมินสามด้านหลัก: ข้อคิดเห็นข้อความเองมีประสิทธิภาพหรือไม่, คะแนนกระบวนการช่วยให้การเรียนรู้แบบเสริมกำลังได้ผลลัพธ์ที่ดีขึ้นหรือไม่, และหลังจากรวมเฟรมเวิร์กแล้วนำมาซึ่งการปรับปรุงโดยรวมหรือไม่


ประการแรก ในโหมดที่เบาที่สุด “เพิ่มเฉพาะข้อคิดเห็นข้อความ” การทดลองแสดงให้เห็นว่าในงานคณิตศาสตร์และการค้นหาหลายอย่าง “การตอบใหม่หลังจากรับฟังข้อคิดเห็นจาก Agent-RRM” สามารถเพิ่มอัตราความถูกต้องได้อย่างมั่นคง
ประการที่สอง หลังจากเพิ่มคะแนนกระบวนการเข้าไปในการฝึก เอเจนต์ไม่เพียงแค่迎合สัญญาณความถูกผิดสุดท้ายอีกต่อไป แต่มีแนวโน้มที่จะเลือกทิศทางการกระทำที่ “แม้ว่าครั้งนี้จะไม่สำเร็จสมบูรณ์ แต่แนวคิดโดยรวมถูกต้อง” มากขึ้น
สุดท้าย เมื่อข้อคิดเห็นข้อความและคะแนนรางวัลถูกรวมเข้าด้วยกันใน Reagent-U การปรับปรุงยิ่งเห็นได้ชัดเจนมากขึ้น:
ในชุดย่อยข้อความของเกณฑ์มาตรฐานเอเจนต์ทั่วไป GAIA โมเดล Reagent-U ที่ใช้พารามิเตอร์ 8B สามารถเพิ่มคะแนนเฉลี่ยเป็น 43.7% ซึ่งเทียบเคียงหรือแซงหน้าเอเจนต์โอเพ่นซอร์สบางตัวที่มีพารามิเตอร์จำนวนมากกว่า ในงานที่ซับซ้อนอื่นๆ เช่น WebWalkerQA, HLE, xbench ประสิทธิภาพของมันโดยทั่วไปก็มีเสถียรภาพมากกว่าเวอร์ชันที่ “ดูแค่รางวัลตอนจบ” และมีแนวโน้มน้อยกว่าที่จะถูกนำไปในทางที่ผิดโดยตัวอย่างที่ “เดาถูกโดยบังเอิญ” หรือ “ยุ่งวุ่นวายแต่ไร้ประโยชน์”
ผู้เขียนยังทดสอบประสิทธิภาพของโมเดลในชุดข้อมูลเต็มของ GAIA เมื่อเผชิญกับงานเอเจนต์ทั่วไปแบบมัลติโมดัล Reagent-U ก็มีความสามารถในการแข่งขันเช่นกัน

เฟรมเวิร์ก Reagent ที่เสนอร่วมกันโดยมหาวิทยาลัยจีนแห่งฮ่องกงและ Meituan ได้นำแนวคิด “การให้คะแนนกระบวนการคิด” เข้าสู่การฝึกเอเจนต์อย่างเป็นรูปธรรม ผลลัพธ์แสดงให้เห็นว่า ตราบใดที่สามารถเข้าใจและประเมินกระบวนการคิดได้ แม้แต่เอเจนต์ระดับพารามิเตอร์ 8B ก็มีโอกาสที่จะแสดงประสิทธิภาพที่เทียบเคียงกับโมเดลขนาดใหญ่กว่าในงานที่ซับซ้อนหลายอย่าง
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22894
