EMPA กับ MAPO: แนวทางใหม่ในการประเมินและฝึกฝนความเห็นอกเห็นใจระยะยาวสำหรับโมเดลภาษาขนาดใหญ่ เพื่อให้ AI เข้าใจการให้ความอบอุ่นทางอารมณ์อย่างแท้จริง

10 hours ago • การประเมินโมเดลขนาดใหญ่ • 19 views

ปัจจุบันโมเดลภาษาขนาดใหญ่สามารถสร้างข้อความที่อ่อนโยนและให้คุณค่าทางอารมณ์ในการสนทนาแบบเทิร์นเดียวได้ อย่างไรก็ตาม เราอาจสงสัยว่าเบื้องหลัง “การตอบสนองที่แสดงความฉลาดทางอารมณ์สูง” แต่ละประโยค โมเดลเข้าใจความเข้าอกเข้าใจจริงหรือไม่

ในสถานการณ์จริงเช่นการให้เพื่อนร่วมทางทางอารมณ์และการสนับสนุนทางจิตใจ การสื่อสารที่มีประสิทธิภาพระหว่างมนุษย์แทบไม่เคยพึ่งพาคำพูดสวยหรูที่ตื้นเขิน การตอบสนองหนึ่งประโยคไม่เพียงส่งผลต่ออารมณ์ของผู้ใช้ในขณะนั้น แต่ยังค่อยๆ เปลี่ยนแนวทางการสนทนาต่อไปอย่างไม่รู้ตัว ความเข้าอกเข้าใจที่มีประสิทธิภาพจริงๆ ต้องการให้โมเดลสังเกตและเข้าใจสถานะจิตใจแฝงของคู่สนทนาอย่างต่อเนื่องในการโต้ตอบหลายเทิร์นในระยะยาว ปรับเปลี่ยนกลยุทธ์การสนับสนุนแบบไดนามิก และสุดท้ายนำการสื่อสารไปสู่ทิศทางที่ดีต่อสุขภาพมากขึ้น

EMPA กับ MAPO: แนวทางใหม่ในการประเมินและฝึกฝนความเห็นอกเห็นใจระยะยาวสำหรับโมเดลภาษาขนาดใหญ่ เพื่อให้ AI เข้าใจการให้ความอบอุ่นทางอารมณ์อย่างแท้จริง

อย่างไรก็ตาม เมื่องานความเข้าอกเข้าใจเกี่ยวข้องกับสถานะแฝงที่ซับซ้อน เป้าหมายระยะยาว และการตรวจสอบด้วยสัญญาณตอบรับอ่อน แนวทางการประเมินและฝึกอบรมแบบเทิร์นเดียวแบบดั้งเดิมก็ยากที่จะประเมินระดับความสามารถจริงของโมเดลได้ เราจะตัดสินได้อย่างไรว่าโมเดลมีบทบาทเชิงบวกในการโต้ตอบระยะยาว?

งานวิจัยสองชิ้นที่เพิ่งเปิดตัวเป็นโอเพนซอร์ส คือ EMPA และ MAPO ได้ให้แนวทางที่เป็นรูปธรรมเพื่อแก้ไขปัญหานี้ งานทั้งสองนี้ก้าวออกจากกรอบแบบดั้งเดิม พิจารณาวิธีการประเมินและฝึกอบรมโมเดลภาษาขนาดใหญ่ในสถานการณ์ความเข้าอกเข้าใจระยะยาวใหม่ โดยงานแรกตอบคำถาม “จะประเมินอย่างไร” และงานหลังตอบคำถาม “จะฝึกอบรมอย่างไร” ร่วมกันพยายามเปลี่ยนการให้เพื่อนร่วมทางทางอารมณ์ที่อิงตามอัตวิสัยให้เป็นความสามารถของระบบที่วัดผลและปรับปรุงได้

ปัจจุบัน เอกสารวิชาการของ EMPA และ MAPO ได้เผยแพร่สู่สาธารณะแล้ว รหัสโปรแกรม ชุดข้อมูล และสภาพแวดล้อมการฝึกอบรมที่เกี่ยวข้องก็ได้เปิดตัวพร้อมกันหรือวางแผนจะเปิดตัวเช่นกัน

ข้อมูลเอกสารวิชาการ EMPA
* ชื่อเอกสารวิชาการ: EMPA: Evaluating Persona-Aligned Empathy as a Process
* ลิงก์เอกสารวิชาการ: https://arxiv.org/abs/2603.00552
* ที่เก็บรหัสโปรแกรม: https://github.com/KAYA-HAI/EMPA-Benchmark-EPMSandbox
* ชุดข้อมูลโอเพนซอร์ส: https://huggingface.co/datasets/SalmonTell/EMPA-character_card/tree/main

ข้อมูลเอกสารวิชาการ MAPO
* ชื่อเอกสารวิชาการ: MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
* ลิงก์เอกสารวิชาการ: https://arxiv.org/pdf/2603.06194v1
* ที่เก็บรหัสโปรแกรม: https://github.com/2200xiaohu/MAPO

EMPA: เป็นครั้งแรกที่ผลักดันการประเมินความเข้าอกเข้าใจสู่ระดับ “กระบวนการ”

เป็นเวลานานที่การประเมินความเข้าอกเข้าใจส่วนใหญ่ยังคงอยู่ที่งานแบบเทิร์นเดียว เช่น การจดจำอารมณ์ การสร้างการตอบสนองที่เข้าอกเข้าใจ หรือการให้คะแนนผ่าน LLM-as-a-Judge วิธีการเหล่านี้สามารถประเมินได้ว่าภาษา “เหมือนมนุษย์” หรือไม่ แต่ยากที่จะตอบคำถามที่สำคัญยิ่งกว่า: โมเดลช่วยเหลือผู้ใช้ในระยะยาวจริงหรือไม่

แนวคิดหลักของ EMPA คือการจำลองความเข้าอกเข้าใจอย่างเป็นทางการให้เป็นงานของเอเจนต์ที่มีวิสัยทัศน์ยาว (long-horizon) ในงานประเภทนี้ สถานะจิตใจที่แท้จริงของผู้ใช้เป็นตัวแปรแฝงที่ไม่สามารถสังเกตได้โดยตรง การสนทนาเป็นกระบวนการระยะยาวที่อัปเดตสถานะอย่างต่อเนื่อง และผลการสนับสนุนมักจะสามารถตรวจสอบได้ทางอ้อมผ่านสัญญาณอ่อนเท่านั้น

จากมุมมองนี้ EMPA ไม่ได้ประเมินเพียงการตอบสนองแบบประโยคเดียวอีกต่อไป แต่ประเมินผลกระทบของเส้นทางการสนทนาทั้งหมดต่อสถานะจิตใจแฝงของผู้ใช้ เพื่อจุดประสงค์นี้ นักวิจัยได้สร้างกรอบการประเมินที่สมบูรณ์:
1. ผ่านไปป์ไลน์ข้อมูล Real-to-Sim กลั่นกรองการสนทนาที่ยาวจริงแต่มีเสียงรบกวนให้เป็นฉากทางจิตวิทยาที่สามารถทำซ้ำได้
2. ในสภาพแวดล้อมแซนด์บ็อกซ์แบบมัลติเอเจนต์ที่ไม่ใช่สคริปต์ ให้เอเจนต์ผู้ใช้ เอเจนต์ผู้กำกับ เอเจนต์ผู้ตัดสิน และโมเดลที่ถูกทดสอบมีปฏิสัมพันธ์แบบเปิด
3. ผ่านโมเดลศักยภาพความเข้าอกเข้าใจ (Empathy Potential Model, EPM) จำลองการเปลี่ยนแปลงสถานะผู้ใช้ในพื้นที่จิตวิทยาแฝง เพื่อประเมินในระดับเส้นทางว่าการสนทนาสร้างอิทธิพลเชิงบวกที่ต่อเนื่องและมั่นคงหรือไม่

ในด้านวิธีการประเมิน EMPA ใช้แนวคิด “การประเมินทางฟิสิกส์ที่อิงตามเกณฑ์” (Rubric-Grounded Physics Evaluation) การประเมินแบบเปิดแบบดั้งเดิมมักมีสองเส้นทาง: การให้คะแนนตามรายการตรวจสอบเกณฑ์ หรือให้ LLM-as-a-Judge ประเมินภาพรวมโดยตรง แต่ทั้งสองวิธีมีข้อบกพร่อง: วิธีแรกง่ายที่จะบีบอัดปฏิสัมพันธ์ที่ซับซ้อนให้เป็นตัวชี้วัดแบบคงที่ วิธีหลังมักถูกรบกวนโดยสไตล์ภาษา ความยาวข้อความ ฯลฯ

วิธีการของ EMPA คือการแยกโครงสร้างระหว่างการสร้างหลักฐานและการให้คะแนนสุดท้าย ในกระบวนการสนทนา ผู้ตัดสินไม่ให้คะแนนสุดท้ายโดยตรง แต่ดึงหลักฐานที่มีโครงสร้างที่สามารถติดตามและระบุแหล่งที่มาได้ตามเกณฑ์ จากนั้น EPM จะรวบรวมและคำนวณหลักฐานเหล่านี้ในระดับเส้นทาง และแมปเป็นสัญญาณการเปลี่ยนแปลงสถานะจิตใจแฝง ซึ่งหมายความว่าเกณฑ์ไม่ได้ทำหน้าที่เป็น “ผู้ตัดสิน” โดยตรงอีกต่อไป แต่กลายเป็น “ผู้รวบรวมหลักฐาน” ก่อน และการให้คะแนนจริงจะดำเนินการโดยการจำลองเส้นทางในภายหลัง

ขั้นตอนนี้สำคัญมาก หมายความว่า EMPA ไม่ได้เพียงเปลี่ยนตัวชี้วัด แต่กำลังนิยามกระบวนทัศน์การประเมินอัตวิสัยใหม่: ไม่ต้องพึ่งพา “คะแนนความประทับใจ” แบบเทิร์นเดียวอีกต่อไป แต่ใช้หลักฐานหลายเทิร์นอัปเดตสถานะผู้ใช้อย่างต่อเนื่อง และประเมินผลในเส้นทางการสนทนาทั้งหมด เพื่อหลีกเลี่ยงไม่ให้คะแนนสูงในเทิร์นเดียวปกปิดความล้มเหลวของกลยุทธ์ระยะยาว EMPA ไม่ได้สนใจว่า “ประโยคนี้พูดได้ดีหรือไม่” อีกต่อไป แต่สนใจว่า “การสนทนาทั้งหมดช่วยให้สถานะผู้ใช้เปลี่ยนไปในทิศทางที่ดีขึ้นจริงหรือไม่” ซึ่งทำให้ความสามารถในการเข้าอกเข้าใจระยะยาวกลายเป็นปัญหาการประเมินที่สามารถศึกษา เปรียบเทียบ และปรับปรุงได้อย่างเป็นระบบเป็นครั้งแรก

ผลการทดลองแสดงให้เห็นว่าเส้นทางการประเมินใหม่นี้มีประสิทธิภาพเหนือกว่าวิธีการแบบดั้งเดิมอย่างชัดเจนทั้งในด้านความทนทานและความไว

MAPO: อัลกอริทึมการเรียนรู้แบบเสริมกำลังสำหรับการโต้ตอบหลายเทิร์นระยะยาว

หาก EMPA แก้ปัญหาว่า “จะประเมินอย่างไร” แล้ว MAPO พยายามตอบคำถามว่า “จะฝึกอบรม” โมเดลให้ทำงานได้ดีขึ้นในงานสนทนาระยะยาวอย่างไร

ในเอกสารวิชาการ MAPO นักวิจัยเสนอวิธีการเรียนรู้แบบเสริมกำลังสำหรับการสนทนาแบบใหม่ โดยมีเป้าหมายให้โมเดลสามารถใช้ประโยชน์จากผลตอบรับในแต่ละเทิร์น และรักษาความเสถียรของกลยุทธ์ระยะยาวในการสนทนาลำดับยาวได้ แนวคิดหลักของ MAPO คือการนำสัญญาณสองประเภทมาใช้พร้อมกัน:
* รางวัลกระบวนการในแต่ละเทิร์น: ใช้ประโยชน์จากระบบผู้ตัดสินของ EMPA ให้คะแนนการตอบสนองในแต่ละเทิร์น และอ้างอิงแนวคิดของรางวัลศักยภาพ (potential reward) โดยใช้ส่วนเพิ่มที่เกิดจากการเปลี่ยนแปลงคะแนนระหว่างเทิร์นที่ติดกันเป็นรางวัลทันทีของเทิร์นปัจจุบัน เพื่อวัดว่าการตอบสนองในครั้งนั้นได้ผลักดันการสนทนาไปในทิศทางที่ดีขึ้นจริงหรือไม่
* ผลตอบแทนในอนาคตระยะยาว: เพื่อหลีกเลี่ยงไม่ให้โมเดลแสวงหาค่าที่ดีที่สุดเฉพาะส่วน MAPO ประมาณผลตอบแทนสะสมจากเทิร์นปัจจุบันจนจบการสนทนาด้วยวิธีมอนติคาร์โล เพื่อรักษาข้อมูลกลยุทธ์ระยะยาว

เมื่อเทียบกับวิธีการเรียนรู้แบบเสริมกำลังของเอเจนต์จำนวนมากที่อิงตาม GRPO การออกแบบนี้หลีกเลี่ยงปัญหาทั่วไปสองประการพร้อมกัน: ไม่สามารถพึ่งพาได้แค่รางวัลผลลัพธ์สุดท้าย ทำให้สัญญาณกระบวนการเบาบาง หรือต้องสุ่มตัวอย่างจำนวนมากในแต่ละขั้นตอน นำมาซึ่งความซับซ้อนของตัวอย่างที่สูงมาก

วิธีการเฉพาะของ MAPO คือการสุ่มตัวอย่างเส้นทางการสนทนาหลายเส้นทางจากพรอมต์เริ่มต้นเดียวกัน และพิจารณาทุกขั้นตอนในเส้นทางเป็นตัวอย่างการฝึกอบรม การวิจัยยังสังเกตเพิ่มเติมว่าการกระจายของรางวัลทันทีมีความสัมพันธ์ค่อนข้างต่ำกับลำดับเทิร์นของการสนทนา ในขณะที่การกระจายของผลตอบแทนในอนาคตมักมีความสัมพันธ์สูงกับลำดับเทิร์น ดังนั้น MAPO จึงทำการปรับให้เป็นมาตรฐานสำหรับทั้งสองอย่างแยกกัน โดยอิงตามแบทช์ (batch) และอิงตามเทิร์น (turn) ตามลำดับ จากนั้นรวมเข้าด้วยกันผ่านการรวมนูน (convex combination) เพื่อให้สามารถปรับปรุงกลยุทธ์การสนทนาลำดับยาวได้อย่างมีเสถียรภาพมากขึ้น ในขณะที่ยังคงข้อได้เปรียบของการไม่ต้องใช้ผู้วิจารณ์ (critic-free)

สรุปและมองไปข้างหน้า

จากมุมมองเชิงมหภาค งานทั้งสองนี้ก่อให้เกิดสายโซ่การวิจัยที่สมบูรณ์: EMPA จัดเตรียมกรอบการประเมินสำหรับงานความเข้าอกเข้าใจระยะยาว ในขณะที่ MAPO จัดเตรียมอัลกอริทึมการเรียนรู้แบบเสริมกำลังที่เหมาะกับงานการโต้ตอบหลายเทิร์นประเภทนี้ พวกเขาร่วมกันผลักดัน “ความเข้าอกเข้าใจ” จากแนวคิดที่มักติดอยู่ที่ระดับความประทับใจอัตวิสัย ให้กลายเป็นปัญหาทางเทคนิคที่สามารถศึกษาได้อย่างเป็นระบบ เปรียบเทียบซ้ำได้ และสามารถเข้าสู่วงจรการฝึกอบรมแบบปิด

ผลการทดลองแสดงให้เห็นว่า MAPO หลังจากฝึกอบรมในสภาพแวดล้อมแซนด์บ็อกซ์การสนทนาแบบไดนามิกของ EMPA แล้ว มีประสิทธิภาพเหนือกว่า GRPO อย่างมีนัยสำคัญ และมีการปรับปรุงที่เห็นได้ชัดบนเกณฑ์การประเมิน EMPA เป็นที่น่าสังเกตว่าในการตั้งค่าบางส่วน โมเดลที่มีพารามิเตอร์ 32B สามารถเข้าใกล้ประสิทธิภาพของ Claude-3.5 ได้ ในขณะเดียวกันก็แสดงความสามารถในการปรับใช้ทั่วไปที่ดีบนเกณฑ์การสนทนาหลายเทิร์นอื่นๆ ด้วย

นักวิจัยชี้ให้เห็นเพิ่มเติมว่าโดยพื้นฐานแล้ว MAPO ไม่จำกัดอยู่แค่งานสนทนาหลายเทิร์น แต่ใกล้เคียงกับวิธีการปรับให้เหมาะสมทั่วไปสำหรับสถานการณ์เอเจนต์ระยะยาวมากขึ้น ด้วยการเปิดตัวรหัสโปรแกรมและสภาพแวดล้อมที่เกี่ยวข้องเพิ่มเติม วิธีการชุดนี้ก็มีแนวโน้มที่จะได้รับการตรวจสอบและขยายในงานจริงมากขึ้น

เมื่อระบบ AI จำนวนมากขึ้นเข้าสู่พื้นที่ลึกที่ต้องการการโต้ตอบระยะยาวกับผู้ใช้ จุดโฟกัสของการแข่งขันด้านความสามารถของโมเดลกำลังค่อยๆ เคลื่อนย้าย มันไม่ได้หยุดอยู่แค่ที่ผิวเผินว่า “พูดเก่งขึ้น” หรือ “เหมือนมนุษย์มากขึ้น” อีกต่อไป แต่ขึ้นอยู่กับความสามารถที่ลึกซึ้งยิ่งขึ้นเรื่อยๆ: สามารถจำลองสถานะแฝงของผู้ใช้ได้อย่างแม่นยำหรือไม่ สามารถรักษาความสม่ำเสมอของกลยุทธ์ในการโต้ตอบหลายเทิร์นได้หรือไม่ สามารถดำเนินการแทรกแซงที่มีประสิทธิภาพอย่างต่อเนื่องภายใต้เงื่อนไขผลตอบรับอ่อนได้หรือไม่ และสามารถทำให้ความสามารถเหล่านี้ตกตะกอนเป็นวิศวกรรมระบบที่สามารถประเมิน ฝึกอบรม และทำซ้ำได้หรือไม่

จากมุมมองนี้ คุณค่าของ EMPA และ MAPO อาจก้าวพ้นขอบเขตแนวตั้งของ “ความเข้าอกเข้าใจ” พวกมัน更像เป็นการสำรวจล่วงหน้าสำหรับปัญหาที่จะพบเห็นได้ทั่วไปมากขึ้นในอนาคต: เมื่อโมเดลภาษาขนาดใหญ่เริ่มเจาะลึกงานที่ต้องการความเข้าใจระยะยาว การตัดสินใจอย่างต่อเนื่อง และการมีอิทธิพลต่อผู้ใช้แบบค่อยเป็นค่อยไป เราควรวัดผลการทำงานของมันอย่างเป็นวิทยาศาสตร์อย่างไร และควรฝึกอบรมมันออกมาอย่างเป็นระบบอย่างไร

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/26205