การเรียนรู้ระหว่างการปรับใช้: ทำให้ LLM Agent พัฒนาอย่างต่อเนื่องในกระแสงานจริง

7 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 14 views

เมื่อตัวแทนโมเดลภาษาขนาดใหญ่ (LLM Agent) ก้าวเข้าสู่สถานการณ์การใช้งานในโลกแห่งความเป็นจริง สิ่งที่มันต้องเผชิญไม่ใช่ชุดข้อมูลทดสอบแบบคงที่ที่ทำเสร็จเพียงครั้งเดียวอีกต่อไป แต่เป็นกระแสงานที่ไหลเข้ามาอย่างไม่หยุดยั้งและต่อเนื่อง

ทุกครั้งที่มีการเรียกใช้เครื่องมือ การดำเนินการโค้ด การค้นหาเว็บ หรือการทำงานให้เสร็จสมบูรณ์ จะเกิดสัญญาณป้อนกลับตามมา: การดำเนินการสำเร็จหรือล้มเหลว? หลักฐานที่รวบรวมได้เพียงพอหรือไม่? เครื่องมือที่เลือกเหมาะสมหรือไม่? สัญญาณที่เกิดขึ้นตามธรรมชาติในช่วงการปรับใช้เหล่านี้ สามารถกลายเป็นสารอาหารสำหรับการปรับปรุงตนเองของตัวแทนได้หรือไม่?

ผลงานล่าสุดของทีมวิจัยได้นำเสนอแนวคิด “การเรียนรู้ระหว่างการปรับใช้” (Deployment-Time Learning, DTL) และพัฒนาเพิ่มเติมเป็นระบบ CASCADE แกนหลักของมันไม่ใช่แค่การสะสมประสบการณ์อย่างง่าย แต่เป็นการให้ตัวแทนเรียนรู้วิธี “คัดเลือก” ประสบการณ์ในกระแสงานออนไลน์: เมื่อเผชิญกับงานปัจจุบัน ควรอ้างอิงปฏิสัมพันธ์ใดในอดีตเพื่อตัดสินใจได้ดีขึ้น?

ชื่อบทความ: CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment
ลิงก์บทความ: https://arxiv.org/abs/2605.06702
คลังโค้ด: https://github.com/guosyjlu/CASCADE
การวัดประสิทธิภาพ: https://huggingface.co/datasets/guosy/DTLBench

ความเป็นมาของงานวิจัย

ปัจจุบัน งานวิจัยที่เกี่ยวข้องกับการเรียนรู้จากประสบการณ์ของตัวแทน โดยทั่วไปสามารถแบ่งการตั้งค่าออกเป็นสองประเภท:

ประเภทแรกสืบทอดกระบวนทัศน์การเรียนรู้ของเครื่องแบบดั้งเดิม: ระบบจะเรียนรู้บนชุดฝึกก่อน เช่น การปรับแต่งโมเดล การปรับแต่งพรอมต์ การสร้างคลังความจำหรือคลังทักษะ จากนั้นจึงประเมินประสิทธิภาพบนชุดทดสอบ

ประเภทที่สองเน้นการเรียนรู้ระหว่างการทำงาน กล่าวคือ ระบบจะเรียนรู้หลายรอบบนชุดข้อมูลเดียวกันก่อน แล้วจึงสังเกตการปรับปรุงประสิทธิภาพ

การตั้งค่าเหล่านี้ล้วนมีคุณค่าทางการวิจัย อย่างไรก็ตาม สภาพแวดล้อมการปรับใช้จริงยังมีมิติที่สำคัญอีกประการหนึ่ง: เวลา ในระบบจริง งานจะมาถึงตามลำดับ ตัวแทนไม่สามารถรู้ล่วงหน้าถึงงานในอนาคต และไม่สามารถย้อนกลับไปทำคำขอใดซ้ำได้ตามอำเภอใจ ทุกขั้นตอนการดำเนินการ既是การให้บริการ ก็เป็นการรวบรวมข้อเสนอแนะ การเลือกในปัจจุบันไม่เพียงส่งผลต่อผลลัพธ์ของงานนี้เท่านั้น แต่ยังอาจส่งผลต่อกลยุทธ์ในภายหลังด้วย

ดังนั้น CASCADE จึงนิยามการเรียนรู้ระหว่างการปรับใช้เป็นปัญหาการเรียนรู้ออนไลน์ ในขั้นตอนที่ t ตัวแทนได้รับคำถาม สร้างคำตอบหรือเส้นทางการดำเนินการ สภาพแวดล้อมจะส่งคืนข้อเสนอแนะแบบไบนารีว่าสำเร็จหรือล้มเหลว เป้าหมายของตัวแทนไม่ใช่แค่การปรับปรุงงานเดียวอีกต่อไป แต่เป็นการเพิ่มอัตราความสำเร็จในระยะยาวตลอดลำดับการปรับใช้ทั้งหมด หรือเทียบเท่ากับการลด “ความเสียใจ” (Regret) ในการเรียนรู้ออนไลน์ การตั้งค่านี้ใกล้เคียงกับกระบวนการให้บริการอย่างต่อเนื่องในระบบอุตสาหกรรมมากขึ้น และยังเป็นกรอบงานที่เป็นทางการที่ชัดเจนสำหรับการประเมินความสามารถในการปรับตัวของตัวแทนระหว่างการปรับใช้

การเรียนรู้ระหว่างการปรับใช้ตามกรณี: CASCADE

ภายใต้การตั้งค่าการเรียนรู้ระหว่างการปรับใช้ โมเดลพื้นฐานจะคงที่และไม่มีการอัปเดตพารามิเตอร์ออนไลน์ การเรียนรู้เกิดขึ้นในส่วนประกอบภายนอกของตัวแทน โดยเฉพาะกลไกความจำและการดึงข้อมูล CASCADE ใช้การให้เหตุผลตามกรณี (Case-Based Reasoning, CBR) เป็นกรอบพื้นฐาน เมื่อมีงานใหม่เข้ามา ระบบจะดึงกรณีที่เกี่ยวข้องจากคลังกรณีประวัติ มาเป็นบริบทให้กับโมเดลภาษาขนาดใหญ่ จากนั้นจึงตัดสินใจว่าจะเก็บกรณีใหม่หรือไม่ตามข้อเสนอแนะจากสภาพแวดล้อม กระบวนการนี้ประกอบด้วยสี่ขั้นตอน:

การดึงข้อมูล (Retrieve): ดึงกรณีผู้สมัครจากคลังกรณีที่เพิ่มขึ้นเรื่อยๆ
การใช้ซ้ำ (Reuse): ใช้กรณีเป็นบริบทเพื่อช่วยโมเดลภาษาขนาดใหญ่แก้ไขคำถามปัจจุบัน
การแก้ไข (Revise): สร้างคำตอบหรือเส้นทางการดำเนินการขั้นสุดท้าย
การเก็บรักษา (Retain): หากข้อเสนอแนะจากสภาพแวดล้อมเป็นความสำเร็จ ให้บันทึกปฏิสัมพันธ์นี้เป็นกรณีใหม่

ในวงจร 4R นี้ จุดสำคัญของ CASCADE คือ: มันสร้างแบบจำลอง “การดึงกรณีใด” เป็นปัญหาการพนันตามบริบท (Contextual Bandit) จึงทำให้เกิดการสมดุลระหว่างการสำรวจและการใช้ประโยชน์ในกระบวนการดึงข้อมูล ในแต่ละช่วงเวลา คำถามปัจจุบันคือบริบท กรณีผู้สมัครคือการกระทำที่เลือกได้ หลังจากตัวแทนเลือกกรณีหนึ่ง โมเดลภาษาขนาดใหญ่จะสร้างผลลัพธ์ตามกรณีนั้น สภาพแวดล้อมจะส่งคืนข้อเสนอแนะว่าสำเร็จหรือล้มเหลว จากนั้นตัวดึงข้อมูลจะใช้ข้อเสนอแนะนี้เพื่ออัปเดตนโยบาย เพื่อให้สามารถสมดุลระหว่างการใช้ประโยชน์และการสำรวจในงานต่อๆ ไปได้ดีขึ้น

กล่าวอีกนัยหนึ่ง CASCADE เรียนรู้กลยุทธ์การดึงข้อมูลออนไลน์: มันใช้สัญญาณรางวัลที่สังเกตได้ระหว่างการปรับใช้เพื่อตัดสินว่ากรณีใดมีคุณค่ามากกว่าในงานที่กำหนด สำหรับสถานการณ์นี้ บทความได้เสนออัลกอริทึม Neural-LinLogUCB อัลกอริทึมนี้ใช้ Transformer เพื่อสร้างแบบจำลองการแสดงปฏิสัมพันธ์ระหว่างคำถามและกรณี และใช้หัวเชิงเส้นเพื่อประมาณค่าความไม่แน่นอน จึงปรับให้เข้ากับการเรียนรู้การพนันตามบริบทภายใต้ข้อเสนอแนะแบบไบนารี

ในทางทฤษฎี CASCADE แบ่งความเสียใจโดยรวมออกเป็นสองส่วน:

ช่องว่างความครอบคลุม: คลังกรณีมีประสบการณ์ทางประวัติศาสตร์ที่เกี่ยวข้องเพียงพอหรือไม่
ความเสียใจในการดึงข้อมูล: ในบรรดากรณีผู้สมัครที่มีอยู่ กลยุทธ์การดึงข้อมูลเลือกกรณีที่มีประโยชน์ที่สุดหรือไม่

เมื่อกระบวนการปรับใช้ดำเนินต่อไป กรณีที่สำเร็จจะถูกเก็บไว้ในคลังกรณีทีละน้อย ความสูญเสียจากการครอบคลุมที่ไม่เพียงพอจะลดลง ในขณะเดียวกัน ตัวดึงข้อมูลจะอัปเดตผ่านข้อเสนอแนะแบบไบนารี ค่อยๆ ลดความเสียใจในการดึงข้อมูลที่เกิดจากการเลือกกรณีผิด ภายใต้สมมติฐานที่สมเหตุสมผล CASCADE สามารถรับประกันการเรียนรู้แบบไม่มีความเสียใจได้

ดังนั้น CASCADE ไม่ใช่แค่โมดูลความจำ แต่เป็นกรอบการเรียนรู้จากประสบการณ์ออนไลน์ที่เป็นหลักการสำหรับกระแสงานการปรับใช้

การวัดประสิทธิภาพการเรียนรู้ระหว่างการปรับใช้: DTLBench

เพื่อประเมินความสามารถในการเรียนรู้ระหว่างการปรับใช้อย่างเป็นระบบ บทความได้สร้าง DTLBench การวัดประสิทธิภาพนี้ประกอบด้วย 16 งาน ครอบคลุมหลายสาขา เช่น การแพทย์ กฎหมาย การเงิน การดำเนินงานอัจฉริยะ การเขียนโปรแกรม การตัดสินใจเชิงรูปธรรม การสืบค้นข้อมูล และรวมถึงงานแบบรอบเดียวและหลายรอบ

งานแบบรอบเดียวประกอบด้วย: การวินิจฉัยทางการแพทย์ การแนะนำยา การส่งต่อแผนก การคัดแยกผู้ป่วยฉุกเฉิน การพยากรณ์ข้อหาทางกฎหมาย การพยากรณ์โทษ การกำหนดเส้นทางทางการเงิน การวิเคราะห์ความรู้สึกทางการเงิน การวิเคราะห์สาเหตุที่แท้จริง การวินิจฉัยข้อบกพร่องของบันทึกระบบ Text-to-SQL
งานแบบหลายรอบประกอบด้วย: ALFWorld คลาสสิก, ScienceWorld และสองสถานการณ์ที่ใกล้เคียงกับการใช้งานจริงมากขึ้น – การค้นหาเชิงลึกบนเว็บและการให้เหตุผลตารางที่ซับซ้อนบนบันทึกสุขภาพอิเล็กทรอนิกส์

ใน DTLBench แต่ละงานถูกจัดเป็นลำดับคำถามออนไลน์ ตัวแทนต้องประมวลผลตัวอย่างตามลำดับ โดยสามารถใช้ประโยชน์จากปฏิสัมพันธ์และข้อเสนอแนะทางประวัติศาสตร์ที่เกิดขึ้นแล้วเท่านั้น ความแตกต่างนี้ทำให้อัตราความสำเร็จในขั้นตอนการปรับใช้เป็นตัวชี้วัดการประเมินหลัก

ผลการทดลองหลัก

ใน 12 งานแบบรอบเดียว เมื่อใช้ Qwen3-32B เป็นโมเดลพื้นฐาน อัตราความสำเร็จเฉลี่ยของพรอมต์แบบศูนย์ตัวอย่างคือ 48.33% NP-CBR ที่ไม่ใช่พารามิเตอร์ถึง 63.76% ในขณะที่ CASCADE เพิ่มขึ้นเป็น 66.68% ผลลัพธ์นี้ชี้ให้เห็นว่าการใช้กรณีซ้ำเพียงอย่างเดียวก็ให้ประโยชน์ที่สำคัญแล้ว บนพื้นฐานนี้ การใช้ข้อเสนอแนะออนไลน์เพื่อเรียนรู้กลยุทธ์การดึงข้อมูลสามารถปรับปรุงประสิทธิภาพระยะยาวในลำดับการปรับใช้ได้

เมื่อเปรียบเทียบกับพื้นฐานการอัปเดตพารามิเตอร์ REINFORCE+LoRA CASCADE ได้ผลลัพธ์ที่ดีกว่าใน 9 จาก 12 งานแบบรอบเดียว และมีประสิทธิภาพใกล้เคียงกันในงานที่เหลือ ในขณะเดียวกัน CASCADE ไม่จำเป็นต้องอัปเดตพารามิเตอร์ของโมเดลภาษาขนาดใหญ่พื้นฐาน การใช้หน่วยความจำในกระบวนการเรียนรู้ต่ำกว่า 4GB เหมาะสำหรับการทำงานภายใต้เงื่อนไขการปรับใช้ที่เบากว่า

บทความยังยืนยันความเหมาะสมของ CASCADE กับขนาดโมเดลพื้นฐานที่แตกต่างกัน บน Qwen3-4B, 8B, 14B, 32B CASCADE ให้การปรับปรุงที่เสถียรในการตั้งค่าส่วนใหญ่ สำหรับโมเดลกล่องดำ gemini-2.0-flash CASCADE ก็ใช้ได้เช่นกัน โดยเพิ่มอัตราความสำเร็จเฉลี่ยเป็น 72.58% ใน 9 งานที่ประเมินได้ สูงกว่าพรอมต์แบบศูนย์ตัวอย่างที่ 56.58% และ NP-CBR ที่ 70.68%

ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าการเรียนรู้ระหว่างการปรับใช้ไม่จำเป็นต้องพึ่งพาการเข้าถึงพารามิเตอร์ของโมเดลภาษาขนาดใหญ่ สำหรับโมเดลกล่องดำที่ให้บริการผ่าน API หรือระบบอุตสาหกรรมที่ไม่เหมาะสำหรับการปรับแต่งบ่อยครั้ง CASCADE นำเสนอเส้นทางที่เป็นไปได้สำหรับการปรับตัวอย่างต่อเนื่องผ่านส่วนประกอบภายนอกของตัวแทน

บน ALFWorld CASCADE เพิ่มอัตราความสำเร็จจาก 62.01% ของ NP-CBR เป็น 67.43%; บน ScienceWorld จาก 59.36% เป็น 66.84% การแทรก CASCADE เข้าไปในกรอบ ReAct ยังช่วยเพิ่มอัตราการทำงานสำเร็จของตัวแทนในสภาพแวดล้อมหลายรอบอีกด้วย

ในสถานการณ์การค้นหาเชิงลึกบนเว็บ ตัวแทนต้องเรียกใช้เครื่องมือ RAG ในเครื่องหรือเครื่องมือค้นหาเว็บแบบเรียลไทม์หลายครั้งเพื่อทำงานตอบคำถามแบบหลายขั้นตอนให้สำเร็จ หลังจากนำการเรียนรู้ระหว่างการปรับใช้มาใช้ CASCADE แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญทั้งในการตั้งค่า RAG ในเครื่องและการค้นหาเว็บแบบเรียลไทม์

ในงานการให้เหตุผลตารางบันทึกสุขภาพอิเล็กทรอนิกส์ ตัวแทนต้องสืบค้นฐานข้อมูลผ่าน API และเขียนโค้ดที่เกี่ยวข้อง อัตราความสำเร็จของพรอมต์แบบศูนย์ตัวอย่างคือ 20.75% วิธี NP-CBR ถึง 44.02% ในขณะที่ CASCADE เพิ่มขึ้นเป็น 55.76% พร้อมลดจำนวนรอบการดีบักเฉลี่ยอย่างมีประสิทธิภาพ

สรุป

CASCADE มีเป้าหมายเพื่อตอบสนองต่อปัญหาสำคัญที่เกิดขึ้นมากขึ้นในกระบวนการปรับใช้ LLM Agent: เมื่องานมาถึงอย่างต่อเนื่อง ข้อเสนอแนะสะสมมากขึ้นเรื่อยๆ ในขณะที่พารามิเตอร์โมเดลพื้นฐานยังคงไม่เปลี่ยนแปลง ตัวแทนจะเรียนรู้ในกระบวนการโต้ตอบจริงได้อย่างไร?

การมีส่วนร่วมหลักของบทความนี้สามารถสรุปได้เป็นสามประเด็นต่อไปนี้:

เสนอการเรียนรู้ระหว่างการปรับใช้ โดยทำให้ขั้นตอนการปรับใช้ของ LLM Agent เป็นทางการเป็นการเรียนรู้จากประสบการณ์ออนไลน์ที่ไม่ต้องอัปเดตพารามิเตอร์
เสนอ CASCADE โดยใช้การให้เหตุผลตามกรณีและการเรียนรู้การพนันตามบริบท สร้างกรอบการเรียนรู้ระหว่างการปรับใช้ที่เป็นหลักการ
สร้าง DTLBench เพื่อประเมินประสิทธิภาพระยะยาวของตัวแทนในลำดับงานออนไลน์บน 16 งานข้ามสาขา

จากมุมมองนี้ จุดเน้นของ CASCADE ไม่ใช่การพิสูจน์ซ้ำว่า “ประสบการณ์มีประโยชน์” แต่เป็นการเสนอเพิ่มเติมว่า: กระบวนการปรับใช้สามารถถูกสร้างแบบจำลอง ประเมิน และปรับให้เหมาะสมได้ เมื่อระบบตัวแทนค่อยๆ เข้าสู่สถานการณ์การใช้งานที่เปิดกว้างมากขึ้น ระยะยาวมากขึ้น และพึ่งพาเครื่องมือมากขึ้น การใช้ข้อเสนอแนะเพื่อการเรียนรู้ที่เสถียรในกระแสงานจริง อาจกลายเป็นทิศทางการวิจัยที่สำคัญหลังการปรับใช้โมเดลขนาดใหญ่