OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI

2 hours ago • การฝึกโมเดลขนาดใหญ่ • 13 views

ตลอดสัปดาห์ที่ผ่านมา เอไอเอเจนต์รูปการ์ตูนกุ้งมังกรสีแดงชื่อ OpenClaw ได้รับความสนใจอย่างกว้างขวาง ประสบการณ์การใช้เอไอเอเจนต์ที่สามารถทำงานเฉพาะเจาะจงนี้ค่อนข้างน่าตื่นเต้น: ตั้งแต่ผู้ใช้แย่งกันติดตั้ง ไปจนถึงการถอนการติดตั้งอย่างเร่งรีบเนื่องจากปัญหาการใช้งาน (เช่น ความปลอดภัยของบัญชี การดำเนินการกับไฟล์ผิดพลาด) วงจรชีวิตอาจสั้นเพียงหนึ่งสัปดาห์

แล้วจะทำให้เอไอเอเจนต์ประเภทนี้พัฒนาอย่างต่อเนื่องในการใช้งาน แทนที่จะก่อให้เกิดปัญหาอย่างไร? หยางหลิง (Yang Ling) ปริญญาเอกจากมหาวิทยาลัยปักกิ่ง และนักวิจัยหลังปริญญาเอกที่มหาวิทยาลัยพรินซ์ตัน สหรัฐอเมริกา (ที่ปรึกษาร่วมคือศาสตราจารย์หวังเหมิงตี้) และสมาชิกในทีมของเธอ (รวมถึง ดร.หวังยิ่นเจี๋ย และคนอื่นๆ) ได้เสนอแนวทางแก้ไขหนึ่ง โดยมีเป้าหมายเพื่อทำให้เอเจนต์ฉลาดขึ้นเรื่อยๆ จากการใช้งาน

OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI
ภาพ | หยางหลิง (ที่มา: ผู้ให้สัมภาษณ์)

เมื่อเร็วๆ นี้ ทีมของหยางหลิงได้เผยแพร่เฟรมเวิร์กโอเพนซอร์สชื่อ OpenClaw-RL ตรรกะหลักของมันเรียบง่ายแต่ลึกซึ้ง: การสนทนาธรรมชาติทุกครั้งระหว่างผู้ใช้กับเอไอ นั่นคือข้อมูลการฝึกที่มีคุณภาพสูงในตัวของมันเอง เฟรมเวิร์กนี้อนุญาตให้เอไอเรียนรู้อย่างต่อเนื่องในพื้นหลัง ขณะที่ให้บริการผู้ใช้ตามปกติ ผ่านโมดูลสี่โมดูลที่แยกจากกันโดยสมบูรณ์และทำงานแบบอะซิงโครนัส: บริการนโยบาย การรวบรวมเส้นทางการทำงาน การประเมินรางวัลกระบวนการ และการฝึกพารามิเตอร์ โดยแต่ละโมดูลไม่ขัดขวางซึ่งกันและกัน

OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI
(ที่มา: https://arxiv.org/pdf/2603.10165)

หยางหลิงกล่าวว่า: “งานวิจัยของเรามุ่งเน้นไปที่การเรียนรู้แบบเสริมกำลังออนไลน์ในบริบทเฉพาะบุคคล ทิศทางนี้ก่อนหน้านี้ขาดการศึกษาอย่างเป็นระบบ จุดยากหลักคือการขาดข้อมูลปฏิสัมพันธ์ที่เกิดขึ้นตามธรรมชาติเพื่อสร้างการทดสอบมาตรฐานที่สามารถทำซ้ำได้ อุตสาหกรรมก็ขาดวงจรการฝึกแบบ end-to-end ด้วย”

“งานของเราเทียบเท่ากับการจัดเตรียมโครงสร้างพื้นฐานและระเบียบวิธีที่สมบูรณ์ชุดแรกสำหรับทิศทางนี้ ตั้งแต่การรวบรวมข้อมูล การสกัดสัญญาณ ไปจนถึงการปรับปรุงนโยบาย ก่อให้เกิดวงจรปิดที่นำไปปฏิบัติได้จริง และยังนำมุมมองการวิจัยใหม่เข้ามาด้วย” เธอเสริม

ข้อมูลเชิงลึกที่สำคัญของระบบนี้อยู่ที่การนำทรัพยากรที่ถูกละเลยมาใช้ใหม่ในระยะยาว: “สถานะถัดไป” ที่เอไอได้รับหลังจากดำเนินการแต่ละครั้ง ซึ่งรวมถึงการตอบกลับของผู้ใช้ ผลลัพธ์ของเครื่องมือ ผลการทดสอบ หรือการเปลี่ยนแปลงของอินเทอร์เฟซ เป็นต้น ระบบดั้งเดิมใช้สัญญาณเหล่านี้เป็นเพียงบริบทสำหรับการสนทนารอบถัดไป ในขณะที่ OpenClaw-RL ถือว่าโดยพื้นฐานแล้ว สัญญาณเหล่านี้คือข้อเสนอแนะที่ตรงและอุดมสมบูรณ์ที่สุดต่อคุณภาพของการกระทำในขั้นตอนก่อนหน้า ซึ่งสามารถแปลงเป็นสัญญาณการฝึกการเรียนรู้แบบเสริมกำลังได้โดยไม่ต้องมีการติดป้ายกำกับโดยมนุษย์

สัญญาณเหล่านี้มีข้อมูลสองประเภทที่แตกต่างกัน:

1. สัญญาณเชิงประเมิน
สัญญาณที่ชัดเจนของผู้ใช้ เช่น พอใจ/ไม่พอใจ การถามซ้ำ (อาจบ่งบอกถึงความไม่พอใจ) การทดสอบงานผ่าน เป็นต้น ถูกจับโดยโมดูลที่เรียกว่า “โมเดลรางวัลกระบวนการ” (Process Reward Model, PRM) เพื่อเพิ่มความแข็งแกร่ง ระบบจะประเมินการกระทำแต่ละขั้นหลายครั้งอย่างอิสระ และแปลงเป็นรางวัลสเกลาร์ +1 (ดี), -1 (แย่) หรือ 0 (กลาง) ผ่านกลไกการลงคะแนนเสียงส่วนใหญ่ ต่างจากวิธีการดั้งเดิมที่ให้รางวัลเดียวเมื่อสิ้นสุดงาน การประเมินทีละขั้นตอนนี้ทำให้ความหนาแน่นของสัญญาณการฝึกเพิ่มขึ้นหนึ่งลำดับความสำคัญ ทำให้โมเดลสามารถระบุได้อย่างแม่นยำว่าขั้นตอนใดถูกหรือผิด

2. สัญญาณเชิงแนะแนว
เมื่อผู้ใช้ให้ข้อเสนอแนะเช่น “คุณควรตรวจสอบไฟล์ก่อนแก้ไข” นี่ไม่ใช่แค่การติชม แต่ยังรวมถึงคำแนะนำแก้ไขที่เฉพาะเจาะจง รางวัลสเกลาร์เพียงอย่างเดียวไม่สามารถส่งผ่านข้อมูลระดับละเอียดนี้ได้ ด้วยเหตุนี้ ทีมจึงออกแบบวิธีการ “การกลั่นนโยบายออนไลน์โดยใช้คำแนะนำย้อนหลัง” (Hindsight-Guided On-Policy Distillation, OPD) แนวคิดหลักคือ: เมื่อการตอบกลับของผู้ใช้มีข้อมูลแก้ไข ระบบจะสกัด “คำแนะนำย้อนหลัง” (เช่น “ควรตรวจสอบก่อนว่าไฟล์มีอยู่หรือไม่”) ออกมา และเพิ่มเข้าไปในประวัติการสนทนาดั้งเดิม เพื่อสร้าง “คำแนะนำแบบเสริม”

ประเด็นสำคัญคือ ระบบไม่ได้ให้โมเดลสร้างคำตอบใหม่ แต่ให้โมเดลเดียวกันนี้ ประเมินความน่าจะเป็นในการสร้างแต่ละคำในคำตอบดั้งเดิมของมันอีกครั้งภายใต้คำแนะนำแบบเสริม หากความน่าจะเป็นของคำใดเพิ่มขึ้น “หลังจากทราบคำแนะนำ” แสดงว่าคำนั้นสอดคล้องกับทิศทางที่ถูกต้องมากขึ้น และควรได้รับการเสริมแรง ในทางกลับกันควรถูกยับยั้ง สัญญาณเชิงทิศทางระดับคำต่อคำนี้ มีข้อมูลการแก้ไขที่อุดมสมบูรณ์กว่าคะแนน “ดี/แย่” ง่ายๆ

สัญญาณทั้งสองประเภทเสริมซึ่งกันและกัน: สัญญาณเชิงประเมินครอบคลุมกว้าง ละเอียดหยาบแต่มีอยู่ทุกที่ สัญญาณเชิงแนะแนวเกิดขึ้นน้อยกว่า แต่มีความหนาแน่นของข้อมูลสูงมาก การทดลองในเอกสารแสดงให้เห็นว่าการใช้ทั้งสองร่วมกันได้ผลดีกว่าการใช้อย่างใดอย่างหนึ่งเพียงอย่างเดียวอย่างมีนัยสำคัญ

ทีมวิจัยได้ทำการทดสอบในสองสถานการณ์จำลอง:
* สถานการณ์ที่หนึ่ง: นักเรียนใช้เอไอช่วยทำการบ้าน (ข้อกำหนดคือต้องไม่ถูกตรวจพบว่าเป็นผลงานของเอไอ)
* สถานการณ์ที่สอง: ครูใช้เอไอตรวจการบ้าน (ข้อกำหนดคือคำวิจารณ์ต้องเฉพาะเจาะจงและเป็นมิตร)

ในตัวอย่างการตรวจการบ้าน เอไอเริ่มต้นจะให้คำวิจารณ์ทั่วไปเช่น “ถูกต้อง ทำได้ดีมาก” หลังจากผ่านการปรับปรุง 24 รอบ มันสามารถสร้างคำวิจารณ์ที่เฉพาะเจาะจงและสมจริงเช่น “ขั้นตอนการแปลง 3 สัปดาห์เป็น 21 วันนี้ นักเรียนหลายคนมักลืม แต่คุณจัดการได้อย่างแม่นยำ” และเสริมด้วยอีโมจิ ซึ่งสอดคล้องกับนิสัยการสื่อสารของมนุษย์มากขึ้น

ความก้าวหน้าทางวิศวกรรมที่สำคัญอย่างหนึ่งของ OpenClaw-RL คือการเปลี่ยนการฝึกเอไอจาก “อัปเดตโดยหยุดบริการ” เป็น “เรียนรู้ไปใช้ไป” ระบบใช้สถาปัตยกรรมแบบอะซิงโครนัสทั้งหมด: บริการนโยบายตอบสนองคำขอผู้ใช้อย่างต่อเนื่อง ตัวรวบรวมเส้นทางการทำงานดึงข้อมูลพร้อมกัน โมดูลประเมินรางวัลให้คะแนนพร้อมกัน ตัวฝึกอัปเดตพารามิเตอร์ในพื้นหลัง หลังจากอัปเดตพารามิเตอร์เสร็จสิ้น ระบบจะหยุดการส่งข้อมูลชั่วคราว โหลดน้ำหนักใหม่ จากนั้นกลับมาให้บริการอย่างราบรื่น โดยผู้ใช้ไม่รู้สึกถึงการหยุดชะงัก

ทีมยังได้นำ OpenClaw-RL ไปใช้กับสถานการณ์เอเจนต์ทั่วไปที่ซับซ้อนยิ่งขึ้น ครอบคลุมงานสี่ประเภท: การดำเนินการบนเทอร์มินัล (สภาพแวดล้อมขนาน 128 ตัว) การดำเนินการบนอินเทอร์เฟซกราฟิก (64 ตัว) การเขียนโค้ด (64 ตัว) และการเรียกใช้เครื่องมือ (32 ตัว) ในงานเรียกใช้เครื่องมือ การรวมรางวัลกระบวนการและรางวัลผลลัพธ์ ทำให้ความแม่นยำของโมเดลเพิ่มขึ้นจากค่าเบสไลน์ 17% เป็น 76% ซึ่งเป็นการเพิ่มประสิทธิภาพกว่า 4 เท่า

หยางหลิงชี้ให้เห็นว่าการค้นพบที่สำคัญอย่างหนึ่งของเฟรมเวิร์กนี้คือ: ข้อมูลปฏิสัมพันธ์จากสถานการณ์เอเจนต์ที่แตกต่างกัน (เทอร์มินัล, GUI, โค้ด, การเรียกใช้เครื่องมือ) สามารถฝึกร่วมกันภายใต้เฟรมเวิร์กเดียวกันได้ และโมเดลแสดงแนวโน้มการปรับปรุงโดยรวมในทุกมิติ “นี่หมายความว่าการฝึกการเรียนรู้แบบเสริมกำลังสำหรับเอเจนต์แบบรวมเป็นหนึ่งเดียวเป็นไปได้” หยางหลิงกล่าว “สิ่งนี้มีความสำคัญอย่างยิ่งต่อการสร้างเอไอเอเจนต์ที่แท้จริงและเป็นสากล เพราะเอเจนต์สากลต้องรับมือกับงาน สถานการณ์ และความต้องการที่หลากหลาย เท่าที่เราทราบ มุมมองการฝึกข้ามสถานการณ์ร่วมกันนี้ยังไม่เคยถูกสำรวจอย่างเป็นระบบมาก่อน”

“งานวิจัยนี้ตั้งแต่การคิด构思จนถึงการนำไปปฏิบัติเป็นโอเพนซอร์ส ใช้เวลาเพียงสามวัน แน่นอนว่าการสื่อสารที่จำเป็นขาดไม่ได้ แต่ในยุคปัจจุบัน ความเร็วจากความคิดสู่การนำไปปฏิบัติสำหรับบางแนวคิดสามารถรวดเร็วมาก” หยางหลิงกล่าว

เธอเสริมเพิ่มเติม: “อย่างไรก็ตาม ในยุคที่ไล่ตามความเร็วนี้ การตัดสินปัญหาและรสนิยมการวิจัยกลับสำคัญยิ่งขึ้น การเลือกจะวิจัยอะไร ไม่วิจัยอะไร สามารถระบุปัญหาที่มีคุณค่าในระยะยาวได้หรือไม่ สิ่งเหล่านี้กำหนดว่าทิศทางการวิจัยจะไปได้ไกลแค่ไหน การปฏิบัติก็สำคัญเช่นกัน นี่ไม่เพียงหมายถึงว่าโมเดลจะได้ตัวชี้วัดเชิงปริมาณที่ดีหรือไม่ แต่ยังหมายถึงว่าระบบทั้งหมดจะสามารถนำไปปฏิบัติจริงและถูกใช้อย่างมีประสิทธิภาพได้หรือไม่”

เกี่ยวกับแนวโน้มการประยุกต์ใช้ หยางหลิงเชื่อว่า OpenClaw-RL มีทิศทางการนำไปปฏิบัติที่มีคุณค่าสูงสองทิศทาง:

ประการแรกคือ สถานการณ์เฉพาะที่อ่อนไหวต่อความเป็นส่วนตัว เช่น หน่วยงานรัฐบาล สถาบันการเงิน และสถาบันการแพทย์ สถานการณ์เหล่านี้ไม่สามารถส่งข้อมูลไปยัง API ของโมเดลใหญ่ภายนอกได้ แต่มีความต้องการเอไอเอเจนต์อย่างมาก OpenClaw-RL เสนอเส้นทางที่เป็นไปได้: ติดตั้งโมเดลในท้องถิ่น และปรับปรุงอย่างต่อเนื่องผ่านการโต้ตอบประจำวัน เพื่อให้มั่นใจว่าข้อมูลไม่เคยออกนอกพื้นที่ท้องถิ่นตลอดกระบวนการ

ประการที่สองคือ การฝึกเอเจนต์ขนาดใหญ่ระดับอุตสาหกรรม “ปัจจุบันเฟรมเวิร์กการฝึกเอเจนต์โอเพนซอร์สหลายตัวได้รับการปรับให้เหมาะสมสำหรับสถานการณ์เดียว” หยางหลิงกล่าว “ระบบของเรารองรับการข้ามสถานการณ์ตั้งแต่การออกแบบ เทอร์มินัล, GUI, โค้ด, การเรียกใช้เครื่องมือ สามารถฝึกร่วมกันในเฟรมเวิร์กเดียวกันได้ ซึ่งหมายความว่าสถาปัตยกรรมของมันเหมาะโดยธรรมชาติสำหรับการขยายไปสู่การปรับปรุงเอเจนต์หลายสถานการณ์ในระดับอุตสาหกรรม”

หลังจากเผยแพร่เอกสาร หยางหลิงได้รับคำเชิญให้ร่วมมือมากมายจากทั้งแวดวงวิชาการและอุตสาหกรรม ทีมวางแผนที่จะดำเนินการตามสองแนวทางหลักควบคู่กันไป

การขยายลึกด้านการวิจัย: ทีมหวังที่จะขุดลึกและทำความเข้าใจกระบวนทัศน์ “การเรียนรู้สถานะถัดไป” นี้ให้ลึกซึ้งและสมบูรณ์ การประยุกต์ใช้จะไม่จำกัดอยู่เพียงการปรับปรุงนโยบาย แต่จะขยายไปยังระบบความจำของเอเจนต์และกลไกการสะสมทักษะด้วย เป้าหมายสุดท้ายคือการสร้างระบบการเรียนรู้เอเจนต์ที่สมบูรณ์ซึ่งสามารถวิวัฒนาการได้ด้วยตนเองในการโต้ตอบอย่างต่อเนื่อง

วิศวกรรมและการประยุกต์ใช้: ทีมวางแผนที่จะทดสอบความสามารถในการขยายตัวของเฟรมเวิร์กในสถานการณ์จริงที่ใหญ่ขึ้นและซับซ้อนยิ่งขึ้น และร่วมมือกับองค์กรที่มีความต้องการในการติดตั้งเอเจนต์จริง เพื่อขับเคลื่อนให้เทคโนโลยีลงสู่การปฏิบัติ

เมื่อพูดถึงแผนต่อไป หยางหลิงกล่าวว่า:

ในด้านหนึ่ง เราหวังที่จะลดอุปสรรคในการใช้งานอย่างมาก ทำให้การฝึกเอเจนต์เฉพาะบุคคลสามารถใช้งานได้ทันที ปัจจุบันผู้ใช้จำนวนมากประสบปัญหาแม้แต่กับการตั้งค่าสภาพแวดล้อม ไม่ต้องพูดถึงการทำงานงานการเรียนรู้แบบเสริมกำลัง เราจะปรับปรุงเอกสารและเครื่องมืออย่างต่อเนื่อง โดยมีเป้าหมายเพื่อให้นักพัฒนาทั่วไปสามารถใช้เทคโนโลยีชุดนี้ได้อย่างสะดวก

ในอีกด้านหนึ่ง คือการขยายลึกของกระบวนทัศน์ “การเรียนรู้สถานะถัดไป” เอง ปัจจุบันเราสกัดสัญญาณเชิงประเมินและสัญญาณเชิงแนะแนวเป็นหลัก แต่ใน “สถานะถัดไป” ยังมีสัญญาณเชิงทำนายแฝงอยู่ด้วย นั่นคือเอเจนต์จะสามารถเรียนรู้ที่จะคาดการณ์ผลที่ตามมาของการกระทำของตัวเองได้หรือไม่ หากความสามารถในระดับนี้ได้รับการเปิดใช้งาน เอเจนต์จะไม่รอข้อเสนอแนะจากสภาพแวดล้อมอย่างเฉยเมยอีกต่อไป แต่จะสามารถหลีกเลี่ยงรูปแบบความล้มเหลวที่รู้จักได้อย่างกระตือรือร้น

นอกจากนี้ กระบวนทัศน์นี้มีศักยภาพในการข้ามสถานการณ์โดยธรรมชาติ งานสี่ประเภท ได้แก่ การสนทนา การเรียกใช้เครื่องมือ การเขียนโค้ด การดำเนินการบนอินเทอร์เฟซกราฟิก แม้ “สถานะถัดไป” ที่เกิดขึ้นจะมีรูปร่างแตกต่างกัน แต่ทั้งหมดสามารถนำเข้าสู่กรอบการเรียนรู้เดียวกันเพื่อประมวลผลและปรับปรุงอย่างเป็นหนึ่งเดียว นี่เป็นทิศทางที่มีศักยภาพมาก และเรากำลังดำเนินการอย่างแข็งขัน

แหล่งข้อมูลอ้างอิง:
– เอกสารวิจัยที่เกี่ยวข้อง: https://arxiv.org/pdf/2603.10165

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25995