โมเดลขนาดเล็กจะกลายเป็นผู้เชี่ยวชาญเอเจนต์อัจฉริยะได้อย่างไร?
โดยทั่วไป การเสริมความสามารถของเอเจนต์โมเดลขนาดใหญ่มักใช้กระบวนทัศน์ “การเสริมทักษะ” ซึ่งหมายถึงการค้นหาและจัดเตรียมความรู้ทักษะที่มีโครงสร้างที่เกี่ยวข้องในระหว่างการให้เหตุผล อย่างไรก็ตาม กระบวนทัศน์นี้มีข้อจำกัดอย่างมากสำหรับโมเดลขนาดเล็กที่มีพารามิเตอร์จำกัด (เช่น 3B, 7B)
เพื่อแก้ไขปัญหานี้ นักวิจัยจากมหาวิทยาลัยเจ้อเจียง ร่วมกับทีม Longmao ของ Meituan และมหาวิทยาลัยชิงหวา ได้เสนอเฟรมเวิร์ก SKILL0 และกระบวนทัศน์ใหม่ของ การทำให้ทักษะเป็นส่วนหนึ่งภายใน แนวคิดหลักคือ: ให้โมเดลขนาดเล็กทำให้ความรู้เชิงกระบวนการกลายเป็นส่วนหนึ่งภายในพารามิเตอร์โมเดลในระหว่างขั้นตอนการฝึกฝน ดังนั้นในระหว่างการให้เหตุผลจึงไม่จำเป็นต้องพึ่งพาฐานทักษะภายนอก และสามารถดำเนินการได้ด้วยตนเองแบบ zero-shot

แนวคิดนี้เลียนแบบกระบวนการเรียนรู้ของมนุษย์ ซึ่งเปลี่ยนจาก “การอ้างอิงคู่มือคำแนะนำ” ไปสู่ “การทำสำเร็จได้ด้วยตนเองโดยอาศัยความจำของกล้ามเนื้อ” SKILL0 ใช้กลไกสำคัญสองประการ ได้แก่ การเรียนรู้แบบเสริมกำลังด้วยบริบท และ การเรียนรู้แบบไดนามิกคอร์ส เพื่อค่อยๆ ลดการอ้างอิงทักษะในการฝึกฝน และกระตุ้นให้โมเดลทำให้ทักษะกลายเป็น “สัญชาตญาณ” ภายใน
ข้อจำกัดของกระบวนทัศน์ “การเสริมทักษะ”
เอกสารวิจัยชี้ให้เห็นว่าวิธี “การเสริมทักษะ” ในระหว่างการให้เหตุผลไม่เหมาะกับโมเดลขนาดเล็ก ด้วยเหตุผลหลักสามประการ:
- สัญญาณรบกวนจากการค้นหาเป็นอันตรายร้ายแรง: อาจนำคำแนะนำที่ไม่เกี่ยวข้องหรือทำให้เข้าใจผิดเข้ามา ซึ่งจะทำให้บริบทที่มีจำกัดของโมเดลขนาดเล็กปนเปื้อนอย่างรุนแรง และยังพึ่งพาคุณภาพของการค้นหาภายนอกอย่างมาก
- ค่าใช้จ่าย Token พุ่งสูง: การเพิ่มจำนวนทักษะและการโต้ตอบหลายรอบของเอเจนต์จะทำให้ความยาวของบริบทขยายตัวอย่างรวดเร็ว และใช้ทรัพยากรการคำนวณจำนวนมาก
- ขาดความเข้าใจเชิงลึก: โมเดลไม่ได้เรียนรู้ทักษะอย่างแท้จริง แต่เพียง “อ่านตามบท” ในระหว่างการให้เหตุผลเท่านั้น เมื่อถอนการสนับสนุนทักษะออก ประสิทธิภาพของโมเดลจะลดลงอย่างมาก

△ การเปรียบเทียบระหว่างการเสริมทักษะ (ซ้าย) และการทำให้ทักษะเป็นส่วนหนึ่งภายใน (ขวา) โซลูชันดั้งเดิมต้องค้นหาเอกสารทักษะทุกครั้งที่ให้เหตุผล; SKILL0 ใช้ทักษะเฉพาะในระหว่างการฝึกฝนเท่านั้น และดำเนินการด้วยตนเองอย่างสมบูรณ์ในระหว่างการให้เหตุผล
จาก “การเสริมทักษะ” สู่ “การทำให้ทักษะเป็นส่วนหนึ่งภายใน”
เฟรมเวิร์ก SKILL0 ทำซ้ำกระบวนการทั้งหมดของการที่มนุษย์เชี่ยวชาญทักษะ นวัตกรรมหลักสามารถแบ่งออกเป็นสามขั้นตอน:

△ รูปที่ 2: ภาพรวมของเฟรมเวิร์ก SKILL0 a: การจัดกลุ่มทักษะที่ขับเคลื่อนโดยความเกี่ยวข้อง; b: วงจรการฝึกฝนเอเจนต์พร้อมทักษะ; c: การเรียนรู้แบบไดนามิกคอร์สในระหว่างกระบวนการฝึกฝน
ขั้นตอนที่หนึ่ง: สร้างคลังทักษะแบบลำดับชั้น
ก่อนเริ่มการฝึกฝน ให้สร้างคลังทักษะแบบลำดับชั้นล่วงหน้า แบ่งออกเป็นสองประเภท:
* ทักษะทั่วไป: หลักการกลยุทธ์ข้ามงาน เช่น “สำรวจก่อน แล้วจึงดำเนินการ”
* ทักษะเฉพาะงาน: ความรู้เฉพาะทางสำหรับโดเมนเฉพาะ เช่น “วิธีการค้นหาคุณลักษณะของเอนทิตีในงานค้นหา”
ทักษะจะถูกจัดกลุ่มตามความเกี่ยวข้อง เพื่อใช้เป็น “หนังสืออ้างอิง” ในขั้นตอนการฝึกฝน และวางรากฐานสำหรับการคัดเลือกแบบไดนามิกในการเรียนรู้แบบคอร์สในภายหลัง
ขั้นตอนที่สอง: การเรียนรู้แบบเสริมกำลังด้วยบริบท – ส่งเสริมการเรียนรู้จริงแทนการเลียนแบบผิวเผิน
โซลูชันการเรียนรู้แบบเสริมกำลังแบบดั้งเดิมมีภาวะกลืนไม่เข้าคายไม่ออก: หากไม่ให้ทักษะเลยตลอดกระบวนการ โมเดลจะเรียนรู้งานที่ซับซ้อนได้ยาก; หากให้ทักษะตลอดกระบวนการ โมเดลจะเพียงเลียนแบบแบบกลไก และไม่สามารถสร้างความสามารถภายในได้
SKILL0 ใช้ การเรียนรู้แบบเสริมกำลังด้วยบริบท: ในระหว่างการฝึกฝน ให้จัดเตรียมบริบททักษะที่สมบูรณ์ให้กับโมเดล; ในระหว่างการประเมินการให้เหตุผล จะถอนทักษะทั้งหมดออกอย่างสมบูรณ์ เพื่อให้มั่นใจในประสิทธิภาพ ทักษะและข้อมูลการโต้ตอบในอดีตจะถูก เรนเดอร์เป็นภาพที่เข้ารหัสสีเชิงความหมาย จากนั้นบีบอัดด้วยตัวเข้ารหัสภาพ จึงช่วยประหยัดค่าใช้จ่าย Token ข้อความได้อย่างมากและยังคงรักษาข้อมูลโครงสร้างไว้
โมเดลคำนวณฟังก์ชันความได้เปรียบตามรางวัลงานสภาพแวดล้อมและรางวัลการบีบอัดด้วยตนเอง เพื่ออัปเดตพารามิเตอร์:

ขั้นตอนที่สาม: การเรียนรู้แบบไดนามิกคอร์ส – ค่อยๆ ถอน “นั่งร้าน” ออก
กระบวนการฝึกฝนแบ่งออกเป็นหลายเฟส ในแต่ละเฟส จำนวนทักษะที่อนุญาตให้ใช้ (งบประมาณทักษะ) จะลดลงแบบเส้นตรง ตัวอย่างเช่น ในงาน ALFWorld ไฟล์ทักษะ 6 ไฟล์ได้รับการฝึกฝนใน 3 เฟส ลำดับงบประมาณคือ [6, 3, 0]
การคัดเลือกทักษะไม่ได้กำหนดไว้ล่วงหน้า แต่ดำเนินการแบบไดนามิกผ่านชุดกลไก “ประเมิน-กรอง-เรียงลำดับ-เลือก” ออนไลน์:
1. ประเมินระดับความช่วยเหลือ: ทดสอบเป็นระยะว่าการมีอยู่หรือไม่มีของไฟล์ทักษะแต่ละไฟล์ส่งผลต่อความแม่นยำของงานอย่างไร ผลต่างคือ “ระดับความช่วยเหลือ” ของทักษะนั้น
2. กรองและเรียงลำดับ: รักษาเฉพาะทักษะที่มีระดับความช่วยเหลือมากกว่าศูนย์ และเรียงลำดับจากระดับความช่วยเหลือสูงไปต่ำ
3. เลือกตามงบประมาณ: ภายในงบประมาณของเฟสปัจจุบัน เลือกไฟล์ทักษะที่มีอันดับสูงสุดสำหรับโมเดลใช้
เส้นโค้งการเปลี่ยนแปลงระดับความช่วยเหลือในเอกสารวิจัยเปิดเผยพลวัตของการฝึกฝน:

- ช่วงต้นของการฝึกฝน: ระดับความช่วยเหลือต่ำ โมเดลยังไม่เรียนรู้ที่จะใช้ทักษะอย่างมีประสิทธิภาพ
- ช่วงกลางของการฝึกฝน: ระดับความช่วยเหลือเพิ่มขึ้น โมเดลเรียนรู้ที่จะใช้ทักษะเพื่อปรับปรุงประสิทธิภาพ
- ช่วงปลายของการฝึกฝน: ระดับความช่วยเหลือลดลง แสดงว่าความรู้ทักษะได้กลายเป็นส่วนหนึ่งภายในพารามิเตอร์แล้ว และไม่จำเป็นต้องมีคำแนะนำภายนอกอีกต่อไป
การวิเคราะห์ทางทฤษฎีแสดงให้เห็นว่ากลยุทธ์คอร์สที่ลดลงแบบเส้นตรงสามารถรับประกันความเสถียรของการฝึกฝน และหลีกเลี่ยงความผันผวนอย่างรุนแรงในการฝึกฝนเกรเดียนต์นโยบาย
ผลการทดลอง

- งาน ALFWorld: โมเดล SKILL0 พารามิเตอร์ 3B มีอัตราความสำเร็จเฉลี่ย 87.9% ซึ่งสูงกว่าเบสไลน์ RL มาตรฐาน (AgentOCR) 9.7% และยังสูงกว่าเบสไลน์ที่ใช้ทักษะตลอดกระบวนการ (SkillRL, 82.4%) อีกด้วย
- งาน Search-QA: เช่นเดียวกันบนโมเดล 3B SKILL0 มีคะแนนเฉลี่ย 40.8% ซึ่งสูงกว่า AgentOCR 6.6% และเทียบเท่าหรือดีกว่า SkillRL เล็กน้อย
- เหนือกว่าโมเดลขนาดใหญ่แบบปิด: ในงาน ALFWorld SKILL0 พารามิเตอร์ 7B ได้รับอัตราความสำเร็จ 89.8% ภายใต้การให้เหตุผลแบบ zero-skill ซึ่งสูงกว่า GPT-4o (48.0%) และ Gemini-2.5-Pro (60.3%) อย่างมีนัยสำคัญ
นอกจากข้อได้เปรียบด้านประสิทธิภาพแล้ว SKILL0 ยังแสดงให้เห็นถึงประสิทธิภาพ Token สูงมาก ในงาน ALFWorld และ Search-QA ค่าใช้จ่ายบริบทต่อขั้นตอนการให้เหตุผลของโมเดล 3B มีเพียง 0.38k และ 0.18k Token ตามลำดับ ซึ่งประหยัดได้มากกว่า 5 เท่าเมื่อเทียบกับ SkillRL
เส้นโค้งกระบวนการฝึกฝนยืนยันผลของการทำให้ทักษะเป็นส่วนหนึ่งภายใน:

ในช่วงต้นของการฝึกฝน ประสิทธิภาพของโมเดลที่ใช้ทักษะเพิ่มขึ้นเร็วขึ้น แต่เมื่อคอร์สดำเนินไป ประสิทธิภาพของโมเดลที่ไม่ได้ใช้ทักษะค่อยๆ ตามทันและในที่สุดก็แซงหน้าไป ซึ่งพิสูจน์ว่าความรู้ทักษะได้กลายเป็นส่วนหนึ่งภายในอย่างมีประสิทธิภาพแล้ว
การทดลอง ablation ยังยืนยันความสำคัญของการออกแบบหลัก:
* หากให้ทักษะเต็มที่ตลอดกระบวนการฝึกฝน (งบประมาณ [6,6,6]) การถอนทักษะออกในระหว่างการให้เหตุผลจะทำให้ประสิทธิภาพลดลงอย่างรวดเร็ว 12.3% ในขณะที่คอร์สแบบค่อยเป็นค่อยไปของ SKILL0 ([6,3,0]) ทำให้ประสิทธิภาพของโมเดล เพิ่มขึ้น 1.6% หลังจากถอนทักษะออก
* หากลบกลไกการกรองในการเรียนรู้แบบไดนามิกคอร์สออก ประสิทธิภาพจะลดลง 2.7%; หากลบกลไกการเรียงลำดับออกเพิ่มเติม (เลือกทักษะแบบสุ่ม) ประสิทธิภาพจะลดลงอย่างรวดเร็วเหลือ 62.9% ซึ่งต่ำกว่า SKILL0 ที่สมบูรณ์ 13.7%


สรุป
จุดสนใจหลักของการวิจัยเอเจนต์ในปัจจุบันส่วนใหญ่มุ่งเน้นไปที่การปรับปรุงการค้นหา runtime และการฉีดทักษะ SKILL0 เสนอเส้นทางเสริม: ทำให้ความรู้เชิงกระบวนการที่เสถียรและนำกลับมาใช้ใหม่ได้กลายเป็นส่วนหนึ่งภายในพารามิเตอร์โมเดลผ่านการฝึกฝน ซึ่งทำให้โมเดลขนาดเล็กที่มีพารามิเตอร์จำกัดมีศักยภาพที่จะกลายเป็นผู้เชี่ยวชาญด้านโดเมนที่สามารถทำงานที่ซับซ้อนได้ผ่านการฝึกฝนแบบ end-to-end
แน่นอนว่าการทำให้ทักษะเป็นส่วนหนึ่งภายในไม่ได้มีจุดประสงค์เพื่อแทนที่การเสริม runtime อย่างสมบูรณ์ สำหรับความรู้ที่ต้องการอัปเดตแบบเรียลไทม์ (เช่น เอกสาร API ล่าสุด) กลไกการค้นหายังคงจำเป็น แต่สำหรับความสามารถในการทำงานที่มีมาแต่เดิมและเป็นรูปแบบ การเปลี่ยนแปลงจาก “เครื่องมือภายนอก” สู่ “ความสามารถภายใน” อาจเป็นก้าวสำคัญที่เอเจนต์จะก้าวไปสู่ความเป็นอิสระอย่างแท้จริง
ชื่อเอกสารวิจัย: SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
ที่อยู่เอกสารวิจัย: https://arxiv.org/abs/2604.02268
โค้ดโปรเจกต์: https://github.com/ZJU-REAL/SkillZero
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29748
