Agent Skill Framework ปลดปล่อยพลังให้โมเดลภาษาขนาดเล็ก: อัตราความแม่นยำในการเลือกทักษะของโมเดล 12B เข้าใกล้ 90% ลดต้นทุนพลังการคำนวณลง 50%

2026年2月25日 pm11:39 • วิศวกรรมโมเดลขนาดใหญ่ • 237 views

คำสำคัญ: Agent Skill Framework, Small Language Models, Context Engineering, Industrial Applications, GPU Efficiency

ในช่วงไม่กี่ปีที่ผ่านมา Agent Skill Framework ซึ่งมีตัวแทนเช่น GitHub Copilot, LangChain ได้กลายเป็นกระบวนทัศน์สำคัญสำหรับการประยุกต์ใช้โมเดลภาษาขนาดใหญ่ กรอบงานนี้ผ่าน “คลังทักษะแบบคงที่” ที่ออกแบบมาอย่างดี ทำให้โมเดลสามารถเข้าถึงบริบททักษะที่เกี่ยวข้องได้อย่างค่อยเป็นค่อยไปในระหว่างกระบวนการให้เหตุผล ซึ่งช่วยลดการเกิดภาพหลอนและเพิ่มความแม่นยำในการใช้เครื่องมือได้อย่างมีประสิทธิภาพ

อย่างไรก็ตาม กระบวนทัศน์นี้พึ่งพาความสามารถอันทรงพลังของโมเดลภาษาขนาดใหญ่แบบปิด เช่น GPT, Claude เป็นอย่างมาก ในสถานการณ์อุตสาหกรรมที่อ่อนไหวต่อความปลอดภัยของข้อมูลและงบประมาณต้นทุน เช่น การเงิน การทหาร การเรียกใช้ API ภายนอกอย่างต่อเนื่องมักไม่สามารถทำได้

ดังนั้น ปัญหาหลักจึงปรากฏขึ้น: โมเดลภาษาขนาดเล็กจะได้รับประโยชน์จาก Agent Skill Framework เช่นเดียวกันหรือไม่?

Agent Skill Framework ปลดปล่อยพลังให้โมเดลภาษาขนาดเล็ก: อัตราความแม่นยำในการเลือกทักษะของโมเดล 12B เข้าใกล้ 90% ลดต้นทุนพลังการคำนวณลง 50%

ชื่อบทความวิจัย: Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments
ลิงก์บทความวิจัย: https://arxiv.org/pdf/2602.16653
ภาพรวม: 5,400 คำ อ่านประมาณ 18 นาที

ทีมวิจัยจาก University of Luxembourg, Foyer S.A., Princeton University และ Université Paris-Saclay ได้เผยแพร่บทความวิจัยเมื่อเร็วๆ นี้ ซึ่งสำรวจปัญหาข้างต้นอย่างเป็นระบบ พวกเขาไม่เพียงแต่ ให้คำจำกัดความทางคณิตศาสตร์ที่เข้มงวดสำหรับกระบวนการ Agent Skill เท่านั้น แต่ยังผ่านการทดลองหลายชุด เปิดเผยประสิทธิภาพ ประสิทธิภาพ และข้อจำกัดของโมเดลภาษาขนาดเล็กขนาดต่างๆ ภายใต้กรอบงานนี้ บทความนี้จะตีความนวัตกรรมหลัก รายละเอียดวิธีการ และการค้นพบจากการทดลองของงานวิจัยนี้อย่างลึกซึ้ง และพยายามร่างเส้นทางที่เป็นไปได้สำหรับการปรับใช้ Agent Skill ในสภาพแวดล้อมทางอุตสาหกรรม

สารบัญ

1. งานที่เกี่ยวข้อง
- 1.1 วิวัฒนาการของ Context Engineering
- 1.2 การเกิดขึ้นของ Agent Skill และช่องว่างการวิจัยเกี่ยวกับโมเดลภาษาขนาดเล็ก
2. จุดนวัตกรรมหลัก
3. รายละเอียดวิธีการ: คำจำกัดความทางคณิตศาสตร์และการออกแบบการทดลองของ Agent Skill
- 3.1 การสร้างแบบจำลอง POMDP ของ Agent Skill
- 3.2 วิธีการทดลอง: กลยุทธ์ Context Engineering สามประเภท
- 3.3 ชุดข้อมูล
- 3.4 การเลือกโมเดลภาษาขนาดเล็ก
- 3.5 ตัวชี้วัดการประเมิน
4. ผลการทดลองและการอภิปราย
- 4.1 ประสิทธิภาพหลัก: ผลตอบแทนจากทักษะปรากฏในโมเดลภาษาขนาดเล็ก
- 4.2 โมเดลขนาดเล็กมากไม่สามารถรับผิดชอบการกำหนดเส้นทางทักษะได้
- 4.3 ขนาดคลังทักษะขยายใหญ่ขึ้น: ประสิทธิภาพของโมเดลแสดง “ผลกระทบจากขนาด”
- 4.4 การสำรวจภายหลัง: ประวัติการสนทนาและคำพ้องความหมายของทักษะ
5. การอภิปรายและข้อจำกัด
สรุป

1. งานที่เกี่ยวข้อง

1.1 วิวัฒนาการของ Context Engineering

Agent Skill Framework โดยพื้นฐานแล้วคือ Context Engineering ขั้นสูง ด้วยการเกิดขึ้นของความสามารถในการสรุปแบบ zero-shot/few-shot ของโมเดลภาษาขนาดใหญ่ นักวิจัยเริ่มสำรวจวิธีการปรับเปลี่ยนพฤติกรรมของโมเดลหลังการปรับใช้ให้สะดวกและมีประสิทธิภาพมากขึ้น

ต่างจาก Retrieval-Augmented Generation แบบดั้งเดิม Context Engineering ใช้ความสามารถในการเรียนรู้จากบริบทของโมเดลโดยตรง เพื่อเลือกข้อมูลที่เกี่ยวข้องที่สุดแบบไดนามิก ซึ่งหลีกเลี่ยงความแข็งทื่อของข้อมูลที่อาจเกิดขึ้นจากการค้นหาฐานข้อมูลเวกเตอร์

อย่างไรก็ตาม โมเดลภาษาขนาดใหญ่มี “ข้อจำกัดด้านความสนใจ” ที่ชัดเจนเมื่อประมวลผลบริบทที่ยาวมาก นั่นคือปรากฏการณ์ “Lost in the Middle” ประสิทธิภาพของโมเดลในการใช้ข้อมูลที่อยู่ตรงกลางของบริบท ต่ำกว่าส่วนต้นและส่วนท้ายอย่างมาก:

| ลักษณะปรากฏการณ์ | การแสดงออกที่เฉพาะเจาะจง |
| :— | :— |
| ตำแหน่งข้อมูลสำคัญมีผลกระทบอย่างมีนัยสำคัญ | หากข้อมูลสำคัญอยู่ที่ส่วนต้นหรือส่วนท้ายของบริบท แม้ว่าบริบทจะยาวมาก ประสิทธิภาพของโมเดลในงานเช่นการถามตอบ การดึงข้อมูล ยังคงใกล้เคียงกับระดับที่ดีที่สุด |
| ประสิทธิภาพลดลงอย่างรวดเร็วที่ตำแหน่งกลาง | หากข้อมูลสำคัญอยู่ที่ส่วนกลางของบริบท ความแม่นยำของโมเดลจะลดลงอย่างรวดเร็ว และยิ่งบริบทยาวขึ้น ประสิทธิภาพก็จะลดลงชัดเจนมากขึ้น โมเดลภาษาขนาดเล็กได้รับผลกระทบจากเรื่องนี้รุนแรงกว่าโมเดลภาษาขนาดใหญ่ |
| ไม่เกี่ยวข้องกับความสามารถที่ประกาศ | ปรากฏการณ์นี้ไม่บรรเทาลงเพราะโมเดลอ้างว่าสนับสนุน “บริบทยาว” เป็นข้อจำกัดทั่วไปที่มีอยู่ในโมเดลภาษาขนาดใหญ่หลักในปัจจุบัน สะท้อนถึงข้อจำกัดเชิงโครงสร้างของกลไกความสนใจในการจับข้อมูลระยะยาวส่วนกลาง |

ด้วยเหตุนี้ นักวิจัยจึงเสนอ Context Engineering หลายรูปแบบ เช่น:

| วิธีการออกแบบ | แนวคิดหลัก | งานวิจัย/เทคโนโลยีที่เกี่ยวข้อง |
| :— | :— | :— |
| ระบบ Multi-Agent แบบหลายชั้น | สร้างสถาปัตยกรรม Agent แบบลำดับชั้น แยกงานที่ซับซ้อนและประมวลผลเป็นชั้นๆ เพิ่มความต่อเนื่องของบริบทและความสามารถในการตัดสินใจที่ซับซ้อน | Luo et al., 2025 |
| ขั้นตอนการกำหนดเส้นทาง | ออกแบบกลไกการกำหนดเส้นทางอินพุตอัจฉริยะ กระจายอินพุตงานต่างๆ ไปยัง Agent เฉพาะที่เหมาะสม เพื่อเพิ่มประสิทธิภาพความสอดคล้องของงาน | Yue et al., 2025 |
| การจัดการประวัติการสนทนาที่ซับซ้อน | จัดการประวัติการสนทนาหลายรอบอย่างละเอียด ร่วมกับข้อจำกัดขอบเขตบริบท เพื่อหลีกเลี่ยงปัญหาข้อมูลซ้ำซ้อนและ “บริบทเสื่อมสภาพ” | – |
| การรวมโมดูลความจำแบบต่างชนิด | รวมฐานข้อมูลเวกเตอร์ กราฟความรู้ และโมดูลต่างชนิดอื่นๆ สร้างระบบความจำระยะสั้นและระยะยาวของ Agent เสริมสร้างการใช้ข้อมูลบริบท | Zhang et al., 2024b; Hu et al., 2025 |

เทคโนโลยีเหล่านี้ร่วมกันยกระดับความต่อเนื่องของบริบท การเรียนรู้แบบส่วนบุคคล และความสามารถในการตัดสินใจงานที่ซับซ้อน ของโมเดล

1.2 การเกิดขึ้นของ Agent Skill และช่องว่างการวิจัยเกี่ยวกับโมเดลภาษาขนาดเล็ก

หลังจากแนวคิด Agent Skill ถูกเสนอ มันถูกนำไปใช้อย่างกว้างขวางโดย VSCode, OpenAI, LangChain เป็นต้นอย่างรวดเร็ว

Ye และคณะมองว่ามันเป็นทักษะที่สามารถวิวัฒนาการได้ และเสนอกรอบงาน “Meta-Context Engineering” เพื่อเขียนคำอธิบายทักษะใหม่และเพิ่มประสิทธิภาพโดยอัตโนมัติ
Li และคณะพบว่า ระบบ Single-Agent ที่มีคลังทักษะสามารถบรรลุความแม่นยำเทียบเท่ากับระบบ Multi-Agent ในงานให้เหตุผลหลายอย่าง ในขณะที่ลดการใช้ Token และความล่าช้าลงอย่างมาก
นอกจากนี้ การเกิดขึ้นของไลบรารีโอเพนซอร์ส เช่น DeepAgents และการอภิปรายเกี่ยวกับความปลอดภัยของทักษะ ต่างบ่งชี้ว่า Agent Skill กำลังกลายเป็นกระบวนทัศน์หลักในการสร้าง Agent

อย่างไรก็ตาม การปฏิบัติที่มีอยู่ในปัจจุบันใช้โมเดลภาษาขนาดใหญ่แบบปิดที่ต้องเรียกใช้ API โดยปริยาย งานวิจัยจำนวนน้อยชี้ให้เห็นว่าโมเดลขนาดเล็กมักมีประสิทธิภาพไม่ดีในการกำหนดเส้นทางทักษะ แต่สำหรับความสามารถในการนำ Agent Skill Framework ไปใช้กับโมเดลขนาดเล็ก ผลประโยชน์ด้านประสิทธิภาพในระดับการปรับใช้ (เช่น การใช้หน่วยความจำกราฟิก ความล่าช้าระหว่างต้นทางถึงปลายทาง) ยังขาดหลักฐานเชิงปริมาณ บทความวิจัยนี้มีขึ้นเพื่อเติมเต็มช่องว่างนี้

2. จุดนวัตกรรมหลัก

นวัตกรรมของงานวิจัยนี้แสดงให้เห็นในสามด้านหลักดังต่อไปนี้:

สร้างคำจำกัดความทางคณิตศาสตร์ที่เข้มงวดสำหรับกระบวนการ Agent Skill เป็นครั้งแรก: การวิจัยสรุป Agent Skill เป็นกระบวนการตัดสินใจมาร์คอฟที่สังเกตได้บางส่วน (POMDP) พร้อมกับการดำเนินการเพื่อรับข้อมูล จากมุมมองของทฤษฎีการควบคุมที่เหมาะสมที่สุด เปิดเผยหลักการภายในของพฤติกรรมการเปิดเผยข้อมูลแบบค่อยเป็นค่อยไป (progressive disclosure) นี่เป็นการพิสูจน์เป็นครั้งแรกในทางทฤษฎีว่า กลยุทธ์ “เปิดเผยข้อมูลตามความต้องการทีละขั้นตอน” ใน Agent Skill ไม่ใช่เทคนิคทางวิศวกรรม แต่เป็นพฤติกรรมที่หลีกเลี่ยงไม่ได้ภายใต้การควบคุมที่เหมาะสมที่สุด
ออกแบบแผนการประเมินที่เป็นระบบสำหรับ SLM: การประเมินไม่เพียงแต่ให้ความสนใจกับความแม่นยำของงานและความแม่นยำในการเลือกทักษะเท่านั้น แต่ยังแนะนำตัวชี้วัดที่เป็นประโยชน์คือ เวลาใช้หน่วยความจำกราฟิก (GB-min) เพื่อสะท้อนต้นทุนและประสิทธิภาพการคำนวณจริงในการปรับใช้ทางอุตสาหกรรมได้อย่างแม่นยำยิ่งขึ้น
ดำเนินการสำรวจภายหลังอย่างลึกซึ้งบนชุดข้อมูลอุตสาหกรรมจริง: ตามชุดข้อมูล InsurBench การวิจัยวิเคราะห์ผลกระทบของประวัติการสนทนา ผลกระทบของการแทนที่คำสำคัญทักษะ ฯลฯ เพื่อให้คำแนะนำที่ปฏิบัติได้จริงสำหรับการปรับใช้ระบบจริง

3. รายละเอียดวิธีการ: คำจำกัดความทางคณิตศาสตร์และการออกแบบการทดลองของ Agent Skill

3.1 การสร้างแบบจำลอง POMDP ของ Agent Skill

ผู้เขียนสร้างแบบจำลองระบบ Agent Skill เป็นตัวควบคุมที่ทำงานในสภาพแวดล้อมที่สังเกตได้บางส่วน พร้อมกับข้อจำกัดในการรับข้อมูล ทักษะแต่ละอย่าง k แสดงด้วยสามสิ่ง (d_k, π_k, r_k):
* d_k: คำอธิบายข้อความของทักษะ (ชื่อและคำอธิบาย)
* π_k: กลยุทธ์การดำเนินการภายในทักษะ (กระบวนการระดับตัวเลือก)
* r_k: กลไกการอ้างอิง ซึ่งสามารถเปิดเผยบริบทและเครื่องมือที่เกี่ยวข้องกับทักษะเพิ่มเติมได้

ระบบทั้งหมดถูกกำหนดรูปแบบเป็น POMDP (S, O, A, T, Ω, R, γ):
* สถานะ s ∈ S: สถานการณ์งานที่ซ่อนอยู่ รวมถึงความตั้งใจของผู้ใช้ ความคืบหน้าของงาน และข้อเท็จจริงสภาพแวดล้อมที่ยังไม่ได้ค้นหา
* การสังเกต o ∈ O: ข้อมูลที่ Agent สามารถเข้าถึงได้ ณ เวลา t เช่น ข้อความผู้ใช้ปัจจุบัน รายการทักษะที่ใช้ได้ เป็นต้น
* การดำเนินการ a ∈ A: รวมถึงการเลือกทักษะ การรับบริบท (reveal) การดำเนินการทักษะ การเรียกใช้สภาพแวดล้อม/เครื่องมือ
* ความเชื่อ b: การกระจายตัวภายหลังของ Agent ต่อสถานะปัจจุบัน สะท้อนถึงความไม่แน่นอนของมัน
* ฟังก์ชันการเปลี่ยนสถานะ T และแบบจำลองการสังเกต Ω** อธิบายการเปลี่ยนแปลงสถานะและการสร้างการสังเกตตามลำดับ

ข้อมูลเชิงลึกหลัก: เมื่อความไม่แน่นอนของ Agent สูง (ความเชื่อกระจายตัว) มันคุ้มค่าที่จะจ่ายต้นทุนเพิ่มเติมเพื่อเปิดเผยบริบททักษะที่เกี่ยวข้อง เมื่อความเชื่อรวมตัวกัน การดำเนินการทักษะโดยตรงจะประหยัดกว่า พฤติกรรมการเปิดเผยข้อมูลแบบค่อยเป็นค่อยไปนี้สอดคล้องกับข้อสรุปคลาสสิกที่ว่าฟังก์ชันมูลค่าที่เหมาะสมที่สุดของ POMDP ที่มีขอบเขตเวลาเป็นฟังก์ชันนูนเชิงเส้นเป็นส่วนๆ (Kaelbling et al., 1998): พื้นที่ความเชื่อที่แตกต่างกันสอดคล้องกับกลยุทธ์การดำเนินการที่เหมาะสมที่สุดที่แตกต่างกัน

3.2 วิธีการทดลอง: กลยุทธ์ Context Engineering สามประเภท

เพื่อประเมินผลของ Agent Skill การวิจัยสร้างคลังทักษะชั่วคราวในแต่ละงาน: สุ่มตัวอย่างทักษะรบกวน 4–5 ทักษะจากศูนย์ทักษะสาธารณะ ผสมกับทักษะที่ต้องการจริง การออกแบบนี้จำลองความท้าทายของข้อมูลทักษะที่ซ้ำซ้อนและมีสัญญาณรบกวนสูงในสถานการณ์จริง — โมเดลไม่เพียงแต่ต้องระบุทักษะที่ถูกต้อง แต่ยังต้องแยกแยะอย่างแม่นยำในรายการรบกวนที่คล้ายกันทางความหมายและโครงสร้าง

การทดลองเปรียบเทียบกลยุทธ์สามประเภทต่อไปนี้:

| ประเภทกลยุทธ์ | กลไกและลักษณะหลัก |
| :— | :— |
| คำสั่งโดยตรง (DI) | ให้เฉพาะอินพุตผู้ใช้ดั้งเดิมแก่โมเดล โดยไม่เพิ่มคำอธิบายทักษะใดๆ
• ข้อดี: พึ่งพาความรู้ที่กำหนดโดยพารามิเตอร์ของโมเดลทั้งหมด ไม่มีค่าใช้จ่ายด้านบริบท ตอบสนองเร็วที่สุด
• ข้อเสีย: ขาดการสนับสนุนสำหรับเครื่องมือที่ไม่เป็นที่นิยม API ใหม่ หรือการดำเนินการเฉพาะด้าน ความสามารถในการสรุปอ่อน แยกไม่ออกในพื้นที่ที่ขาดความรู้ |
| คำสั่งทักษะทั้งหมด (FSI) | ฉีดคำอธิบายเต็มของทักษะทั้งหมดที่ใช้ได้ในครั้งเดียว บังคับให้โมเดลจับคู่จากนั้น
• ข้อดี: ข้อมูลครบถ้วน เหมาะสำหรับสถานการณ์ที่ชุดทักษะมีขนาดเล็กและแตกต่างกันอย่างชัดเจน
• ข้อเสีย: ข้อความยาวอาจทำให้ความสนใจ分散 โดยเฉพาะเมื่อทักษะรบกวนและทักษะเป้าหมายใช้คำกริยาความถี่สูงร่วมกัน โมเดลอาจถูกหลอกโดยความหมายพื้นผิวและเลือกทักษะผิด |
| คำสั่ง Agent Skill (ASI) | ใช้กระบวนการเบาสามขั้นตอน “ตัดสินใจ—ค้นหา—สร้าง”: ตัดสินใจก่อนว่างานต้องการการสนับสนุนทักษะภายนอกหรือไม่ หากต้องการ ให้ค้นห