ความก้าวหน้าใหม่ของเอเจนต์อัจฉริยะแบบ Edge: โมเดลขนาดเล็ก 3B บรรลุความแม่นยำในการเรียกใช้ฟังก์ชันถึง 88.22% แซงหน้าโมเดลน้ำหนักเบาเกือบ 70%

2026年2月4日 am12:03 • ข่าวสารอุตสาหกรรม AI • 184 views

คำสำคัญ：Small Language Models รุ่นภาษาขนาดเล็ก、 Function Calling การเรียกใช้ฟังก์ชัน、Edge Devices อุปกรณ์เอดจ์、Direct Preference Optimization การปรับให้เหมาะสมตามความชอบโดยตรง、 Hybrid Fine-Tuning การปรับแต่งแบบผสมผสาน

เมื่อเร็วๆ นี้ งานวิจัยชื่อ 《TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices》 ได้เปิดเผยอย่างเป็นระบบถึงขีดจำกัดความสามารถและเส้นทางการปรับให้เหมาะสมของรุ่นภาษาขนาดเล็กในการปฏิบัติ “งานเอเจนต์” บนอุปกรณ์เอดจ์ นั่นคือความสามารถในการเข้าใจและเรียกใช้เครื่องมือ API ฟังก์ชัน

ความก้าวหน้าใหม่ของเอเจนต์อัจฉริยะแบบ Edge: โมเดลขนาดเล็ก 3B บรรลุความแม่นยำในการเรียกใช้ฟังก์ชันถึง 88.22% แซงหน้าโมเดลน้ำหนักเบาเกือบ 70%

Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade-offs
https://arxiv.org/pdf/2510.03847
6000 คำ อ่านประมาณ 20 นาที

งานวิจัยนี้ประเมินอย่างเป็นระบบถึงประสิทธิภาพจริงของรุ่นภาษาขนาดเล็กที่มีพารามิเตอร์ต่ำกว่า 3 พันล้านตัว ในการเรียกใช้ฟังก์ชัน เครื่องมือ และ API เพื่อตอบสนองความต้องการในการรันงานเอเจนต์อัตโนมัติบนอุปกรณ์เอดจ์

งานวิจัยใช้กรอบการจัดอันดับการเรียกใช้ฟังก์ชันของเบิร์กลีย์ (BFCL) เป็นพื้นฐาน ทำการประเมินครอบคลุมหลายตระกูลโมเดล เช่น TinyAgent, TinyLlama, Qwen และ xLAM ครอบคลุมสถานการณ์ที่ซับซ้อนหลากหลาย เช่น ง่าย หลายฟังก์ชัน ขนาน และบทสนทนาหลายรอบ

ผ่านการเปรียบเทียบกลยุทธ์ต่างๆ เช่น การปรับแต่งภายใต้การดูแล (SFT) การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์ (PEFT) การปรับให้เหมาะสมโดยใช้การเรียนรู้แบบเสริมแรง (RL) และการปรับให้เหมาะสมตามความชอบโดยตรง (DPO) งานวิจัยพบว่าขนาดของโมเดลมีอิทธิพลชี้ขาดต่อประสิทธิภาพ: โมเดลขนาดกลาง (พารามิเตอร์ 1–3B) มีความแม่นยำโดยรวมถึง 65.74% และในงานปฏิสัมพันธ์หลายรอบได้ความแม่นยำ 55.62% ซึ่งดีกว่าโมเดลขนาดเล็กพิเศษที่มีพารามิเตอร์ต่ำกว่า 1B อย่างมีนัยสำคัญ

ความก้าวหน้าใหม่ของเอเจนต์อัจฉริยะแบบ Edge: โมเดลขนาดเล็ก 3B บรรลุความแม่นยำในการเรียกใช้ฟังก์ชันถึง 88.22% แซงหน้าโมเดลน้ำหนักเบาเกือบ 70%
รูปที่ 1 | แผนภาพขั้นตอนการประมวลผลที่เสนอโดย TinyLLM แผนภาพนี้แสดงให้เห็นอย่างชัดเจนถึงเวิร์กโฟลว์หลักของงานวิจัย TinyLLM ก่อตัวเป็นวงจรสมบูรณ์ตั้งแต่ฝั่งข้อมูลไปจนถึงฝั่งโมเดล ฝั่งข้อมูลรับประกันคุณภาพข้อมูลฝึกผ่านการคัดกรองและปรับให้เหมาะสมหลายขั้นตอน กำจัดข้อมูลคุณภาพต่ำและแปลงสัญญาณที่ใช้ได้ ฝั่งโมเดลเสนอเส้นทางการปรับแต่งที่หลากหลาย สามารถเลือกวิธีการปรับแต่งที่แตกต่างกันได้อย่างยืดหยุ่นตามความต้องการของอุปกรณ์เอดจ์และทรัพยากรการคำนวณ เพื่อวางรากฐานสำหรับการปฏิบัติงานเอเจนต์ที่มีประสิทธิภาพบนอุปกรณ์เอดจ์ในภายหลัง

งานวิจัยยังได้เสนอและทดลองใช้เวิร์กโฟลว์การฝึก DPO ที่ใช้ข้อมูล AgentBank ผ่านการแปลงข้อมูล SFT เป็นคู่ความชอบ ซึ่งช่วยเพิ่มคุณภาพผลลัพธ์และความเสถียรของการจัดตำแหน่งของโมเดลได้อย่างมีประสิทธิภาพ

การทดลองแสดงให้เห็นว่า กลยุทธ์การปรับให้เหมาะสมแบบผสมผสานสามารถเพิ่มความน่าเชื่อถือในการให้เหตุผล ความสามารถในการรักษาบริบท และความแม่นยำในการปฏิบัติงานของโมเดลในสภาพแวดล้อมเอดจ์ได้อย่างมีนัยสำคัญ ในขณะที่ยังคงรักษาขนาดที่เบาของโมเดลไว้ได้ งานนี้ให้หลักฐานเชิงประจักษ์และเส้นทางวิธีการสำหรับการปรับใช้เอเจนต์ AI ที่มีประสิทธิภาพและเป็นอิสระบนอุปกรณ์เอดจ์ที่มีทรัพยากรจำกัด ให้ความสำคัญกับความเป็นส่วนตัวและความหน่วงต่ำ และชี้ให้เห็นทิศทางการวิจัยในอนาคตด้านการเรียกใช้ข้ามภาษา หลายโหมด และการปรับให้เหมาะสมอย่างต่อเนื่อง

สารบัญบทความ

หนึ่ง ข้อจำกัดของระบบคลาวด์: ทำไมเราจึงต้องการ AI เอดจ์ที่ “ใช้เครื่องมือ” ได้?
สอง ภาพรวมงานวิจัย: เป้าหมาย เส้นทาง และสามผลงานสำคัญ
สาม วิเคราะห์เจาะลึก: จะประเมิน “ความสามารถในการลงมือทำ” ของเอเจนต์ AI ได้อย่างไร?
- 3.1 ห้าสนามสอบของ BFCL
- 3.2 มาตรฐานการตัดสิน “สามชั้น”
สี่ นวัตกรรมหลัก: “วิธีการฝึกเสริม” ที่ออกแบบมาเฉพาะสำหรับ SLM
- 4.1 ท่าที่หนึ่ง: การปรับแต่งทั่วไป – สร้างพื้นฐานให้แข็งแกร่ง
- 4.2 ท่าที่สอง: การปรับให้เหมาะสมโดยใช้การเรียนรู้แบบเสริมแรง – เรียนรู้การปรับตัว
- 4.3 ท่าที่สาม: กลยุทธ์การปรับให้เหมาะสมแบบผสมผสาน – รวบรวมข้อดีจากทุกฝ่าย
- 4.4 การปฏิบัติที่เป็นนวัตกรรม: สร้างไปป์ไลน์ข้อมูล DPO เฉพาะตัว
ห้า การประลองประสิทธิภาพ: ใครคือ “ราชาแห่งสนามรบ” ของอุปกรณ์เอดจ์?
- 5.1 สถานการณ์โดยรวม: ขนาดคือกุญแจสำคัญ
- 5.2 สถานการณ์ย่อย: แต่ละฝ่ายมีจุดเด่นของตัวเอง
หก อภิปรายเชิงลึก: ศิลปะแห่งความสมดุลของเอเจนต์ AI บนเอดจ์
- 6.1 การแลกเปลี่ยนระหว่างขนาดและประสิทธิภาพคือแกนกลาง
- 6.2 กลยุทธ์การปรับให้เหมาะสมต้องตรงจุด
- 6.3 การประเมินต้องหลายมิติและรอบด้าน
เจ็ด เส้นทางสู่อนาคต: จากห้องปฏิบัติการสู่ปลายทางนับล้าน

หนึ่ง ข้อจำกัดของระบบคลาวด์: ทำไมเราจึงต้องการ AI เอดจ์ที่ “ใช้เครื่องมือ” ได้?

การผงาดขึ้นของรุ่นภาษาขนาดใหญ่ทำให้เราคุ้นเคยกับการโต้ตอบตามธรรมชาติกับ AI สนทนา เช่น ChatGPT เมื่อโมเดลเหล่านี้ได้รับความสามารถ “เอเจนต์” นั่นคือสามารถเข้าใจคำสั่ง วางแผน และเรียกใช้เครื่องมือภายนอก (เช่น เครื่องคิดเลข เครื่องมือค้นหา API) เพื่อทำงานให้สำเร็จ ศักยภาพของมันก็ถูกขยายออกไปอย่างไม่มีที่สิ้นสุด

อย่างไรก็ตาม ความจริงที่โหดร้ายคือ: ระบบเอเจนต์ที่ทรงพลังส่วนใหญ่ในปัจจุบัน ต้องพึ่งพารุ่นภาษาขนาดใหญ่บนคลาวด์ที่มีพารามิเตอร์มากกว่า 7 พันล้านหรือแม้กระทั่งหลายแสนล้านตัว สิ่งนี้นำมาซึ่งปัญหารากฐานห้าประการ:

| ประเภทปัญหา | คำอธิบายโดยละเอียด |
| :— | :— |
| ความหน่วงสูง | ทุกครั้งที่ให้เหตุผลต้องมีการส่งข้อมูลไปกลับผ่านเครือข่าย ส่งผลกระทบอย่างมากต่อประสบการณ์การโต้ตอบแบบเรียลไทม์ โดยเฉพาะไม่เหมาะกับสถานการณ์ที่ไวต่อความหน่วง |
| การพึ่งพาการเชื่อมต่อเครือข่ายสูง | พึ่งพาการเชื่อมต่ออินเทอร์เน็ตโดยสมบูรณ์ ในสภาพแวดล้อมที่ไม่มีเครือข่ายหรือสัญญาณอ่อน (เช่น สถานการณ์ออฟไลน์ของอุปกรณ์เอดจ์) ฟังก์ชันการทำงานจะล้มเหลวทันที |
| ความเสี่ยงด้านความเป็นส่วนตัวและความปลอดภัย | ข้อมูลอ่อนไหวของผู้ใช้ต้องถูกอัปโหลดไปยังเซิร์ฟเวอร์คลาวด์ มีความเสี่ยงที่ข้อมูลจะรั่วไหลหรือถูกเข้าถึงโดยไม่ได้รับอนุญาต |
| ต้นทุนคลาวด์ต่อเนื่อง | ในกระบวนการใช้งานระยะยาว การเรียกใช้ API บนคลาวด์ การใช้กำลังประมวลผล ฯลฯ จะก่อให้เกิดค่าใช้จ่ายอย่างต่อเนื่อง |
| ต้นทุน GPU สูง | การให้เหตุผลของรุ่นภาษาขนาดใหญ่บนคลาวด์ต้องพึ่งพาการสนับสนุนฮาร์ดแวร์ GPU ประสิทธิภาพสูง ซึ่งมีต้นทุนการจัดซื้อและการบำรุงรักษาสูง |

ในสถานการณ์ที่ ไวต่อความหน่วง ให้ความสำคัญกับความเป็นส่วนตัว หรือมีทรัพยากรจำกัด เช่น การขับขี่อัตโนมัติ อินเทอร์เน็ตของสรรพสิ่งอุตสาหกรรม อุปกรณ์เคลื่อนที่ส่วนบุคคล ปัญหาเหล่านี้กลายเป็น “อุปสรรคขวางกั้น” ในการประยุกต์ใช้ในระดับกว้าง

ดังนั้น วงการวิจัยจึงหันมามองไปที่ รุ่นภาษาขนาดเล็กที่มีพารามิเตอร์น้อยกว่า 3 พันล้านตัว คำถามหลักตามมาทันที: หลังจาก “ลดขนาด” แล้ว SLM ยังคงมีความสามารถเอเจนต์ที่เชื่อถือได้หรือไม่ โดยเฉพาะในงานหลักที่สุดอย่าง “การเรียกใช้ฟังก์ชัน”?

สอง ภาพรวมงานวิจัย: เป้าหมาย เส้นทาง และสามผลงานสำคัญ

เป้าหมายของงานวิจัยนี้ชัดเจนและเป็นไปได้จริง:

ยืนยันความเป็นไปได้: พิสูจน์ว่า SLM ที่มีพารามิเตอร์น้อยกว่า 3B สามารถทำงานเอเจนต์ เช่น การเรียกใช้เครื่องมือ/API ได้
สร้างและก้าวข้ามเส้นฐาน: ทำซ้ำและประเมินงานที่มีอยู่ เช่น TinyAgent และฝึก SLM ที่มีประสิทธิภาพดีกว่า
ปรับให้เหมาะสมและปรับใช้ซ้ำๆ: ผ่านการเปรียบเทียบการปรับให้เหมาะสมอย่างเป็นระบบ สร้างโมเดลตัวเลือกที่สามารถนำไปปรับใช้จริงบนเอดจ์ได้

เพื่อให้บรรลุเป้าหมาย นักวิจัยได้สร้างชุดวิธีการที่เป็นวงจรสมบูรณ์ และสร้างผลงานหลักสามประการ:

ผลงานที่หนึ่ง: การทดสอบมาตรฐานประสิทธิภาพที่ครอบคลุม ประเมินอย่างเป็นระบบเป็นครั้งแรกถึงประสิทธิภาพของรุ่นภาษาขนาดเล็กหลักหลายรุ่นในงานเรียกใช้ฟังก์ชันมาตรฐาน เผยให้เห็นความสัมพันธ์การแลกเปลี่ยนระหว่างขนาดโมเดล ความซับซ้อนของงาน และประสิทธิภาพของอุปกรณ์เอดจ์อย่างชัดเจน
ผลงานที่สอง: ไปป์ไลน์การฝึก DPO ที่เป็นนวัตกรรม ออกแบบเวิร์กโฟลว์การฝึก DPO ที่ใช้งานได้จริง สามารถแปลงข้อมูล SFT ทั่วไปเป็นคู่ข้อมูล “เปรียบเทียบดี-เลว” เพื่อ “จัดตำแหน่ง” ผลลัพธ์ของโมเดลได้อย่างแม่นยำด้วยต้นทุนที่ต่ำกว่า
ผลงานที่สาม: การวิเคราะห์การแลกเปลี่ยนในการปรับใช้อย่างละเอียด วิเคราะห์หลายมิติเชิงปริมาณเกี่ยวกับความหน่วง ความแม่นยำ การใช้ทรัพยากรของโมเดล เพื่อเป็นแนวทางในการตัดสินใจที่มีค่าสำหรับนักพัฒนาในการสร้างเอเจนต์อัตโนมัติที่รวดเร็ว เป็นส่วนตัว และมีประสิทธิภาพภายใต้ข้อจำกัดสภาพแวดล้อมจริง

สาม วิเคราะห์เจาะลึก: จะประเมิน “ความสามารถในการลงมือทำ” ของเอเจนต์ AI ได้อย่างไร?

เพื่อเปรียบเทียบความสามารถเอเจนต์ของโมเดลต่างๆ ก่อนอื่นจำเป็นต้องมี ระบบการประเมินที่เป็นธรรม ครอบคลุม และทำซ้ำได้ ทีมวิจัยได้เลือกใช้ การจัดอันดับการเรียกใช้ฟังก์ชันของเบิร์กลีย์ (BFCL) เป็นกรอบการประเมินหลัก

ความก้าวหน้าใหม่ของเอเจนต์อัจฉริยะแบบ Edge: โมเดลขนาดเล็ก 3B บรรลุความแม่นยำในการเรียกใช้ฟังก์ชันถึง 88.22% แซงหน้าโมเดลน้ำหนักเบาเกือบ 70%
รูปที่ 2 | การกระจายข้อมูลของชุดข้อมูลประเมิน แผนภาพการกระจายนี้สะท้อนการครอบคลุมงานและการออกแบบน้ำหนักของชุดข้อมูล ประมาณ 60% ของข้อมูลมุ่งเน้นไปที่งานที่เกี่ยวข้องกับต้นไม้ไวยากรณ์นามธรรม (AST) ซึ่งเน้นย้ำถึงความสำคัญของความถูกต้องทางไวยากรณ์ในการเรียกใช้ฟังก์ชัน ในขณะเดียวกันก็คำนึงถึงการตรวจสอบการดำเนินการ (เช่น REST Exec เป็นต้น) การสนับสนุนข้ามภาษา (SQL, Java เป็นต้น) และการบูรณาการบทสนทนา (Chatting Capability) และยังตั้งค่างานตรวจจับความเกี่ยวข้องเพื่อรับประกันความปลอดภัยในการปรับใช้โมเดล การจำแนกประเภทที่หลากหลายทำให้การประเมินสามารถทดสอบความสามารถในการเรียกใช้ฟังก์ชันของรุ่นภาษาขนาดเล็กบนอุปกรณ์เอดจ์ได้อย่างครอบคลุม

ข้อดีของ BFCL อยู่ที่คุณสมบัติ “plug-and-play” สามารถปรับให้เข้ากับโมเดลที่มีสถาปัตยกรรมต่างกันได้อย่างรวดเร็ว และให้ผลลัพธ์ที่เป็นมาตรฐาน

3.1 ห้าสนามสอบของ BFCL

BFCL ตรวจสอบความสามารถในการเรียกใช้ฟังก์ชันของโมเดลจากห้ามิติ จากง่ายไปหายาก:

การเรียกใช้ฟังก์ชันอย่างง่าย: โมเดลอ่านเอกสารประกอบฟังก์ชันเดียว สร้างโค้ดเรียกใช้ที่ถูกต้อง
การเลือกฟังก์ชันหลายตัว: เลือกฟังก์ชันที่ถูกต้องจากผู้สมัคร 2-4 ตัว และสร้างการเรียกใช้
การเรียกใช้ฟังก์ชันแบบขนาน: จากหนึ่งคำค้น เรียกใช้ฟังก์ชันเดียวกันหลายครั้ง
การเรียกใช้ฟังก์ชันหลายตัวแบบขนาน: จัดการกับคำค้นที่ซับซ้อนซึ่งเกี่ยวข้องกับหลายฟังก์ชัน ตัดสินใจว่าต้องเรียกใช้แต่ละฟังก์ชันกี่ครั้ง
การตรวจจับความเกี่ยวข้อง: เมื่อไม่มีฟังก์ชันที่เหมาะสม โมเดลควรสามารถ “ปฏิเสธที่จะตอบ” ได้

3.2 มาตรฐานการตัดสิน “สามชั้น”

ผลลัพธ์ของโมเดลจะได้รับการตรวจสอบสามชั้น:

ความแม่นยำของ AST: โค้ดที่สร้างขึ้น ทางไวยากรณ์ ถูกต้องหรือไม่
การประเมินความสามารถในการดำเนินการ: โค้ดที่สร้างขึ้น ทางความหมาย สามารถรันและให้ผลลัพธ์ที่ถูกต้องได้หรือไม่ (ในกรณีที่เป็นไปได้)
ความแม่นยำโดยรวม: ค่าเฉลี่ยความแม่นยำแบบไม่ถ่วงน้ำหนักของหมวดหมู่ย่อยทั้งหมดข้างต้น

นอกจากนี้ การประเมินยังแยกแยะระหว่างโมเดลเรียกใช้ฟังก์ชันแบบ “prompt-based” และ “native” รวมถึงตัวชี้วัดการประเมิน บทสนทนาหลายรอบ และคำนึงถึงปัจจัยการดำเนินงานจริง เช่น ความหน่วง ต้นทุน

กรอบการทำงานที่เข้มงวดนี้ได้สร้างเวทีประลองที่มั่น

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง