ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง

คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, การใช้เครื่องมือ, การประเมินมาตรฐาน, สถานการณ์จริง, เอเจนต์

เมื่อ AI ออกจากห้องแล็บสู่โลกแห่งความเป็นจริง งานง่ายๆ กลับอาจกลายเป็นช่องว่างที่ยากจะก้าวข้าม

สมมติว่าคุณกำลังเตรียมงานนำเสนอเรื่อง “แนะนำภาพยนตร์ยอดนิยมปี 2024” คุณจึงสั่งผู้ช่วย AI ว่า: “ช่วยหาข้อมูลภาพยนตร์ที่ฮิตที่สุดในปีนี้ให้หน่อย แล้วทำสไลด์แบบสอบถามง่ายๆ มาด้วย”

ในสภาพแวดล้อมในอุดมคติของห้องแล็บ AI อาจทำงานนี้ได้อย่างสมบูรณ์แบบ: เรียกใช้ API ค้นหาภาพยนตร์เพื่อรับรายชื่อ แล้วเรียกใช้ API สร้างสไลด์เพื่อสร้างงานนำเสนอที่สวยงาม

อย่างไรก็ตาม ในโลกแห่งความเป็นจริง คำตอบที่คุณได้รับอาจเป็น: “คุณต้องการค้นหาภาพยนตร์ยอดนิยมในประเทศ/ภูมิภาคใด?”, “คุณต้องการให้ PPT มีเนื้อหาเฉพาะอะไรบ้าง?”, “คุณต้องการแนะนำภาพยนตร์กี่เรื่อง?” — คำถามย้อนกลับมากมายทำให้งานง่ายๆ กลายเป็นเรื่องยาวและยุ่งยาก

ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง

ทำไม AI ถึงแสดงออกได้ “เชื่องช้า” เช่นนี้ในสถานการณ์จริง? คำถามนี้กำลังสร้างความกังวลให้กับนักวิจัยทั่วทั้งวงการ AI

เมื่อเร็วๆ นี้ ทีมวิจัยจาก Tencent และ King’s College London ได้เผยแพร่บทความชื่อ “Benchmarking LLM Tool-Use in the Wild” เสนอเกณฑ์การประเมินใหม่ WildToolBench ซึ่งเผยให้เห็นช่องว่างความสามารถที่ใหญ่หลวงของแบบจำลองภาษาขนาดใหญ่ในปัจจุบันในสถานการณ์การเรียกใช้เครื่องมือจริง

ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
รูปที่ 1: การเปรียบเทียบอัตราความถูกต้องของบทสนทนาระหว่างเกณฑ์มาตรฐานการใช้เครื่องมือต่างๆ รูปนี้แสดงให้เห็นความแตกต่างของอัตราความถูกต้องของบทสนทนาระหว่าง WildToolBench กับเกณฑ์มาตรฐานหลักที่มีอยู่ในปัจจุบัน อัตราความถูกต้องของบทสนทนาหมายถึงอัตราความถูกต้องของโมเดลในการทำงานทั้งหมดให้สำเร็จในบทสนทนาแบบสมบูรณ์ ซึ่งเป็นตัวชี้วัดหลักในการวัดความแข็งแกร่งของการใช้เครื่องมือของ LLM ผลลัพธ์แสดงให้เห็นว่า เกณฑ์มาตรฐานดั้งเดิมมีแนวโน้มอิ่มตัวเนื่องจากสถานการณ์ในอุดมคติ ในขณะที่ WildToolBench ซึ่งสอดคล้องกับพฤติกรรมผู้ใช้จริงอย่างมาก มีอัตราความถูกต้องของบทสนทนาต่ำกว่าอย่างเห็นได้ชัด ซึ่งเน้นย้ำถึงความเข้มงวดในการประเมินความสามารถของโมเดล

ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
รูปที่ 2: คุณสมบัติหลักสามประการของ WildToolBench คุณสมบัติเหล่านี้ใช้งานง่ายและเป็นธรรมชาติสำหรับผู้ใช้ แต่ท้าทายความสามารถในการใช้เครื่องมือของ LLM อย่างรุนแรง คุณสมบัติสามประการที่เน้นในรูปคือ: งานแบบผสมผสาน, ความตั้งใจที่ซ่อนเร้น, และการแปลงคำสั่ง ซึ่งจำลองความซับซ้อนของการโต้ตอบจริงได้อย่างแม่นยำ ทำลายรูปแบบงานในอุดมคติที่เรียบง่ายและชัดเจนในเกณฑ์มาตรฐานดั้งเดิม

สารบัญ

1. งานวิจัยที่เกี่ยวข้อง: จากโลกในอุดมคติสู่การเอาชีวิตรอดในป่าดิบ
2. นวัตกรรมหลัก: ความท้าทายสามประการใน “ป่าดิบ”
- 2.1 ความท้าทายที่หนึ่ง: การจัดเรียงเครื่องมือสำหรับงานผสมผสาน
- 2.2 ความท้าทายที่สอง: การอนุมานความตั้งใจที่ซ่อนเร้นข้ามรอบการสนทนา
- 2.3 ความท้าทายที่สาม: การสลับกลยุทธ์การปรับตัวสำหรับการแปลงคำสั่ง
3. การสร้างข้อมูล: จากผู้ใช้จริงสู่การประเมินคุณภาพสูง
4. การวิเคราะห์การทดลอง: “การเอาชีวิตรอด” ของโมเดล 57 รายการ
- 4.1 ประสิทธิภาพโดยรวม: ไม่มีโมเดลใดผ่านเกณฑ์
- 4.2 ความสามารถในการจัดเรียงเครื่องมือ: งานผสมผสานยากที่สุด
- 4.3 การวิเคราะห์ข้อผิดพลาด: การเปลี่ยนกระบวนทัศน์จากไวยากรณ์สู่การให้เหตุผล
สรุปและแนวโน้ม: จากผู้ปฏิบัติงานเครื่องมือสู่ผู้เข้าใจผู้ใช้

1. งานวิจัยที่เกี่ยวข้อง: จากโลกในอุดมคติสู่การเอาชีวิตรอดในป่าดิบ

ก่อนที่จะเข้าใจนวัตกรรมของ WildToolBench จำเป็นต้องทบทวนพัฒนาการของเกณฑ์มาตรฐานการประเมินการใช้เครื่องมือของแบบจำลองภาษาขนาดใหญ่ที่มีอยู่

เกณฑ์มาตรฐานการประเมินในยุคแรก เช่น T-EVAL, UltraTool และ MetaTool มุ่งเน้นที่ว่าโมเดลสามารถเลือกเครื่องมือได้ถูกต้องหรือไม่ และสามารถสร้างพารามิเตอร์การเรียกใช้เครื่องมือที่ตรงตามรูปแบบที่กำหนดหรือไม่ อย่างไรก็ตาม เกณฑ์มาตรฐานเหล่านี้มองการเรียกใช้เครื่องมือเป็นงานถาม-ตอบง่ายๆ ละเลยลักษณะการสนทนาหลายรอบของการโต้ตอบจริงโดยสิ้นเชิง

ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
ตารางที่ 1: การวิเคราะห์เปรียบเทียบ WildToolBench กับเกณฑ์มาตรฐานการใช้เครื่องมืออื่นๆ ตารางนี้เปรียบเทียบความแตกต่างระหว่าง WildToolBench กับเกณฑ์มาตรฐานหลัก เช่น ชุด BFCL และ ToolBench อย่างเป็นระบบ จากมุมมองสำคัญต่างๆ เช่น งานหลายงานในบริบทเดียวกัน, ข้อมูลที่ซ่อนเร้น, ประเภทการใช้เครื่องมือ, การแปลงคำสั่ง เป็นต้น ผลลัพธ์แสดงให้เห็นว่า WildToolBench เป็นเกณฑ์มาตรฐานเดียวที่ครอบคลุมมิติความซับซ้อนทั้งหมดพร้อมกัน ในขณะที่เกณฑ์มาตรฐานอื่นๆ มักมีข้อบกพร่องคือสถานการณ์ที่เรียบง่ายและละเลยพฤติกรรมผู้ใช้จริง

ต่อมา WorfBench และ TaskBench ได้ก้าวสำคัญด้วยการนำเสนอแนวคิดการเรียกใช้เครื่องมือหลายขั้นตอนในรอบเดียว และเน้นความสามารถในการวางแผนของโมเดล แต่พวกมันยังมีข้อบกพร่องสำคัญ: เพียงระบุเส้นทางการดำเนินการที่เหมาะสมที่สุดเพียงเส้นทางเดียว และพึ่งพาตัวชี้วัดการประเมินตามความคล้ายคลึง ซึ่งมักไม่แม่นยำพอในทางปฏิบัติ

ToolBench, AnyToolBench และ StableToolBench แม้จะขยายขนาด API แต่ก็ยังจำกัดอยู่ภายในกระบวนทัศน์การโต้ตอบแบบรอบเดียว ปัญหาร่วมของเกณฑ์มาตรฐานเหล่านี้คือ: งานที่พวกมันสร้างขึ้นเป็นงาน “ในอุดมคติ” — ความตั้งใจของผู้ใช้ชัดเจน ข้อมูลครบถ้วน ขอบเขตงานชัดเจน

อย่างไรก็ตาม การโต้ตอบของผู้ใช้ในโลกแห่งความเป็นจริงไม่เคยเป็นเช่นนั้น

2. นวัตกรรมหลัก: ความท้าทายสามประการใน “ป่าดิบ”

ทีมวิจัยได้สรุปคุณลักษณะสำคัญสามประการของพฤติกรรมผู้ใช้ผ่านการวิเคราะห์บันทึกผู้ใช้จริงขนาดใหญ่ ซึ่งประกอบเป็น ปรัชญาการออกแบบของ WildToolBench: “สิ่งที่ท้าทายความสามารถในการใช้เครื่องมือของโมเดลใหญ่จริงๆ ไม่ใช่สถานการณ์ซับซ้อนที่สร้างขึ้นโดยมนุษย์ แต่คือพฤติกรรมผู้ใช้ที่เรียบง่ายแต่เป็นจริง”

2.1 ความท้าทายที่หนึ่ง: การจัดเรียงเครื่องมือสำหรับงานผสมผสาน

คำสั่งของผู้ใช้จริงมักไม่ใช่งานเดียว แต่เป็นการรวมความต้องการง่ายๆ หลายอย่างเข้าด้วยกันเป็นประโยคธรรมชาติ ตัวอย่างเช่น:

“ฉันอยากดูว่ามีภาพยนตร์ฮิตอะไรบ้างเมื่อเร็วๆ นี้ แล้วทำ PPT แบบสอบถามด้วย สุดท้ายส่งผลลัพธ์ไปที่อีเมลของฉันด้วย”

เบื้องหลังคำสั่งง่ายๆ นี้ แท้จริงแล้วมีโครงสร้างโทโพโลยีการเรียกใช้เครื่องมือที่ซับซ้อน: ต้องค้นหาภาพยนตร์ก่อน จากนั้นสร้างสไลด์ สุดท้ายส่งอีเมล แต่ที่สำคัญกว่านั้น งานย่อยเหล่านี้มีความสัมพันธ์เชิงพึ่งพากัน — มีเพียงการได้รับรายชื่อภาพยนตร์ก่อนเท่านั้น จึงจะสามารถสร้าง PPT ได้ และการส่งอีเมลต้องรอให้การสร้าง PPT เสร็จสิ้น

เพื่อประเมินความสามารถของโมเดลในด้านนี้อย่างแม่นยำ ทีมวิจัยได้ออกแบบวิธีการ “แจงนับ-จับคู่-ให้คะแนน” ที่ชาญฉลาด:

ขั้นตอนการแจงนับ

ขั้นแรก ผู้เชี่ยวชาญมนุษย์จะทำเครื่องหมายความสัมพันธ์การพึ่งพาระหว่างเครื่องมือที่อยู่ติดกัน จากนั้นใช้อัลกอริทึมการเรียงลำดับเชิงโทโพโลยีแบบลึกก่อน (Depth-First Topological Sorting) เพื่อแจงนับเส้นทางการดำเนินการเครื่องมือที่ถูกต้องที่เป็นไปได้ทั้งหมด วิธีนี้ไม่จำกัดอยู่เพียงเส้นทางที่เหมาะสมที่สุดเพียงเส้นทางเดียว แต่สร้างชุดของต้นไม้การตัดสินใจที่พิจารณาทุกสาขาและสถานการณ์แบบขนาน

2. ความท้าทายหลักและวิธีการประเมิน

การออกแบบ WildToolBench มีเป้าหมายเพื่อประเมินความสามารถของแบบจำลองภาษาขนาดใหญ่ในการใช้เครื่องมือในสถานการณ์จริงที่ซับซ้อนและเปลี่ยนแปลงได้อย่างแม่นยำ ทีมวิจัยได้ระบุและสร้างความท้าทายหลักสามประการอย่างเป็นระบบ และออกแบบกรอบการประเมินที่ตรงเป้าหมาย

2.1 ความท้าทายที่หนึ่ง: การจัดเรียงเครื่องมือหลายอย่างร่วมกันอย่างซับซ้อน

ในงานจริง ความต้องการของผู้ใช้มักไม่สามารถแก้ไขได้ด้วยเครื่องมือเดียว แต่โมเดลต้องวางแผน ผสมผสาน และเรียกใช้เครื่องมือหลายอย่างตามลำดับหรือแบบขนานอย่างชาญฉลาด WildToolBench ได้ออกแบบกระบวนการประเมินสามขั้นตอน “แจงนับ-จับคู่-ให้คะแนน” เพื่อวัดความสามารถในการจัดเรียงเครื่องมือเชิงปริมาณ

ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
รูปที่ 4: การแสดงภาพกระบวนการ “แจงนับ-จับคู่-ให้คะแนน” สำหรับการประเมินการจัดเรียงเครื่องมือใน WildToolBench การออกแบบนี้แบ่งตรรกะการประเมินออกเป็นสามขั้นตอน ซึ่งเป็นกุญแจสำคัญในการแก้ปัญหาการประเมินงานแบบผสมผสาน

1. ขั้นตอนการแจงนับ
ระบบจะแจงนับเส้นทางการดำเนินการเครื่องมือที่ถูกต้องทั้งหมดสำหรับงานปัจจุบันล่วงหน้า ผ่านการเรียงลำดับเชิงโทโพโลยีแบบลึกก่อน ดังแสดงในรูปที่ 4(a) สาขาเครื่องมือบางสาขา (เช่น สาขา “ค้นหาแล้วสำรวจ” และสาขา “สไลด์”) สามารถดำเนินการแบบขนานได้ จึงสร้างเส้นทางที่เป็นไปได้หลายเส้นทาง ดังแสดงในรูปที่ 4(b) อัลกอริทึมหลัก (ดูอัลกอริทึม 1) คล้ายกับการต่อบล็อกทีละขั้น: ขั้นแรกจะระบุเครื่องมือทั้งหมดที่สามารถดำเนินการได้ทันทีโดยที่การพึ่งพาก่อนหน้าได้รับการตอบสนองแล้ว จากนั้นลองชุดการดำเนินการที่เป็นไปได้ทั้งหมด (ตามลำดับหรือแบบขนาน) อัลกอริทึมจะบันทึกเส้นทางการสำรวจแต่ละเส้นทางและอัปเดตสถานะ จนกระทั่งเครื่องมือทั้งหมดดำเนินการเสร็จสิ้น สุดท้ายรวบรวมเส้นทางที่เป็นไปได้ทั้งหมดและกำหนดเส้นทางที่เหมาะสมที่สุดที่มีขั้นตอนน้อยที่สุด

ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
อัลกอริทึม 1: รหัสเทียมสำหรับการแจงนับเส้นทางการจัดเรียงเครื่องมือที่เป็นไปได้ทั้งหมด

2. ขั้นตอนการจับคู่
เมื่อโมเดลดำเนินการเรียกใช้เครื่องมือจริง ระบบจะใช้กลยุทธ์การจับคู่เส้นทางแบบเพิ่มทีละส่วน เพื่อระบุตำแหน่งการเรียกใช้นั้นในชุดต้นไม้การตัดสินใจที่สร้างไว้ล่วงหน้าแบบเรียลไทม์ การเรียกใช้เครื่องมือแต่ละครั้งจะสิ้นสุดการประเมินเส้นทางปัจจุบันเนื่องจากไม่ตรงกัน หรือเข้าสู่ต้นไม้ย่อยที่เกี่ยวข้องเพื่อติดตามต่อไป

3. ขั้นตอนการให้คะแนน
ผ่านการระบุตำแหน่งโดยการจับคู่ ระบบสามารถประเมินคุณภาพของเส้นทางการดำเนินการของโมเดลได้ การให้คะแนนขึ้นอยู่กับตัวชี้วัดย่อยสองตัว:
* อัตราเส้นทางที่เหมาะสมที่สุด: เมื่อเส้นทางการดำเนินการที่โมเดลทำเสร็จมีความลึกน้อยที่สุด (ขั้นตอนน้อยที่สุด) ในบรรดาเส้นทางที่แจงนับทั้งหมด ถือว่ามีประสิทธิภาพที่เหมาะสมที่สุด
* อัตราความก้าวหน้าของการทำงานให้สำเร็จ: คำนวณตามสัดส่วนของโหนดเครื่องมือที่ดำเนินการสำเร็จ วัดความสมบูรณ์ของการดำเนินงาน

วิธีการประเมินแบบละเอียดนี้ ชดเชยข้อบกพร่องของเกณฑ์มาตรฐานดั้งเดิมที่มุ่งเน้นเพียงผลลัพธ์งานสุดท้ายและละเลยกระบวนการดำเนินการ สามารถสะท้อนความสามารถในการทำงานร่วมกันและการวางแผนเครื่องมือของโมเดลได้อย่างครอบคลุมมากขึ้น

2.2 ความท้าทายที่สอง: การอนุมานความตั้งใจที่ซ่อนเร้นข้ามรอบการสนทนา

จากการวิจัยพบว่า ในงานแบบลำดับ ผู้ใช้สูงถึง 80% จะปรับเปลี่ยนหรือละเว้นข้อมูลบริบทในการถามต่อๆ ไป ซึ่งหมายความว่าโมเดลต้องสามารถอนุมานความตั้งใจที่แท้จริงของผู้ใช้จากการสนทนาหลายรอบได้อย่างแม่นยำ WildToolBench ออกแบบสามกลยุทธ์เพื่อสร้างงานประเภทนี้:

1. ข้อมูลบางส่วน
ข้อความผู้ใช้ปัจจุบันมีเพียงข้อมูลที่จำเป็นบางส่วน ข้อมูลที่ละเว้นอยู่ในการสนทนาในอดีต ตัวอย่างเช่น ผู้ใช้ถามในรอบแรกว่า “อากาศที่ปารีสเป็นอย่างไร” รอบที่สองถามว่า “แล้วลอนดอนล่ะ?” โมเดลต้องอนุมานว่าคำถามหลังต้องการสอบถามสภาพอากาศที่ลอนดอน

2. การอ้างอิงโดยใช้คำแทน
ข้อความปัจจุบันมีข้อมูลครบถ้วน แต่ประธานประโยคอ้างอิงถึงเอนทิตีในข้อความก่อนหน้าผ่านคำสรรพนามหรือรูปแบบการละเว้น ตัวอย่างเช่น: “ช่วยหางานอื่นๆ ของผู้กำกับคนนี้ให้หน่อย” — “ผู้กำกับคนนี้” อ้างอิงถึงผู้กำกับภาพยนตร์ที่พูดคุยกันในรอบก่อนหน้า

3. การพึ่งพาระยะยาว
คล้ายกับ “ข้อมูลบางส่วน” แต่ข้อมูลที่ขาดหายไปซึ่งต้องพึ่งพาอยู่ในการสนทนาในอดีตอย่างน้อยสองรอบก่อนหน้า ซึ่งต้องการความสามารถในการเชื่อมโยงบริบทระยะยาวและการระบุตำแหน่งของโมเดลสูงที่สุด

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/26266