Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค “ขับเคลื่อนอัตโนมัติ” เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า

3 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 9 views

คีย์เวิร์ด: Meta-Harness, การปรับปรุงชุดเครื่องมือ, การค้นหาพื้นที่โค้ด, การเข้าถึงเส้นทางการทำงาน, การปรับปรุงแบบเอเจนต์

การเปลี่ยนแปลงชุดเครื่องมือรอบนอกของโมเดลภาษาขนาดใหญ่ที่ถูกตรึงไว้ สามารถสร้างความแตกต่างของประสิทธิภาพได้สูงสุดถึง 6 เท่า บนเกณฑ์ทดสอบเดียวกัน ชุดเครื่องมือ (harness ซึ่งก็คือเฟรมเวิร์กโค้ดที่ห่อหุ้ม LLM ผ่านการออกแบบกฎการรับเข้า-ส่งออก การเรียกใช้เครื่องมือภายนอก การจัดการตรรกะบทสนทนาหลายรอบ ฯลฯ เพื่อปรับปรุงความเหมาะสมกับสถานการณ์โดยไม่แก้ไขพารามิเตอร์โมเดล) เป็นตัวกำหนดว่าข้อมูลใดจะถูกจัดเก็บ ค้นหา และนำเสนอให้กับโมเดล ความสำคัญของมันมักจะไม่ด้อยไปกว่าตัวน้ำหนักของโมเดลเอง

อย่างไรก็ตาม การออกแบบชุดเครื่องมือในปัจจุบันยังคงอาศัยมนุษย์เป็นหลัก วิธีการปรับปรุงข้อความที่มีอยู่ไม่สามารถทำงานนี้ได้ดี เนื่องจากการบีบอัดข้อมูลป้อนกลับที่รุนแรงเกินไป: ไม่ว่าจะเป็นการไม่มีหน่วยความจำและพึ่งพาเฉพาะคะแนนตัวเลข หรือการจำกัดป้อนกลับให้เป็นเทมเพลตหรือบทสรุปสั้นๆ การออกแบบเช่นนี้ดูอ่อนแอเมื่อต้องเผชิญกับวิศวกรรมชุดเครื่องมือที่ต้องการการให้เหตุผลเชิงสาเหตุตามลำดับเวลาที่ยาว

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า

เพื่อแก้ไขปัญหานี้ ทีมวิจัยจากมหาวิทยาลัยสแตนฟอร์ดและสถาบันเทคโนโลยีแมสซาชูเซตส์ได้เสนอ Meta‑Harness — ระบบลูปชั้นนอกที่ค้นหาแบบ end-to-end เพื่อหาชุดเครื่องมือโค้ดที่เหมาะสมที่สุดสำหรับแอปพลิเคชันโมเดลภาษาขนาดใหญ่อัตโนมัติ

หัวใจของมันคือตัวเสนอแนะอัจฉริยะ ที่สามารถเข้าถึงซอร์สโค้ดเต็มรูปแบบของชุดเครื่องมือตัวเลือกในอดีตทั้งหมด ผลลัพธ์การให้คะแนน และเส้นทางการทำงานโดยละเอียด ผ่านระบบไฟล์

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า
รูปที่ 2: ลูปการค้นหาของ Meta-Harness (1) เอเจนต์อ่านระบบไฟล์ที่มีซอร์สโค้ด เส้นทางการทำงาน และคะแนนของตัวเลือกในอดีตทั้งหมด และเสนอแผนชุดเครื่องมือใหม่ (2) ทดสอบชุดเครื่องมือที่เสนอในงานประเมิน (3) บันทึกทั้งหมด (โค้ดที่เสนอ เส้นทางการให้เหตุผล คะแนนประเมิน) ไปยังไดเรกทอรีใหม่ในระบบไฟล์ และลูปจะทำงานซ้ำ

การทดลองตัดส่วนแสดงให้เห็นว่า สิทธิ์การเข้าถึงเส้นทางการทำงานแบบสมบูรณ์เป็นส่วนที่สำคัญที่สุดของระบบทั้งหมด — การมีเพียงคะแนนหรือบทสรุปนั้นไม่เพียงพอ ผลการทดลองในสามงานยืนยันข้อได้เปรียบของการออกแบบนี้:

การจำแนกข้อความออนไลน์: Meta‑Harness ใช้เพียง 0.1 เท่าของจำนวนครั้งในการประเมิน ก็เทียบเท่าความแม่นยำสุดท้ายของเครื่องมือปรับปรุงข้อความที่ดีที่สุดก่อนหน้านี้ได้ และในที่สุดเมื่อเทียบกับระบบจัดการคอนเท็กซ์ชั้นนำในปัจจุบัน ความแม่นยำเพิ่มขึ้น 7.7 เปอร์เซ็นต์ พร้อมกับใช้โทเค็นคอนเท็กซ์ลดลงเหลือ 1/4
การให้เหตุผลทางคณิตศาสตร์แบบเสริมด้วยการค้นคืน: ชุดเครื่องมือเดียวที่ค้นพบโดย Meta‑Harness ในโจทย์ระดับความยากโอลิมปิกคณิตศาสตร์สากล (IMO) 200 ข้อ เพิ่มความแม่นยำเฉลี่ย 4.7 เปอร์เซ็นต์ สำหรับโมเดล 5 ตัวที่ไม่ได้เข้าร่วมการฝึก
งานเขียนโค้ดอัจฉริยะ: ชุดเครื่องมือที่ค้นพบทำได้ดีกว่าเบสไลน์ที่ออกแบบโดยมนุษย์ที่ดีที่สุด บนเกณฑ์มาตรฐาน TerminalBench‑2 และขึ้นเป็นอันดับหนึ่งบนกระดานคะแนนสำหรับโมเดลเฉพาะบางตัว

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า
รูปที่ 1 ซ้าย: ในงานจำแนกข้อความ Meta-Harness ทำได้ดีกว่าชุดเครื่องมือออกแบบโดยมนุษย์ที่ดีที่สุดก่อนหน้านี้ (ACE) และเครื่องมือปรับปรุงข้อความที่มีอยู่ (TTT-Discover, OpenEvolve) โดยใช้การประเมินเพียง 4 ครั้งก็ถึงความแม่นยำสุดท้ายของวิธีรองที่ดีที่สุด

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า
รูปที่ 1 ขวา: ในเกณฑ์มาตรฐาน TerminalBench2 Meta-Harness ทำได้ดีกว่าชุดเครื่องมือ Claude Haiku 4.5 ทุกตัวที่เปิดเผยต่อสาธารณะ

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าข้อได้เปรียบหลักของ Meta‑Harness ไม่เพียงอยู่ที่การค้นหาพื้นที่โค้ด แต่ยังอยู่ที่ความสามารถในการเข้าถึงและใช้ประโยชน์จากประสบการณ์การวินิจฉัยแบบสมบูรณ์ก่อนหน้าได้อย่างเลือกสรร — ซึ่งทำให้ระบบสามารถให้เหตุผลและปรับปรุงในระดับสาเหตุได้ แทนที่จะเป็นการวนซ้ำแบบสุ่ม

สอง วิธีหลัก: การออกแบบ Meta-Harness

วิธีการปรับปรุงข้อความที่มีอยู่เผชิญกับความท้าทายพื้นฐานในวิศวกรรมชุดเครื่องมือโมเดล: ขนาดของข้อมูลคอนเท็กซ์ที่สามารถรับได้ในแต่ละขั้นตอนการปรับปรุงมีจำกัดอย่างยิ่ง ดังแสดงในตารางที่ 1 ข้อมูลวินิจฉัย (ซึ่งก็คือข้อมูลเต็มที่จำเป็นสำหรับการวิเคราะห์ปัญหา) ที่วิธีการตัวแทนสามารถใช้ได้ในการวนซ้ำแต่ละครั้งมีเพียง 100 ถึง 30,000 โทเค็น ซึ่งต่ำกว่าข้อมูลที่ต้องการสำหรับการปรับปรุงชุดเครื่องมือที่ซับซ้อนมาก

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า
ตารางที่ 1: การเปรียบเทียบขนาดคอนเท็กซ์ระหว่างวิธีการปรับปรุงข้อความกับ Meta-Harness Mtok/iter (ล้านโทเค็น/การวนซ้ำ) เป็นการประมาณที่ดีที่สุดของข้อมูลวินิจฉัยเต็มรูปแบบที่แต่ละวิธีสามารถสร้างได้ในการประเมินครั้งเดียวภายใต้การตั้งค่าการทดลองสูงสุด Meta-Harness เพิ่มข้อมูลคอนเท็กซ์ที่ใช้ได้ต่อการประเมินแต่ละครั้งขึ้นหลายลำดับความสำคัญ

งานวิจัยที่กว้างขึ้น (เช่น การสร้างเสริมด้วยการค้นคืน โมเดลภาษาที่เสริมด้วยหน่วยความจำ) แสดงให้เห็นว่าการใช้คอนเท็กซ์ที่มีประสิทธิภาพนั้นขึ้นอยู่กับการเข้าถึงแบบปรับตัวได้ — นั่นคือการดึงข้อมูลภายนอกแบบไดนามิกและเลือกสรรตามความต้องการในปัจจุบัน แทนที่จะห่อหุ้มข้อมูลทั้งหมดลงในพรอมต์เดียว[28, 37, 48, 56]

2.1 ภาพรวมของ Meta-Harness

เพื่อแก้ไขข้อจำกัดดังกล่าว เราเสนอ Meta-Harness: เมตาชุดเครื่องมือที่ปรับปรุงชุดเครื่องมือโมเดลผ่านการค้นหาแบบ end-to-end หัวใจของมันคือลูปการค้นหาที่ขับเคลื่อนโดยเอเจนต์เขียนโค้ด ดังแสดงในรูปที่ 2

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า
รูปที่ 2: ลูปการค้นหาของ Meta-Harness (1) เอเจนต์เขียนโค้ดอ่านระบบไฟล์ที่เก็บซอร์สโค้ด เส้นทางการทำงาน และคะแนนประเมินของชุดเครื่องมือตัวเลือกในอดีตทั้งหมด และเสนอแผนชุดเครื่องมือใหม่ (2) ประเมินชุดเครื่องมือที่เสนอในงานเป้าหมาย (3) บันทึกบันทึกทั้งหมดของการวนซ้ำนี้ (โค้ด เส้นทางการให้เหตุผล คะแนน) ไปยังไดเรกทอรีใหม่ในระบบไฟล์ ลูปทำงานซ้ำ

2.2 การออกแบบที่สำคัญ: การเข้าถึงประวัติทั้งหมดผ่านระบบไฟล์

เราเลือกเอเจนต์เขียนโค้ด (ระบบที่ใช้โมเดลภาษาขนาดใหญ่เป็นฐานและสามารถเรียกใช้เครื่องมือพัฒนาซอฟต์แวร์เพื่ออ่าน เขียน และแก้ไขโค้ด) เป็นตัวเสนอแนะ แทนที่จะเป็นโมเดลภาษาขนาดใหญ่แบบดั้งเดิม เหตุผลคือ เมื่อการค้นหาเกิดขึ้น ประสบการณ์ที่ระบบสะสมจะเพิ่มขึ้นอย่างรวดเร็วจนเกินขอบเขตคอนเท็กซ์ของโมเดลใดๆ ดังนั้น ตัวเสนอแนะต้องมีความสามารถในการตัดสินใจตรวจสอบข้อมูลประวัติใด และตรวจสอบความคิดผ่านการโต้ตอบกับฐานโค้ดได้ด้วยตนเอง

การออกแบบหลักของ Meta-Harness คือ: เปิดข้อมูลประวัติทั้งหมดผ่านระบบไฟล์มาตรฐาน เพื่อให้ตัวเสนอแนะสามารถวิเคราะห์โค้ดดั้งเดิมและเส้นทางการทำงานได้อย่างเลือกสรร แทนที่จะพึ่งพาบทสรุปที่ถูกบีบอัดหรือรวบรวม
* สำหรับชุดเครื่องมือตัวเลือกในอดีตแต่ละตัว ระบบไฟล์จะเก็บซอร์สโค้ดเต็มรูปแบบ คะแนนประเมิน และเส้นทางการทำงานโดยละเอียด (เช่น การเรียกใช้โมเดล ผลลัพธ์กลาง) ไว้อย่างสมบูรณ์
* ตัวเสนอแนะดึงข้อมูลและวิเคราะห์ข้อมูลเหล่านี้ผ่านคำสั่งเชลล์มาตรฐาน เช่น grep, cat, find แทนที่จะป้อนข้อมูลทั้งหมดลงในพรอมต์
* ในการทำงานจริง ภายใต้การตั้งค่าการทดลองที่ซับซ้อนที่สุด ตัวเสนอแนะอ่านไฟล์เฉลี่ย 82 ไฟล์ต่อการวนซ้ำ และอ้างอิงข้อมูลจากตัวเลือกในอดีตมากกว่า 20 ตัว
* การออกแบบนี้ทำให้การประเมินชุดเครื่องมือครั้งเดียวสามารถสร้างข้อมูลวินิจฉัยได้มากถึง10 ล้านโทเค็น เพิ่มขึ้นประมาณสามลำดับความสำคัญเมื่อเทียบกับขนาดป้อนกลับสูงสุดของวิธีการปรับปรุงข้อความก่อนหน้า (ตารางที่ 1)

2.3 การประเมินการทดลอง

เราประเมินประสิทธิภาพของ Meta-Harness ในงานสามประเภท:

การจำแนกข้อความออนไลน์: ชุดเครื่องมือที่ค้นพบโดย Meta-Harness เมื่อเทียบกับวิธีการจัดการคอนเท็กซ์อัจฉริยะที่ดีที่สุดในปัจจุบัน (ACE) ความแม่นยำเพิ่มขึ้น 7.7 เปอร์เซ็นต์ พร้อมกับปริมาณการใช้โทเค็นคอนเท็กซ์ลดลงเหลือ 1/4 เพียงผ่านการเสนอ 4 ครั้ง ประสิทธิภาพของมันก็ถึงระดับสุดท้ายของเครื่องมือปรับปรุงข้อความรองที่ดีที่สุดหลังจากเสนอ 60 ครั้ง
การให้เหตุผลทางคณิตศาสตร์: ในโจทย์คณิตศาสตร์ระดับความยาก IMO ที่เสริมด้วยการค้นคืน ชุดเครื่องมือเดียวที่ค้นพบโดย Meta-Harness สามารถเพิ่มความแม่นยำเฉลี่ย 4.7 เปอร์เซ็นต์ สำหรับโมเดล 5 ตัวที่ไม่ได้เข้าร่วมการฝึก
การเขียนโค้ดอัจฉริยะ: ในเกณฑ์มาตรฐาน TerminalBench-2 ชุดเครื่องมือที่ค้นพบโดย Meta-Harness ทำได้ดีกว่าเฟรมเวิร์กเอเจนต์ Claude Haiku 4.5 ทุกตัวที่ทราบกันดี อยู่ในอันดับที่หนึ่ง

Meta-Harness: นำการปรับปรุงชุดเครื่องมือ LLM เข้าสู่ยุค "ขับเคลื่อนอัตโนมัติ" เพิ่มประสิทธิภาพสูงสุดถึง 6 เท่า
รูปที่ 1: (ซ้าย) ในงานจำแนกข้อความ Meta-Harness ทำได้ดีกว่าเฟรมเวิร์กออกแบบโดยมนุษย์ (ACE) และเครื่องมือปรับปรุงข้อความอัตโนมัติ (ขวา) บน TerminalBench-2 Meta-Harness อยู่ในอันดับสูงสุดในบรรดาเฟรมเวิร์ก Claude Haiku 4.5 ที่เปิดเผยต่อสาธารณะ

สาม งานที่เกี่ยวข้อง

Meta-Harness ในภาพรวมผสมผสานแนวคิดของเมตาเลิร์นนิงและการกระจายเครดิต[2, 3, 17, 40, 44, 46] และนำความก้าวหน้าทางเทคนิคล่าสุดของเอเจนต์เขียนโค้ดมาใช้เพื่อสร้างแอปพลิเคชันใหม่ มันไม่ได้กระจายเครดิตในระดับพารามิเตอร์โมเดล แต่กระจายเครดิตในระดับชุดเครื่องมือ: ผ่านการวิเคราะห์ประสบการณ์การทำงานในอดีต เพื่อระบุส่วนประกอบหรือขั้นตอนการตัดสินใจเฉพาะที่ทำให้ระบบล้มเหลว จากนั้นจึงเขียนโค้ดภายนอกที่ควบคุมพฤติกรรมโมเดลใหม่โดยตรง โดยเฉพาะอย่างยิ่ง งานนี้เกี่ยวข้องโดยตรงกับสามทิศทางการวิจัยต่อไปนี้:

3.1 หน่วยความจำภายนอกและการเข้าถึงแบบปรับตัวได้

งานวิจัยจำนวนมากแสดงให้เห็นว่าการให้โมเดลภาษาเข้าถึงแหล่งความรู้ภายนอกขนาดใหญ่หรือคอนเท็กซ์ยาวแบบปรับตัวได้ (เช่น ผ่านการสร้างเสริมด้วยการค้นคืน[28], การสานการให้เหตุผล[48], เอเจนต์หน่วยความจำ[37], โมเดลเรียกซ้ำ[56]) มีประสิทธิภาพมากกว่าการประมวลผลเนื้อหาทั้งหมดในครั้งเดียว Meta-Harness ใช้รูปแบบการเข้าถึงที่คล้ายกัน แต่ประยุกต์ใช้กับสถานการณ์วิศวกรรมชุดเครื่องมือที่ท้าทายยิ่งขึ้น: ตัวเสนอแนะตรวจสอบโค้ดประวัติและเส้นทางการทำงานขนาดใหญ่แบบปรับตัวได้ เพื่อปรับปรุงกระบวนการจัดการคอนเท็กซ์เอง

3.2 การค้นหาโค้ดที่ปฏิบัติการได้

งานล่าสุดสำรวจการค้นหาโค้ดที่ปฏิบัติการได้สำหรับฟังก์ชัน เวิร์กโฟลว์ หรือการออกแบบเอเจนต์ เช่น:
* การใช้คำแนะนำจากโมเดลขนาดใหญ่สำหรับการกลายพันธุ์และการครอสโอเวอร์ในการค้นหาโปรแกรมวิวัฒนาการ[27]
* การวิวัฒนาการฟังก์ชันเฉพาะภายในเฟรมเวิร์กที่ตรึงไว้[39] หรือการใช้เมตาเอเจนต์เขียนโค้ดเอเจนต์ใหม่จากการค้นพบในอดีต[20]
* การค้นหาแผนภาพเวิร์กโฟลว์สำหรับระบบอัจฉริยะ[58] หรือการออกแบบหน่วยความจำสำหรับการเรียนรู้อย่างต่อเนื่อง[50, 57]

ความแตกต่างของ Meta-Harness คือ: มันค้นหาชุดเครื่องมือโมเดลเฉพาะโดเมน (รวมถึงกลยุทธ์การสร้างพรอมต์ การค้นคืน การรีเซ็ตสถานะ ฯลฯ) โดยเฉพาะ และการออกแบบลูปชั้นนอกของมันเรียบง่ายมาก มันไม่พึ่งพาเฟรมเวิร์กที่ตรึงไว้ การเก็บถาวร หรือหน่วยความจำถาวร แต่ให้ตัวเสนอแนะเข้าถึงประสบการณ์ประวัติดั้งเดิมโดยไม่จำกัดผ่านระบบไฟล์ ซึ่งทำให้เอเจนต์สามารถตัดสินใจได้ด้วยตนเองว่าจะตรวจสอบเนื้อหาอะไร และสนับสนุนการค้นหาแผนการนำชุดเครื่องมือไปใช้แบบสมบูรณ์ แทนที่จะค้นหาในพื้นที่กระบวนการที่กำหนดไว้ล่วงหน้า

3.3 วิธีการปรับปรุงข้อความ

Meta-Harness เกี่ยวข้องอย่างใกล้ชิดกับวิธีการที่ใช้ป้อนกลับวนซ้ำเพื่อปรับปรุงพรอมต์หรือสิ่งประดิษฐ์ข้อความ เช่น ProTeGi, TextGrad, OPRO, OpenEvolve[1, 26, 31, 35, 38, 43, 51,

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง