สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

19 hours ago • ข่าวสารอุตสาหกรรม AI • 20 views

LLM-as-a-Verifier: กรอบการตรวจสอบที่พัฒนาโดย Stanford, Berkeley และ NVIDIA ช่วยเพิ่มประสิทธิภาพ Agent อย่างมีนัยสำคัญผ่านการขยายปริมาณการคำนวณ

Lukasz Kaiser ผู้เขียนบทความ Transformer และ Bing Xu ผู้เขียนบทความ GAN ได้ร่วมกันแชร์ผลงานที่ได้รับความสนใจอย่างมาก นั่นคือกรอบการตรวจสอบ LLM-as-a-Verifier กรอบการทำงานนี้เป็นกลไกการตรวจสอบแบบสากลที่สามารถทำงานร่วมกับ Agent Harness และโมเดลใดๆ ได้อย่างราบรื่น

งานวิจัยนี้ดำเนินการร่วมกันโดยมหาวิทยาลัย Stanford, University of California, Berkeley และ NVIDIA การศึกษาพบว่าการ ขยายปริมาณการคำนวณในขั้นตอนการตรวจสอบ (scaling verification compute) สามารถปรับปรุงประสิทธิภาพโดยรวมของ Agent ได้อย่างมีนัยสำคัญ ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI ที่มีอิทธิพลมากที่สุดอย่าง Terminal-Bench กรอบการทำงานนี้มีประสิทธิภาพเหนือกว่า Claude Mythos และ GPT-5.5

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ทั้งในเกณฑ์มาตรฐานการเขียนโปรแกรม AI อย่าง Terminal-Bench และ SWE-Bench Verified

วิธีการ

Agent Harness ส่วนใหญ่มีความสามารถในการแก้ปัญหาอยู่แล้ว เมื่อเราเรียกใช้ Agent ตัวเดียวกันหลายครั้ง (เช่น 100 ครั้ง) มันมักจะสร้างคำตอบที่ถูกต้องได้ในบางครั้ง อย่างไรก็ตาม ปัญหาคือ Agent เหล่านี้ไม่สามารถ判断ได้ว่าคำตอบใดถูกต้อง ปัญหานี้เด่นชัดเป็นพิเศษในงานที่มีระยะเวลายาวนาน (long-horizon tasks)

LLM-as-a-Verifier ช่วยเพิ่มความสามารถในการตรวจสอบและปรับปรุงอัตราความสำเร็จของงานปลายน้ำได้อย่างมีนัยสำคัญ โดยการขยาย ความละเอียดของโทเค็นคะแนน (score granularity) , การตรวจสอบซ้ำ (repeated verification) และ การ分解เกณฑ์การประเมิน (criteria decomposition) นอกจากนี้ ทีมงานยังพบว่าเมื่อความละเอียดของโทเค็นคะแนนเพิ่มขึ้น ความแตกต่างของคะแนนระหว่างตัวอย่างบวกและลบก็จะยิ่งมากขึ้น

ปัญหาหลัก: ข้อจำกัดของ LLM-as-a-Judge

วิธีการ LLM-as-a-Judge มาตรฐานจะกระตุ้นให้โมเดลส่งออกผลการให้คะแนน (เช่น คะแนนระหว่าง 1 ถึง 8) และเลือกคะแนนที่มีความน่าจะเป็นสูงสุดเป็นคะแนนไม่ต่อเนื่องสุดท้าย อย่างไรก็ตาม วิธีนี้มักมีปัญหา ความละเอียดของคะแนนหยาบเกินไป เมื่อเปรียบเทียบเส้นทาง (trajectories) ของ Agent ในระยะยาว LLM-as-a-Judge มักจะกำหนดคะแนนเดียวกันให้กับเส้นทางที่แตกต่างกัน (เช่น ทั้งสองเส้นทางได้ 4 คะแนน) ซึ่ง นำไปสู่การเสมอกัน ทำให้ไม่สามารถแยกแยะได้อย่างมีประสิทธิภาพ กลไกการให้คะแนนแบบหยาบนี้ทำให้เกิดการเสมอกันถึง 27% ใน Terminal-Bench ซึ่งจำกัดความแม่นยำและความสามารถในการแยกแยะอย่างรุนแรง

LLM-as-a-Verifier: การเปลี่ยนกระบวนทัศน์จากการให้คะแนนเป็นการตรวจสอบ

ตามคำจำกัดความ ผู้ตัดสิน (judge) คือผู้ที่สร้างความเห็นโดยรวมเกี่ยวกับสถานการณ์และให้ข้อสรุป ในขณะที่ผู้ตรวจสอบ (verifier) คือผู้ที่ตรวจสอบความจริงและความถูกต้องของรายการเฉพาะ ดังนั้นจึงต้องการการประเมินที่ละเอียดและเฉพาะเจาะจงมากขึ้น ด้วยเหตุนี้ ทีมงานจึงเสนอ LLM-as-a-Verifier ซึ่งให้ข้อเสนอแนะแบบละเอียดโดยการขยายสามมิติต่อไปนี้:

ความละเอียดของโทเค็นคะแนน (granularity of score tokens)
จำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications)
การ分解เกณฑ์การประเมิน (decomposition of evaluation criteria)

เมื่อกำหนดภารกิจ t และเส้นทาง候选สองเส้นทาง LLM-as-a-Verifier จะสร้าง prompt การให้คะแนน และแยก top logprobs จาก และ เพื่อให้ได้การแจกแจงแบบมีเงื่อนไขที่สอดคล้องกัน:

LLM-as-a-Verifier แสดงรางวัลของเส้นทางดังนี้:

โดยที่:
* C = จำนวนเกณฑ์การประเมิน
* K = จำนวนครั้งของการตรวจสอบซ้ำ
* G = จำนวนโทเค็นคะแนน (ระดับความละเอียด)
*

คือความน่าจะเป็นของโมเดลสำหรับโทเค็นคะแนน
*

= ฟังก์ชันที่แมปโทเค็นคะแนนแต่ละตัวเป็นค่าสเกลาร์
*

= ชุดโทเค็นคะแนนไม่ต่อเนื่อง

ในการเลือกเส้นทางที่ดีที่สุด เราใช้ การแข่งขันแบบพบกันหมด (round-robin tournament): สำหรับเส้นทาง候选แต่ละคู่ (i, j) ผู้ตรวจสอบจะคำนวณ reward โดยใช้สูตรข้างต้น เส้นทางที่มีรางวัลสูงกว่าจะชนะ และเส้นทางที่มีจำนวนชัยชนะมากที่สุดในการเปรียบเทียบทั้งหมดจะถูกเลือกเป็นผลลัพธ์สุดท้าย

ผลการทดลอง

ในงานเกณฑ์มาตรฐานระยะยาวที่ซับซ้อน เช่น Terminal-Bench 2.0 และ SWE-Bench Verified LLM-as-a-Verifier มีประสิทธิภาพเหนือกว่าโมเดล前沿 อย่างครอบคลุม และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในทุกกรณี ผลการทดลองทั้งหมดมาจากกระดานอันดับอย่างเป็นทางการ

LLM-as-a-Verifier สามารถ ผสานรวมเข้ากับกรอบ Agent Harness ที่แตกต่างกันได้อย่างราบรื่น ซึ่งความ通用性นี้ได้รับการยืนยันในงานเกณฑ์มาตรฐานสามงานดังต่อไปนี้:

ForgeCode: ความแม่นยำในการตรวจสอบเพิ่มขึ้นเป็น 86.4%
Terminus-Kira: ความแม่นยำเพิ่มขึ้นเป็น 79.4%
Terminus 2: ความแม่นยำเพิ่มขึ้นเป็น 71.2%

这表明，无论针对何种Agent Harness或模型，该验证方法皆可高效兼容并提升性能。

LLM-as-a-Verifier มีความแม่นยำในการตรวจสอบและความสามารถในการขจัดการเสมอกันเหนือกว่า LLM-as-a-Judge แบบดั้งเดิมอย่างครอบคลุม แม้จะเพิ่มจำนวนครั้งการตรวจสอบซ้ำ (เช่น k=16) วิธีการ Verifier ยังคงรักษาความได้เปรียบด้านความแม่นยำในการตรวจสอบอย่างน้อย 7% นอกจากนี้ มัน ขจัดปรากฏการณ์การเสมอกันได้อย่างสมบูรณ์

ผลการทดลองแสดงให้เห็นว่าการเพิ่มความละเอียดของโทเค็นคะแนน (granularity) และการเพิ่มจำนวนครั้งการตรวจสอบซ้ำ (repeated verifications) สามารถเพิ่มความแม่นยำในการตรวจสอบได้อย่างมีนัยสำคัญ นอกจากนี้ ในการแบ่งระดับละเอียดของมิติโทเค็นคะแนน (1→20) ข้อผิดพลาดเชิงปริมาณลดลงอย่างมาก ทำให้เข้าใกล้รางวัลจริงมากขึ้น

LLM-as-a-Verifier ละทิ้งกลไกการให้คะแนนเดี่ยวแบบดั้งเดิม และใช้การแยกส่วนการตรวจสอบเส้นทางออกเป็นเกณฑ์การประเมินสามข้อที่สามารถประกอบกันได้:

การปฏิบัติตามข้อกำหนด (Specification): เส้นทางเป็นไปตามข้อกำหนดของงานทั้งหมดหรือไม่ (เส้นทาง, การตั้งชื่อ ฯลฯ)
รูปแบบผลลัพธ์ (Output Format): ตรวจสอบว่ารูปแบบของผลลัพธ์ตรงตามผลลัพธ์ที่คาดหวังหรือไม่
การตรวจสอบข้อผิดพลาด (Error Checking): มีสัญญาณข้อผิดพลาดที่ชัดเจนในเส้นทางหรือไม่

เมื่อเทียบกับวิธีการ LLM-as-a-Judge แบบดั้งเดิม กรอบ LLM-as-a-Verifier ใช้ความละเอียดของคะแนนที่ละเอียดยิ่งขึ้น การตรวจสอบซ้ำ และการ分解เกณฑ์การประเมิน เพื่อให้ได้ความแม่นยำในการตรวจสอบที่สูงขึ้นและความสามารถในการแยกแยะที่แม่นยำยิ่งขึ้น ขจัดปรากฏการณ์การเสมอกันของคะแนน ไม่เพียงแต่เพิ่มประสิทธิภาพของ Agent เท่านั้น แต่ยังเพิ่มความปลอดภัยและความเสถียรของโมเดลในงานระยะยาวอย่างมีนัยสำคัญ

แนะนำทีมงาน

โครงการนี้รับผิดชอบโดย Jacky Kwok นักศึกษาปริญญาเอกสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัย Stanford ผู้มีส่วนร่วมหลัก ได้แก่ Shulu Li นักศึกษาปริญญาเอก EECS จาก Berkeley ผู้เขียนที่ติดต่อได้แก่ Ion Stoica (ศาสตราจารย์ UC Berkeley, ผู้ก่อตั้ง Databricks), Azalia Mirhoseini (ศาสตราจารย์ Stanford, เคยทำงานที่ DeepMind และ Anthropic) และ Marco Pavone (ผู้อำนวยการฝ่ายวิจัย AI และยานยนต์ไร้คนขับของ NVIDIA)

บล็อก: llm-as-a-verifier.notion.site
โค้ด: llm-as-a-verifier.github.io
ติดต่อ: jackykwok@stanford.edu

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง