โครงการนี้ดำเนินการโดย Jacky Kwok นักศึกษาปริญญาเอกสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ด โดยมีผู้ร่วมให้ข้อมูลหลักคือ Shulu Li นักศึกษาปริญญาเอก EECS จากมหาวิทยาลัยเบิร์กลีย์ ทีมผู้เขียนที่รับผิดชอบประกอบด้วย Ion Stoica (ศาสตราจารย์จากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ ผู้ก่อตั้ง Databricks), Azalia Mirhoseini (ศาสตราจารย์จากมหาวิทยาลัยสแตนฟอร์ด อดีตทำงานที่ DeepMind และ Anthropic) และ Marco Pavone (ผู้อำนวยการฝ่ายวิจัย AI และการขับขี่อัตโนมัติของ Nvidia)
มหาวิทยาลัยสแตนฟอร์ด เบิร์กลีย์ และ Nvidia ร่วมกันเปิดตัวกรอบงานตรวจสอบอัจฉริยะที่ชื่อว่า LLM-as-a-Verifier โซลูชันนี้ทำหน้าที่เป็นกลไกการตรวจสอบทั่วไปที่สามารถทำงานร่วมกับ Agent Harness และโมเดลใดๆ ได้อย่างราบรื่น
งานวิจัยแสดงให้เห็นว่าการขยายการคำนวณในขั้นตอนการตรวจสอบ (scaling verification compute) สามารถเพิ่มประสิทธิภาพโดยรวมของเอเจนต์ได้อย่างมีนัยสำคัญ ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI ที่มีอิทธิพลมากที่สุดอย่าง Terminal-Bench ผลลัพธ์ของมันเหนือกว่า GPT-5.5 และ Claude Mythos!

LLM-as-a-Verifier ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ทั้งในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI อย่าง Terminal-Bench และ SWE-Bench Verified Lukasz Kaiser ผู้เขียนบทความ Transformer และ Bing Xu ผู้เขียน GAN ก็ได้แชร์และติดตามผลงานนี้เช่นกัน


- ที่อยู่บล็อก: llm-as-a-verifier.notion.site
- ที่อยู่โค้ด: llm-as-a-verifier.github.io
ภาพรวมวิธีการ
Agent Harness ส่วนใหญ่มีความสามารถในการแก้ปัญหาอยู่แล้ว เมื่อเราเรียกใช้เอเจนต์เดียวกันหลายครั้ง (เช่น 100 ครั้ง) มันมักจะสร้างคำตอบที่ถูกต้องได้ในบางครั้ง แต่ประเด็นสำคัญคือ พวกมันไม่สามารถตัดสินได้ว่าคำตอบไหนถูกต้อง ปัญหานี้เด่นชัดเป็นพิเศษในงานที่ต้องดำเนินการเป็นเวลานาน (long-horizon tasks)

LLM-as-a-Verifier ปรับปรุงความสามารถในการตรวจสอบอย่างมีนัยสำคัญ และเพิ่มอัตราความสำเร็จของงานปลายน้ำ โดยการขยายความละเอียดของโทเค็นคะแนน (score granularity) ทำการตรวจสอบซ้ำ (repeated verification) และแยกย่อยเกณฑ์การประเมิน (criteria decomposition) นอกจากนี้ ทีมงานพบว่าเมื่อความละเอียดของโทเค็นคะแนนเพิ่มขึ้น ความแตกต่างของคะแนนระหว่างตัวอย่างบวกและลบก็จะยิ่งมากขึ้น

ปัญหาหลัก: ข้อจำกัดของ LLM-as-a-Judge
วิธีการ LLM-as-a-Judge มาตรฐานจะแจ้งให้โมเดลแสดงผลลัพธ์คะแนน (เช่น คะแนนระหว่าง 1 ถึง 8) และเลือกคะแนนที่มีความน่าจะเป็นสูงที่สุดเป็นคะแนนแยกส่วนสุดท้าย
อย่างไรก็ตาม วิธีนี้มักมีปัญหาความละเอียดของคะแนนที่หยาบเกินไป เมื่อเปรียบเทียบเส้นทาง (trajectories) ของเอเจนต์ระยะยาว LLM-as-a-Judge มักจะกำหนดคะแนนเดียวกันให้กับเส้นทางที่แตกต่างกัน (เช่น ทั้งสองเส้นทางได้ 4 คะแนน) ทำให้เกิดการเสมอกัน และไม่สามารถแยกแยะได้อย่างมีประสิทธิภาพ
กลไกการให้คะแนนแบบหยาบนี้ทำให้เกิดการเสมอกันถึง 27% ในการทดสอบ Terminal-Bench ซึ่งจำกัดความแม่นยำและความสามารถในการแยกแยะของการตัดสินอย่างรุนแรง

LLM-as-a-Verifier: การเปลี่ยนกระบวนทัศน์จากการให้คะแนนสู่การตรวจสอบ
ตามคำจำกัดความ ผู้ตัดสิน (judge) คือผู้ที่สร้างความเห็นโดยรวมเกี่ยวกับสถานการณ์และให้ข้อสรุป ในขณะที่ ผู้ตรวจสอบ (verifier) คือผู้ที่ตรวจสอบความจริงและความถูกต้องของเรื่องเฉพาะ ดังนั้นจึงต้องการการประเมินที่ละเอียดและเฉพาะเจาะจงมากขึ้น
ด้วยเหตุนี้ ทีมงานจึงเสนอ LLM-as-a-Verifier ซึ่งให้ข้อเสนอแนะแบบละเอียดโดยการขยายสามมิติต่อไปนี้:
- จำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications)
- ความละเอียดของโทเค็นคะแนน (granularity of score tokens)
- การแยกย่อยเกณฑ์การประเมิน (decomposition of evaluation criteria)
เมื่อกำหนดงาน t และเส้นทางผู้สมัครสองเส้นทาง LLM-as-a-Verifier จะสร้าง prompt การให้คะแนน และดึง top-logprobs จาก <score_A> และ <score_B> เพื่อให้ได้การแจกแจงแบบมีเงื่อนไข:

LLM-as-a-Verifier แสดงรางวัลของเส้นทางดังนี้:

โดยที่:
- C = จำนวนเกณฑ์การประเมิน
- K = จำนวนครั้งของการตรวจสอบซ้ำ
- G = จำนวนโทเค็นคะแนน (ระดับความละเอียด)

= ความน่าจะเป็นของโมเดลสำหรับโทเค็นคะแนน
*

= ฟังก์ชันที่แมปโทเค็นคะแนนแต่ละตัวเป็นค่าสเกลาร์
*

= ชุดโทเค็นคะแนนแยกส่วน
ในการเลือกเส้นทางที่ดีที่สุด ทีมงานใช้การแข่งขันแบบพบกันหมด (round-robin tournament): สำหรับเส้นทางผู้สมัครแต่ละคู่ (i, j) ผู้ตรวจสอบจะคำนวณรางวัลโดยใช้สูตรข้างต้น เส้นทางที่มีรางวัลสูงกว่าจะชนะ และเส้นทางที่มีจำนวนชนะมากที่สุดในการเปรียบเทียบทั้งหมดจะถูกเลือกเป็นผลลัพธ์สุดท้าย
ผลการทดลอง
- ในการทดสอบเกณฑ์มาตรฐานระยะยาวที่ซับซ้อน เช่น Terminal-Bench 2.0 และ SWE-Bench Verified LLM-as-a-Verifier มีประสิทธิภาพเหนือกว่าโมเดลชั้นนำอย่างครอบคลุม และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในทุกกรณี ผลการทดลองทั้งหมดมาจากกระดานอันดับอย่างเป็นทางการ

- LLM-as-a-Verifier สามารถบูรณาการเข้ากับกรอบงาน Agent Harness ที่แตกต่างกันได้อย่างราบรื่น โดยความสามารถทั่วไปได้รับการตรวจสอบในการทดสอบเกณฑ์มาตรฐานสามรายการต่อไปนี้:
- ForgeCode: ความแม่นยำในการตรวจสอบเพิ่มขึ้นเป็น 86.4%
- Terminus-Kira: ความแม่นยำเพิ่มขึ้นเป็น 79.4%
- Terminus 2: ความแม่นยำเพิ่มขึ้นเป็น 71.2%

ซึ่งแสดงให้เห็นว่าวิธีการตรวจสอบนี้สามารถทำงานร่วมกับ Agent Harness หรือโมเดลใดๆ ได้อย่างมีประสิทธิภาพและปรับปรุงประสิทธิภาพ
- LLM-as-a-Verifier มีความแม่นยำในการตรวจสอบและความสามารถในการขจัดการเสมอกันที่เหนือกว่า LLM-as-a-Judge แบบดั้งเดิมอย่างสมบูรณ์ แม้จะเพิ่มจำนวนครั้งของการตรวจสอบซ้ำ (เช่น k = 16) วิธีการ Verifier ยังคงรักษาความแม่นยำในการตรวจสอบที่เหนือกว่าอย่างน้อย 7% นอกจากนี้ยังขจัดปรากฏการณ์การเสมอกันได้อย่างสมบูรณ์

- ผลการทดลองแสดงให้เห็นว่าการเพิ่มความละเอียดของโทเค็นคะแนน (granularity) และการเพิ่มจำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications) สามารถเพิ่มความแม่นยำในการตรวจสอบได้อย่างมีนัยสำคัญ นอกจากนี้ ในการแบ่งระดับของมิติโทเค็นคะแนน (1→20) ข้อผิดพลาดในการหาปริมาณลดลงอย่างมาก ทำให้ใกล้เคียงกับรางวัลจริงมากขึ้น

- LLM-as-a-Verifier ละทิ้งกลไกการให้คะแนนเดี่ยวแบบดั้งเดิม และใช้การแยกย่อยการตรวจสอบเส้นทางออกเป็นเกณฑ์การประเมินสามข้อที่สามารถรวมกันได้:
- การปฏิบัติตามข้อกำหนด (Specification): เส้นทางเป็นไปตามข้อกำหนดของงานทั้งหมดหรือไม่ (เส้นทาง การตั้งชื่อ ฯลฯ);
- รูปแบบผลลัพธ์ (Output Format): รูปแบบของผลลัพธ์ที่ตรวจสอบตรงกับผลลัพธ์ที่คาดหวังหรือไม่;
- การตรวจสอบข้อผิดพลาด (Error Checking): มีสัญญาณข้อผิดพลาดที่ชัดเจนในเส้นทางหรือไม่

การคำนวณการตรวจสอบเป็นมิติการขยายใหม่
「LLM-as-a-Verifier」เป็นกลไกการตรวจสอบทั่วไปที่สามารถเพิ่มประสิทธิภาพโดยรวมของเอเจนต์ได้อย่างมีนัยสำคัญ และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI หลายรายการ เหนือกว่าโมเดลชั้นนำอื่นๆ เช่น Claude Mythos
เมื่อเปรียบเทียบกับวิธีการ「LLM-as-a-Judge」แบบดั้งเดิม กรอบงานนี้ใช้ความละเอียดของคะแนนที่ละเอียดกว่า การตรวจสอบซ้ำ และการแยกย่อยเกณฑ์การประเมิน ทำให้มีความแม่นยำในการตรวจสอบสูงกว่าและความสามารถในการแยกแยะที่แม่นยำยิ่งขึ้น ขจัดปรากฏการณ์การเสมอกันของคะแนนได้อย่างสมบูรณ์
ข้อมูลการทดลองยืนยันว่ากรอบงานนี้มีความสามารถทั่วไปที่ดี สามารถทำงานร่วมกับ Agent Harness และสถาปัตยกรรมโมเดลต่างๆ ได้ และเพิ่มความแม่นยำอย่างมีนัยสำคัญในงานเกณฑ์มาตรฐานหลายรายการ ในขณะเดียวกัน การปรับปรุงกลไกการให้คะแนนช่วยลดข้อผิดพลาดในการหาปริมาณ ทำให้ผลการตรวจสอบใกล้เคียงกับสัญญาณรางวัลจริงมากขึ้น
LLM-as-a-Verifier ไม่เพียงแต่ปรับปรุงประสิทธิภาพการทำงานของเอเจนต์เท่านั้น แต่ยังเพิ่มความปลอดภัยและความเสถียรของโมเดลในงานที่มีลำดับเวลายาวนานอย่างมาก
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32094
