สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier: กรอบการตรวจสอบที่พัฒนาโดย Stanford, Berkeley และ NVIDIA ช่วยเพิ่มประสิทธิภาพ Agent อย่างมีนัยสำคัญผ่านการขยายปริมาณการคำนวณ

Lukasz Kaiser ผู้เขียนบทความ Transformer และ Bing Xu ผู้เขียนบทความ GAN ได้ร่วมกันแชร์ผลงานที่ได้รับความสนใจอย่างมาก นั่นคือกรอบการตรวจสอบ LLM-as-a-Verifier กรอบการทำงานนี้เป็นกลไกการตรวจสอบแบบสากลที่สามารถทำงานร่วมกับ Agent Harness และโมเดลใดๆ ได้อย่างราบรื่น

งานวิจัยนี้ดำเนินการร่วมกันโดยมหาวิทยาลัย Stanford, University of California, Berkeley และ NVIDIA การศึกษาพบว่าการ ขยายปริมาณการคำนวณในขั้นตอนการตรวจสอบ (scaling verification compute) สามารถปรับปรุงประสิทธิภาพโดยรวมของ Agent ได้อย่างมีนัยสำคัญ ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI ที่มีอิทธิพลมากที่สุดอย่าง Terminal-Bench กรอบการทำงานนี้มีประสิทธิภาพเหนือกว่า Claude Mythos และ GPT-5.5

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ทั้งในเกณฑ์มาตรฐานการเขียนโปรแกรม AI อย่าง Terminal-Bench และ SWE-Bench Verified

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

วิธีการ

Agent Harness ส่วนใหญ่มีความสามารถในการแก้ปัญหาอยู่แล้ว เมื่อเราเรียกใช้ Agent ตัวเดียวกันหลายครั้ง (เช่น 100 ครั้ง) มันมักจะสร้างคำตอบที่ถูกต้องได้ในบางครั้ง อย่างไรก็ตาม ปัญหาคือ Agent เหล่านี้ไม่สามารถ判断ได้ว่าคำตอบใดถูกต้อง ปัญหานี้เด่นชัดเป็นพิเศษในงานที่มีระยะเวลายาวนาน (long-horizon tasks)

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier ช่วยเพิ่มความสามารถในการตรวจสอบและปรับปรุงอัตราความสำเร็จของงานปลายน้ำได้อย่างมีนัยสำคัญ โดยการขยาย ความละเอียดของโทเค็นคะแนน (score granularity) , การตรวจสอบซ้ำ (repeated verification) และ การ分解เกณฑ์การประเมิน (criteria decomposition) นอกจากนี้ ทีมงานยังพบว่าเมื่อความละเอียดของโทเค็นคะแนนเพิ่มขึ้น ความแตกต่างของคะแนนระหว่างตัวอย่างบวกและลบก็จะยิ่งมากขึ้น

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

ปัญหาหลัก: ข้อจำกัดของ LLM-as-a-Judge

วิธีการ LLM-as-a-Judge มาตรฐานจะกระตุ้นให้โมเดลส่งออกผลการให้คะแนน (เช่น คะแนนระหว่าง 1 ถึง 8) และเลือกคะแนนที่มีความน่าจะเป็นสูงสุดเป็นคะแนนไม่ต่อเนื่องสุดท้าย อย่างไรก็ตาม วิธีนี้มักมีปัญหา ความละเอียดของคะแนนหยาบเกินไป เมื่อเปรียบเทียบเส้นทาง (trajectories) ของ Agent ในระยะยาว LLM-as-a-Judge มักจะกำหนดคะแนนเดียวกันให้กับเส้นทางที่แตกต่างกัน (เช่น ทั้งสองเส้นทางได้ 4 คะแนน) ซึ่ง นำไปสู่การเสมอกัน ทำให้ไม่สามารถแยกแยะได้อย่างมีประสิทธิภาพ กลไกการให้คะแนนแบบหยาบนี้ทำให้เกิดการเสมอกันถึง 27% ใน Terminal-Bench ซึ่งจำกัดความแม่นยำและความสามารถในการแยกแยะอย่างรุนแรง

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier: การเปลี่ยนกระบวนทัศน์จากการให้คะแนนเป็นการตรวจสอบ

ตามคำจำกัดความ ผู้ตัดสิน (judge) คือผู้ที่สร้างความเห็นโดยรวมเกี่ยวกับสถานการณ์และให้ข้อสรุป ในขณะที่ผู้ตรวจสอบ (verifier) คือผู้ที่ตรวจสอบความจริงและความถูกต้องของรายการเฉพาะ ดังนั้นจึงต้องการการประเมินที่ละเอียดและเฉพาะเจาะจงมากขึ้น ด้วยเหตุนี้ ทีมงานจึงเสนอ LLM-as-a-Verifier ซึ่งให้ข้อเสนอแนะแบบละเอียดโดยการขยายสามมิติต่อไปนี้:

  • ความละเอียดของโทเค็นคะแนน (granularity of score tokens)
  • จำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications)
  • การ分解เกณฑ์การประเมิน (decomposition of evaluation criteria)

เมื่อกำหนดภารกิจ t และเส้นทาง候选สองเส้นทาง LLM-as-a-Verifier จะสร้าง prompt การให้คะแนน และแยก top logprobs จาก และ เพื่อให้ได้การแจกแจงแบบมีเงื่อนไขที่สอดคล้องกัน:

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier แสดงรางวัลของเส้นทางดังนี้:

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

โดยที่:
* C = จำนวนเกณฑ์การประเมิน
* K = จำนวนครั้งของการตรวจสอบซ้ำ
* G = จำนวนโทเค็นคะแนน (ระดับความละเอียด)
*

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

คือความน่าจะเป็นของโมเดลสำหรับโทเค็นคะแนน
*

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

= ฟังก์ชันที่แมปโทเค็นคะแนนแต่ละตัวเป็นค่าสเกลาร์
*

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

= ชุดโทเค็นคะแนนไม่ต่อเนื่อง

ในการเลือกเส้นทางที่ดีที่สุด เราใช้ การแข่งขันแบบพบกันหมด (round-robin tournament): สำหรับเส้นทาง候选แต่ละคู่ (i, j) ผู้ตรวจสอบจะคำนวณ reward โดยใช้สูตรข้างต้น เส้นทางที่มีรางวัลสูงกว่าจะชนะ และเส้นทางที่มีจำนวนชัยชนะมากที่สุดในการเปรียบเทียบทั้งหมดจะถูกเลือกเป็นผลลัพธ์สุดท้าย

ผลการทดลอง

ในงานเกณฑ์มาตรฐานระยะยาวที่ซับซ้อน เช่น Terminal-Bench 2.0 และ SWE-Bench Verified LLM-as-a-Verifier มีประสิทธิภาพเหนือกว่าโมเดล前沿 อย่างครอบคลุม และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในทุกกรณี ผลการทดลองทั้งหมดมาจากกระดานอันดับอย่างเป็นทางการ

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier สามารถ ผสานรวมเข้ากับกรอบ Agent Harness ที่แตกต่างกันได้อย่างราบรื่น ซึ่งความ通用性นี้ได้รับการยืนยันในงานเกณฑ์มาตรฐานสามงานดังต่อไปนี้:

  • ForgeCode: ความแม่นยำในการตรวจสอบเพิ่มขึ้นเป็น 86.4%
  • Terminus-Kira: ความแม่นยำเพิ่มขึ้นเป็น 79.4%
  • Terminus 2: ความแม่นยำเพิ่มขึ้นเป็น 71.2%

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

这表明,无论针对何种Agent Harness或模型,该验证方法皆可高效兼容并提升性能。

LLM-as-a-Verifier มีความแม่นยำในการตรวจสอบและความสามารถในการขจัดการเสมอกันเหนือกว่า LLM-as-a-Judge แบบดั้งเดิมอย่างครอบคลุม แม้จะเพิ่มจำนวนครั้งการตรวจสอบซ้ำ (เช่น k=16) วิธีการ Verifier ยังคงรักษาความได้เปรียบด้านความแม่นยำในการตรวจสอบอย่างน้อย 7% นอกจากนี้ มัน ขจัดปรากฏการณ์การเสมอกันได้อย่างสมบูรณ์

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

ผลการทดลองแสดงให้เห็นว่าการเพิ่มความละเอียดของโทเค็นคะแนน (granularity) และการเพิ่มจำนวนครั้งการตรวจสอบซ้ำ (repeated verifications) สามารถเพิ่มความแม่นยำในการตรวจสอบได้อย่างมีนัยสำคัญ นอกจากนี้ ในการแบ่งระดับละเอียดของมิติโทเค็นคะแนน (1→20) ข้อผิดพลาดเชิงปริมาณลดลงอย่างมาก ทำให้เข้าใกล้รางวัลจริงมากขึ้น

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

LLM-as-a-Verifier ละทิ้งกลไกการให้คะแนนเดี่ยวแบบดั้งเดิม และใช้การแยกส่วนการตรวจสอบเส้นทางออกเป็นเกณฑ์การประเมินสามข้อที่สามารถประกอบกันได้:

  • การปฏิบัติตามข้อกำหนด (Specification): เส้นทางเป็นไปตามข้อกำหนดของงานทั้งหมดหรือไม่ (เส้นทาง, การตั้งชื่อ ฯลฯ)
  • รูปแบบผลลัพธ์ (Output Format): ตรวจสอบว่ารูปแบบของผลลัพธ์ตรงตามผลลัพธ์ที่คาดหวังหรือไม่
  • การตรวจสอบข้อผิดพลาด (Error Checking): มีสัญญาณข้อผิดพลาดที่ชัดเจนในเส้นทางหรือไม่

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดีย ร่วมมือกัน: กรอบการตรวจสอบ LLM-as-a-Verifier ขยายปริมาณการคำนวณ เพิ่มประสิทธิภาพของ Agent อย่างมีนัยสำคัญ

เมื่อเทียบกับวิธีการ LLM-as-a-Judge แบบดั้งเดิม กรอบ LLM-as-a-Verifier ใช้ความละเอียดของคะแนนที่ละเอียดยิ่งขึ้น การตรวจสอบซ้ำ และการ分解เกณฑ์การประเมิน เพื่อให้ได้ความแม่นยำในการตรวจสอบที่สูงขึ้นและความสามารถในการแยกแยะที่แม่นยำยิ่งขึ้น ขจัดปรากฏการณ์การเสมอกันของคะแนน ไม่เพียงแต่เพิ่มประสิทธิภาพของ Agent เท่านั้น แต่ยังเพิ่มความปลอดภัยและความเสถียรของโมเดลในงานระยะยาวอย่างมีนัยสำคัญ

แนะนำทีมงาน

โครงการนี้รับผิดชอบโดย Jacky Kwok นักศึกษาปริญญาเอกสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัย Stanford ผู้มีส่วนร่วมหลัก ได้แก่ Shulu Li นักศึกษาปริญญาเอก EECS จาก Berkeley ผู้เขียนที่ติดต่อได้แก่ Ion Stoica (ศาสตราจารย์ UC Berkeley, ผู้ก่อตั้ง Databricks), Azalia Mirhoseini (ศาสตราจารย์ Stanford, เคยทำงานที่ DeepMind และ Anthropic) และ Marco Pavone (ผู้อำนวยการฝ่ายวิจัย AI และยานยนต์ไร้คนขับของ NVIDIA)

บล็อก: llm-as-a-verifier.notion.site
โค้ด: llm-as-a-verifier.github.io
ติดต่อ: jackykwok@stanford.edu


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32373

Like (0)
Previous 19 hours ago
Next 19 hours ago

相关推荐