สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

โครงการนี้ดำเนินการโดย Jacky Kwok นักศึกษาปริญญาเอกสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ด โดยมีผู้ร่วมให้ข้อมูลหลักคือ Shulu Li นักศึกษาปริญญาเอก EECS จากมหาวิทยาลัยเบิร์กลีย์ ทีมผู้เขียนที่รับผิดชอบประกอบด้วย Ion Stoica (ศาสตราจารย์จากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ ผู้ก่อตั้ง Databricks), Azalia Mirhoseini (ศาสตราจารย์จากมหาวิทยาลัยสแตนฟอร์ด อดีตทำงานที่ DeepMind และ Anthropic) และ Marco Pavone (ผู้อำนวยการฝ่ายวิจัย AI และการขับขี่อัตโนมัติของ Nvidia)

มหาวิทยาลัยสแตนฟอร์ด เบิร์กลีย์ และ Nvidia ร่วมกันเปิดตัวกรอบงานตรวจสอบอัจฉริยะที่ชื่อว่า LLM-as-a-Verifier โซลูชันนี้ทำหน้าที่เป็นกลไกการตรวจสอบทั่วไปที่สามารถทำงานร่วมกับ Agent Harness และโมเดลใดๆ ได้อย่างราบรื่น

งานวิจัยแสดงให้เห็นว่าการขยายการคำนวณในขั้นตอนการตรวจสอบ (scaling verification compute) สามารถเพิ่มประสิทธิภาพโดยรวมของเอเจนต์ได้อย่างมีนัยสำคัญ ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI ที่มีอิทธิพลมากที่สุดอย่าง Terminal-Bench ผลลัพธ์ของมันเหนือกว่า GPT-5.5 และ Claude Mythos!

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

LLM-as-a-Verifier ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ทั้งในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI อย่าง Terminal-Bench และ SWE-Bench Verified Lukasz Kaiser ผู้เขียนบทความ Transformer และ Bing Xu ผู้เขียน GAN ก็ได้แชร์และติดตามผลงานนี้เช่นกัน

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

  • ที่อยู่บล็อก: llm-as-a-verifier.notion.site
  • ที่อยู่โค้ด: llm-as-a-verifier.github.io

ภาพรวมวิธีการ

Agent Harness ส่วนใหญ่มีความสามารถในการแก้ปัญหาอยู่แล้ว เมื่อเราเรียกใช้เอเจนต์เดียวกันหลายครั้ง (เช่น 100 ครั้ง) มันมักจะสร้างคำตอบที่ถูกต้องได้ในบางครั้ง แต่ประเด็นสำคัญคือ พวกมันไม่สามารถตัดสินได้ว่าคำตอบไหนถูกต้อง ปัญหานี้เด่นชัดเป็นพิเศษในงานที่ต้องดำเนินการเป็นเวลานาน (long-horizon tasks)

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

LLM-as-a-Verifier ปรับปรุงความสามารถในการตรวจสอบอย่างมีนัยสำคัญ และเพิ่มอัตราความสำเร็จของงานปลายน้ำ โดยการขยายความละเอียดของโทเค็นคะแนน (score granularity) ทำการตรวจสอบซ้ำ (repeated verification) และแยกย่อยเกณฑ์การประเมิน (criteria decomposition) นอกจากนี้ ทีมงานพบว่าเมื่อความละเอียดของโทเค็นคะแนนเพิ่มขึ้น ความแตกต่างของคะแนนระหว่างตัวอย่างบวกและลบก็จะยิ่งมากขึ้น

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

ปัญหาหลัก: ข้อจำกัดของ LLM-as-a-Judge

วิธีการ LLM-as-a-Judge มาตรฐานจะแจ้งให้โมเดลแสดงผลลัพธ์คะแนน (เช่น คะแนนระหว่าง 1 ถึง 8) และเลือกคะแนนที่มีความน่าจะเป็นสูงที่สุดเป็นคะแนนแยกส่วนสุดท้าย

อย่างไรก็ตาม วิธีนี้มักมีปัญหาความละเอียดของคะแนนที่หยาบเกินไป เมื่อเปรียบเทียบเส้นทาง (trajectories) ของเอเจนต์ระยะยาว LLM-as-a-Judge มักจะกำหนดคะแนนเดียวกันให้กับเส้นทางที่แตกต่างกัน (เช่น ทั้งสองเส้นทางได้ 4 คะแนน) ทำให้เกิดการเสมอกัน และไม่สามารถแยกแยะได้อย่างมีประสิทธิภาพ

กลไกการให้คะแนนแบบหยาบนี้ทำให้เกิดการเสมอกันถึง 27% ในการทดสอบ Terminal-Bench ซึ่งจำกัดความแม่นยำและความสามารถในการแยกแยะของการตัดสินอย่างรุนแรง

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

LLM-as-a-Verifier: การเปลี่ยนกระบวนทัศน์จากการให้คะแนนสู่การตรวจสอบ

ตามคำจำกัดความ ผู้ตัดสิน (judge) คือผู้ที่สร้างความเห็นโดยรวมเกี่ยวกับสถานการณ์และให้ข้อสรุป ในขณะที่ ผู้ตรวจสอบ (verifier) คือผู้ที่ตรวจสอบความจริงและความถูกต้องของเรื่องเฉพาะ ดังนั้นจึงต้องการการประเมินที่ละเอียดและเฉพาะเจาะจงมากขึ้น

ด้วยเหตุนี้ ทีมงานจึงเสนอ LLM-as-a-Verifier ซึ่งให้ข้อเสนอแนะแบบละเอียดโดยการขยายสามมิติต่อไปนี้:

  1. จำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications)
  2. ความละเอียดของโทเค็นคะแนน (granularity of score tokens)
  3. การแยกย่อยเกณฑ์การประเมิน (decomposition of evaluation criteria)

เมื่อกำหนดงาน t และเส้นทางผู้สมัครสองเส้นทาง LLM-as-a-Verifier จะสร้าง prompt การให้คะแนน และดึง top-logprobs จาก <score_A> และ <score_B> เพื่อให้ได้การแจกแจงแบบมีเงื่อนไข:

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

LLM-as-a-Verifier แสดงรางวัลของเส้นทางดังนี้:

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

โดยที่:

  • C = จำนวนเกณฑ์การประเมิน
  • K = จำนวนครั้งของการตรวจสอบซ้ำ
  • G = จำนวนโทเค็นคะแนน (ระดับความละเอียด)

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

= ความน่าจะเป็นของโมเดลสำหรับโทเค็นคะแนน
*

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

= ฟังก์ชันที่แมปโทเค็นคะแนนแต่ละตัวเป็นค่าสเกลาร์
*

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

= ชุดโทเค็นคะแนนแยกส่วน

ในการเลือกเส้นทางที่ดีที่สุด ทีมงานใช้การแข่งขันแบบพบกันหมด (round-robin tournament): สำหรับเส้นทางผู้สมัครแต่ละคู่ (i, j) ผู้ตรวจสอบจะคำนวณรางวัลโดยใช้สูตรข้างต้น เส้นทางที่มีรางวัลสูงกว่าจะชนะ และเส้นทางที่มีจำนวนชนะมากที่สุดในการเปรียบเทียบทั้งหมดจะถูกเลือกเป็นผลลัพธ์สุดท้าย

ผลการทดลอง

  1. ในการทดสอบเกณฑ์มาตรฐานระยะยาวที่ซับซ้อน เช่น Terminal-Bench 2.0 และ SWE-Bench Verified LLM-as-a-Verifier มีประสิทธิภาพเหนือกว่าโมเดลชั้นนำอย่างครอบคลุม และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในทุกกรณี ผลการทดลองทั้งหมดมาจากกระดานอันดับอย่างเป็นทางการ

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

  1. LLM-as-a-Verifier สามารถบูรณาการเข้ากับกรอบงาน Agent Harness ที่แตกต่างกันได้อย่างราบรื่น โดยความสามารถทั่วไปได้รับการตรวจสอบในการทดสอบเกณฑ์มาตรฐานสามรายการต่อไปนี้:
  2. ForgeCode: ความแม่นยำในการตรวจสอบเพิ่มขึ้นเป็น 86.4%
  3. Terminus-Kira: ความแม่นยำเพิ่มขึ้นเป็น 79.4%
  4. Terminus 2: ความแม่นยำเพิ่มขึ้นเป็น 71.2%

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

ซึ่งแสดงให้เห็นว่าวิธีการตรวจสอบนี้สามารถทำงานร่วมกับ Agent Harness หรือโมเดลใดๆ ได้อย่างมีประสิทธิภาพและปรับปรุงประสิทธิภาพ

  1. LLM-as-a-Verifier มีความแม่นยำในการตรวจสอบและความสามารถในการขจัดการเสมอกันที่เหนือกว่า LLM-as-a-Judge แบบดั้งเดิมอย่างสมบูรณ์ แม้จะเพิ่มจำนวนครั้งของการตรวจสอบซ้ำ (เช่น k = 16) วิธีการ Verifier ยังคงรักษาความแม่นยำในการตรวจสอบที่เหนือกว่าอย่างน้อย 7% นอกจากนี้ยังขจัดปรากฏการณ์การเสมอกันได้อย่างสมบูรณ์

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

  1. ผลการทดลองแสดงให้เห็นว่าการเพิ่มความละเอียดของโทเค็นคะแนน (granularity) และการเพิ่มจำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications) สามารถเพิ่มความแม่นยำในการตรวจสอบได้อย่างมีนัยสำคัญ นอกจากนี้ ในการแบ่งระดับของมิติโทเค็นคะแนน (1→20) ข้อผิดพลาดในการหาปริมาณลดลงอย่างมาก ทำให้ใกล้เคียงกับรางวัลจริงมากขึ้น

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

  1. LLM-as-a-Verifier ละทิ้งกลไกการให้คะแนนเดี่ยวแบบดั้งเดิม และใช้การแยกย่อยการตรวจสอบเส้นทางออกเป็นเกณฑ์การประเมินสามข้อที่สามารถรวมกันได้:
  2. การปฏิบัติตามข้อกำหนด (Specification): เส้นทางเป็นไปตามข้อกำหนดของงานทั้งหมดหรือไม่ (เส้นทาง การตั้งชื่อ ฯลฯ);
  3. รูปแบบผลลัพธ์ (Output Format): รูปแบบของผลลัพธ์ที่ตรวจสอบตรงกับผลลัพธ์ที่คาดหวังหรือไม่;
  4. การตรวจสอบข้อผิดพลาด (Error Checking): มีสัญญาณข้อผิดพลาดที่ชัดเจนในเส้นทางหรือไม่

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

การคำนวณการตรวจสอบเป็นมิติการขยายใหม่

「LLM-as-a-Verifier」เป็นกลไกการตรวจสอบทั่วไปที่สามารถเพิ่มประสิทธิภาพโดยรวมของเอเจนต์ได้อย่างมีนัยสำคัญ และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI หลายรายการ เหนือกว่าโมเดลชั้นนำอื่นๆ เช่น Claude Mythos

เมื่อเปรียบเทียบกับวิธีการ「LLM-as-a-Judge」แบบดั้งเดิม กรอบงานนี้ใช้ความละเอียดของคะแนนที่ละเอียดกว่า การตรวจสอบซ้ำ และการแยกย่อยเกณฑ์การประเมิน ทำให้มีความแม่นยำในการตรวจสอบสูงกว่าและความสามารถในการแยกแยะที่แม่นยำยิ่งขึ้น ขจัดปรากฏการณ์การเสมอกันของคะแนนได้อย่างสมบูรณ์

ข้อมูลการทดลองยืนยันว่ากรอบงานนี้มีความสามารถทั่วไปที่ดี สามารถทำงานร่วมกับ Agent Harness และสถาปัตยกรรมโมเดลต่างๆ ได้ และเพิ่มความแม่นยำอย่างมีนัยสำคัญในงานเกณฑ์มาตรฐานหลายรายการ ในขณะเดียวกัน การปรับปรุงกลไกการให้คะแนนช่วยลดข้อผิดพลาดในการหาปริมาณ ทำให้ผลการตรวจสอบใกล้เคียงกับสัญญาณรางวัลจริงมากขึ้น

LLM-as-a-Verifier ไม่เพียงแต่ปรับปรุงประสิทธิภาพการทำงานของเอเจนต์เท่านั้น แต่ยังเพิ่มความปลอดภัยและความเสถียรของโมเดลในงานที่มีลำดับเวลายาวนานอย่างมาก


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32094

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐