สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

2 hours ago • ข่าวสารอุตสาหกรรม AI • 11 views

โครงการนี้ดำเนินการโดย Jacky Kwok นักศึกษาปริญญาเอกสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ด โดยมีผู้ร่วมให้ข้อมูลหลักคือ Shulu Li นักศึกษาปริญญาเอก EECS จากมหาวิทยาลัยเบิร์กลีย์ ทีมผู้เขียนที่รับผิดชอบประกอบด้วย Ion Stoica (ศาสตราจารย์จากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ ผู้ก่อตั้ง Databricks), Azalia Mirhoseini (ศาสตราจารย์จากมหาวิทยาลัยสแตนฟอร์ด อดีตทำงานที่ DeepMind และ Anthropic) และ Marco Pavone (ผู้อำนวยการฝ่ายวิจัย AI และการขับขี่อัตโนมัติของ Nvidia)

มหาวิทยาลัยสแตนฟอร์ด เบิร์กลีย์ และ Nvidia ร่วมกันเปิดตัวกรอบงานตรวจสอบอัจฉริยะที่ชื่อว่า LLM-as-a-Verifier โซลูชันนี้ทำหน้าที่เป็นกลไกการตรวจสอบทั่วไปที่สามารถทำงานร่วมกับ Agent Harness และโมเดลใดๆ ได้อย่างราบรื่น

งานวิจัยแสดงให้เห็นว่าการขยายการคำนวณในขั้นตอนการตรวจสอบ (scaling verification compute) สามารถเพิ่มประสิทธิภาพโดยรวมของเอเจนต์ได้อย่างมีนัยสำคัญ ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI ที่มีอิทธิพลมากที่สุดอย่าง Terminal-Bench ผลลัพธ์ของมันเหนือกว่า GPT-5.5 และ Claude Mythos!

สแตนฟอร์ด เบิร์กลีย์ และเอ็นวิเดียร่วมกันเปิดตัวกรอบการตรวจสอบ Agent: ปริมาณการคำนวณตรวจสอบที่ขยายเกินกว่า GPT-5.5

LLM-as-a-Verifier ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ทั้งในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI อย่าง Terminal-Bench และ SWE-Bench Verified Lukasz Kaiser ผู้เขียนบทความ Transformer และ Bing Xu ผู้เขียน GAN ก็ได้แชร์และติดตามผลงานนี้เช่นกัน

ที่อยู่บล็อก: llm-as-a-verifier.notion.site
ที่อยู่โค้ด: llm-as-a-verifier.github.io

ภาพรวมวิธีการ

Agent Harness ส่วนใหญ่มีความสามารถในการแก้ปัญหาอยู่แล้ว เมื่อเราเรียกใช้เอเจนต์เดียวกันหลายครั้ง (เช่น 100 ครั้ง) มันมักจะสร้างคำตอบที่ถูกต้องได้ในบางครั้ง แต่ประเด็นสำคัญคือ พวกมันไม่สามารถตัดสินได้ว่าคำตอบไหนถูกต้อง ปัญหานี้เด่นชัดเป็นพิเศษในงานที่ต้องดำเนินการเป็นเวลานาน (long-horizon tasks)

LLM-as-a-Verifier ปรับปรุงความสามารถในการตรวจสอบอย่างมีนัยสำคัญ และเพิ่มอัตราความสำเร็จของงานปลายน้ำ โดยการขยายความละเอียดของโทเค็นคะแนน (score granularity) ทำการตรวจสอบซ้ำ (repeated verification) และแยกย่อยเกณฑ์การประเมิน (criteria decomposition) นอกจากนี้ ทีมงานพบว่าเมื่อความละเอียดของโทเค็นคะแนนเพิ่มขึ้น ความแตกต่างของคะแนนระหว่างตัวอย่างบวกและลบก็จะยิ่งมากขึ้น

ปัญหาหลัก: ข้อจำกัดของ LLM-as-a-Judge

วิธีการ LLM-as-a-Judge มาตรฐานจะแจ้งให้โมเดลแสดงผลลัพธ์คะแนน (เช่น คะแนนระหว่าง 1 ถึง 8) และเลือกคะแนนที่มีความน่าจะเป็นสูงที่สุดเป็นคะแนนแยกส่วนสุดท้าย

อย่างไรก็ตาม วิธีนี้มักมีปัญหาความละเอียดของคะแนนที่หยาบเกินไป เมื่อเปรียบเทียบเส้นทาง (trajectories) ของเอเจนต์ระยะยาว LLM-as-a-Judge มักจะกำหนดคะแนนเดียวกันให้กับเส้นทางที่แตกต่างกัน (เช่น ทั้งสองเส้นทางได้ 4 คะแนน) ทำให้เกิดการเสมอกัน และไม่สามารถแยกแยะได้อย่างมีประสิทธิภาพ

กลไกการให้คะแนนแบบหยาบนี้ทำให้เกิดการเสมอกันถึง 27% ในการทดสอบ Terminal-Bench ซึ่งจำกัดความแม่นยำและความสามารถในการแยกแยะของการตัดสินอย่างรุนแรง

LLM-as-a-Verifier: การเปลี่ยนกระบวนทัศน์จากการให้คะแนนสู่การตรวจสอบ

ตามคำจำกัดความ ผู้ตัดสิน (judge) คือผู้ที่สร้างความเห็นโดยรวมเกี่ยวกับสถานการณ์และให้ข้อสรุป ในขณะที่ ผู้ตรวจสอบ (verifier) คือผู้ที่ตรวจสอบความจริงและความถูกต้องของเรื่องเฉพาะ ดังนั้นจึงต้องการการประเมินที่ละเอียดและเฉพาะเจาะจงมากขึ้น

ด้วยเหตุนี้ ทีมงานจึงเสนอ LLM-as-a-Verifier ซึ่งให้ข้อเสนอแนะแบบละเอียดโดยการขยายสามมิติต่อไปนี้:

จำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications)
ความละเอียดของโทเค็นคะแนน (granularity of score tokens)
การแยกย่อยเกณฑ์การประเมิน (decomposition of evaluation criteria)

เมื่อกำหนดงาน t และเส้นทางผู้สมัครสองเส้นทาง LLM-as-a-Verifier จะสร้าง prompt การให้คะแนน และดึง top-logprobs จาก <score_A> และ <score_B> เพื่อให้ได้การแจกแจงแบบมีเงื่อนไข:

LLM-as-a-Verifier แสดงรางวัลของเส้นทางดังนี้:

โดยที่:

C = จำนวนเกณฑ์การประเมิน
K = จำนวนครั้งของการตรวจสอบซ้ำ
G = จำนวนโทเค็นคะแนน (ระดับความละเอียด)

= ความน่าจะเป็นของโมเดลสำหรับโทเค็นคะแนน
*

= ฟังก์ชันที่แมปโทเค็นคะแนนแต่ละตัวเป็นค่าสเกลาร์
*

= ชุดโทเค็นคะแนนแยกส่วน

ในการเลือกเส้นทางที่ดีที่สุด ทีมงานใช้การแข่งขันแบบพบกันหมด (round-robin tournament): สำหรับเส้นทางผู้สมัครแต่ละคู่ (i, j) ผู้ตรวจสอบจะคำนวณรางวัลโดยใช้สูตรข้างต้น เส้นทางที่มีรางวัลสูงกว่าจะชนะ และเส้นทางที่มีจำนวนชนะมากที่สุดในการเปรียบเทียบทั้งหมดจะถูกเลือกเป็นผลลัพธ์สุดท้าย

ผลการทดลอง

ในการทดสอบเกณฑ์มาตรฐานระยะยาวที่ซับซ้อน เช่น Terminal-Bench 2.0 และ SWE-Bench Verified LLM-as-a-Verifier มีประสิทธิภาพเหนือกว่าโมเดลชั้นนำอย่างครอบคลุม และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในทุกกรณี ผลการทดลองทั้งหมดมาจากกระดานอันดับอย่างเป็นทางการ

LLM-as-a-Verifier สามารถบูรณาการเข้ากับกรอบงาน Agent Harness ที่แตกต่างกันได้อย่างราบรื่น โดยความสามารถทั่วไปได้รับการตรวจสอบในการทดสอบเกณฑ์มาตรฐานสามรายการต่อไปนี้:
ForgeCode: ความแม่นยำในการตรวจสอบเพิ่มขึ้นเป็น 86.4%
Terminus-Kira: ความแม่นยำเพิ่มขึ้นเป็น 79.4%
Terminus 2: ความแม่นยำเพิ่มขึ้นเป็น 71.2%

ซึ่งแสดงให้เห็นว่าวิธีการตรวจสอบนี้สามารถทำงานร่วมกับ Agent Harness หรือโมเดลใดๆ ได้อย่างมีประสิทธิภาพและปรับปรุงประสิทธิภาพ

LLM-as-a-Verifier มีความแม่นยำในการตรวจสอบและความสามารถในการขจัดการเสมอกันที่เหนือกว่า LLM-as-a-Judge แบบดั้งเดิมอย่างสมบูรณ์ แม้จะเพิ่มจำนวนครั้งของการตรวจสอบซ้ำ (เช่น k = 16) วิธีการ Verifier ยังคงรักษาความแม่นยำในการตรวจสอบที่เหนือกว่าอย่างน้อย 7% นอกจากนี้ยังขจัดปรากฏการณ์การเสมอกันได้อย่างสมบูรณ์

ผลการทดลองแสดงให้เห็นว่าการเพิ่มความละเอียดของโทเค็นคะแนน (granularity) และการเพิ่มจำนวนครั้งของการตรวจสอบซ้ำ (repeated verifications) สามารถเพิ่มความแม่นยำในการตรวจสอบได้อย่างมีนัยสำคัญ นอกจากนี้ ในการแบ่งระดับของมิติโทเค็นคะแนน (1→20) ข้อผิดพลาดในการหาปริมาณลดลงอย่างมาก ทำให้ใกล้เคียงกับรางวัลจริงมากขึ้น

LLM-as-a-Verifier ละทิ้งกลไกการให้คะแนนเดี่ยวแบบดั้งเดิม และใช้การแยกย่อยการตรวจสอบเส้นทางออกเป็นเกณฑ์การประเมินสามข้อที่สามารถรวมกันได้:
การปฏิบัติตามข้อกำหนด (Specification): เส้นทางเป็นไปตามข้อกำหนดของงานทั้งหมดหรือไม่ (เส้นทาง การตั้งชื่อ ฯลฯ);
รูปแบบผลลัพธ์ (Output Format): รูปแบบของผลลัพธ์ที่ตรวจสอบตรงกับผลลัพธ์ที่คาดหวังหรือไม่;
การตรวจสอบข้อผิดพลาด (Error Checking): มีสัญญาณข้อผิดพลาดที่ชัดเจนในเส้นทางหรือไม่

การคำนวณการตรวจสอบเป็นมิติการขยายใหม่

「LLM-as-a-Verifier」เป็นกลไกการตรวจสอบทั่วไปที่สามารถเพิ่มประสิทธิภาพโดยรวมของเอเจนต์ได้อย่างมีนัยสำคัญ และทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในการทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม AI หลายรายการ เหนือกว่าโมเดลชั้นนำอื่นๆ เช่น Claude Mythos

เมื่อเปรียบเทียบกับวิธีการ「LLM-as-a-Judge」แบบดั้งเดิม กรอบงานนี้ใช้ความละเอียดของคะแนนที่ละเอียดกว่า การตรวจสอบซ้ำ และการแยกย่อยเกณฑ์การประเมิน ทำให้มีความแม่นยำในการตรวจสอบสูงกว่าและความสามารถในการแยกแยะที่แม่นยำยิ่งขึ้น ขจัดปรากฏการณ์การเสมอกันของคะแนนได้อย่างสมบูรณ์

ข้อมูลการทดลองยืนยันว่ากรอบงานนี้มีความสามารถทั่วไปที่ดี สามารถทำงานร่วมกับ Agent Harness และสถาปัตยกรรมโมเดลต่างๆ ได้ และเพิ่มความแม่นยำอย่างมีนัยสำคัญในงานเกณฑ์มาตรฐานหลายรายการ ในขณะเดียวกัน การปรับปรุงกลไกการให้คะแนนช่วยลดข้อผิดพลาดในการหาปริมาณ ทำให้ผลการตรวจสอบใกล้เคียงกับสัญญาณรางวัลจริงมากขึ้น

LLM-as-a-Verifier ไม่เพียงแต่ปรับปรุงประสิทธิภาพการทำงานของเอเจนต์เท่านั้น แต่ยังเพิ่มความปลอดภัยและความเสถียรของโมเดลในงานที่มีลำดับเวลายาวนานอย่างมาก

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/32094

Like (0)

0 0

DeepGEMM การเปลี่ยนแปลงเชิงคุณภาพ: จากไลบรารี GEMM สู่แพลตฟอร์มพื้นฐานการคำนวณ LLM แบบครบวงจร พร้อมเปิดตัว Mega MoE และ FP4 Indexer ครั้งสำคัญ

Previous 2 hours ago

OpenAI ขอโทษ! แบนบัญชีผู้ต้องสงสัยคดีกราดยิงแต่ไม่มีการเตือนล่วงหน้า มีผู้เสียชีวิต 8 คน สะท้อนให้เห็นถึงการทบทวนการควบคุม AI

Next 2 hours ago

การวิเคราะห์เชิงลึกของ Ultraman: OpenClaw นำแนวโน้มระยะยาว, Codex อาจกลายเป็นผลิตภัณฑ์หลักอันดับสามของ OpenAI, เปิดเผยความขัดแย้งที่ซ่อนเร้นสี่ประการในยุค AI

เมื่อเร็วๆ นี้ ซาม อัลต์แมน (Sam Altman) CEO ของ OpenAI และ Jeetu Patel ประธานและหัวหน้าเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Cisco ได้ร่วมสนทนาอย่างลึกซึ้งในงาน Cisco AI Summit ในการสนทนานี…

ข่าวสารอุตสาหกรรม AI 2026年2月5日
223000
ข่าวสารอุตสาหกรรม AI

Step-3.5-Flash แห่ง Step-Scale Stars: การอนุมานความเร็วสูง 300 tps, คำตอบใหม่สำหรับยุคเอเจนต์

ข้อสรุปหลัก: ความเร็วคือความสามารถในการแข่งขันที่สำคัญในยุคเอเจนต์ ภูมิหลังของโมเดล: หลังจากที่ StepFun (阶跃星辰) เข้าร่วมการประเมินโมเดลภาษาขนาดใหญ่ในประเทศเมื่อเดือนกรกฎาคมปีที่แล้ว…

2026年2月2日
257000
ข่าวสารอุตสาหกรรม AI

ยุคแอป Lobster: Skill จะกลืนแอปดั้งเดิมหรือไม่? บันทึกการสัมมนา Quantum Bits เผยอนาคตผลิตภัณฑ์ภายใต้แรงกระแทกของ AI Agent

เทียน เหยี่ยนหลิน รายงานจาก เอาเฟยซื่อ ห้องประชุมในเขตบริการนวัตกรรมนานาชาติของ Zhongguancun Science City เต็มไปด้วยผู้คนแน่นขนัด กิจกรรมสัมมนาที่กำหนดเริ่มบ่ายสองโมง มีผู้ชมจำนวนม…

2026年4月8日
85000
ข่าวสารอุตสาหกรรม AI

ก้าวข้ามข้อจำกัดด้านฮาร์ดแวร์: ONNX Runtime GenAI เปิดตัวกระบวนทัศน์ใหม่สำหรับการอนุมาน LLM บน CPU ในเครื่อง

บางครั้งโมเดลขนาดเล็กก็เพียงพอแล้ว และคุณไม่จำเป็นต้องใช้ GPU เสมอไป มีเหตุผลหลายประการที่ควรรันงานประเภท “เครื่องมือ” บน CPU โดยตรง: บางครั้งคุณก็ไม่มี GPU หรือคุณต้อง…

2026年2月7日
257000
ข่าวสารอุตสาหกรรม AI

คู่มือปฏิบัติโครงสร้างพื้นฐานเนทีฟ AI: ฐานเทคโนโลยีสำคัญสำหรับการเปลี่ยนแปลงสู่ดิจิทัลอัจฉริยะปี 2026

คำนำ เมื่อการเปลี่ยนแปลงสู่ดิจิทัลและอัจฉริยะเข้าสู่ช่วงลึก เทคโนโลยีปัญญาประดิษฐ์กำลังแทรกซึมเข้าสู่อุตสาหกรรมต่างๆ ด้วยความลึกและกว้างที่ไม่เคยมีมาก่อน ไม่เพียงแต่ปรับโครงสร้างตร…

2026年2月16日
234000

ภาพรวมวิธีการ

ปัญหาหลัก: ข้อจำกัดของ LLM-as-a-Judge

LLM-as-a-Verifier: การเปลี่ยนกระบวนทัศน์จากการให้คะแนนสู่การตรวจสอบ

ผลการทดลอง

การคำนวณการตรวจสอบเป็นมิติการขยายใหม่

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

Step-3.5-Flash แห่ง Step-Scale Stars: การอนุมานความเร็วสูง 300 tps, คำตอบใหม่สำหรับยุคเอเจนต์

ยุคแอป Lobster: Skill จะกลืนแอปดั้งเดิมหรือไม่? บันทึกการสัมมนา Quantum Bits เผยอนาคตผลิตภัณฑ์ภายใต้แรงกระแทกของ AI Agent

ก้าวข้ามข้อจำกัดด้านฮาร์ดแวร์: ONNX Runtime GenAI เปิดตัวกระบวนทัศน์ใหม่สำหรับการอนุมาน LLM บน CPU ในเครื่อง

คู่มือปฏิบัติโครงสร้างพื้นฐานเนทีฟ AI: ฐานเทคโนโลยีสำคัญสำหรับการเปลี่ยนแปลงสู่ดิจิทัลอัจฉริยะปี 2026