วันที่ 16 มีนาคม ในการประชุม NVIDIA GTC 2026 NVIDIA ได้เปิดตัว Agent Toolkit และพิมพ์เขียว AI-Q Open Agent และกำหนดให้ AI Agent เป็นเทคโนโลยีแนวหน้าที่สำคัญของรุ่นต่อไป เมื่อสาธิตความสามารถในการวิจัยเชิงลึกของ AI-Q NVIDIA เลือกใช้ DeepResearch Bench และ DeepResearch Bench II เป็นเกณฑ์มาตรฐานในการประเมิน ข้อมูลแสดงให้เห็นว่า AI-Q อยู่ในอันดับที่หนึ่งในทั้งสองรายการ โดยมีคะแนน 55.95 และ 54.50 ตามลำดับ

เกณฑ์มาตรฐานทั้งสองนี้คืออะไร? ทำไม NVIDIA ถึงเลือกใช้พวกมัน? แนวคิดการออกแบบและวิวัฒนาการของแนวคิดเบื้องหลังเป็นอย่างไร?
ภูมิหลัง: การระเบิดของ Agent วิจัยเชิงลึกและปัญหาการประเมิน
นับตั้งแต่ OpenAI เปิดตัว Deep Research Google, Grok, Perplexity รวมถึงผู้ผลิตในประเทศจีนอย่าง Qwen, Doubao, Tongyi ได้ติดตามอย่างรวดเร็วและเปิดตัว Agent วิจัยเชิงลึกของตนเอง แอปพลิเคชันประเภทนี้สามารถวางแผนเส้นทางการค้นหาได้เอง เยี่ยมชมเว็บไซต์จำนวนมาก สกัดข้อมูลสำคัญ บีบอัดการวิจัยโต๊ะทำงานที่เดิมใช้เวลาหลายชั่วโมงให้เหลือเพียงไม่กี่นาที และส่งออกรายงานวิจัยที่มีโครงสร้างสมบูรณ์และมีการอ้างอิงอย่างละเอียด
อย่างไรก็ตาม ปัญหาหลักที่ตามมาคือ: จะประเมินคุณภาพของรายงานเหล่านี้อย่างไร? ความแตกต่างระหว่างผลิตภัณฑ์ต่างๆ สามารถวัดปริมาณได้อย่างไร?
ความยากในการประเมิน Agent วิจัยเชิงลึกนั้นเกินกว่าการสร้างโค้ดหรือการให้เหตุผลทางคณิตศาสตร์ รายงานวิจัยที่ดีต้องตอบสนองข้อกำหนดหลายประการพร้อมกัน ได้แก่ ข้อมูลที่ครอบคลุม การวิเคราะห์เชิงลึก โครงสร้างที่ชัดเจน การอ้างอิงที่น่าเชื่อถือ และยังมีการแลกเปลี่ยนที่ละเอียดอ่อนระหว่างมิติเหล่านี้ วิธีการประเมินที่มีอยู่ในปัจจุบันอาจทดสอบเฉพาะความสามารถในการค้นคืนข้อเท็จจริงเฉพาะเท่านั้น โดยละเลยกระบวนการตัดสินใจว่า “ควรค้นหาอะไร” และ “จะบูรณาการเป็นเรื่องราวที่สอดคล้องกันได้อย่างไร” หรือประเมินรายงานฉบับสมบูรณ์ แต่มาตรฐานหยาบเกินไปหรือกำหนดโดยโมเดลภาษาขนาดใหญ่เองทั้งหมด ขาดจุดยึดที่เป็นวัตถุวิสัย
เพื่อแก้ไขปัญหานี้ ทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน ได้เปิดตัวเกณฑ์มาตรฐานการประเมินสองรุ่น ได้แก่ DeepResearch Bench และ DeepResearch Bench II ข้อมูล โค้ด และสคริปต์การประเมินทั้งหมดได้เปิดเผยเป็นโอเพ่นซอร์สแล้ว:

DeepResearch Bench (ICLR 2026):
* ลิงก์บทความ: https://arxiv.org/abs/2506.11763
* GitHub: https://github.com/Ayanami0730/deep_research_bench

DeepResearch Bench II:
* ลิงก์บทความ: https://arxiv.org/abs/2601.08536
* GitHub: https://github.com/imlrz/DeepResearch-Bench-II
DeepResearch Bench: กรอบการประเมินเชิงระบบแรก
เริ่มจากความต้องการที่แท้จริง
ทีมวิจัยเชื่อว่าเกณฑ์มาตรฐานควรให้บริการความต้องการที่แท้จริงของผู้ใช้ พวกเขาเริ่มจากชุดข้อมูลภายในที่มีแบบสอบถามผู้ใช้ประมาณ 96,000 รายการ (มาจากการโต้ตอบจริงระหว่างผู้ใช้กับโมเดลภาษาขนาดใหญ่ที่เสริมด้วยการค้นหา) หลังจากผ่านกระบวนการปกปิดตัวตน กรอง และจำแนกประเภท ในที่สุดก็คัดเลือกแบบสอบถาม 44,000 รายการที่ตรงกับคำจำกัดความของ “การวิจัยเชิงลึก” และรวบรวมการกระจายความต้องการที่แท้จริงของผู้ใช้ใน 22 หมวดหมู่หัวข้อ

จากข้อมูลการกระจายนี้ ทีมงานกำหนดจำนวนงานในแต่ละหมวดหมู่ และเชิญผู้เชี่ยวชาญระดับปริญญาเอกในสาขาที่เกี่ยวข้องเขียนงานวิจัย สุดท้ายสร้างชุดข้อมูลเกณฑ์มาตรฐานที่มีงานวิจัยที่ท้าทายสูง 100 งาน (ภาษาจีน 50 งาน ภาษาอังกฤษ 50 งาน)
กรอบการประเมินสองแบบที่เสริมกัน
งานวิจัยนี้ออกแบบกรอบการประเมินสองแบบ เพื่อตอบคำถามพื้นฐานสองข้อเกี่ยวกับรายงานวิจัย:

- RACE: ประเมินคุณภาพรายงาน แนวคิดหลักคือจุดเน้นการประเมินควรปรับเปลี่ยนตามลักษณะของงาน RACE สร้างมาตรฐานการประเมินและน้ำหนักแบบไดนามิกตามลักษณะของงาน และแนะนำรายงานอ้างอิงคุณภาพสูงหนึ่งฉบับเพื่อเปรียบเทียบและให้คะแนน เพื่อบรรเทาปัญหาที่ผู้ประเมินโมเดลภาษาขนาดใหญ่ “มีแนวโน้มให้คะแนนสูงเสมอ”
- FACT: ตรวจสอบความน่าเชื่อถือของข้อมูล แยกข้อความข้อเท็จจริงแต่ละข้อและ URL ที่อ้างอิงจากรายงาน จากนั้นดึงเนื้อหาเว็บเพจที่เกี่ยวข้อง และตรวจสอบทีละข้อว่าการอ้างอิงสนับสนุนข้อความนั้นจริงหรือไม่ สิ่งนี้ทำให้สามารถวัดปริมาณตัวชี้วัดสำคัญสองประการ: Agent อ้างอิง “ข้อมูลที่มีประสิทธิภาพ” เท่าใด และความแม่นยำของการอ้างอิงเป็นอย่างไร
การค้นพบที่สำคัญ
ในการประเมินครั้งแรก Gemini Deep Research และ OpenAI Deep Research แสดงให้เห็นถึงความได้เปรียบที่นำหน้า แต่แต่ละรายมีจุดเน้นที่แตกต่างกัน: อันแรกนำหน้าในด้านความครอบคลุมและปริมาณข้อมูลที่มีประสิทธิภาพ ส่วนอันหลังมีความสามารถในการปฏิบัติตามคำสั่งที่โดดเด่นกว่า Perplexity Deep Research มีอันดับโดยรวมต่ำกว่าเล็กน้อย แต่มีความแม่นยำในการอ้างอิงสูงถึง 90% ซึ่งสูงกว่าคู่แข่งรายอื่นมาก แสดงให้เห็นว่า “พบมากแค่ไหน” และ “พบแม่นยำแค่ไหน” เป็นความสามารถสองประเภทที่แตกต่างกัน

ทีมงานยังใช้งานภาษาจีน 50 งานเพื่อทำการทดสอบความสอดคล้องของมนุษย์ ใช้เวลารวม 225 ชั่วโมงคน ในที่สุดยืนยันว่าอัตราความสอดคล้องแบบคู่ของ RACE ถึง 71.3% ซึ่งสูงกว่าอัตราความสอดคล้องระหว่างการประเมินร่วมของผู้เชี่ยวชาญมนุษย์ (68.4%) และดีกว่าวิธีพื้นฐานและตัวแปรใดๆ ของ RACE เองอย่างมีนัยสำคัญ
DeepResearch Bench II: วัดช่องว่างระหว่าง AI ด้วยมาตรฐานผู้เชี่ยวชาญ
ปัญหาพื้นฐานของกระบวนทัศน์การประเมินที่มีอยู่
หลังจากเปิดตัว DeepResearch Bench V1 เกณฑ์มาตรฐานการประเมินการวิจัยเชิงลึกในภายหลังส่วนใหญ่ใช้แนวทางสองประเภท:
1. จุดให้คะแนนแบบก่อนประสบการณ์ (A Priori): กำหนดมาตรฐานการประเมินล่วงหน้าโดยโมเดลภาษาขนาดใหญ่ แต่สิ่งที่โมเดลคิดว่าสำคัญ อาจไม่ใช่สิ่งที่ผู้เชี่ยวชาญในสาขาจริงๆ ให้ความสำคัญ
2. การตรวจสอบการอ้างอิงแบบหลังประสบการณ์ (A Posteriori): ตรวจสอบว่าการอ้างอิงมีประสิทธิภาพหรือไม่ และสามารถสนับสนุนข้อสรุปได้หรือไม่ แต่การอ้างอิงมีรูปแบบที่ถูกต้องและแหล่งที่มาเข้าถึงได้ ไม่ได้หมายความว่าเนื้อหานั้นถูกต้องเอง — โมเดลอาจค้นพบข้อมูลที่ผิดหรือแม้แต่ข้อมูลที่ถูกวางยาพิษ
การตัดสินใจหลัก: การประเมินจะกลับไปสู่การจัดแนวกับผู้เชี่ยวชาญมนุษย์ในที่สุด
ทีมวิจัยเชื่อว่า เมื่อความสามารถในการวิวัฒนาการด้วยตนเองของโมเดลเพิ่มขึ้น ปัญหาหลักของการประเมินจะเปลี่ยนเป็น: สิ่งที่โมเดลคิดว่ารายงานวิจัยควรมี ตรงกับความคาดหวังของผู้เชี่ยวชาญมนุษย์จริงหรือไม่?
เพื่อตอบคำถามนี้ ต้องใช้ผู้เชี่ยวชาญมนุษย์เป็นจุดอ้างอิง และรายงานวิจัยของผู้เชี่ยวชาญมนุษย์ที่เป็นโอเพ่นซอร์สและผ่านการตรวจสอบโดยเพื่อน เป็นจุดยึดที่ยอดเยี่ยม หลังจากแนะนำรายงานผู้เชี่ยวชาญแล้ว ปัญหาที่สองก็ได้รับการแก้ไขเช่นกัน — บทความของผู้เชี่ยวชาญมีหลักฐานและข้อสรุปที่ถูกต้องอยู่แล้ว เพียงตรวจสอบว่ารายงานของโมเดลครอบคลุมเนื้อหาเหล่านี้หรือไม่ ไม่จำเป็นต้องพึ่งพาการตรวจสอบการอ้างอิงเว็บทีละข้ออีกต่อไป
การวิเคราะห์ย้อนกลับ: จากรายงานผู้เชี่ยวชาญสู่มาตรฐานการประเมิน
วิธีการของ V2 เป็นแบบย้อนกลับ: เริ่มจากรายงานที่ผู้เชี่ยวชาญทำเสร็จแล้ว วิเคราะห์ย้อนกลับวิธีการนำเสนอ วิธีการวิเคราะห์ ข้อมูลที่ระลึกได้ และปัญหาการวิจัย จากนั้นแยกมาตรฐานการประเมินและงานวิจัยออกมา

โดยเฉพาะ ทีมงานคัดเลือกบทความวิจัยคุณภาพสูง 132 บทความจากวารสารที่มีชื่อเสียง การประชุมระดับสูงสุด และสิ่งพิมพ์ของสถาบันที่มีอำนาจ ผ่านกระบวนการสี่ขั้นตอน “การแยกโดยโมเดลภาษาขนาดใหญ่ → การกรองด้วยการประเมินตนเอง → การแก้ไขโดยมนุษย์ → การกลั่นกรองโดยผู้เชี่ยวชาญสาขา” ในที่สุดได้มาตรฐานการประเมินแบบไบนารีระดับละเอียด 9,430 ข้อ (เฉลี่ยประมาณ 71 ข้อต่องาน) มาตรฐานเหล่านี้ไม่ใช่ “ครอบคลุมหรือไม่” ที่เป็นนามธรรม แต่เป็นข้อกำหนดเฉพาะที่สามารถตอบ “ใช่หรือไม่ใช่” ได้โดยตรง เช่น “ระบุหรือไม่ว่าสาเหตุหลักของการสูญเสียแรงงานในเมืองเล็กคือความไม่ตรงกันของโครงสร้างอาชีพ” เมื่อประเมินไม่จำเป็นต้องพึ่งพาความรู้ด้านของโมเดลเองในการตัดสิน
การวิเคราะห์ความสามารถสามชั้น
ในแง่มิติการประเมิน DeepResearch Bench V2 เริ่มจากมุมมองของการจัดระเบียบข้อมูล แบ่งงานวิจัยเชิงลึกออกเป็นความสามารถหลักสามชั้นที่ก้าวหน้าต่อเนื่อง:
- การระลึกข้อมูล: Agent รู้หรือไม่ว่าควรค้นหาข้อมูลใด? ข้อมูลที่พบแม่นยำหรือไม่? นี่เป็นพื้นฐานของกระบวนการวิจัยทั้งหมด
- การวิเคราะห์: Agent สามารถก้าวข้ามการสรุปข้อมูลแบบง่ายๆ ได้หรือไม่? รายงานที่สร้างโดยโมเดลหลายรายเพียงอ้างอิงข้อสรุปสำเร็จรูปหรือให้คำพูดทั่วไป แต่ขาดการให้ข้อมูลเชิงลึกระดับสูงที่มีคุณค่าจากข้อมูลดั้งเดิม ผ่านการให้เหตุผลและการสังเคราะห์
- การนำเสนอ: แม้ว่าข้อมูลจะแม่นยำและข้อสรุปลึกซึ้ง แต่หากไม่สามารถจัดระเบียบและสื่อสารด้วยวิธีที่ชัดเจนและเป็นมิตรกับผู้ใช้ ก็ไม่สามารถสร้างรายงานวิจัยที่ดีได้เช่นกัน

ความสามารถสามชั้นนี้สอดคล้องกับห่วงโซ่ที่สมบูรณ์ของการวิจัยเชิงลึกตั้งแต่ “การค้นหา” ไปจนถึง “การคิด” และไปจนถึง “การเขียน”
แนวคิดของงานทั้งสองรุ่น
เมื่อมองย้อนกลับไปที่ชุดงานวิจัยนี้ คำถามหลักยังคงเหมือนเดิม: จะทำให้การประเมิน Agent วิจัยเชิงลึกเข้าใกล้การตัดสินของผู้เชี่ยวชาญมนุษย์ได้อย่างไร?
- คำตอบของรุ่นแรกคือ “ทำให้การประเมินฉลาดขึ้น” — ผ่านน้ำหนักแบบไดนามิก มาตรฐานที่ปรับตัวได้ และการเปรียบเทียบอ้างอิง ทำให้ผู้ประเมินโมเดลภาษาขนาดใหญ่สามารถตัดสินคุณภาพรายงานได้อย่างยืดหยุ่น และผลการประเมินยังเกินกว่าความสอดคล้องระหว่างผู้ประเมินมนุษย์อีกด้วย
- คำตอบของรุ่นที่สองคือ “ทำให้การประเมินมีหลักฐานอ้างอิง” แทนที่จะให้ AI กำหนดเองว่าอะไรคือการวิจัยที่ “ดี” ควรใช้ผลงานวิจัยของผู้เชี่ยวชาญมนุษย์เป็นมาตรฐานโดยตรง และแยก “ดี” ออกเป็นข้อกำหนดเฉพาะหลายพันข้อที่สามารถตรวจสอบได้ สิ่งนี้ไม่เพียงทำให้การประเมินเป็นวัตถุวิสัยและโปร่งใสมากขึ้น แต่ยังทำให้สามารถระบุช่องว่างระหว่าง AI กับผู้เชี่ยวชาญมนุษย์ได้อย่างแม่นยำเป็นครั้งแรก
งานทั้งสองรุ่นร่วมกันสร้างเรื่องราวที่สมบูรณ์ตั้งแต่ “สามารถประเมินได้หรือไม่” ไปจนถึง “การประเมินแม่นยำหรือไม่” และไปจนถึง “ช่องว่างอยู่ที่ไหน” และผลล่าสุดของ NVIDIA AI-Q แสดงให้เห็นว่ามาตรวัดนี้กำลังถูกนำไปใช้โดยผู้เล่นชั้นนำในอุตสาหกรรม เพื่อวัดและขับเคลื่อนขอบเขตความสามารถในการวิจัยเชิงลึกของ AI
ข้อจำกัดและแนวโน้มในอนาคต
ทีมวิจัยยังได้พูดคุยอย่างตรงไปตรงมาเกี่ยวกับข้อจำกัดของงานปัจจุบัน
แม้แต่รายงานวิจัยที่เขียนโดยผู้เชี่ยวชาญมนุษย์ ก็ยากที่จะทำให้ผู้อ่านทุกคนพอใจ นี่แสดงให้เห็นอย่างชัดเจนว่าการประเมิน Agent วิจัยเชิงลึกนั้นเองเป็นปัญหาที่ยาวและมีความเป็นอัตวิสัย — วิธีการประเมินในปัจจุบันสามารถพยายามให้สอดคล้องกับการตัดสินคุณค่าและความต้องการข้อมูลของคนส่วนใหญ่เท่านั้น ในขณะเดียวกัน เนื่องจากบทความผู้เชี่ยวชาญเองอาจมีข้อบกพร่อง โมเดลภาษาขนาดใหญ่อาจสร้าง “ภาพหลอน” ในกระบวนการแยกข้อมูล และการตรวจสอบโดยมนุษย์ก็ยากที่จะหลีกเลี่ยงความผิดพลาดได้ ดังนั้นมาตรวัดการประเมินที่สร้างขึ้นจึงไม่สมบูรณ์แบบ เพื่อจุดประสงค์นี้ ทีมงานได้จัดตั้งส่วนความคิดเห็นสาธารณะบนหน้าโครงการ ยินดีต้อนรับการชี้แนะและการอภิปรายจากชุมชน
มองไปสู่อนาคต ชุดการประเมินนี้เปิดเผยความท้าทายพื้นฐานบางประการ:
- ความลึกและความแปลกใหม่ของการวิเคราะห์: ยังคงมีช่องว่างระหว่างการสรุปข้อมูลกับการสร้างความเข้าใจที่แท้จริง แม้แต่ NVIDIA AI-Q ที่มีคะแนนในมิติการวิเคราะห์เกิน 50% ยังมีพื้นที่สำหรับการปรับปรุงอย่างมากในด้านนี้
- การปรับตัวให้เข้ากับผู้ใช้: สำหรับหัวข้อวิจัยเดียวกัน รายงานสำหรับนักศึกษาปริญญาตรีและศาสตราจารย์อาวุโสควรแตกต่างกันโดยสิ้นเชิง แต่ระบบในปัจจุบันแทบไม่สามารถบรรลุการนำเสนอเนื้อหาที่ปรับตัวได้เช่นนี้
ข้อมูล โค้ด และสคริปต์การประเมินทั้งหมดของชุด DeepResearch Bench ได้เปิดเผยเป็นโอเพ่นซอร์สแล้ว
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28058
