CMU เปิดตัวชุดข้อมูลบันทึกการค้นหาแบบ Agentic ครั้งแรก: เผยรูปแบบพฤติกรรมของเอเจนต์จากคำขอค้นหา 14 ล้านรายการ

2026年2月9日 am8:51 • ข่าวสารอุตสาหกรรม AI • 186 views

ในบริบทที่การค้นหาแบบ Agentic Search ที่ขับเคลื่อนโดยโมเดลขนาดใหญ่กำลังกลายเป็นเรื่องปกติมากขึ้นเรื่อยๆ การอธิบายและวิเคราะห์อย่างเป็นระบบเกี่ยวกับ “วิธีที่เอเจนต์เริ่มต้นการสืบค้น, วิธีที่ปรับเปลี่ยนคำถาม, และการใช้ประโยชน์จากข้อมูลที่ค้นหาได้จริงหรือไม่” ในสภาพแวดล้อมจริงยังคงขาดแคลน

ทีมวิจัยจาก Carnegie Mellon University (CMU) ได้รวบรวมคำขอค้นหามากกว่า 14 ล้านรายการจากปริมาณการใช้งานจริงในช่วงครึ่งปีของแพลตฟอร์ม DeepResearchGym ซึ่งเป็นแพลตฟอร์มการค้นหาที่สามารถทำซ้ำได้ โดยเกี่ยวข้องกับเซสชันการค้นหาประมาณ 4 ล้านเซสชัน หลังจากดำเนินการทำให้เป็นนิรนามและทำความสะอาดข้อมูลอย่างเข้มงวด ทีมได้เปิดเผยชุดข้อมูลบันทึกพฤติกรรม Agentic Search ชุดแรกบน Hugging Face

จากชุดข้อมูลนี้ การศึกษานี้ได้เสนอกรอบการวิเคราะห์สามชั้น: “ความตั้งใจของเซสชัน (Declarative / Procedural / Reasoning) → การกระทำในเส้นทาง (Specialization / Generalization / Exploration / Repetition) → อัตราการนำข้อมูลที่ค้นหาไปใช้ (CTAR)” การศึกษาใช้โมเดลภาษาขนาดใหญ่ในการแบ่งส่วนเซสชันและอนุมานป้ายกำกับ เผยให้เห็นความชอบในการเจาะลึกที่พบได้ทั่วไปในการค้นหาโดยเอเจนต์ ปรากฏการณ์การวนซ้ำในการทำงานประเภทข้อเท็จจริง และความแตกต่างอย่างมีนัยสำคัญของรูปแบบการปรับเปลี่ยนคำถามต่อระดับการพึ่งพาข้อมูลการค้นหาในอดีต

โดยรวมแล้ว การศึกษานี้ไม่เพียงแต่ให้บันทึกขนาดใหญ่ชุดแรกที่เปิดเผยต่อสาธารณะสำหรับการสังเกตและประเมินพฤติกรรม Agentic Search เท่านั้น แต่ยังให้พื้นฐานข้อมูลที่สามารถทำซ้ำได้และสัญญาณพฤติกรรมที่สามารถวัดปริมาณได้สำหรับการสร้างแบบจำลอง “ความสามารถในการค้นหา” อย่างชัดเจนในการฝึกอบรมเอเจนต์และการออกแบบระบบในอนาคต

ชื่อบทความ: Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
ลิงก์บทความ: https://arxiv.org/abs/2601.17617

ชุดข้อมูลโอเพ่นซอร์สบน Hugging Face: DeepResearchGym Agentic Search Logs
ลิงก์ชุดข้อมูล: https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs

01 จากงานสู่พฤติกรรม: ชิ้นส่วนที่ขาดหายไปของ Agentic Search

ในปีที่ผ่านมา Agentic Search และการวิจัยเชิงลึกที่ขับเคลื่อนโดยโมเดลภาษาขนาดใหญ่กำลังกลายเป็นรูปแบบสำคัญของการเข้าถึงข้อมูลมากขึ้นเรื่อยๆ ในโหมดนี้ ระบบไม่เพียงแต่ส่งคืนผลลัพธ์เอกสารหนึ่งหน้า แต่ยังใช้เอเจนต์เพื่อเริ่มการค้นหาหลายรอบ อ่านเอกสาร ปรับเปลี่ยนคำถาม และสร้างคำตอบที่ครอบคลุมในที่สุด

สอดคล้องกับสิ่งนี้ การศึกษาที่มีอยู่ได้เสนอเกณฑ์การทำงานและกรอบการประเมินที่หลากหลายเพื่อวัดประสิทธิภาพของระบบในด้านการตอบคำถาม การให้เหตุผล การเรียกใช้เครื่องมือ อย่างไรก็ตาม การประเมินเหล่านี้ส่วนใหญ่ขึ้นอยู่กับคำถามที่สร้างขึ้นและตัวอย่างที่ไม่ต่อเนื่อง ขาดการสังเกตอย่างเป็นระบบและการวิเคราะห์ที่มีโครงสร้างเกี่ยวกับพฤติกรรมการค้นหาของเอเจนต์ในสภาพแวดล้อมจริง:
* เซสชันหลายรอบดำเนินไปอย่างไรในการใช้งานจริง?
* ภายใต้ประเภทงานที่แตกต่างกัน เอเจนต์ใช้กลยุทธ์การค้นหาอะไรบ้าง?
* ในกระบวนการปรับเปลี่ยนหลายขั้นตอน ข้อมูลหลักฐานที่ค้นพบมีอิทธิพลต่อคำถามที่ตามมาในระดับใด?

บทความ “Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests” มุ่งเน้นไปที่ช่องว่างดังกล่าว โดยมีส่วนร่วมสองประการจากแพลตฟอร์ม DeepResearchGym (DRGym):
1. รวบรวมคำขอ Agentic Search มากกว่า 14 ล้านรายการจากปริมาณการใช้งานจริงในช่วงครึ่งปี ประมาณ 4 ล้านเซสชันการค้นหา หลังจากทำให้เป็นนิรนามและทำความสะอาดอย่างเข้มงวด ได้เผยแพร่ชุดข้อมูลบันทึกพฤติกรรม Agentic Search ชุดแรกที่เป็นโอเพ่นซอร์ส
2. บนพื้นฐานนี้ วิเคราะห์กระบวนการค้นหาของเอเจนต์อย่างเป็นระบบจากสองมิติ: ความตั้งใจของงานและเส้นทางการค้นหา และเสนอตัวชี้วัดสำหรับวัด “การใช้ประโยชน์จากข้อมูลที่ค้นหา” – CTAR (Context-driven Term Adoption Rate, อัตราการนำคำศัพท์ที่ขับเคลื่อนโดยบริบท)

02 ข้อมูลและแพลตฟอร์ม: ภาพรวมบันทึก DRGym

DRGym เป็นแพลตฟอร์มการค้นหาที่สามารถทำซ้ำได้สำหรับวัตถุประสงค์ในการวิจัยที่ทีมสร้างขึ้น โดยให้ API /search ที่เป็นมาตรฐานแก่ภายนอก แบ็กเอนด์ของมันขึ้นอยู่กับการค้นหาแบบหนาแน่น และติดตั้งบนสแนปชอตคอร์ปัสเว็บที่คงที่ (เช่น ClueWeb22, FineWeb เป็นต้น) เอเจนต์ต่างๆ สามารถเรียกใช้อินเทอร์เฟซนี้ด้วยกลยุทธ์ใดก็ได้ แต่คำขอทั้งหมดทำงานบนโครงสร้างพื้นฐานการค้นหาแบบเดียวกัน

แต่ละบันทึกในบันทึกประกอบด้วยข้อมูลต่อไปนี้:
* ข้อความค้นหา query_text
* จำนวนเอกสารที่ค้นหา num_of_docs (เช่น top-K)
* ชุดข้อมูลที่ใช้ dataset (เช่น ClueWeb22 / FineWeb)
* พารามิเตอร์ที่เกี่ยวข้องกับงบประมาณการค้นหา complexity
* ประทับเวลา, IP ที่ทำให้เป็นนิรนาม และฟิลด์ระบุเซสชันอื่นๆ

การศึกษาคัดเลือกช่วงเวลาประมาณครึ่งปี ได้รับบันทึกคำขอมากกว่า 14 ล้านรายการจากเกือบ 600 ที่อยู่ IP ใน 25 ประเทศ ประมาณ 4 ล้านเซสชัน เพื่อตรวจสอบว่าบันทึกมีความหลากหลายในการใช้งานที่กว้างขวางหรือไม่ (แทนที่จะเป็นการเล่นซ้ำของคำถามเกณฑ์บางชุด) ผู้เขียนได้ตรวจสอบจากสองด้าน:
* ใช้การแสดงเวกเตอร์ข้อความเพื่อวิเคราะห์การกระจายความหมายของข้อความค้นหา ผลลัพธ์แสดงให้เห็นว่าความหมายของข้อความค้นหาครอบคลุมพื้นที่ความหมายที่ค่อนข้างกระจาย
* จับคู่ความหมายของข้อความค้นหาในบันทึกกับคำถามจากเกณฑ์มาตรฐาน Agentic ที่ใช้กันทั่วไปหลายชุด พบว่าส่วนที่ตรงกันมีสัดส่วนต่ำมาก

ในด้านความเป็นส่วนตัว บันทึกได้รับการตัดแต่งฟิลด์และทำให้เป็นนิรนาม: ลบข้อมูลที่ระบุตัวตนได้โดยตรง ทำความสะอาดข้อความอิสระจาก PII และสร้าง ID นิรนามระดับเซสชันขึ้นใหม่ ในที่สุดจึงเผยแพร่ต่อสาธารณะบน Hugging Face

03 จากคำขอสู่เซสชัน: วิธีการแบ่งส่วนเซสชัน

บันทึกดั้งเดิมเป็นลำดับคำขอที่เรียงตามเวลา เพื่อวิเคราะห์รูปแบบพฤติกรรม ขั้นแรกจำเป็นต้องแบ่งเซสชันการค้นหา ต่างจากบันทึกเว็บของมนุษย์ทั่วไป คำขอจากเอเจนต์มักมีความถี่สูงและสามารถทำงานพร้อมกันได้ การพึ่งพาเฉพาะเกณฑ์เวลาคงที่ (เช่น “ช่วงเวลาห่างเกิน 30 นาที”) อาจทำให้เกิดการแบ่งส่วนผิดพลาดได้ง่าย

งานนี้ใช้ กลยุทธ์การแบ่งส่วนเซสชันร่วมกันระหว่างความหมายและเวลา:
1. ขั้นแรก ขึ้นอยู่กับกลุ่มตัวอย่างคำขอที่อยู่ติดกัน ใช้โมเดลภาษาขนาดใหญ่เพื่อติดป้ายกำกับว่า “เป็นเซสชันเดียวกันหรือไม่” เพื่อสร้างป้ายกำกับความต่อเนื่อง
2. ประการที่สอง ใช้การแสดงเวกเตอร์ของข้อความค้นหาเพื่อฝึกโมเดลจำแนกความต่อเนื่อง เพื่อทำนายว่าข้อความค้นหาสองข้อควรจัดอยู่ในเซสชันเดียวกันหรือไม่
3. เมื่อแบ่งส่วนออนไลน์ สำหรับข้อความค้นหาใหม่ภายใต้ IP นิรนามเดียวกัน คำนวณคะแนนความต่อเนื่องกับข้อความค้นหาสุดท้ายของเซสชันที่ใช้งานอยู่ทั้งหมด เมื่อคะแนนและความแตกต่างของเวลาเป็นไปตามเงื่อนไข จะรวมเข้ากับเซสชันที่เกี่ยวข้อง มิฉะนั้นจะเริ่มเซสชันใหม่

กลยุทธ์นี้ส่งผลให้ได้เซสชันประมาณ 4 ล้านเซสชัน การกระจายโดยรวมแสดงให้เห็นว่า:
* เซสชันรอบเดียวยังคงมีสัดส่วนหนึ่ง แต่เซสชันจำนวนมากประกอบด้วยการค้นหาหลายขั้นตอน
* ช่วงเวลาระหว่างคำขอที่อยู่ติดกันส่วนใหญ่อยู่ในไม่กี่วินาทีถึงสิบกว่าวินาที สะท้อนถึงลักษณะเฉพาะของ Agentic Search ที่ “มีความถี่สูง, การวนซ้ำทีละน้อย”

04 มุมมองสองชั้น: ความตั้งใจของงานและเส้นทางการค้นหา

บนพื้นฐานของการแบ่งส่วนเซสชัน บทความอธิบายกระบวนการ Agentic Search จากสองระดับ:
* ระดับเซสชัน: ความตั้งใจของเซสชัน นั่นคือประเภทของงานที่เอเจนต์พยายามจะทำให้สำเร็จในการค้นหาครั้งนี้
* ระดับขั้นตอนต่อขั้นตอน: การกระทำในเส้นทาง นั่นคือประเภทของการกระทำปรับเปลี่ยนระหว่างข้อความค้นหาสองข้อความที่อยู่ติดกัน

4.1 ความตั้งใจของเซสชันสามประเภท

ผู้เขียนใช้การจำแนกเป้าหมายการค้นหาเว็บแบบคลาสสิก โดยแบ่งเซสชันหลายรอบออกเป็นสามประเภท:
1. Declarative (ประเภทคำแถลง / การค้นหาข้อเท็จจริงและความรู้)
* คำถามทั่วไปรวมถึง “คืออะไร”, “ใครคือ”, “ระบุ…”
2. Procedural (ประเภทกระบวนการ / การค้นหาการดำเนินการและขั้นตอน)
* รวมถึง “ทำอย่างไร”, “วิธีแก้ไข”, “ขั้นตอนในการทำงานบางอย่าง” เป็นต้น
3. Reasoning (ประเภทการให้เหตุผล / การค้นหาการวิเคราะห์และการเปรียบเทียบ)
* รวมถึง “ทำไม”, “วิธีชั่งน้ำหนัก”, “การเปรียบเทียบและการวางแผนหลายปัจจัย” เป็นต้น

วิธีการติดป้ายกำกับคือ: เชื่อมข้อความค้นหาทั้งหมดภายในเซสชันหนึ่งเข้าด้วยกัน ส่งให้โมเดลภาษาขนาดใหญ่เพื่อจำแนกความตั้งใจ และใช้โมเดลอื่นในการตรวจสอบข้ามบนตัวอย่าง เพื่อรับประกันความน่าเชื่อถือของป้ายกำกับ

ผลลัพธ์ทางสถิติแสดงให้เห็นว่าในบันทึก งานประเภทคำแถลงเป็นหลัก รองลงมาคืองานประเภทการให้เหตุผล งานประเภทกระบวนการมีสัดส่วนน้อยกว่า ภายใต้ความตั้งใจของงานที่แตกต่างกัน ความยาวของเซสชันและการกำหนดค่าการค้นหามีความแตกต่างอย่างเห็นได้ชัด ตัวอย่างเช่น งานประเภทกระบวนการมีแนวโน้มที่จะดึงเอกสารมากขึ้นในครั้งเดียว ในขณะที่ข้อความค้นหาของงานประเภทการให้เหตุผลมักจะยาวกว่า และมีการเปลี่ยนแปลงระหว่างก่อนและหลังที่มากขึ้น

4.2 การกระทำปรับเปลี่ยนเส้นทางสี่ประเภท

ภายในเซสชันเดียว การเปลี่ยนแปลงระหว่างข้อความค้นหาที่อยู่ติดกันถูกแบ่งออกเป็นการกระทำปรับเปลี่ยนสี่ประเภท:

การเชี่ยวชาญเฉพาะ (Specialization): เพิ่มข้อจำกัด เจาะลึกลงในเงื่อนไขหรือขอบเขตย่อยที่เฉพาะเจาะจงมากขึ้น
การทำให้เป็นทั่วไป (Generalization): ลดข้อจำกัด ทำให้ข้อความค้นหากว้างขึ้นเป็นการอธิบายทั่วไปมากขึ้น
การสำรวจ (Exploration): เปลี่ยนไปยังด้านใหม่หรือปัญหาย่อยภายใต้หัวข้อเดียวกัน เช่น จาก “ตำแหน่งที่ตั้ง” เปลี่ยนเป็น “ข้อมูลคุณลักษณะ”
การทำซ้ำ (Repetition): การปรับเปลี่ยนเล็กน้อยที่ความหมายพื้นฐานไม่เปลี่ยนแปลง หรือการลองใหม่โดยตรง เช่น การปรับเปลี่ยนลำดับประโยค การแทนที่ด้วยสำนวนที่มีความหมายเหมือนกัน

ป้ายกำกับเหล่านี้ได้มาจากผลลัพธ์การจำแนกของโมเดลภาษาขนาดใหญ่สำหรับคู่ข้อความค้นหา และได้รับการตรวจสอบร่วมกับความคล้ายคลึงของเวกเตอร์และการทับซ้อนของผลลัพธ์การค้นหา โดยรวมแล้ว เอเจนต์แสดงให้เห็น “ความชอบในการเจาะลึก” ที่ชัดเจน: การกระทำเชี่ยวชาญเฉพาะและการสำรวจถูกใช้ในความถี่ที่ค่อนข้างสูง การทำให้เป็นทั่วไปค่อนข้างหายาก และในระยะหลังของเซสชันประเภทข้อเท็จจริงจำนวนมาก การกระทำทำซ้ำเพิ่มขึ้นอย่างมีนัยสำคัญ ก่อให้เกิด “วงจรการลองใหม่”

ในอีกด้านหนึ่ง เอเจนต์ยังแสดงรูปแบบ “รีเซ็ต-ปรับแต่งใหม่” บางส่วน: เอเจนต์ทำการเชี่ยวชาญเฉพาะในหัวข้อกว้างๆ ก่อน (เช่น จาก “การรบของนโปเลียน” แคบลงเป็น “การรบในอิตาลีปี 1796”) จากนั้นทำการทำให้เป็นทั่วไปหนึ่งครั้งโดยการลบข้อจำกัด (ได้ข้อความค้นหาที่สั้นลงและกว้างขึ้น) จากนั้นทำการเชี่ยวชาญเฉพาะอีกครั้งตามด้านอื่น (เปลี่ยนไปยังทิศทางการปรับแต่งใหม่ เช่น “การเดินทางไปอียิปต์”)

จากความยาวของข้อความค้นหาที่เปลี่ยนแปลง ก็สามารถเห็นได้ว่าการเชี่ยวชาญเฉพาะมักจะทำให้ข้อความค้นหายาวขึ้น ในขณะที่การทำให้เป็นทั่วไปจะทำให้ข้อความค้นหาสั้นลง โดยรวมแล้ว การทำให้เป็นทั่วไปที่นี่ดูเหมือนจะเป็นเพียงการย้อนกลับแบบเบาๆ เพื่อสลับระหว่างสาขาการปรับแต่งที่แตกต่างกัน แทนที่จะรักษาข้อความค้นหาไว้ในระดับกว้างอย่างต่อเนื่อง

05 การใช้ประโยชน์จากข้อมูลการค้นหาโดยเฉพาะของเอเจนต์: ตัวชี้วัด CTAR

ในการค้นหาหลายรอบ ปัญหาสำคัญประการหนึ่งคือ: ข้อความค้นหาใหม่ได้รับอิทธิพลจากข้อมูลการค้นหาที่มีอยู่มากน้อยเพียงใด เนื่องจากไม่มีสัญญาณการโต้ตอบที่ชัดเจน เช่น การคลิกหรือเวลาในการอยู่ในบันทึก บทความจึงเสนอตัวชี้วัดวัดทางอ้อม: CTAR

วิธีการคำนวณ CTAR สรุปได้ดังนี้:
* แยกคำและกรองคำหยุดสำหรับคู่ข้อความค้นหาที่อยู่ติดกัน q_k → q_{k+1}
* ค้นหาคำศัพท์ “ใหม่” ที่ปรากฏครั้งแรกใน q_{k+1}
* ตรวจสอบในผลลัพธ์การค้นหาจากขั้นตอนก่อนหน้าหรือที่สะสมมาจนถึงปัจจุบันว่าคำศัพท์ใหม่เหล่านี้ปรากฏในรูปแบบคำหรือไม่
* CTAR คือ “สัดส่วนของคำศัพท์ใหม่ที่ปรากฏในบริบทต่อคำศัพท์ใหม่ทั้งหมด”

การค้นพบหลักที่ตัวชี้วัดนี้นำมาประกอบด้วย:

CTAR โดยรวมเกินครึ่ง: คำศัพท์ใหม่มากกว่าครึ่งสามารถพบได้ในเอกสารที่ค้นพบก่อนหน้านี้ สิ่งนี้บ่งชี้ว่าในขั้นตอนจำนวนมาก เอเจนต์ไม่ได้เสนอเงื่อนไขใหม่ทั้งหมดจากความว่างเปล่า แต่รับคำศัพท์และข้อจำกัดจากข้อมูลที่ได้รับมาแล้ว
CTAR ของการกระทำปรับเปลี่ยนเส้นทางที่แตกต่างกันมีความแตกต่างอย่างมีนัยสำคัญ: CTAR ของ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22997