DeepXiv: โครงสร้างพื้นฐาน AI วิจัยที่อัปเกรดเอกสารทางวิทยาศาสตร์จาก “มนุษย์อ่านได้” เป็น “เอเจนต์อัจฉริยะใช้งานได้”

2026年4月8日 pm1:45 • โครงการโอเพนซอร์ส • 142 views

บทนำ

ด้วยการพัฒนาอย่างรวดเร็วของเอเจนต์อัจฉริยะโมเดลขนาดใหญ่ การวิจัยอัตโนมัติที่ขับเคลื่อนโดย AI กำลังก้าวจากแนวคิดสู่ความเป็นจริงอย่างรวดเร็ว ตั้งแต่การค้นพบคำถามทางวิทยาศาสตร์โดยอัตโนมัติ การสร้างแผนการวิจัย ไปจนถึงการออกแบบวิธีการทางทฤษฎีและการดำเนินการทดลอง เอเจนต์วิจัยกำลังปรับโฉมกระบวนทัศน์การวิจัยทางวิทยาศาสตร์ในทุกขั้นตอนและอย่างถึงรากฐาน

อย่างไรก็ตาม เพื่อให้เอเจนต์สามารถรับใช้การวิจัยทางวิทยาศาสตร์ได้อย่างแท้จริง มีข้อจำกัดทางเทคนิคพื้นฐานที่ต้องได้รับการแก้ไข: เอเจนต์จะใช้ประโยชน์จากวรรณกรรมทางวิทยาศาสตร์ได้อย่างมีประสิทธิภาพได้อย่างไร?

ในปัจจุบัน วิธีการใช้ประโยชน์จากวรรณกรรมทางวิทยาศาสตร์ยังคงออกแบบมาสำหรับผู้ใช้ที่เป็นมนุษย์ ในโหมดดั้งเดิม เอเจนต์ต้องค้นหาผ่านอินเทอร์เน็ตที่ยุ่งยากและวิเคราะห์เว็บเพจเพื่อให้ได้มาซึ่งเอกสารที่เกี่ยวข้อง และยังต้องอาศัยเครื่องมือการอ่านที่ซับซ้อนเพิ่มเติม เพื่อแยกข้อมูลที่มีประสิทธิภาพจากเอกสารที่มีการนำเสนอด้วยภาพสูง โครงสร้างพื้นฐานที่อิงตามเครื่องมือค้นหาและอินเทอร์เฟซผู้ใช้แบบกราฟิกนี้ ไม่สอดคล้องกับวิธีการทำงานของเอเจนต์อย่างมาก และจำกัดประสิทธิภาพการทำงานและประสิทธิภาพการดำเนินการอย่างรุนแรง

กล่าวอีกนัยหนึ่งคือ เรามีวรรณกรรมทางวิทยาศาสตร์แบบเปิดจำนวนมหาศาล แต่ขาด “โครงสร้างพื้นฐานวรรณกรรมทางวิทยาศาสตร์” ที่มุ่งเน้นสำหรับเอเจนต์

หากในอดีตเอกสารวิจัยเป็นเพียง “ให้มนุษย์อ่าน” ตอนนี้ เอกสารวิจัยจำเป็นต้องคำนึงถึงความต้องการใหม่นี้ นั่นคือ “ให้เอเจนต์อ่าน” ด้วย

วิธีที่มีประสิทธิภาพคือ: ทำให้เอกสารวิจัยกลายเป็น CLI เพื่อให้เอเจนต์สามารถเข้าถึงและใช้งานได้อย่างสะดวก ดังนั้น สถาบันวิจัย Zhìyuán ร่วมกับมหาวิทยาลัยและชุมชนโอเพนซอร์สจึงร่วมมือกันเพื่อก้าวข้ามอุปสรรค เสนอแนวคิดหลักในการปรับเอกสารวิจัยให้เข้ากับการโต้ตอบแบบ CLI และสร้างโครงสร้างพื้นฐานวรรณกรรมเฉพาะทาง เพื่อทำลายกำแพงที่ขวางกั้นระหว่างเอกสารวิจัยแบบเปิดจำนวนมหาศาลกับเอเจนต์ และสร้างรากฐานโครงสร้างพื้นฐานหลักที่มั่นคงสำหรับการวิจัยอัตโนมัติ

DeepXiv: โครงสร้างพื้นฐาน AI วิจัยที่อัปเกรดเอกสารทางวิทยาศาสตร์จาก "มนุษย์อ่านได้" เป็น "เอเจนต์อัจฉริยะใช้งานได้"

DeepXiv: โครงสร้างพื้นฐานวรรณกรรมทางวิทยาศาสตร์สำหรับเอเจนต์

DeepXiv เป็นโครงสร้างพื้นฐานวรรณกรรมทางวิทยาศาสตร์ที่ออกแบบมาโดยเฉพาะสำหรับเอเจนต์ เป้าหมายหลักคือการอัปเกรดวรรณกรรมทางวิทยาศาสตร์จาก “มนุษย์อ่านได้” เป็น “เอเจนต์ใช้งานได้” มันไม่ใช่เพียงการย้ายเว็บไซต์เอกสารวิจัยไปยังบรรทัดคำสั่ง แต่เป็นการแปลงวรรณกรรมทางวิทยาศาสตร์เองให้กลายเป็นอินเทอร์เฟซข้อมูลและระบบทักษะที่เอเจนต์สามารถใช้งานได้โดยตรง ทำให้การค้นหาเอกสาร การอ่านแบบค่อยเป็นค่อยไป การติดตามประเด็นร้อน และการวิจัยเชิงลึก กลายเป็นความสามารถที่สามารถเรียกใช้ จัดเรียง และทำให้เป็นอัตโนมัติได้

ความสามารถหลักประการที่หนึ่ง: การเข้าถึงข้อมูล

DeepXiv มุ่งมั่นที่จะแปลงวรรณกรรมทางวิทยาศาสตร์แบบเปิดให้เป็น “ข้อมูลที่เอเจนต์สามารถใช้งานได้” โดยให้รูปแบบข้อมูลที่เป็นมิตรกับเอเจนต์ เช่น JSON หรือ Markdown ทำให้ข้อมูลเอกสารสามารถอ่านและใช้งานได้โดยตรง เอเจนต์ไม่จำเป็นต้อง “ดึงข้อมูลอย่างยากลำบาก” จากไฟล์ PDF และ HTML ที่ซับซ้อนอีกต่อไป แต่สามารถเข้าถึงข้อมูลเมตา เช่น ชื่อเรื่อง ผู้เขียน บทคัดย่อ เอกสารอ้างอิง ได้โดยตรง

ความท้าทายที่แท้จริงคือ เอเจนต์จะใช้ข้อมูลได้อย่างแม่นยำภายใต้บริบทและงบประมาณการให้เหตุผลที่จำกัดได้อย่างไร เพื่อจุดประสงค์นี้ DeepXiv จึงจัดเตรียมวิธีการจัดระเบียบข้อมูลที่ปรับให้เหมาะสมสำหรับเอเจนต์:
* การแสดงตัวอย่าง: เข้าถึงข้อมูลหลักของเอกสารอย่างรวดเร็ว เพื่อประเมินความเกี่ยวข้องด้วยต้นทุนที่ต่ำมาก
* การแบ่งส่วน: แบ่งเนื้อหาเอกสารตามโครงสร้างหรือความหมาย สนับสนุนการอ่านอย่างละเอียดในบางส่วนของเอกสาร
* การเปิดเผยแบบค่อยเป็นค่อยไป: ในกระบวนการอ่านโดยรวม แสดงข้อมูลจำนวนน้อยก่อน จากนั้นจึงขยายตามความต้องการ เพื่อหลีกเลี่ยงการป้อนบทความยาวทั้งหมดในครั้งเดียว

การออกแบบเหล่านี้มีจุดมุ่งหมายเพื่อลดการใช้โทเค็น เพิ่มประสิทธิภาพการค้นคืนและการอ่าน และสนับสนุนงานวิจัยหลายขั้นตอนที่ซับซ้อน ทำให้เอเจนต์สามารถมุ่งเน้นไปที่ข้อมูลที่มีคุณค่าจริงๆ

แนวคิดการออกแบบนี้สะท้อนให้เห็นโดยตรงในวิธีการเรียกใช้ เมื่อพูดถึงหัวข้อวิจัยใหม่ การกระทำที่เป็นธรรมชาติที่สุดของเอเจนต์ไม่ใช่การอ่านทั้งเอกสารตั้งแต่เริ่มต้น แต่เป็นการปฏิบัติตามเส้นทางการวิจัยที่มีประสิทธิภาพ:
1. ค้นหาเอกสารที่เป็นตัวเลือก
2. ตัดสินใจอย่างรวดเร็วว่าคุ้มค่าที่จะลงทุนงบประมาณบริบทเพิ่มเติมหรือไม่
3. เผยเฉพาะส่วนที่สำคัญจริงๆ เท่านั้น

ตัวอย่างเช่น สามารถดำเนินเส้นทางนี้ได้ด้วยคำสั่งชุดต่อไปนี้:

bash pip install deepxiv-sdk # ติดตั้งแพ็คเกจเครื่องมือ deepxiv search "agent memory" # ค้นหาหัวข้อวิจัย deepxiv paper 2602.16493 --brief # ดูบทคัดย่อและประเด็นสำคัญอย่างรวดเร็ว deepxiv paper 2602.16493 --head # ดูโครงสร้างและการกระจายของบท deepxiv paper 2602.16493 --section "Experiments" # อ่านเฉพาะส่วนการทดลอง

คำสั่งชุดนี้จำลองกระบวนการวิจัยจริง:
* search: ค้นหาเอกสารที่เป็นตัวเลือกก่อน
* --brief: ดูตัวอย่างข้อมูลหลักของเอกสาร เพื่อประเมินคุณค่าของเอกสารด้วยต้นทุนที่ต่ำมาก
* --head: ช่วยให้เอเจนต์เข้าใจโครงสร้างทั้งหมดและการกระจายของบท
* --section: ให้เอเจนต์อ่านส่วนที่มีคุณค่าที่สุด เช่น บทนำ วิธีการ การทดลอง ตามความต้องการ

ผลลัพธ์ไม่ใช่แค่การ “อ่านน้อยลง” แต่ทำให้เอเจนต์มีความสามารถ ในการจัดสรรงบประมาณโทเค็นตามมูลค่าของข้อมูล เนื้อหาเอกสารที่ DeepXiv ส่งคืนอยู่ในรูปแบบ Markdown หรือ JSON ที่ได้รับการวิเคราะห์แล้ว เอเจนต์สามารถอ่านและใช้งานได้โดยตรงและไม่มีแรงกดดัน

MMA: ตัวแทนความจำหลายรูปแบบ

ตัวระบุ: arXiv: 2602.16493
วันที่เผยแพร่: 2026-02-18
จำนวนการอ้างอิง: 0
ลิงก์ทรัพยากร: PDF | GitHub
คำสำคัญ: ความน่าเชื่อถือระดับความจำ, การลดลงตามเวลา, ฉันทามติที่ตระหนักถึงความขัดแย้ง, ความรอบคอบทางปัญญา, เอฟเฟกต์ยาหลอกทางภาพ

บทคัดย่อหลัก:
MMA เสนอกรอบงานความน่าเชื่อถือระดับความจำ ซึ่งประเมินความน่าเชื่อถือของแหล่งที่มาของข้อมูลที่ค้นคืน เอฟเฟกต์การลดลงตามเวลา และฉันทามติของเครือข่ายที่ตระหนักถึงความขัดแย้งแบบไดนามิก เพื่อให้คะแนนแบบไดนามิกกับรายการข้อมูลที่ค้นคืน โดยมีเป้าหมายเพื่อบรรเทาปัญหาความมั่นใจมากเกินไปของโมเดลที่เกิดจากความจำที่ล้าสมัยหรือไม่สอดคล้องกัน การศึกษานี้เปิดเผย “เอฟเฟกต์ยาหลอกทางภาพ” ซึ่งก็คือ เอเจนต์ RAG มีแนวโน้มที่จะเกิดความแน่ใจที่ไม่มีพื้นฐาน เนื่องจากอคติที่แฝงอยู่ในโมเดลพื้นฐาน แม้จะเผชิญกับอินพุตภาพที่คลุมเครือก็ตาม ภายใต้โปรโตคอลการประเมินที่เน้นความรอบคอบทางปัญญา (ให้รางวัลกับการงดตอบ และลงโทษความมั่นใจมากเกินไป) MMA แสดงประสิทธิภาพที่เหนือกว่าในการทดสอบมาตรฐานหลายชุด: ลดความแปรปรวนลง 35.2% ในชุดข้อมูล FEVER; ได้คะแนนความถูกต้องที่ดำเนินการได้สูงขึ้นและคำตอบที่ผิดน้อยลงในชุดข้อมูล LoCoMo; บน MMA-Bench คะแนนความถูกต้องประเภท B ถึง 41.18% ในขณะที่โมเดลพื้นฐานล้มเหลวที่ 0.0%

MMA: เอเจนต์ความจำหลายรูปแบบ

ปัญหาหลัก: กลไกความจำภายนอกแบบดั้งเดิมที่อิงตามการค้นคืนด้วยความคล้ายคลึง มีแนวโน้มที่จะเรียกคืนรายการความจำที่ล้าสมัย มีความน่าเชื่อถือต่ำ หรือขัดแย้งกัน ส่งผลให้เอเจนต์เกิดข้อผิดพลาดจากความมั่นใจมากเกินไป

วิธีแก้ปัญหา: บทความนี้เสนอเอเจนต์ความจำหลายรูปแบบ (MMA) นวัตกรรมหลักอยู่ที่การคำนวณ คะแนนความน่าเชื่อถือ แบบไดนามิกสำหรับแต่ละรายการความจำที่ค้นคืน คะแนนนี้รวมสามมิติสำคัญต่อไปนี้:
1. ความน่าเชื่อถือของแหล่งที่มา: ประเมินความน่าเชื่อถือของแหล่งที่มาของความจำ
2. การลดลงตามเวลา: ลดน้ำหนักของความจำที่ล้าสมัย
3. ฉันทามติของเครือข่ายที่ตระหนักถึงความขัดแย้ง: ระบุและจัดการข้อมูลความจำที่ขัดแย้งกัน

จากสัญญาณความน่าเชื่อถือนี้ MMA สามารถให้น้ำหนักหลักฐานใหม่ และเลือกที่จะ “งดตอบ” โดยสมัครใจเมื่อมีหลักฐานสนับสนุนไม่เพียงพอ เพื่อการตัดสินใจที่รอบคอบยิ่งขึ้น

เกณฑ์มาตรฐานใหม่และการค้นพบที่สำคัญ:
* MMA-Bench: ผู้เขียนสร้างเกณฑ์ทดสอบที่สร้างขึ้นจากโปรแกรม เพื่อประเมินพลวัตของความเชื่อ ซึ่งสามารถควบคุมความน่าเชื่อถือของผู้พูดและความขัดแย้งระหว่างข้อความและภาพที่มีโครงสร้างได้
* เอฟเฟกต์ยาหลอกทางภาพ: ผ่านกรอบงานนี้ การศึกษาเปิดเผยว่าเอเจนต์ RAG สืบทอดอคติทางภาพที่แฝงมาจากโมเดลพื้นฐานอย่างไร แม้เผชิญกับอินพุตภาพที่คลุมเครือ ก็อาจทำให้เกิดความแน่ใจที่ไม่มีพื้นฐานได้

ผลการทดลอง:
* ในชุดข้อมูล FEVER: MMA รักษาความถูกต้องของฐานไว้ได้ ในขณะที่ลดความแปรปรวนลง 35.2% และเพิ่มประสิทธิภาพการเลือก
* ในชุดข้อมูล LoCoMo: การกำหนดค่าที่เน้นความปลอดภัยเพิ่มความถูกต้องที่ดำเนินการได้ และลดคำตอบที่ผิด
* บน MMA-Bench: ในโหมดภาพ คะแนนความถูกต้องประเภท B ของ MMA ถึง 41.18% ในขณะที่วิธีการพื้นฐานล้มเหลวที่ 0.0% ภายใต้โปรโตคอลเดียวกัน

โค้ด: https://github.com/AIGeeksGroup/MMA

การขยายและการรวม: การสร้างชั้นการเข้าถึงวรรณกรรมแบบรวมสำหรับเอเจนต์

การครอบคลุมอย่างสมบูรณ์และการอัปเดตอย่างต่อเนื่อง: DeepXiv ได้ครอบคลุมข้อมูลทั้งหมดของ ArXiv แล้ว และรักษาการอัปเดตแบบเพิ่มเติมทุกวัน

การขยายแหล่งข้อมูลอย่างรวดเร็ว: ในปัจจุบัน DeepXiv กำลังขยายไปยังแหล่งวรรณกรรมแบบเปิดเพิ่มเติมอย่างรวดเร็ว รวมถึง:
* PubMed Central (PMC)
* ACM Digital Library
* แพลตฟอร์ม preprint ต่างๆ (เช่น bioRxiv, medRxiv, ChemRxiv)
* Semantic Scholar

เป้าหมายสุดท้ายคือการสร้างชั้นการเข้าถึงแบบรวมสำหรับเอเจนต์ที่ครอบคลุมวรรณกรรมทางวิทยาศาสตร์แบบเปิด มากกว่า 200 ล้านชิ้น

รูปแบบบริการแบบรวม: การขยายนี้ไม่ใช่แค่การรวบรวมข้อมูล แต่ที่สำคัญกว่านั้นคือการสืบทอดและส่งเสริม รูปแบบบริการแบบรวมที่มุ่งเน้นสำหรับเอเจนต์ ซึ่งหมายความว่า ไม่ว่าข้อมูลจะมาจาก ArXiv, PMC หรือแหล่งข้อมูลแบบเปิดอื่นๆ เอเจนต์จะเข้าถึงและใช้งานผ่านชุดอินเทอร์เฟซที่ สอดคล้องกัน นำกลับมาใช้ใหม่ได้ และสามารถจัดเรียงเป็นอัตโนมัติ

ตัวอย่าง: การเข้าถึงวรรณกรรม PMC
เอเจนต์สามารถรับและประมวลผลวรรณกรรม PMC โดยตรงผ่านคำสั่งที่คล้ายกัน:
bash deepxiv pmc PMC544940 --head # ดูโครงสร้างเอกสารทั้งหมด deepxiv pmc PMC544940 # รับข้อมูล JSON ของเอกสารทั้งหมด

สิ่งนี้รับประกันว่ากระบวนการประมวลผลวรรณกรรมของเอเจนต์มีความสามารถในการย้ายที่สูงและสอดคล้องกันระหว่างแหล่งข้อมูลต่างๆ

การรวมความสามารถแบบครบวงจร: ก้าวข้ามการค้นคืน สู่การเสริมพลังการดำเนินการ

เป้าหมายของ DeepXiv ไม่ใช่เพียงช่วยให้เอเจนต์ “ค้นหา” วรรณกรรม แต่ยังช่วยให้พวกเขา “ใช้ประโยชน์” จากวรรณกรรมเพื่อทำงานให้สำเร็จ บริการของมันรวมความสามารถต่างๆ เช่น การค้นคืน การวิเคราะห์ บทคัดย่อ การถามตอบ โดยมีเป้าหมายเพื่อเป็นโครงสร้างพื้นฐานหลักสำหรับเอเจนต์ในการทำงานวิจัย DeepXiv: โครงสร้างพื้นฐาน AI วิจัยที่อัปเกรดเอกสารทางวิทยาศาสตร์จาก "มนุษย์อ่านได้" เป็น "เอเจนต์อัจฉริยะใช้งานได้"

สี่. ความสามารถหลัก: จากการค้นคืนสู่การดำเนินงาน

DeepXiv ไม่ใช่แค่เครื่องมือค้นหาเอกสารวิจัย แต่เป็นแพลตฟอร์มการดำเนินงานวิจัยที่ออกแบบมาสำหรับเอเจนต์ โดยให้โหมดการค้นหาที่สามารถกำหนดค่าได้ และสร้างชุดความสามารถหลายระดับบนพื้นฐานนี้ โดยมีเป้าหมายเพื่อแปลงวรรณกรรมจาก “มนุษย์อ่านได้” เป็น “เอเจนต์ใช้งานได้”

1. ทักษะหลัก
* การถามตอบเชิงลึกและการดึงข้อมูล: ทำความเข้าใจและถามตอบโดยตรงเกี่ยวกับเนื้อหาเอกสาร เช่น “ผลงานหลักของเอกสารคืออะไร?” หรือ “การตั้งค่าการทดลองและเส้นฐานเปรียบเทียบคืออะไร?” เพื่อให้ได้การวิเคราะห์เชิงลึกของเอกสาร
* การติดตามประเด็นร้อน: ติดตามเอกสารที่ได้รับความนิยมในหัวข้อวิจัยเฉพาะรายวัน รายสัปดาห์ หรือรายเดือนแบบไดนามิก
* การวิจัยเชิงลึก: สำรวจอย่างเป็นระบบสำหรับปัญหาการวิจัยที่ซับซ้อน เช่น “ในช่วงสามปีที่ผ่านมามีงานที่เป็นตัวแทนเกี่ยวกับ Agent Memory อะไรบ้าง?” หรือ “มีเกณฑ์มาตรฐานสาธารณะและชุดข้อมูลอะไรบ้างสำหรับการเสริมการค้นคืนหลายรูปแบบในบริบททางการเงิน?”

เอเจนต์สามารถรับรู้และเรียกใช้ความสามารถเหล่านี้ที่ขยายตัวอย่างต่อเนื่องได้อย่างยืดหยุ่น ผ่านอินเทอร์เฟซทักษะในตัวหรือกลไกช่วยเหลือบรรทัดคำ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง