OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus

2026年3月29日 pm10:53 • โครงการโอเพนซอร์ส • 202 views

การฝึกฝนเอเจนต์วิจัยเชิงลึกที่สามารถดำเนินการ “ค้นหา → เยี่ยมชม → ใช้เหตุผล” ได้เหมือนนักวิจัยมนุษย์นั้น อุปสรรคหลักมักไม่ได้อยู่ที่ความสามารถของโมเดลเอง แต่กลับอยู่ที่การขาดแคลนข้อมูลเส้นทางการวิจัยเชิงลึกที่มีคุณภาพสูงและยาวนานอย่างรุนแรง วิธีการรวบรวมข้อมูลที่มีอยู่ในปัจจุบันนั้น ต้องพึ่งพา API การค้นหาออนไลน์ที่มีราคาแพงและไม่เสถียร หรือสามารถสร้างการโต้ตอบแบบตื้นๆ เพียง 2-5 รอบเท่านั้น ซึ่งไม่เพียงพอที่จะครอบคลุมห่วงโซ่การใช้เหตุผลที่ซับซ้อนในการวิจัยเชิงลึกจริงๆ ที่มักมีหลายสิบรอบหรือแม้กระทั่งหลายร้อยรอบ

เพื่อแก้ไขจุดเจ็บปวดนี้ ทีมวิจัยจากมหาวิทยาลัยเท็กซัสเอแอนด์เอ็ม มหาวิทยาลัยวอเตอร์ลู มหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก และสถาบันอื่นๆ ได้เสนอ OpenResearcher: ไปป์ไลน์การสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์ ที่เป็นโอเพ่นซอร์สเต็มรูปแบบและสามารถทำซ้ำได้ นี่เป็นโซลูชันโอเพ่นซอร์สแรกที่สามารถฝึกโมเดลให้เทียบเคียงกับระบบเฉพาะทางในงานวิจัยระยะยาวได้ และข้อมูลที่สังเคราะห์ขึ้นยังถูกนำไปใช้ในการฝึกโมเดลพื้นฐานของ NVIDIA อีกด้วย แก่นกลางของวิธีนี้คือ: ขั้นแรก รวบรวมคอร์ปัสออนไลน์ครั้งเดียวเพื่อสร้างเครื่องมือค้นหาภายในท้องถิ่นที่มีเอกสารผู้สมัคร 15 ล้านฉบับ; จากนั้น โดยโมเดลครูในสภาพแวดล้อมออฟไลน์สมบูรณ์ ผ่านการเรียกใช้เครื่องมือสามประเภท ได้แก่ search, open, find ได้สังเคราะห์เส้นทางการวิจัยระยะยาวกว่า 97,000 เส้นทาง ซึ่งจำนวนมากมีเครื่องมือถูกเรียกใช้มากกว่า 100 ครั้ง

การใช้เส้นทางเหล่านี้เพื่อปรับแต่งโมเดลพารามิเตอร์ 30B ภายใต้การดูแลอย่างละเอียด สามารถทำให้ได้อัตราความแม่นยำ 54.8% บนชุดข้อมูลมาตรฐานการวิจัยเชิงลึกแบบออฟไลน์ BrowseComp-Plus เมื่อเทียบกับโมเดลพื้นฐาน นี่เป็นการเพิ่มประสิทธิภาพสัมบูรณ์ 34.0 จุดเปอร์เซ็นต์ และแซงหน้าโมเดลปิดที่ทรงพลัง เช่น GPT-4.1 (36.4%), Claude-4-Opus (36.8%) ไปในทีเดียว สำหรับชุดข้อมูลมาตรฐานการวิจัยเชิงลึกแบบออนไลน์ โมเดลนี้ก็ยังแซงหน้าทุกระบบโอเพ่นซอร์สที่มีอยู่ สิ่งที่ควรสังเกตคือ การเพิ่มประสิทธิภาพทั้งหมดนี้มาจากข้อมูลที่สังเคราะห์แบบออฟไลน์ โดยไม่จำเป็นต้องมีการฝึกฝนออนไลน์ใดๆ

OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus
รูปที่ 1: การเปรียบเทียบประสิทธิภาพ-จำนวนพารามิเตอร์บนชุดข้อมูลมาตรฐาน BrowseComp-Plus OpenResearcher (30B) ครองตำแหน่งสูงสุดด้านซ้ายบนด้วยอัตราความแม่นยำ 54.8% นำหน้าโมเดลปิดอย่างมีนัยสำคัญในมิติอัตราส่วนประสิทธิภาพ/พารามิเตอร์เหนือ GPT-4.1, Claude-4-Opus, Gemini-2.5-Pro และยังแซงหน้าทะลุระบบวิจัยเชิงลึกเฉพาะทาง เช่น Tongyi DeepResearch (44.5%) ด้วย

OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus

ลิงก์บทความวิจัย: https://arxiv.org/abs/2603.20278
ลิงก์บล็อก: https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
ลิงก์โค้ด: https://github.com/TIGER-AI-Lab/OpenResearcher
ลิงก์โมเดล: https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
ลิงก์ชุดข้อมูล: https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
ลิงก์เดโม: https://huggingface.co/spaces/OpenResearcher/OpenResearcher

ความท้าทายในการสังเคราะห์เส้นทางการวิจัยเชิงลึก

ด้วยการเปิดตัวงานอย่าง DeepSeek-R1 การกลั่นเส้นทางการใช้เหตุผลระยะยาวจากโมเดลการใช้เหตุผลขนาดใหญ่ได้กลายเป็นกระบวนทัศน์หลัก โครงการต่างๆ เช่น OpenThoughts, OpenMathReasoning ได้ปรากฏขึ้นตามลำดับ อย่างไรก็ตาม เมื่อเป้าหมายการฝึกขยายจาก “การใช้เหตุผลทางคณิตศาสตร์” เป็น “การวิจัยเชิงลึก” — ซึ่งหมายถึงเอเจนต์จำเป็นต้องค้นหาแบบวนซ้ำ รวบรวมหลักฐานที่ต่างชนิดกัน ดำเนินการใช้เหตุผลหลายขั้นตอน — การได้มาซึ่งเส้นทางที่มีคุณภาพสูงจึงกลายเป็นเรื่องยากเป็นพิเศษ

โซลูชันที่มีอยู่ในปัจจุบันถูกจำกัดด้วยคอขวดสามประการ:
* ต้นทุนสูง: เส้นทางการค้นหาทุกเส้นทางที่ล้มเหลวจะใช้โควตาการเรียก API การสังเคราะห์ในระดับใหญ่หมายถึงค่าใช้จ่ายระดับหลายหมื่นดอลลาร์
* ไม่สามารถทำซ้ำได้: เนื้อหาบนอินเทอร์เน็ตเปลี่ยนแปลงตลอดเวลา คำค้นหาเดียวกันในเวลาต่างกันอาจให้ผลลัพธ์ที่แตกต่างกันอย่างสิ้นเชิง ส่งผลให้เส้นทางที่ได้มายากต่อการทำซ้ำอย่างเสถียร
* ไม่สามารถวิเคราะห์ได้: สภาพแวดล้อมการค้นหาออนไลน์โดยพื้นฐานแล้วคือกล่องดำ นักวิจัยไม่สามารถติดตามได้อย่างแม่นยำว่า “หลักฐานสำคัญถูกค้นพบในขั้นตอนไหน” “ความเอนเอียงของกลยุทธ์การค้นหาอยู่ที่ไหน” ปัญหาสำคัญเหล่านี้จำกัดการศึกษาอย่างเป็นระบบเกี่ยวกับพฤติกรรมของเอเจนต์อย่างรุนแรง

สิ่งนี้กระตุ้นให้ทีมวิจัยตั้งคำถามหลัก: เป็นไปได้หรือไม่ที่จะย้ายสองขั้นตอนแรกที่แพงในวงจร “ค้นหา → เยี่ยมชม → ใช้เหตุผล” จากสภาพแวดล้อมออนไลน์ไปยังสภาพแวดล้อมออฟไลน์ที่ควบคุมได้มากขึ้น เพื่อสังเคราะห์เส้นทางการวิจัยเชิงลึกคุณภาพสูงในระดับใหญ่ด้วยต้นทุนส่วนเพิ่มเป็นศูนย์และสามารถทำซ้ำได้อย่างสมบูรณ์?

OpenResearcher: ไปป์ไลน์การสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์

แนวคิดการออกแบบหลักของ OpenResearcher คือการแยกการสร้างคอร์ปัสและการสร้างเส้นทางออกจากกันโดยสิ้นเชิง: สร้างคลังคอร์ปัสออฟไลน์และเครื่องมือค้นหาผ่านการรวบรวมออนไลน์ครั้งเดียวก่อน จากนั้นจึงสังเคราะห์เส้นทางการวิจัยในระดับใหญ่ในสภาพแวดล้อมท้องถิ่นออฟไลน์สมบูรณ์ กล่าวโดยเฉพาะ ไปป์ไลน์ประกอบด้วยสามขั้นตอนต่อไปนี้

OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus
รูปที่ 2: ภาพรวมของ OpenResearcher ไปป์ไลน์แบ่งเป็นสามขั้นตอน: (1) คัดเลือกคำถาม QA ที่มีความยากสูงประมาณ 6,000 คำถามจาก MiroVerse; (2) รวบรวมเอกสารสำคัญประมาณ 10,000 ฉบับออนไลน์ครั้งเดียว และรวมกับเอกสารรบกวน 15 ล้านฉบับเพื่อสร้างคลังคอร์ปัสออฟไลน์ที่มีดัชนี FAISS; (3) โมเดลครู GPT-OSS-120B ในสภาพแวดล้อมออฟไลน์สร้างเส้นทางการวิจัยระยะยาวกว่า 97,000 เส้นทางผ่านเครื่องมือสามประเภท

ขั้นตอนที่หนึ่ง: การรวบรวมปัญหาที่ยาก
จุดเริ่มต้นของคุณภาพเส้นทางการวิจัยเชิงลึกคือคุณภาพของปัญหา ปัญหาจากชุดข้อมูล QA แบบดั้งเดิมมักต้องการการดึงข้อมูลเพียง 2-5 ขั้นตอนเพื่อตอบ ซึ่งไม่ถึงระดับความซับซ้อนที่การวิจัยเชิงลึกต้องการ ทีมวิจัยสุ่มตัวอย่าง 10% จาก MiroVerse-v0.1 ได้คำถาม-คำตอบประมาณ 6,000 คู่ ปัญหาเหล่านี้โดยธรรมชาติต้องการการใช้เหตุผลหลายขั้นตอนระยะยาวและการบูรณาการหลักฐานต่างชนิดกัน จากการทดสอบ แม้แต่โมเดลครูที่ทรงพลังก็มักต้องการการเรียกใช้เครื่องมือหลายสิบครั้งเพื่อตอบคำถาม ซึ่งส่วนหนึ่งต้องการมากกว่า 100 ครั้ง

ขั้นตอนที่สอง: การสร้างเครื่องมือค้นหาออฟไลน์
การสังเคราะห์เส้นทางมีข้อกำหนดเบื้องต้นที่เข้มงวด: หลักฐานเป้าหมายต้องสามารถดึงข้อมูลได้ มิฉะนั้น ความล้มเหลวในการสังเคราะห์อาจเกิดจากปัญหากลยุทธ์การค้นหา หรืออาจเกิดจากการขาดเอกสารที่เกี่ยวข้องในคอร์ปัส ความกำกวมนี้จะรบกวนการวิเคราะห์ขั้นตอนต่อไปอย่างรุนแรง เพื่อขจัดความกำกวม ทีมใช้กลยุทธ์ “การรวบรวมเอกสารออนไลน์ที่ชี้นำโดยคำตอบ”: สำหรับแต่ละคู่คำถาม-คำตอบ สร้างคำค้นจากปัญหาที่เชื่อมกับคำตอบอ้างอิง ดึงข้อมูลผ่าน Serper API ครั้งเดียว ทำความสะอาดและกำจัดซ้ำ ได้เอกสารสำคัญประมาณ 10,000 ฉบับ จากนั้นรวมเอกสารสำคัญเหล่านี้กับเอกสารรบกวนประมาณ 15 ล้านฉบับ (ประมาณ 10 ล้านล้านโทเค็น) ที่สุ่มตัวอย่างจาก FineWeb เพื่อสร้างคลังคอร์ปัสออฟไลน์ เอกสารทั้งหมดถูกแปลงเป็นเวกเตอร์โดยใช้ Qwen3-Embedding-8B และสร้างดัชนีผ่าน FAISS การออกแบบนี้รับประกันว่า “คำตอบมีอยู่จริงในคอร์ปัส” ในขณะที่เอกสารรบกวนจำนวนมหาศาลจำลองเสียงรบกวนและความซับซ้อนของเครือข่ายจริง ทำให้เส้นทางการสังเคราะห์มีทั้งความสามารถในการควบคุมและความรู้สึกเหมือนจริง

OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus
รูปที่ 3: เครื่องมือสามประเภทที่ OpenResearcher ใช้ ตัวอย่างเช่น “นักวิจัย MIT คนใดได้รับรางวัล INFORMS”: เอเจนต์สามารถเรียก Search ก่อนเพื่อรับรายการสรุปการค้นหา (คอลัมน์ซ้าย) จากนั้นเรียก Open เพื่อดึงเนื้อหาเอกสารเต็ม (คอลัมน์กลาง) สุดท้ายเรียก Find เพื่อระบุตำแหน่งสตริงสำคัญ “MIT” ภายในเอกสารอย่างแม่นยำ (คอลัมน์ขวา, เน้นแสดง) เครื่องมือสามประเภททำให้เกิดการค้นพบข้อมูลแบบก้าวหน้าหลายระดับ

ขั้นตอนที่สาม: การสร้างแบบจำลองการเยี่ยมชมและการสังเคราะห์เส้นทาง
OpenResearcher ใช้เครื่องมือสามประเภทเพื่อสรุปพฤติกรรมการเยี่ยมชมออนไลน์ของเอเจนต์ สร้างแบบจำลองรูปแบบพฤติกรรมการวิจัยของมนุษย์อย่างสมบูรณ์:
* Search: ส่งคำค้นภาษาธรรมชาติไปยังเครื่องมือค้นหาออฟไลน์ ส่งคืนผลลัพธ์ top-K (ประกอบด้วยชื่อเรื่อง, URL, ส่วนย่อ) สอดคล้องกับพฤติกรรมมนุษย์ “ค้นหาอย่างกว้างขวาง ระบุแหล่งที่มาผู้สมัคร”
* Open: รับเนื้อหาเอกสารเต็มตาม URL สอดคล้องกับพฤติกรรมมนุษย์ “คลิกเปิดหน้าเว็บ อ่านผ่านทั้งหมด”
* Find: ดำเนินการจับคู่สตริงที่แม่นยำในเอกสารที่เปิดอยู่ปัจจุบัน สอดคล้องกับพฤติกรรมมนุษย์ “Ctrl+F ค้นหาในหน้า” ใช้สำหรับการค้นหาชื่อเอนทิตี การตรวจสอบข้อเท็จจริง และการยึดหลักฐาน

การสังเคราะห์ข้อมูลและการฝึกโมเดล

ทีมวิจัยใช้ GPT-OSS-120B เป็นโมเดลครู สร้างเส้นทางการใช้เหตุผลที่แตกต่างกัน 16 เส้นทางสำหรับแต่ละปัญหาวิจัย เพื่อจับเส้นทางการวิจัยที่หลากหลาย หลังจากการกรองเบาๆ สุดท้ายสร้างชุดข้อมูลที่มีเส้นทางมากกว่า 97,000 เส้นทาง ซึ่งมีความลึกของการใช้เหตุผลตั้งแต่สิบกว่าขั้นถึงร้อยกว่าขั้น

การฝึกโมเดลและประสิทธิภาพ

การตั้งค่าการฝึก: การวิจัยใช้โมเดล NVIDIA Nemotron-3-Nano-30B-A3B เป็นโมเดลพื้นฐาน โมเดลนี้ใช้สถาปัตยกรรมแบบผสม Mamba-Transformer MoE โดยมีพารามิเตอร์ที่เปิดใช้งานเพียง 3.2B เลือกเส้นทางประมาณ 55,000 เส้นทางที่มีคำตอบถูกต้องจากข้อมูลสังเคราะห์เพื่อปรับแต่งภายใต้การดูแลอย่างละเอียด กระบวนการฝึกทั้งหมดเสร็จสิ้นบน GPU NVIDIA H100 8 ตัว ใช้เวลาประมาณ 8 ชั่วโมง แสดงให้เห็นถึงความต้องการพลังการคำนวณที่ทีมขนาดกลางและเล็กสามารถจ่ายได้

การประเมินการวิจัยเชิงลึกแบบออฟไลน์: บนชุดข้อมูลมาตรฐานการวิจัยเชิงลึกแบบออฟไลน์ BrowseComp-Plus, OpenResearcher-30B-A3B ได้อัตราความแม่นยำ 54.8% แซงหน้าโมเดลปิดหลักหลายตัวอย่างมีนัยสำคัญ: GPT-4.1 (36.4%), Claude-4-Opus (36.8%), Gemini-2.5-Pro (29.5%), DeepSeek-R1 (16.4%) และ Tongyi DeepResearch (44.5%) เมื่อเทียบกับโมเดลพื้นฐาน ประสิทธิภาพเพิ่มขึ้นสัมบูรณ์ 34.0 จุดเปอร์เซ็นต์ นี่บ่งชี้ว่า เพียงผ่านการปรับแต่งภายใต้การดูแลอย่างละเอียดด้วยเส้นทางสังเคราะห์ออฟไลน์ โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลังหรือการโต้ตอบออนไลน์ ก็สามารถได้รับผลกำไรประสิทธิภาพที่สำคัญในงานวิจัยเชิงลึก

การประเมินการวิจัยเชิงลึกแบบออนไลน์: บนชุดข้อมูลมาตรฐานสามชุดที่พึ่งพา API การค้นหาออนไลน์, OpenResearcher ก็แสดงผลยอดเยี่ยมเช่นกัน: BrowseComp (26.3%), GAIA (64.1%), xbench-DeepSearch (65.0%) แซงหน้าทุกระบบโอเพ่นซอร์สที่มีอยู่ เช่น ASearcher-QwQ-32B และ WebDancer-QwQ-32B สิ่งสำคัญคือ การเพิ่มประสิทธิภาพทั้งหมดนี้มาจากเส้นทางที่สังเคราะห์ในสภาพแวดล้อมออฟไลน์อย่างสมบูรณ์ โมเดลไม่เคยถูกฝึกบนข้อมูลการวิจัยเชิงลึกออนไลน์จริง แต่สามารถถ่ายโอนไปยังสภาพแวดล้อมการค้นหาแบบไดนามิกได้อย่างมีประสิทธิภาพ

OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus
รูปที่ 4: การเปรียบเทียบประสิทธิภาพการทดสอบมาตรฐานการวิจัยเชิงลึก ตารางซ้าย (ออฟไลน์, BrowseComp-Plus): OpenResearcher ครองตำแหน่งสูงสุดด้วย 54.8% แซงหน้า GPT-4.1 (36.4%) และ Tongyi DeepResearch (44.5%) อย่างมาก เพิ่มขึ้นสัมบูรณ์ 34.0 จุดเปอร์เซ็นต์จากโมเดลพื้นฐาน ตารางขวา (ออนไลน์, BrowseComp / GAIA / xbench-DeepSearch): OpenResearcher ได้ 26.3% / 64.1% / 65.0% แซงหน้าทุกระบบโอเพ่นซอร์สในระดับเดียวกัน