Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่

2026年2月19日 pm8:05 • การอนุมานโมเดลขนาดใหญ่ • 197 views

ลองนึกภาพว่าคุณให้ผู้ช่วย AI ใช้เครื่องมือค้นหาเพื่อสำรวจปัญหาที่ซับซ้อน ในการสำรวจครั้งแรก มันไปผิดทาง แต่ในครั้งที่สองและสาม มันยังคงเดินตามเส้นทางสำรวจผิดพลาดเดิมซ้ำอีก แม้ว่าคุณอาจจะสามารถเลือกคำตอบที่พอใจได้จากผลลัพธ์การสำรวจหลายครั้งที่ได้มา แต่กระบวนการนี้ก็ไม่มีประสิทธิภาพและต้องอาศัยการแทรกแซงจากมนุษย์ นี่คือปัญหาที่ตัวแทนค้นหาเชิงลึกส่วนใหญ่ในปัจจุบันเผชิญอยู่ — พวกมันไม่สามารถ “จดจำ” ประสบการณ์การสำรวจก่อนหน้าได้ แต่ต้องเริ่มต้นใหม่ทุกครั้ง ส่งผลให้เกิดการค้นหาซ้ำซ้อนและการใช้ทรัพยากรอย่างสิ้นเปลือง

ตัวแทนค้นหาเชิงลึกที่มีอยู่ในปัจจุบันส่วนใหญ่สร้างขึ้นบนพื้นฐานของเฟรมเวิร์ก ReAct โดยใช้วิธีการให้เหตุผลเชิงเส้น: “คิด → เรียกใช้เครื่องมือ → สังเกต → คิดอีกครั้ง” การออกแบบนี้ทำงานได้ดีกับงานง่ายๆ แต่ในงานค้นหาเชิงลึกที่ต้องใช้การสำรวจหลายรอบ มักจะติดอยู่ในภาวะที่เหมาะสมที่สุดเฉพาะที่ สำรวจซ้ำซ้อน และค้นหาได้ไม่มีประสิทธิภาพ

ทีมวิจัยจากมหาวิทยาลัยตะวันออกเฉียงใต้ (Southeast University) และ Microsoft Research Asia ได้เสนอวิธีแก้ปัญหาใหม่ล่าสุด — Re-TRAC (REcursive TRAjectory Compression) ซึ่งเป็นเฟรมเวิร์กที่ทำให้ตัวแทน AI สามารถ “จดจำ” ประสบการณ์การสำรวจในแต่ละครั้ง ถ่ายทอดประสบการณ์ระหว่างเส้นทางการสำรวจหลายๆ เส้นทาง และทำให้เกิดการค้นหาอัจฉริยะแบบก้าวหน้า

Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่

ชื่อบทความวิจัย: RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
ลิงก์บทความวิจัย: https://arxiv.org/abs/2602.02486
ลิงก์โปรเจกต์: https://github.com/microsoft/InfoAgent

เปลี่ยนการสำรวจให้เป็นกระบวนการ “การเรียนรู้แบบก้าวหน้า”

ทำไม ReAct ถึงล้มเหลว?

ปัญหาหลักของเฟรมเวิร์ก ReAct อยู่ที่การออกแบบเชิงเส้น แต่ละเส้นทางการสำรวจเป็นอิสระต่อกัน ทำให้โมเดลไม่สามารถย้อนกลับไปดูสถานะของความพยายามก่อนหน้าได้ ในสถานการณ์ที่มีบริบทยาว แผนที่วางไว้ตั้งแต่ต้นจะค่อยๆ ถูกลืมไป และเบาะแสสำคัญก็ถูกกลบฝัง

จากการวิเคราะห์อย่างลึกซึ้งของทีมวิจัย พบว่าโมเดลค้นหาเชิงลึกที่มีอยู่ แม้จะผ่านการฝึกฝนด้วยการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) อย่างมากมายแล้ว แต่ประสิทธิภาพ Pass@K ของมันยังคงสูงกว่า Pass@1 อย่างมาก ซึ่งหมายความว่าโมเดลเองมีศักยภาพในการให้เหตุผลเพื่อแก้ปัญหา แต่ปัญหาอยู่ที่ข้อจำกัดของความยาวบริบท ทำให้การสำรวจเพียงครั้งเดียวไม่สามารถสร้างเส้นทางการสำรวจที่หลากหลายเพียงพอ และไม่สามารถครอบคลุมพื้นที่ค้นหาที่กว้างขวางได้

Re-TRAC: การบีบอัดเส้นทางแบบเรียกซ้ำ

แนวคิดหลักของ Re-TRAC คือการเปลี่ยนการสำรวจจากชุดความพยายามที่แยกจากกัน เป็นกระบวนการเรียนรู้แบบก้าวหน้า โดยเฉพาะอย่างยิ่ง เมื่อสิ้นสุดแต่ละเส้นทางการสำรวจ จะมีการสร้างการแสดงสถานะที่มีโครงสร้างขึ้น สำหรับงานค้นหาเชิงลึก จะบันทึกข้อมูลในสามมิติต่อไปนี้:

คำตอบและข้อสรุปจากการวิเคราะห์: คำตอบที่มีความเป็นไปได้สูงที่สุดในปัจจุบันและผลการให้เหตุผลที่สำคัญ — เพื่อเป็นจุดยึดสำหรับการให้เหตุผลในภายหลัง
คลังหลักฐานและการตรวจสอบแหล่งที่มา: หลักฐานที่รวบรวมได้และแหล่งที่มา พร้อมทั้งทำเครื่องหมายว่าอันไหนถูกค้นคว้าแล้ว ถูกตรวจสอบแล้ว — เพื่อหลีกเลี่ยงการเรียกใช้เครื่องมือซ้ำซ้อนและการตรวจสอบซ้ำ
ประเด็นที่ไม่แน่ใจและทิศทางที่ต้องสำรวจต่อไป: มุมมองที่ยังต้องสำรวจและตรวจสอบในขั้นตอนนี้ สาขาการสำรวจที่เป็นตัวเลือกที่เคยถูกมองข้าม และทิศทางการสำรวจที่เคยถูกทิ้งไปเนื่องจากล้มเหลว; เพื่อช่วยให้โมเดลเติมเต็มพื้นที่ค้นหาที่ยังไม่ได้สำรวจในรอบถัดไป

สถานะที่มีโครงสร้างนี้จะถูกเพิ่มเข้าไปในอินพุตของการสำรวจรอบถัดไป เพื่อให้แน่ใจว่าเมื่อเริ่มต้นความพยายามใหม่ในแต่ละรอบ ตัวแทนอัจฉริยะจะเข้าใจชัดเจนว่าอะไรถูกตรวจสอบแล้ว อะไรยังไม่ได้รับการแก้ไข และควรเน้นการสำรวจไปที่ไหน

โมเดลเล็กก็สามารถ “ใช้เล็กชนใหญ่” ได้

ทีมวิจัยได้ประเมิน Re-TRAC บนเกณฑ์มาตรฐานที่ท้าทายห้าชุดซึ่งมุ่งเน้นการค้นหา: BrowseComp, BrowseComp-ZH, XBench, GAIA และ HLE

ประสิทธิภาพ SOTA ของโมเดล 4B

RE-TRAC-4B แสดงผลลัพธ์ที่ดีที่สุดในบรรดาโมเดลฐานอ้างอิงทั้งหมดที่มีพารามิเตอร์น้อยกว่า 15B:

บน BrowseComp บรรลุความแม่นยำ 30.0%;
บน BrowseComp-ZH บรรลุ 36.1%;
บน GAIA บรรลุ 70.4%;
บน XBench บรรลุ 76.6%;
บน HLE บรรลุ 22.2%

ที่น่าประหลาดใจยิ่งกว่านั้นคือ โมเดลที่มีพารามิเตอร์เพียง 4B นี้ ยังทำได้ดีกว่าโมเดลขนาดใหญ่กว่าบนเกณฑ์มาตรฐานหลายชุด

บนเกณฑ์มาตรฐาน XBench ความแม่นยำ 76.6% ของ RE-TRAC-4B ไม่เพียงแต่สูงกว่า InfoAgent-14B ที่ 40.4% อย่างมาก (เพิ่มขึ้นเกือบ 90%) แต่ยังสูงกว่า NestBrowse-4B ที่ 74.0% อีกด้วย
บนเกณฑ์มาตรฐาน GAIA ความแม่นยำ 70.4% ของ RE-TRAC-4B สูงกว่า AgentCPM-Explore-4B ที่ 63.9% และ NestBrowse-4B ที่ 68.9%

ความก้าวหน้าของโมเดล 30B

RE-TRAC-30B ก็แสดงผลลัพธ์ที่ยอดเยี่ยมเช่นกัน โดยเอาชนะ MiniMAX-M2-229B ได้ในเกณฑ์มาตรฐานทั้งหมด ยกเว้น HLE

บน BrowseComp ความแม่นยำของมันสูงถึง 53% ซึ่งสูงกว่า GLM-4.7-358B ที่ 52% เสียอีก
บน GAIA RE-TRAC-30B เอาชนะโมเดลปิด (closed-source) ทั้งหมดได้ และอยู่ในอันดับที่สองบน BrowseComp และ BrowseComp-ZH

ผลลัพธ์เหล่านี้แสดงให้เห็นว่า ผ่านการบีบอัดเส้นทางและการส่งผ่านข้อมูลข้ามรอบ โมเดลขนาดเล็กในสถานการณ์ที่มีทรัพยากรจำกัด ก็สามารถได้รับผลลัพธ์ที่ใกล้เคียงหรือแม้แต่เหนือกว่าโมเดลขนาดใหญ่ได้

การขยายผลทั่วไป: ใช้ทรัพยากรน้อยลง แต่ประสิทธิภาพสูงขึ้น

Re-TRAC ไม่เพียงแต่สามารถปรับปรุงประสิทธิภาพของโมเดลเล็กผ่านการฝึกฝนเท่านั้น แต่ยังสามารถนำไปใช้เป็นส่วนขยายสำหรับการทดสอบโดยไม่ต้องฝึกฝน (training-free inference-time extension) โดยตรงกับโมเดลล้ำสมัยได้อีกด้วย

ทีมวิจัยได้นำเฟรมเวิร์ก Re-TRAC ไปใช้กับ o4-mini, o3, GPT-5, DeepSeek-V3.2, GLM-4.7 และ MiniMax-M2.1 และเปรียบเทียบกับวิธีการอื่นๆ เช่น Majority Voting, Weighted Voting และ Best-of-N

ผลลัพธ์แสดงว่า Re-TRAC บรรลุประสิทธิภาพที่ดีที่สุดหรือแข่งขันได้บนโมเดลทั้งหมด บนเซ็ตย่อย BrowseComp300:

o4-mini ผ่าน Re-TRAC เพิ่มจาก 25.7% เป็น 46.8%;
o3 เพิ่มจาก 54.9% เป็น 69.8%;
GPT-5-medium เพิ่มจาก 48.3% เป็น 66.6%;
DeepSeek-V3.2 เพิ่มจาก 45.3% เป็น 60.8%;
GLM-4.7 เพิ่มจาก 37.7% เป็น 60.7%

ในเฟรมเวิร์กดั้งเดิม เนื่องจากเส้นทางต่างๆ เป็นอิสระต่อกัน การใช้ทรัพยากรมักจะเพิ่มขึ้นเกือบเป็นเส้นตรงตามการขยายขนาด ในขณะที่ Re-TRAC จะสืบทอดสถานะจากรอบก่อนหน้า ทำให้พื้นที่ค้นหาค่อยๆ ลู่เข้าหากัน (converge) จึงช่วยลดการเรียกใช้เครื่องมือซ้ำซ้อนและการสำรวจซ้ำ และเพิ่มประสิทธิภาพของการสำรวจ

รายละเอียดทางเทคนิค: วิธีฝึกโมเดล Re-TRAC

ทีมวิจัยได้พัฒนาวิธีการหลังการฝึก (post-training method) โดยสร้างข้อมูลสำหรับการปรับแต่งภายใต้การดูแล (Supervised Fine-Tuning: SFT) ที่อิงตามการแสดงสถานะที่มีโครงสร้าง ข้อมูลการฝึกสร้างขึ้นผ่านวิธีการต้นไม้เอนทิตี (entity tree method): รวบรวมเอนทิตีจำนวนมากจากวิกิพีเดียเป็นรากของต้นไม้ จากนั้นค้นหาเอนทิตีที่เกี่ยวข้องแบบเรียกซ้ำเป็นโหนดย่อย จนกระทั่งต้นไม้มีความลึกตามที่กำหนดไว้ล่วงหน้า

ด้วยการเลือกเส้นทางจากรากไปยังโหนดใบ และแปลงขอบ (edge) ให้เป็นปัญหาย่อย ทีมงานได้สังเคราะห์คู่คำถาม-คำตอบ 33K คู่ จากนั้น รวบรวมเส้นทาง Re-TRAC (4 รอบ) ของ GLM-4.7 ในปัญหาสังเคราะห์เหล่านี้ หลังจากกรองแล้วจะได้ตัวอย่างการฝึก 104k ตัวอย่าง ซึ่งใช้สำหรับฝึกโมเดล RE-TRAC-4B และ RE-TRAC-30B

ผลการทดลองแสดงให้เห็นว่าหลังจากการฝึก SFT ความแม่นยำของ Qwen3-4B-Instruct บน BrowseComp เพิ่มขึ้นอย่างมากจาก 2.7% เป็น 30.0% บน BrowseComp-ZH เพิ่มจาก 6.9% เป็น 36.1% บน GAIA เพิ่มจาก 24.4% เป็น 70.4% และบน XBench เพิ่มจาก 45.0% เป็น 76.6%

นี่แสดงให้เห็นว่าการฝึก SFT อย่างง่าย ร่วมกับเฟรมเวิร์ก Re-TRAC สามารถสร้างตัวแทนค้นหาอัจฉริยะที่มีประสิทธิภาพสูง ซึ่งให้ผลลัพธ์เทียบเท่าหรือดีกว่าโมเดลที่ผ่านการฝึกฝนด้วยการเรียนรู้แบบเสริมกำลังขนาดใหญ่

ปรับปรุงเฟรมเวิร์กค้นหาของ ReAct ให้โมเดลเล็กแสดงผลได้เหมือนโมเดลใหญ่

Re-TRAC สามารถมองได้ว่าเป็นเฟรมเวิร์ก ReAct ที่ได้รับการปรับปรุงให้เหมาะสมกับงานค้นหาเชิงลึก: บนกระบวนทัศน์เดิม “คิด → เรียกใช้เครื่องมือ → สังเกต → คิดอีกครั้ง” ได้มีการเพิ่มการบีบอัดเส้นทางข้ามรอบและการแสดงสถานะที่มีโครงสร้าง ทำให้ตัวแทนอัจฉริยะในสถานการณ์ต่างๆ เช่น การค้นหาข้อมูลบนเครือข่ายเปิด การสรุปข้อมูลที่ซับซ้อน ไม่ต้อง “เริ่มต้นจากศูนย์” อีกต่อไป แต่สามารถนำหลักฐานที่มีอยู่กลับมาใช้ใหม่ สรุปบทเรียนจากความล้มเหลว และวางแผนทิศทางในอนาคตได้เหมือนมนุษย์

ที่สำคัญกว่านั้น การออกแบบเฟรมเวิร์กที่มีเป้าหมายเฉพาะเช่นนี้ ทำให้แม้แต่โมเดลเล็กก็สามารถแสดงผลได้ในระดับของโมเดลใหญ่ ซึ่งเป็นเส้นทางที่เป็นไปได้ในทางปฏิบัติสำหรับสถานการณ์ที่มีทรัพยากรจำกัด (เช่น อุปกรณ์ Edge, การติดตั้งในเครื่อง) ในการ “ใช้โมเดลเล็กทำสิ่งใหญ่”

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง