เอเจนต์อัจฉริยะสำหรับการค้นหา (Agent) แบบหลักในปัจจุบันมีจุดคอขวดด้านประสิทธิภาพที่พบบ่อย: กระบวนการทำงานของมันเป็นแบบอนุกรมอย่างเคร่งครัด ตัวอย่างเช่น กรอบงาน ReAct ที่ใช้กันอย่างแพร่หลาย มีรูปแบบเป็น “คิด → เรียกใช้เครื่องมือ → รอผลลัพธ์ → คิดต่อ…” ในโหมดนี้ โมเดลจะอยู่ในสถานะว่างเปล่าโดยสิ้นเชิงขณะรอให้เครื่องมือค้นหาส่งกลับผลลัพธ์ ส่งผลให้เสียเวลาอย่างมาก ในการโต้ตอบหลายรอบ ความล่าช้าจะสะสมเพิ่มขึ้นเรื่อยๆ ส่งผลกระทบอย่างรุนแรงต่อประสบการณ์ผู้ใช้

ทีมวิจัยพบจากการวิเคราะห์ว่าในงานที่ซับซ้อน เช่น การถามตอบแบบหลายขั้นตอน (Multi-hop QA) การรอคอยแบบอนุกรมที่ “รอเปล่าๆ” นี้ใช้เวลาตอบสนองแบบ end-to-end ไปอย่างมาก
แนวคิดการปรับปรุงตามธรรมชาติคือ: เป็นไปได้หรือไม่ที่จะให้โมเดลคิดขั้นตอนต่อไปต่อไปในขณะที่รอผลการค้นหา? สิ่งนี้ทำได้ยากสำหรับโมเดลภาษาขนาดใหญ่แบบออโตรีเกรสซีฟดั้งเดิม (เช่น ซีรีส์ GPT) เนื่องจากโมเดลออโตรีเกรสซีฟอาศัยกลไกความสนใจแบบเหตุผล (causal attention) ต้องสร้างโทเค็นตามลำดับจากซ้ายไปขวา หากพยายามเปลี่ยนลำดับโดยให้มันส่งออกการเรียกใช้เครื่องมือก่อนแล้วค่อยส่งออกเนื้อหาการคิด ประสิทธิภาพการให้เหตุผลของโมเดลจะลดลงอย่างเห็นได้ชัด การทดลองแสดงให้เห็นว่าโมเดลซีรีส์ Qwen3 มีความแม่นยำลดลงอย่างชัดเจนหลังจากปรับลำดับ
อย่างไรก็ตาม โมเดลภาษาขนาดใหญ่แบบดิฟฟิวชัน เนื่องจากกลไกการสร้างที่เป็นเอกลักษณ์ จึงเปิดความเป็นไปได้ใหม่ในการแก้ไขปัญหานี้
ข้อได้เปรียบของการสร้างแบบขนานของโมเดลดิฟฟิวชัน
ความแตกต่างหลักระหว่างโมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันและโมเดลออโตรีเกรสซีฟอยู่ที่วิธีการสร้าง: มันไม่ได้สร้างโทเค็นตามลำดับ แต่ผ่านกระบวนการ “ลดสัญญาณรบกวน” (denoising) โดยประมวลผลโทเค็นทุกตำแหน่งพร้อมกัน ค่อยๆ กู้คืนข้อความที่สมบูรณ์จากสัญญาณรบกวนแบบสุ่ม
กลไกนี้นำมาซึ่งคุณลักษณะสำคัญสองประการ:
1. อิสระในลำดับการสร้าง: โมเดลสามารถถอดรหัสส่วนใดส่วนหนึ่งของข้อความก่อนได้ (เช่น คำสั่งเรียกใช้เครื่องมือที่สำคัญ) และเติมส่วนอื่นๆ ในภายหลัง
2. การให้เหตุผลแบบขนานโดยนัย: เนื่องจากใช้กลไกความสนใจแบบสองทิศทางภายในบล็อก แม้ว่าส่วน “การคิด” จะยังไม่ถูกถอดรหัสอย่างเจาะจง โมเดลก็สามารถใช้ข้อมูลการให้เหตุผลโดยนัยที่ไม่ได้แสดงออกมาอย่างชัดเจนได้ขณะถอดรหัสส่วน “การเรียกใช้เครื่องมือ”
ดังที่งานวิจัยที่เกี่ยวข้องชี้ให้เห็น: โมเดลดิฟฟิวชัน “รู้” โครงร่างของคำตอบแล้ว ก่อนที่จะถอดรหัสเสร็จสิ้น นี่เป็นรากฐานทางทฤษฎีสำหรับการทำให้เกิด “คิดไปรอไป”
จากทฤษฎีสู่การปฏิบัติ: ข้อบกพร่องของ dLLM ดั้งเดิม
แม้จะมีข้อได้เปรียบทางทฤษฎี แต่การใช้โมเดลภาษาดิฟฟิวชันที่มีอยู่โดยตรงเป็นเอเจนต์ค้นหากลับล้มเหลว ทีมวิจัยใช้โมเดลบล็อกดิฟฟิวชันขั้นสูงในปัจจุบันอย่าง SDAR ทดสอบบนมาตรฐาน HotpotQA ผลลัพธ์คือล้มเหลวทั้งหมดในรอบโต้ตอบแรกเนื่องจากข้อผิดพลาดรูปแบบต่างๆ
ปัญหาที่เจาะจง ได้แก่: ส่งออกตัวจบ (end token) โดยตรง, ลืมเรียกใช้เครื่องมือ, แท็กไม่สมบูรณ์ หรือสร้างรูปแบบที่ไม่ถูกต้อง เป็นต้น สิ่งนี้บ่งชี้ว่า โมเดลดิฟฟิวชันดั้งเดิมแม้มีศักยภาพในการสร้างแบบขนาน แต่ขาดความสามารถในการดำเนินการให้เหตุผลที่ซับซ้อนและปฏิบัติตามข้อกำหนดการเรียกใช้เครื่องมือ

วิธีการฝึกสองขั้นตอน: ปั้นเอเจนต์ค้นหาที่มีคุณสมบัติเหมาะสม
เพื่อฝึกโมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันให้เป็นเอเจนต์ค้นหาที่มีประสิทธิภาพ ทีมงานได้ออกแบบแผนการฝึกสองขั้นตอน
ขั้นตอนที่หนึ่ง: การปรับแต่งภายใต้การดูแล (Supervised Fine-Tuning)
ขั้นแรก ใช้โมเดลออโตรีเกรสซีฟที่ทรงพลังสร้างเส้นทางการทำงานของงานที่มีคุณภาพสูง และคัดกรองอย่างเคร่งครัดเพื่อให้ได้ตัวอย่างที่มีรูปแบบถูกต้องและการให้เหตุผลสมบูรณ์ จากนั้นใช้ตัวอย่างเหล่านี้ปรับแต่งโมเดลดิฟฟิวชันภายใต้การดูแล
ขั้นตอนนี้เผชิญกับความท้าทายทางเทคนิค: จะป้องกันไม่ให้โมเดล “แอบดู” คำตอบระหว่างการฝึกได้อย่างไร? ในเส้นทางการค้นหา ประกอบด้วย “การคิด/การกระทำ” ที่โมเดลสร้างขึ้น และ “การตอบสนองของเครื่องมือ” ที่ส่งกลับมาจากภายนอก กลไกความสนใจแบบสองทิศทางของโมเดลดิฟฟิวชันอาจทำให้ระหว่างการฝึก มันเห็นผลการค้นหาที่ควรจะปรากฏหลังการให้เหตุผลภายในบล็อกข้อความเดียวกัน ส่งผลให้สถานการณ์การฝึกไม่ตรงกับการให้เหตุผล
เพื่อแก้ปัญหานี้ ทีมงานเสนอเทคนิค “Agentic Noising”: เพิ่มสัญญาณรบกวนเฉพาะส่วนที่โมเดลต้องเรียนรู้เพื่อสร้างขึ้น คือส่วน “การคิด” และ “การเรียกใช้เครื่องมือ” เท่านั้น สำหรับส่วน “การตอบสนองของเครื่องมือ” จะถูกเก็บรักษาหรือปิดบังโดยสมบูรณ์ตามตำแหน่งที่ปรากฏ เพื่อตัดการรั่วไหลของข้อมูล ฟังก์ชันการสูญเสียที่เกี่ยวข้องจะคำนวณเฉพาะในตำแหน่งที่ต้องเรียนรู้เท่านั้น
ขั้นตอนที่สอง: การปรับให้เหมาะสมตามความชอบ (Preference Optimization)
หลังจากโมเดลเรียนรู้กฎพื้นฐานแล้ว เพิ่มประสิทธิภาพการแสดงผลผ่านการปรับให้เหมาะสมตามความชอบ ปล่อยให้โมเดลที่ฝึกในขั้นตอนแรกสร้างคำตอบหลายชุด คัดเลือกเส้นทาง “ถูกต้อง” และ “ผิด” ด้วยมนุษย์หรือผ่านกฎเกณฑ์ จากนั้นใช้การเรียนรู้แบบเปรียบเทียบ (contrastive learning) เพื่อให้โมเดลแยกแยะเส้นทางการให้เหตุผลที่ดีกว่าได้ชัดเจน ขั้นตอนนี้นำไปสู่การปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในหลายชุดข้อมูล
P-ReAct: แผนการเร่งการให้เหตุผลโดยไม่ต้องฝึก
การฝึกแก้ปัญหา “ความสามารถ” แต่เพื่อให้เกิด “การเร่งความเร็ว” จำเป็นต้องมีวิธีการให้เหตุผลที่สร้างสรรค์ ทีมงานเสนอแผนการ P-ReAct ซึ่งแนวคิดหลักคือชี้นำโมเดลให้ส่งออกการเรียกใช้เครื่องมือก่อน
วิธีการนี้ดำเนินการง่าย:
1. เติมล่วงหน้าด้วยเครื่องหมายขอบเขต (Boundary Tokens): เมื่อเริ่มต้นการสร้างแต่ละรอบ ให้วางเครื่องหมายล่วงหน้าในบล็อกข้อความเพื่อกำหนดขอบเขต “พื้นที่เรียกใช้เครื่องมือ” อย่างชัดเจน
2. ใช้การเบี่ยงเบนการถอดรหัส (Decoding Bias): ในแต่ละขั้นตอนการลดสัญญาณรบกวนของโมเดลดิฟฟิวชัน เพิ่มคะแนนความเชื่อมั่นของโทเค็นใน “พื้นที่เรียกใช้เครื่องมือ” อย่างตั้งใจ เพื่อให้ถูกถอดรหัสก่อน
เห็นผลทันที: โมเดลเกือบจะถอดรหัสและส่งคำสั่งเรียกใช้เครื่องมือที่สมบูรณ์ออกไปก่อนเสมอ จากนั้นในช่องว่างที่รอผลลัพธ์ส่งกลับ ก็จะดำเนินการสร้างส่วน “การคิด” ต่อไปให้เสร็จสิ้น ทำให้เกิดการทำงานขนานระหว่าง “การกระทำ” และ “การคิด” จริงๆ

การประเมินประสิทธิภาพ: ได้ทั้งประสิทธิภาพและผลลัพธ์
ในการทดสอบมาตรฐานการถามตอบแบบหลายขั้นตอนหลายชุด เช่น HotpotQA โมเดล DLLM-Searcher ที่ผ่านการฝึกแล้ว ได้รับความแม่นยำที่เทียบเท่าหรือดีกว่าเอเจนต์ค้นหาออโตรีเกรสซีฟขั้นสูง
ที่สำคัญกว่านั้น หลังจากเปิดใช้งานแผนการเร่งความเร็ว P-ReAct โมเดลสามารถ เร่งการให้เหตุผลแบบ end-to-end ได้ 14.8% ถึง 22.1% โดยที่ประสิทธิภาพแทบไม่สูญเสียเลย ในทางตรงกันข้าม หากโมเดลออโตรีเกรสซีฟพยายามเลียนแบบรูปแบบ “กระทำก่อนแล้วค่อยคิด” จะทำให้ความแม่นยำลดลงอย่างมีนัยสำคัญ นี่พิสูจน์ว่าการให้เหตุผลแบบขนานเป็นข้อได้เปรียบเฉพาะที่มาจากโครงสร้างของโมเดลดิฟฟิวชัน
นอกจากนี้ โมเดลนี้ใช้ข้อมูลเพียงไม่กี่พันรายการในการฝึก แต่แสดงความสามารถในการปรับตัว (generalization) ที่ดีบนชุดข้อมูลที่ไม่เคยเห็น แสดงให้เห็นถึงประสิทธิภาพด้านข้อมูลของมัน
สรุปและแนวโน้ม
งานวิจัยนี้เป็นครั้งแรกที่พิสูจน์ว่า ผ่านการออกแบบและการฝึกที่เป็นเป้าหมาย โมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันไม่เพียงแต่สามารถทำงานที่ต้องใช้การให้เหตุผลที่ซับซ้อนและการเรียกใช้เครื่องมือได้เท่านั้น แต่ยังสามารถใช้ประโยชน์จากธรรมชาติการสร้างแบบขนานของมันได้อย่างเต็มที่ ทำลายจุดคอขวดด้านประสิทธิภาพจากการรอคอยแบบอนุกรมของโมเดลออโตรีเกรสซีฟ นี่เป็นการเปิดเส้นทางเทคโนโลยีใหม่สำหรับการสร้างระบบเอเจนต์อัจฉริยะรุ่นต่อไปที่มีประสิทธิภาพและทำงานแบบเรียลไทม์
ดังที่มุมมองที่อ้างอิงในบทความระบุว่า: “จริงๆ แล้วเราเริ่มต้นการกระทำก่อนที่เราจะตระหนักว่าเราได้ตัดสินใจแล้ว” ความสามารถ “ดำเนินการก่อน แล้วค่อยปรับรายละเอียด” ที่โมเดลดิฟฟิวชันแสดงให้เห็นในงานค้นหา นำมาซึ่งแรงบันดาลใจใหม่สำหรับประสิทธิภาพการโต้ตอบของปัญญาประดิษฐ์
ข้อมูลบทความวิจัย
* ชื่อเรื่อง: DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents
* ผู้เขียน: Zhao Jiahao, Xu Shaoxuan, Sun Zhongxiang (หัวหน้าโครงการ), Xu Jun (ผู้เขียนติดต่อ) และคณะ
* สถาบัน: มหาวิทยาลัยเหรินหมินแห่งประเทศจีน
* ลิงก์บทความ: https://arxiv.org/abs/2602.07035
* หน้าแรกโครงการ: https://bubble65.github.io/dllm-searcher-pub/
ผู้ที่สนใจสามารถศึกษารายละเอียดการวิจัยเพิ่มเติมได้
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23531
