ให้ Agent ค้นหาไม่ “รออย่างโง่เขลา”: ทีมมหาวิทยาลัยเหรินหมินใช้โมเดลแพร่กระจายเพื่อให้ “ทำสองสิ่งพร้อมกัน” คิดขณะรอผลการค้นหา เร่งความเร็ว 15% โดยไม่ลดประสิทธิภาพ

19 hours ago • การอนุมานโมเดลขนาดใหญ่ • 11 views

เอเจนต์อัจฉริยะสำหรับการค้นหา (Agent) แบบหลักในปัจจุบันมีจุดคอขวดด้านประสิทธิภาพที่พบบ่อย: กระบวนการทำงานของมันเป็นแบบอนุกรมอย่างเคร่งครัด ตัวอย่างเช่น กรอบงาน ReAct ที่ใช้กันอย่างแพร่หลาย มีรูปแบบเป็น “คิด → เรียกใช้เครื่องมือ → รอผลลัพธ์ → คิดต่อ…” ในโหมดนี้ โมเดลจะอยู่ในสถานะว่างเปล่าโดยสิ้นเชิงขณะรอให้เครื่องมือค้นหาส่งกลับผลลัพธ์ ส่งผลให้เสียเวลาอย่างมาก ในการโต้ตอบหลายรอบ ความล่าช้าจะสะสมเพิ่มขึ้นเรื่อยๆ ส่งผลกระทบอย่างรุนแรงต่อประสบการณ์ผู้ใช้

ให้ Agent ค้นหาไม่ "รออย่างโง่เขลา": ทีมมหาวิทยาลัยเหรินหมินใช้โมเดลแพร่กระจายเพื่อให้ "ทำสองสิ่งพร้อมกัน" คิดขณะรอผลการค้นหา เร่งความเร็ว 15% โดยไม่ลดประสิทธิภาพ

ทีมวิจัยพบจากการวิเคราะห์ว่าในงานที่ซับซ้อน เช่น การถามตอบแบบหลายขั้นตอน (Multi-hop QA) การรอคอยแบบอนุกรมที่ “รอเปล่าๆ” นี้ใช้เวลาตอบสนองแบบ end-to-end ไปอย่างมาก

แนวคิดการปรับปรุงตามธรรมชาติคือ: เป็นไปได้หรือไม่ที่จะให้โมเดลคิดขั้นตอนต่อไปต่อไปในขณะที่รอผลการค้นหา? สิ่งนี้ทำได้ยากสำหรับโมเดลภาษาขนาดใหญ่แบบออโตรีเกรสซีฟดั้งเดิม (เช่น ซีรีส์ GPT) เนื่องจากโมเดลออโตรีเกรสซีฟอาศัยกลไกความสนใจแบบเหตุผล (causal attention) ต้องสร้างโทเค็นตามลำดับจากซ้ายไปขวา หากพยายามเปลี่ยนลำดับโดยให้มันส่งออกการเรียกใช้เครื่องมือก่อนแล้วค่อยส่งออกเนื้อหาการคิด ประสิทธิภาพการให้เหตุผลของโมเดลจะลดลงอย่างเห็นได้ชัด การทดลองแสดงให้เห็นว่าโมเดลซีรีส์ Qwen3 มีความแม่นยำลดลงอย่างชัดเจนหลังจากปรับลำดับ

อย่างไรก็ตาม โมเดลภาษาขนาดใหญ่แบบดิฟฟิวชัน เนื่องจากกลไกการสร้างที่เป็นเอกลักษณ์ จึงเปิดความเป็นไปได้ใหม่ในการแก้ไขปัญหานี้

ข้อได้เปรียบของการสร้างแบบขนานของโมเดลดิฟฟิวชัน

ความแตกต่างหลักระหว่างโมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันและโมเดลออโตรีเกรสซีฟอยู่ที่วิธีการสร้าง: มันไม่ได้สร้างโทเค็นตามลำดับ แต่ผ่านกระบวนการ “ลดสัญญาณรบกวน” (denoising) โดยประมวลผลโทเค็นทุกตำแหน่งพร้อมกัน ค่อยๆ กู้คืนข้อความที่สมบูรณ์จากสัญญาณรบกวนแบบสุ่ม

กลไกนี้นำมาซึ่งคุณลักษณะสำคัญสองประการ:
1. อิสระในลำดับการสร้าง: โมเดลสามารถถอดรหัสส่วนใดส่วนหนึ่งของข้อความก่อนได้ (เช่น คำสั่งเรียกใช้เครื่องมือที่สำคัญ) และเติมส่วนอื่นๆ ในภายหลัง
2. การให้เหตุผลแบบขนานโดยนัย: เนื่องจากใช้กลไกความสนใจแบบสองทิศทางภายในบล็อก แม้ว่าส่วน “การคิด” จะยังไม่ถูกถอดรหัสอย่างเจาะจง โมเดลก็สามารถใช้ข้อมูลการให้เหตุผลโดยนัยที่ไม่ได้แสดงออกมาอย่างชัดเจนได้ขณะถอดรหัสส่วน “การเรียกใช้เครื่องมือ”

ดังที่งานวิจัยที่เกี่ยวข้องชี้ให้เห็น: โมเดลดิฟฟิวชัน “รู้” โครงร่างของคำตอบแล้ว ก่อนที่จะถอดรหัสเสร็จสิ้น นี่เป็นรากฐานทางทฤษฎีสำหรับการทำให้เกิด “คิดไปรอไป”

จากทฤษฎีสู่การปฏิบัติ: ข้อบกพร่องของ dLLM ดั้งเดิม

แม้จะมีข้อได้เปรียบทางทฤษฎี แต่การใช้โมเดลภาษาดิฟฟิวชันที่มีอยู่โดยตรงเป็นเอเจนต์ค้นหากลับล้มเหลว ทีมวิจัยใช้โมเดลบล็อกดิฟฟิวชันขั้นสูงในปัจจุบันอย่าง SDAR ทดสอบบนมาตรฐาน HotpotQA ผลลัพธ์คือล้มเหลวทั้งหมดในรอบโต้ตอบแรกเนื่องจากข้อผิดพลาดรูปแบบต่างๆ

ปัญหาที่เจาะจง ได้แก่: ส่งออกตัวจบ (end token) โดยตรง, ลืมเรียกใช้เครื่องมือ, แท็กไม่สมบูรณ์ หรือสร้างรูปแบบที่ไม่ถูกต้อง เป็นต้น สิ่งนี้บ่งชี้ว่า โมเดลดิฟฟิวชันดั้งเดิมแม้มีศักยภาพในการสร้างแบบขนาน แต่ขาดความสามารถในการดำเนินการให้เหตุผลที่ซับซ้อนและปฏิบัติตามข้อกำหนดการเรียกใช้เครื่องมือ

วิธีการฝึกสองขั้นตอน: ปั้นเอเจนต์ค้นหาที่มีคุณสมบัติเหมาะสม

เพื่อฝึกโมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันให้เป็นเอเจนต์ค้นหาที่มีประสิทธิภาพ ทีมงานได้ออกแบบแผนการฝึกสองขั้นตอน

ขั้นตอนที่หนึ่ง: การปรับแต่งภายใต้การดูแล (Supervised Fine-Tuning)
ขั้นแรก ใช้โมเดลออโตรีเกรสซีฟที่ทรงพลังสร้างเส้นทางการทำงานของงานที่มีคุณภาพสูง และคัดกรองอย่างเคร่งครัดเพื่อให้ได้ตัวอย่างที่มีรูปแบบถูกต้องและการให้เหตุผลสมบูรณ์ จากนั้นใช้ตัวอย่างเหล่านี้ปรับแต่งโมเดลดิฟฟิวชันภายใต้การดูแล

ขั้นตอนนี้เผชิญกับความท้าทายทางเทคนิค: จะป้องกันไม่ให้โมเดล “แอบดู” คำตอบระหว่างการฝึกได้อย่างไร? ในเส้นทางการค้นหา ประกอบด้วย “การคิด/การกระทำ” ที่โมเดลสร้างขึ้น และ “การตอบสนองของเครื่องมือ” ที่ส่งกลับมาจากภายนอก กลไกความสนใจแบบสองทิศทางของโมเดลดิฟฟิวชันอาจทำให้ระหว่างการฝึก มันเห็นผลการค้นหาที่ควรจะปรากฏหลังการให้เหตุผลภายในบล็อกข้อความเดียวกัน ส่งผลให้สถานการณ์การฝึกไม่ตรงกับการให้เหตุผล

เพื่อแก้ปัญหานี้ ทีมงานเสนอเทคนิค “Agentic Noising”: เพิ่มสัญญาณรบกวนเฉพาะส่วนที่โมเดลต้องเรียนรู้เพื่อสร้างขึ้น คือส่วน “การคิด” และ “การเรียกใช้เครื่องมือ” เท่านั้น สำหรับส่วน “การตอบสนองของเครื่องมือ” จะถูกเก็บรักษาหรือปิดบังโดยสมบูรณ์ตามตำแหน่งที่ปรากฏ เพื่อตัดการรั่วไหลของข้อมูล ฟังก์ชันการสูญเสียที่เกี่ยวข้องจะคำนวณเฉพาะในตำแหน่งที่ต้องเรียนรู้เท่านั้น

ขั้นตอนที่สอง: การปรับให้เหมาะสมตามความชอบ (Preference Optimization)
หลังจากโมเดลเรียนรู้กฎพื้นฐานแล้ว เพิ่มประสิทธิภาพการแสดงผลผ่านการปรับให้เหมาะสมตามความชอบ ปล่อยให้โมเดลที่ฝึกในขั้นตอนแรกสร้างคำตอบหลายชุด คัดเลือกเส้นทาง “ถูกต้อง” และ “ผิด” ด้วยมนุษย์หรือผ่านกฎเกณฑ์ จากนั้นใช้การเรียนรู้แบบเปรียบเทียบ (contrastive learning) เพื่อให้โมเดลแยกแยะเส้นทางการให้เหตุผลที่ดีกว่าได้ชัดเจน ขั้นตอนนี้นำไปสู่การปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในหลายชุดข้อมูล

P-ReAct: แผนการเร่งการให้เหตุผลโดยไม่ต้องฝึก

การฝึกแก้ปัญหา “ความสามารถ” แต่เพื่อให้เกิด “การเร่งความเร็ว” จำเป็นต้องมีวิธีการให้เหตุผลที่สร้างสรรค์ ทีมงานเสนอแผนการ P-ReAct ซึ่งแนวคิดหลักคือชี้นำโมเดลให้ส่งออกการเรียกใช้เครื่องมือก่อน

วิธีการนี้ดำเนินการง่าย:
1. เติมล่วงหน้าด้วยเครื่องหมายขอบเขต (Boundary Tokens): เมื่อเริ่มต้นการสร้างแต่ละรอบ ให้วางเครื่องหมายล่วงหน้าในบล็อกข้อความเพื่อกำหนดขอบเขต “พื้นที่เรียกใช้เครื่องมือ” อย่างชัดเจน
2. ใช้การเบี่ยงเบนการถอดรหัส (Decoding Bias): ในแต่ละขั้นตอนการลดสัญญาณรบกวนของโมเดลดิฟฟิวชัน เพิ่มคะแนนความเชื่อมั่นของโทเค็นใน “พื้นที่เรียกใช้เครื่องมือ” อย่างตั้งใจ เพื่อให้ถูกถอดรหัสก่อน

เห็นผลทันที: โมเดลเกือบจะถอดรหัสและส่งคำสั่งเรียกใช้เครื่องมือที่สมบูรณ์ออกไปก่อนเสมอ จากนั้นในช่องว่างที่รอผลลัพธ์ส่งกลับ ก็จะดำเนินการสร้างส่วน “การคิด” ต่อไปให้เสร็จสิ้น ทำให้เกิดการทำงานขนานระหว่าง “การกระทำ” และ “การคิด” จริงๆ

การประเมินประสิทธิภาพ: ได้ทั้งประสิทธิภาพและผลลัพธ์

ในการทดสอบมาตรฐานการถามตอบแบบหลายขั้นตอนหลายชุด เช่น HotpotQA โมเดล DLLM-Searcher ที่ผ่านการฝึกแล้ว ได้รับความแม่นยำที่เทียบเท่าหรือดีกว่าเอเจนต์ค้นหาออโตรีเกรสซีฟขั้นสูง

ที่สำคัญกว่านั้น หลังจากเปิดใช้งานแผนการเร่งความเร็ว P-ReAct โมเดลสามารถ เร่งการให้เหตุผลแบบ end-to-end ได้ 14.8% ถึง 22.1% โดยที่ประสิทธิภาพแทบไม่สูญเสียเลย ในทางตรงกันข้าม หากโมเดลออโตรีเกรสซีฟพยายามเลียนแบบรูปแบบ “กระทำก่อนแล้วค่อยคิด” จะทำให้ความแม่นยำลดลงอย่างมีนัยสำคัญ นี่พิสูจน์ว่าการให้เหตุผลแบบขนานเป็นข้อได้เปรียบเฉพาะที่มาจากโครงสร้างของโมเดลดิฟฟิวชัน

นอกจากนี้ โมเดลนี้ใช้ข้อมูลเพียงไม่กี่พันรายการในการฝึก แต่แสดงความสามารถในการปรับตัว (generalization) ที่ดีบนชุดข้อมูลที่ไม่เคยเห็น แสดงให้เห็นถึงประสิทธิภาพด้านข้อมูลของมัน

สรุปและแนวโน้ม

งานวิจัยนี้เป็นครั้งแรกที่พิสูจน์ว่า ผ่านการออกแบบและการฝึกที่เป็นเป้าหมาย โมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันไม่เพียงแต่สามารถทำงานที่ต้องใช้การให้เหตุผลที่ซับซ้อนและการเรียกใช้เครื่องมือได้เท่านั้น แต่ยังสามารถใช้ประโยชน์จากธรรมชาติการสร้างแบบขนานของมันได้อย่างเต็มที่ ทำลายจุดคอขวดด้านประสิทธิภาพจากการรอคอยแบบอนุกรมของโมเดลออโตรีเกรสซีฟ นี่เป็นการเปิดเส้นทางเทคโนโลยีใหม่สำหรับการสร้างระบบเอเจนต์อัจฉริยะรุ่นต่อไปที่มีประสิทธิภาพและทำงานแบบเรียลไทม์

ดังที่มุมมองที่อ้างอิงในบทความระบุว่า: “จริงๆ แล้วเราเริ่มต้นการกระทำก่อนที่เราจะตระหนักว่าเราได้ตัดสินใจแล้ว” ความสามารถ “ดำเนินการก่อน แล้วค่อยปรับรายละเอียด” ที่โมเดลดิฟฟิวชันแสดงให้เห็นในงานค้นหา นำมาซึ่งแรงบันดาลใจใหม่สำหรับประสิทธิภาพการโต้ตอบของปัญญาประดิษฐ์

ข้อมูลบทความวิจัย
* ชื่อเรื่อง: DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents
* ผู้เขียน: Zhao Jiahao, Xu Shaoxuan, Sun Zhongxiang (หัวหน้าโครงการ), Xu Jun (ผู้เขียนติดต่อ) และคณะ
* สถาบัน: มหาวิทยาลัยเหรินหมินแห่งประเทศจีน
* ลิงก์บทความ: https://arxiv.org/abs/2602.07035
* หน้าแรกโครงการ: https://bubble65.github.io/dllm-searcher-pub/

ผู้ที่สนใจสามารถศึกษารายละเอียดการวิจัยเพิ่มเติมได้

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23531

Like (0)

0 0

บทสนทนากับหวัง เสี่ยว แห่ง Jiuhe: 90% ของบริษัทเอมบอดีด์อินเทลลิเจนซ์ไม่มีอนาคต ตลาดมีที่ว่างเพียง 3-5 บริษัท

Previous 19 hours ago

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา

Next 19 hours ago

การอนุมานโมเดลขนาดใหญ่

จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร

หากมองชีวิตเป็นเกม MMO แบบเปิดขนาดใหญ่ ณ เวลาที่เซิร์ฟเวอร์เกมเพิ่งอัปเดตครั้งใหญ่ กฎก็เปลี่ยนไป นับตั้งแต่ ChatGPT ปรากฏตัวอย่างน่าตื่นตาตื่นใจในปี 2022 โลกได้เปลี่ยนแปลงไปอย่างลึ…

2026年2月20日
31000
การอนุมานโมเดลขนาดใหญ่

กรอบ COMI: การบีบอัดข้อความยาวที่ชาญฉลาดที่อัตราการบีบอัดสูงผ่านการได้รับข้อมูลส่วนเพิ่ม

เหตุใดวิธีการบีบอัดบริบทที่มีอยู่จึง “พลิกคว่ำ” อย่างเป็นหมู่คณะเมื่ออัตราการบีบอัดสูง? เมื่อโมเดลต้องบีบอัดข้อความยาว 32K ให้เหลือเพียง 1K ประสิทธิภาพทำไมถึงลดลงอย่างร…

4 days ago
72000
การอนุมานโมเดลขนาดใหญ่

Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่

ลองนึกภาพว่าคุณให้ผู้ช่วย AI ใช้เครื่องมือค้นหาเพื่อสำรวจปัญหาที่ซับซ้อน ในการสำรวจครั้งแรก มันไปผิดทาง แต่ในครั้งที่สองและสาม มันยังคงเดินตามเส้นทางสำรวจผิดพลาดเดิมซ้ำอีก แม้ว่าคุ…

2026年2月19日
34000
การอนุมานโมเดลขนาดใหญ่

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ? ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที นี่หมายความว่า…

2026年2月21日
83000
การอนุมานโมเดลขนาดใหญ่

LightRetriever: สร้างความเปลี่ยนแปลงครั้งใหญ่! สถาปัตยกรรมการค้นคืน LLM ที่เร็วขึ้นเป็นพันเท่า ขจัดภาระการคำนวณออกจากฝั่งการสืบค้นโดยสิ้นเชิง

ในปีที่ผ่านมา เทคโนโลยีการค้นคืนข้อความโดยใช้โมเดลภาษาขนาดใหญ่ (LLM-based Text Retrieval) ได้พัฒนาอย่างรวดเร็ว โดยโมเดล LLM Embedding หลักส่วนใหญ่มีพารามิเตอร์มากกว่า 7B พันล้านตัว…

2026年2月22日
41000

ข้อได้เปรียบของการสร้างแบบขนานของโมเดลดิฟฟิวชัน

จากทฤษฎีสู่การปฏิบัติ: ข้อบกพร่องของ dLLM ดั้งเดิม

วิธีการฝึกสองขั้นตอน: ปั้นเอเจนต์ค้นหาที่มีคุณสมบัติเหมาะสม

P-ReAct: แผนการเร่งการให้เหตุผลโดยไม่ต้องฝึก

การประเมินประสิทธิภาพ: ได้ทั้งประสิทธิภาพและผลลัพธ์

สรุปและแนวโน้ม

相关推荐

จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร

กรอบ COMI: การบีบอัดข้อความยาวที่ชาญฉลาดที่อัตราการบีบอัดสูงผ่านการได้รับข้อมูลส่วนเพิ่ม

Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA