โมเดลใหญ่สู่ “สามกิโลเมตรสุดท้าย” ของโลกแห่งความเป็นจริง: แนวทาง Agent ก่อให้เกิดการปฏิวัติด้านประสิทธิภาพ
ปัจจุบัน มาตรฐานในการวัดความสามารถของเอเจนต์ปัญญาประดิษฐ์ (Agent) ได้เปลี่ยนแปลงไปอย่างลึกซึ้ง แก่นกลางไม่ใช่เพียงแค่ “ตอบคำถามถูกต้อง” อีกต่อไป แต่เป็นการพิจารณาว่ามันสามารถทำงานให้สำเร็จได้อย่างเสถียรด้วยเส้นทางที่สั้นที่สุดและต้นทุนการโต้ตอบที่น้อยที่สุด เมื่อต้องเผชิญกับการให้เหตุผลหลายรอบ การเรียกใช้เครื่องมือ และการทำงานร่วมกันที่ซับซ้อน
ในบริบทนี้ ปัญหาพื้นฐานประการหนึ่งได้ปรากฏชัดเจนขึ้น: เมื่อกรอบงาน เครื่องมือ ข้อมูล และวิธีการฝึกฝนของ Agent เหมือนกันทั้งหมด การเปลี่ยนแปลงเพียงรูปแบบการสร้าง (generation paradigm) ของโมเดลภาษาขั้นพื้นฐาน (แบบ Autoregressive เทียบกับแบบ Diffusion) จะปรับเปลี่ยนรูปแบบการวางแผนและพฤติกรรมของ Agent อย่างเป็นระบบหรือไม่?
เมื่อเร็วๆ นี้ ทีมวิจัยจาก Huawei Noah’s Ark Lab, Huawei Advanced Computing and Storage Lab, UCL, Nanyang Technological University, Tsinghua University และ Peking University ได้ให้คำตอบเชิงบวกต่อคำถามนี้ผ่านการทดลองควบคุมที่เข้มงวดอย่างยิ่งในงานล่าสุดของพวกเขาเรื่อง “DLLM Agent: See Farther, Run Faster”
การศึกษาพบว่า เพียงแค่เปลี่ยนโมเดล “ฐานราก” ของ Agent เป็นโมเดลใหญ่แบบ Diffusion (DLLM) ประสิทธิภาพการดำเนินงานก็เพิ่มขึ้นอย่างเห็นได้ชัด โดยที่อัตราความแม่นยำอยู่ในระดับเดียวกัน ความเร็วการดำเนินงานแบบ end-to-end ของ DLLM Agent เพิ่มขึ้นโดยเฉลี่ยมากกว่า 30% และในบางงานที่ซับซ้อน ประสิทธิภาพของมันสูงถึง8 เท่า ของโมเดล Autoregressive (AR) แบบดั้งเดิม
ลิงก์บทความวิจัย: https://arxiv.org/pdf/2602.07451
หน้าโครงการ: https://noah-dllm.github.io/
ข้อสรุปหลัก
ภายใต้ข้อจำกัดของเวิร์กโฟลว์ Agent ข้อมูลการฝึก และงบประมาณการโต้ตอบที่เหมือนกันทุกประการ การศึกษานี้ได้ข้อค้นพบหลักดังต่อไปนี้:
- โดยที่อัตราความแม่นยำอยู่ในระดับเดียวกัน ความเร็วการดำเนินงานแบบ end-to-end ของ DLLM Agent เพิ่มขึ้นโดยเฉลี่ยมากกว่า 30%
- ภายใต้เงื่อนไขที่แก้ปัญหาได้สำเร็จ DLLM Agent มีแนวโน้มที่จะใช้รอบการโต้ตอบและการเรียกใช้เครื่องมือที่น้อยกว่า
- DLLM แสดงให้เห็นความสามารถในการวางแผนที่แข็งแกร่งกว่า: สามารถบรรจบเข้าสู่แนวทางการดำเนินงานที่ถูกต้องได้เร็วกว่า และมีการย้อนกลับและการดำเนินงานที่ซ้ำซ้อนน้อยกว่า
- ข้อได้เปรียบนี้ไม่ได้มาจากเพียงแค่ความเร็วที่เพิ่มขึ้นจากการถอดรหัสแบบขนาน (parallel decoding) แต่สะท้อนให้เห็นอย่างมีสาระสำคัญมากขึ้นในรูปแบบพฤติกรรมการวางแผนและการตัดสินใจในระดับ Agent
การทดลองควบคุมที่ “ยุติธรรมอย่างยิ่ง”
เพื่อกำจัดปัจจัยรบกวน เช่น ความแตกต่างของเฟรมเวิร์ก วิศวกรรมพรอมต์ (prompt engineering) และความไม่สอดคล้องของข้อมูล ทีมวิจัยได้ออกแบบสภาพแวดล้อมการทดลองที่เข้มงวดอย่างยิ่ง:
- กรอบงาน Agent ที่เป็นหนึ่งเดียว: ใช้สถาปัตยกรรมเอเจนต์หลายตัวแบบ DeepDiver (การวางแผนแบบลำดับชั้น)
- เครื่องมือและกฎเกณฑ์ที่เป็นหนึ่งเดียว: ใช้ชุดอินเทอร์เฟซเครื่องมือและกฎการแยกวิเคราะห์เดียวกัน
- งานและการฝึกฝนที่เป็นหนึ่งเดียว: ดำเนินการฝึกฝนต่อบนงาน Agent ที่เหมือนกันทุกประการ
- ข้อจำกัดทรัพยากรที่เป็นหนึ่งเดียว: ขีดจำกัดความยาวบริบท (32K) จำนวนรอบการโต้ตอบสูงสุด ขีดจำกัดการเรียกใช้เครื่องมือ เหมือนกันทั้งหมด
- ตัวแปรเดียว: รูปแบบการสร้าง ของโมเดลภาษาขั้นพื้นฐาน
- โมเดล Autoregressive (AR): openpangu 7b-v1
- โมเดลใหญ่แบบ Diffusion (DLLM): openpangu diffusion 7b ที่ได้จากการฝึกต่อจาก openpangu 7b-v1 เพื่อให้แน่ใจว่าความสามารถในการให้เหตุผลพื้นฐานใกล้เคียงกัน
นี่หมายความว่าความแตกต่างพฤติกรรมใดๆ ที่สังเกตได้ในการทดลองสามารถนำมาประกอบกับรูปแบบการสร้างเอง ไม่ใช่ความสามารถพื้นฐานของโมเดลหรือการออกแบบเวิร์กโฟลว์ ในเวลาเดียวกัน การวิจัยได้ปรับปรุงการฝึกฝนสำหรับ DLLM ในสถานการณ์การโต้ตอบแบบหลายรอบและโซ่ยาว โดยใช้กลยุทธ์ Mask ที่ปรับเปลี่ยนและกลยุทธ์การตัดแต่งความสนใจ (attention cropping) เพื่อเพิ่มความสอดคล้องระหว่างการฝึกและการอนุมาน
ถึงจุดหมายเดียวกัน แต่เส้นทางแตกต่างกันอย่างมาก
หลังจากสร้างแพลตฟอร์มควบคุมที่ยุติธรรมแล้ว การวิจัยมุ่งเน้นไปที่คำถามหลัก: การเปลี่ยนแปลงรูปแบบการสร้างช่วยเพิ่มประสิทธิภาพการปฏิบัติงานของ Agent ได้อย่างไร? ผลลัพธ์แสดงให้เห็นว่าข้อได้เปรียบของ DLLM Agent ไม่ได้อยู่ที่ “คำนวณเร็ว” เท่านั้น แต่ยังอยู่ที่“เดินตรง” ในการวางแผนที่ซับซ้อนอีกด้วย
1. การทดสอบมาตรฐาน BrowseComp-zh: ความได้เปรียบด้านประสิทธิภาพอย่างรอบด้าน
การวิจัยได้ทำการทดสอบบนชุดย่อยมาตรฐาน BrowseComp-zh (การเรียกดูเว็บหลายรอบภาษาจีน) ซึ่งประกอบด้วย 110 งาน

หลังจากวิเคราะห์ผลการทดสอบอย่างลึกซึ้ง นักวิจัยพบรูปแบบสำคัญ: โดยที่อัตราความแม่นยำอยู่ในระดับเดียวกัน DLLM Agent แสดงคุณลักษณะดังต่อไปนี้:
* จำนวนการเรียกใช้เครื่องมือโดยเฉลี่ยลดลงอย่างมีนัยสำคัญ
* แนวทางการดำเนินงานโดยเฉลี่ยสั้นกว่า
* ความล่าช้าแบบ end-to-end ลดลงประมาณ 30%
ในเวลาเดียวกัน การวิจัยยังชี้ให้เห็นถึงความท้าทายในทางปฏิบัติ: DLLM ดั้งเดิมมีแนวโน้มที่จะทำผิดพลาดได้ง่ายกว่าเมื่อสร้างคำสั่งเรียกใช้เครื่องมือที่มีโครงสร้าง
นอกจากนี้ ด้วยการเปรียบเทียบการกระจายตัวของประสิทธิภาพระหว่าง DLLM Agent และ AR Agent ในงานการค้นหาข้อมูล เราสามารถเห็นได้ชัดเจนว่า DLLM Agent มักจะสามารถทำงานเดียวกันให้สำเร็จได้ด้วยจำนวนครั้งในการโต้ตอบที่น้อยกว่า

2. กรณีศึกษา: รากเหง้าของความแตกต่างของความเร็ว 8.18 เท่า
กรณีการค้นหาข้อมูลที่มีข้อจำกัดหลายประการ (เกี่ยวข้องกับหลายมิติ เช่น การตั้งชื่อสัตว์ บริษัทอินเทอร์เน็ตจีน การควบรวมทีม ฮาร์ดแวร์และซอฟต์แวร์) ได้เผยให้เห็นความสามารถในการ “ปรับเส้นทางให้เหมาะสม” นี้อย่างชัดเจน คำสั่งค้นหามีดังนี้:

แม้ว่า AR Agent และ DLLM Agent จะให้คำตอบที่ถูกต้องในที่สุด แต่ตรรกะการดำเนินงานแตกต่างกันอย่างมาก ความแตกต่างนี้ไม่เพียงสะท้อนให้เห็นในช่องว่างความเร็วแบบ end-to-end ที่8.18 เท่า (ดังตารางด้านล่าง):

แต่ยังสะท้อนให้เห็นในกระบวนการวางแผนและการดำเนินงานที่เฉพาะเจาะจงอีกด้วย — คุณภาพการวางแผนของ DLLM Agent สูงกว่า ซึ่งส่งผลให้ได้รับผลประโยชน์ด้านประสิทธิภาพแบบ end-to-end ในบางกรณีศึกษาที่เกินกว่าความแตกต่างของประสิทธิภาพโมเดลพื้นฐาน

ทำไม DLLM จึงเป็น “ผู้วางแผนที่แข็งแกร่งโดยธรรมชาติ”?
บทความวิจัยได้อธิบายเพิ่มเติมจากหลักการพื้นฐานของรูปแบบการสร้าง โดยวิเคราะห์การเปลี่ยนแปลงแบบไดนามิกของเอนโทรปี (Entropy) ความมั่นใจ (Confidence) และความสนใจ (Attention) ในกระบวนการ diffusion เพื่ออธิบายอย่างลึกซึ้งถึงข้อได้เปรียบโดยธรรมชาติของ DLLM ในงานวางแผน
หนึ่ง. ระยะวางแผน: แผนภาพรวมก่อน แล้วจึงเติมรายละเอียด
ในระยะการแยกย่อยงาน ตัววางแผน DLLM แสดงคุณลักษณะสองระยะ ที่เป็นเอกลักษณ์ คล้ายกับวิธีคิดของมนุษย์ที่ “ร่างโครงร่างก่อน แล้วจึงเติมเนื้อหา”:
ระยะแรก: แยกข้อมูลสำคัญแบบขนาน
ข้อจำกัดหลักหลายประการในปัญหาของผู้ใช้ มักถูกระบุและจับได้พร้อมกันภายใน1-2 ขั้นตอน diffusion (diffusion step)
ระยะที่สอง: ค่อยๆ กำหนดโครงสร้างงานให้ละเอียดขึ้น
หลังจากกรอบงานระดับโลกถูกกำหนดขึ้นแล้ว จึงค่อยๆ เติมตรรกะและรายละเอียดการดำเนินงานที่เฉพาะเจาะจง
นี่แตกต่างอย่างมีนัยสำคัญจากโมเดล AR:
* AR ต้อง “คิดไปเขียนไป” ตามลำดับของ token
* หากการตัดสินใจในระยะเริ่มต้นเบี่ยงเบนไป มักจะต้องแก้ไขผ่านการสร้างรายการสิ่งที่ต้องทำ (todo) หลายรอบ การวางแผนใหม่ (re-plan) หรือการตรวจสอบ (verification)
นี่ยังอธิบายโดยตรงว่าทำไม AR Agent ในการทดลองจึงมีแนวโน้มที่จะสร้างเอกสารการวางแผนที่ซ้ำซ้อน (เช่น หลายเวอร์ชันของ todo_v1/todo_v2) มากขึ้น รูปภาพด้านล่างแสดงรายละเอียดการเปลี่ยนแปลงของตัววางแผนในกระบวนการนี้:

สอง. ระยะเรียกใช้เครื่องมือ: กำหนดการกระทำก่อน แล้วจึงสร้างพารามิเตอร์แบบขนาน
ในระยะการสร้างคำสั่งเรียกใช้เครื่องมือที่เฉพาะเจาะจง โหมดของ DLLM แสดงแนวโน้มที่มีโครงสร้างและมีความเสถียรสูง:
* ก่อนอื่นกำหนดเครื่องมือเฉพาะที่จำเป็นต้องเรียกใช้
* จากนั้น สร้างพารามิเตอร์และรายละเอียดต่างๆ ที่จำเป็นสำหรับการเรียกใช้เครื่องมือนั้นแบบขนาน
* การเรียกใช้เครื่องมือทั้งหมดถูกมองว่าเป็น “บล็อกการกระทำ” ที่สมบูรณ์ และได้รับการปรับปรุงและขัดเกลาให้ดีขึ้นซ้ำๆ ในกระบวนการสร้างแบบ diffusion
ในทางตรงกันข้าม กระบวนการสร้างของ AR Agent คล้ายกับสายการผลิตที่เดินหน้าไปข้างหน้าโดยไม่สามารถย้อนกลับได้: ชื่อฟังก์ชัน → พารามิเตอร์ 1 → พารามิเตอร์ 2 → … หาก token ที่อยู่ด้านหน้าของลำดับมีข้อผิดพลาดทางไวยากรณ์หรือตรรกะ โมเดล AR ไม่สามารถแก้ไขได้ในที่นั้น และต้องหวังว่าจะได้รับการแก้ไขผ่านการเรียกใช้เครื่องมือในรอบถัดไป

สาม. วิวัฒนาการของความสนใจ: ล็อกการตัดสินใจที่แน่นอนได้อย่างรวดเร็ว
ผ่านการวิเคราะห์วิวัฒนาการของเอนโทรปีของโทเค็นที่ถูกปกปิด (Mask Token) ในกระบวนการ diffusion และรูปแบบความเข้มข้นและการกระจายของความสนใจในระยะต่างๆ การวิจัยได้ข้อสรุปที่ลึกซึ้งยิ่งขึ้น:
* ในกระบวนการสร้างของ DLLM ความไม่แน่นอนสูงจะกระจุกตัว主要集中在ระยะการตัดสินใจในตอนต้น
* เมื่อการตัดสินใจระดับสูง (เช่น จะเรียกใช้เครื่องมือใด ขั้นตอนหลักของงาน) ก่อตัวขึ้น การสร้างรายละเอียดในภายหลังจะแสดงความเร็วในการบรรจบกันที่สูงมาก
* กลไกความสนใจของมันแสดงรูปแบบการประสานงาน“ระดับโลก → ระดับท้องถิ่น” ที่ชัดเจนกว่า ซึ่งแตกต่างอย่างชัดเจนกับโมเดล AR ที่มุ่งเน้นการตัดสินใจที่ดีที่สุดในระดับท้องถิ่นของ token เป็นหลัก
แน่นอน การวิจัยยังชี้ให้เห็นถึงข้อบกพร่องของ DLLM อย่างตรงไปตรงมา: โมเดล Diffusion มีความไวต่อข้อผิดพลาดรูปแบบของผลลัพธ์ที่มีโครงสร้างมากขึ้นเมื่อประมวลผลสถานการณ์ของ Agent
การออกแบบกลยุทธ์ Mask และกลยุทธ์ Attention ที่สอดคล้องกันระหว่างการฝึกและการอนุมาน (เช่น การทำลายบริบทแบบสะอาด (context clean corruption) และหน้ากากความสนใจที่ตระหนักถึงช่วง (span-aware attention mask)) สามารถเพิ่มประสิทธิภาพการให้เหตุผลของเอเจนต์โมเดลภาษาแบบ Diffusion ได้อย่างมีประสิทธิภาพ
นี่หมายความว่า เพื่อปลดปล่อยศักยภาพของโมเดลภาษาแบบ Diffusion อย่างเต็มที่ เราไม่สามารถมองว่ามันเป็นเพียงแค่ตัวแทนของโมเดล Autoregressive ได้อย่างง่ายๆ แต่จำเป็นต้องปรับแนวอินเทอร์เฟซและเป้าหมายการฝึกฝนใหม่ ให้สอดคล้องกับสถานการณ์การโต้ตอบของเอเจนต์
รูปแบบการสร้างปรับเปลี่ยนมิติการออกแบบเอเจนต์
งานนี้ให้มุมมองใหม่แก่งานวิจัยด้านเอเจนต์ —
รูปแบบการสร้างเอง จะหล่อหลอมวิธีการทำงานของเอเจนต์อย่างลึกซึ้ง
ภายใต้ฐานข้อมูลและกรอบงานทางเทคนิคที่เหมือนกันทุกประการ เอเจนต์โมเดลภาษาแบบ Diffusion ได้แสดงประสิทธิภาพการดำเนินงานที่เหนือกว่าโมเดล Autoregressive แบบดั้งเดิม:
- สร้างแผนระดับโลกได้เร็วกว่า
- เดินทางอ้อมน้อยกว่า
- ทำงานเสร็จเร็วขึ้น
สิ่งนี้ทำให้โมเดล Diffusion ไม่ใช่แค่ “โมเดลการสร้างอีกแบบหนึ่ง” อีกต่อไป แต่กลายเป็นมิติการออกแบบใหม่สำหรับการสร้างเอเจนต์ที่มีประสิทธิภาพสูง
การสาธิตด้านล่างแสดงให้เห็นอย่างชัดเจนถึงข้อได้เปรียบด้านประสิทธิภาพที่โดดเด่นของเอเจนต์โมเดลภาษาแบบ Diffusion:

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22976
