บอกลา “ความผิดพลาดในการใช้งานเว็บ”: Open Source Web Agent Avenir-Web ทำลายสถิติใหม่ อัตราความสำเร็จพุ่งถึง 53.7%
ทีมวิจัยร่วมจาก University College London (UCL), Princeton University และ University of Edinburgh เพิ่งเปิดตัวเฟรมเวิร์กโอเพนซอร์สชื่อ Avenir-Web ซึ่งทำให้โมเดลมัลติโมดัลที่มีอยู่สามารถทำงานบนเว็บได้เหมือนมนุษย์ โดยไม่ต้องฝึกอบรมเพิ่มเติมใดๆ

Web Agent ที่มีอยู่ในปัจจุบันมักประสบปัญหาต่างๆ เช่น “ระบุตำแหน่งไม่แม่นยำ” “ขาดความรู้ทั่วไป” หรือ “ลืมเป้าหมายระหว่างการทำงาน” เมื่อต้องจัดการกับโครงสร้างเว็บที่ซับซ้อน (เช่น iframe และ Shadow DOM)
โดยเฉพาะอย่างยิ่งในงานระยะยาว (Long-horizon tasks) เนื่องจาก Agent ขาดความรู้เกี่ยวกับขั้นตอนการทำงานของเว็บไซต์เฉพาะ จึงมักต้องสำรวจแบบสุ่มสี่สุ่มห้า ส่งผลให้อัตราความสำเร็จโดยรวมต่ำ
Avenir-Web โดยพื้นฐานแล้วคือชุด Agent Harness แบบโอเพนซอร์ส ซึ่งเป็นเฟรมเวิร์กที่ไม่ต้องฝึกอบรม (training-free) ในการทดสอบเกณฑ์มาตรฐาน ONLINE-MIND2WEB สามารถทำอัตราความสำเร็จได้ 53.7% สร้างสถิติใหม่ที่ดีที่สุดในแวดวงโอเพนซอร์ส

ความท้าทายหลักสามประการที่ Web Agent เผชิญ
ทีมวิจัยชี้ให้เห็นถึงปัญหาคอขวดสำคัญสามประการที่ Web Agent มักพบในการใช้งานจริง:
- การระบุตำแหน่งองค์ประกอบไม่แม่นยำ (Inaccurate Grounding): พึ่งพา DOM Tree มากเกินไป และมักล้มเหลวเมื่อต้องจัดการกับโครงสร้างที่ไม่ได้มาตรฐาน เช่น Canvas หรือ iframe ที่ซ้อนกัน
- ขาดความรู้เกี่ยวกับขั้นตอนเฉพาะของเว็บไซต์ (Site-specific Procedural Knowledge): Agent ไม่สามารถค้นหา “คู่มือผู้ใช้” หรือ “คำแนะนำ” ได้เหมือนมนุษย์ ต้องลองผิดลองถูกบนหน้าเว็บแบบสุ่มสี่สุ่มห้า
- การติดตามและความจำในงานระยะยาวไม่เสถียร (Unstable Memory): เมื่อทำงานข้ามหน้าเว็บ มักเกิด “การเลื่อนไหลของเส้นทาง” (navigation drift) และติดอยู่ในวงจรข้อผิดพลาดซ้ำซาก
เพื่อแก้ไขปัญหาข้างต้น Avenir-Web ได้เสนอเฟรมเวิร์ก Agent Harness แบบโมดูลาร์ เนื่องจากเป็น Harness ไม่ใช่โมเดลที่ต้องฝึกใหม่ จึงมีข้อได้เปรียบในการปรับใช้แบบไม่ต้องฝึกอบรม (training-free) โดยธรรมชาติ
การออกแบบหลักของ Avenir-Web Agent Harness

การวางแผนเลียนแบบประสบการณ์ (Experience-Imitation Planning, EIP)
มนุษย์เมื่อใช้งานเว็บไซต์ที่ไม่คุ้นเคย มักจะค้นหาคำแนะนำก่อน EIP เลียนแบบพฤติกรรมนี้: ก่อนเริ่มงาน มันจะใช้ความสามารถในการค้นหาออนไลน์ของโมเดลขนาดใหญ่ เพื่อค้นหาศูนย์ช่วยเหลือ ฟอรัม หรือคู่มือการใช้งานของเว็บไซต์เป้าหมาย และแปลงข้อมูลนี้เป็นแผนผังกลยุทธ์ระดับสูง
วิธีการ “อ่านคำแนะนำก่อนลงมือทำ” นี้ช่วยลดเวลาการสำรวจแบบสุ่มของ Agent ได้อย่างมาก และหลีกเลี่ยงข้อผิดพลาดในการนำทางที่ไม่อาจย้อนกลับได้อย่างมีประสิทธิภาพ

ผู้เชี่ยวชาญการระบุตำแหน่งแบบผสม (Mixture of Grounding Experts, MoGE)
MoGE ใช้หลักการ “มองเห็นก่อน” โดยมองทั้งหน้าเว็บเป็นผืนผ้าใบภาพเดียว และโต้ตอบโดยตรงตามพิกัด วิธีการนี้แก้ปัญหาที่ Agent ที่พึ่งพา DOM Tree มักเจอ เช่น iframe ที่ซ้อนกันได้โดยธรรมชาติ
เมื่อข้อมูลภาพไม่เพียงพอสำหรับการระบุตำแหน่งที่แม่นยำ MoGE จะเรียกใช้การอนุมานโครงสร้างเชิงความหมายเป็นแผนสำรอง กลยุทธ์แบบผสม “พิกัดภาพ + แผนสำรองเชิงความหมาย” นี้ทำให้ Agent มีความทนทานสูงในการจัดการกับรูปแบบ UI ต่างๆ

รายการตรวจสอบติดตามงาน (Task-Tracking Checklist)
เพื่อป้องกันไม่ให้ Agent “หลงทาง” ระหว่างปฏิบัติงาน ทีมวิจัยได้นำรายการตรวจสอบงานที่มีโครงสร้างมาใช้ โดยแบ่งคำสั่งที่ซับซ้อนออกเป็นเหตุการณ์สำคัญ (Milestones) ที่ตรวจสอบได้ 2 ถึง 6 เหตุการณ์ และหลังจากแต่ละขั้นตอน จะใช้โมเดลน้ำหนักเบา (เช่น Qwen-3-VL-8B) อัปเดตสถานะของแต่ละเหตุการณ์สำคัญแบบเรียลไทม์ (Pending, In Progress, Completed, Failed)

ความจำแบบปรับตัว (Adaptive Memory)
เพื่อแก้ปัญหาภาพหลอนที่เกิดจากบริบทที่ยาวเกินไป Avenir-Web ใช้กลไกการสรุปแบบแบ่งส่วนแบบเรียกซ้ำ (Chunked Recursive Summarization) โดยรักษาหน้าต่างเลื่อนที่มีขนาดคงที่ สกัดการดำเนินการในอดีตเป็นสถานะความจำเชิงนามธรรม และตั้งค่า “บัฟเฟอร์สะท้อนข้อผิดพลาด” (Failure Reflection Buffer) โดยเฉพาะ เพื่อให้แน่ใจว่า Agent สามารถเรียนรู้จากข้อผิดพลาดในอดีตได้

ผลการทดลอง
ทีมวิจัยได้ทำการทดสอบบนเกณฑ์มาตรฐานที่เข้มงวด ONLINE-MIND2WEB ซึ่งประกอบด้วยเว็บไซต์จริง 136 แห่งและงานเรียลไทม์ 300 รายการ ผลลัพธ์แสดงให้เห็นว่า Avenir-Web ที่ใช้ Gemini 3 Pro เป็นแกนหลัก มีอัตราความสำเร็จ 53.7% ซึ่งเพิ่มขึ้น 23.7 จุดเปอร์เซ็นต์เมื่อเทียบกับ SeeAct (30.0%) ซึ่งเป็นเกณฑ์มาตรฐานโอเพนซอร์สก่อนหน้านี้

ที่น่าทึ่งยิ่งกว่านั้นคือ Avenir-Web มีประสิทธิภาพเหนือกว่าโมเดลปิดอย่าง Claude Computer Use 3.7 (47.3%) และ ACT-1 (52.7%) และเริ่มเข้าใกล้ระดับของ Agent เชิงพาณิชย์ชั้นนำอย่าง OpenAI Operator (58.3%)
แม้จะใช้ Qwen-3-VL-8B ซึ่งเป็นโอเพนซอร์สและน้ำหนักเบาเป็นแกนหลัก Avenir-Web ก็ยังคงทำอัตราความสำเร็จได้ 25.7% ใกล้เคียงกับ Agent หนักรุ่นแรกๆ ที่ใช้ GPT-4o เช่น Browser Use (26.0%) และ Agent-E (27.0%) ซึ่งแสดงให้เห็นว่าในฐานะชุด Agent Harness โอเพนซอร์สที่สามารถเชื่อมต่อกับโมเดลที่มีอยู่ได้โดยไม่ต้องฝึกอบรมเพิ่มเติม Avenir-Web มีคุณค่าในทางปฏิบัติอย่างมากแม้ในโมเดลน้ำหนักเบา
การทดสอบแบบตัดทอน: โมดูลใดสำคัญที่สุด?
นักวิจัยได้ตรวจสอบการมีส่วนร่วมของแต่ละโมดูลผ่านการทดสอบแบบตัดทอน ผลลัพธ์แสดงให้เห็นว่า:
- เมื่อตัด EIP (การเลียนแบบประสบการณ์) ออก อัตราความสำเร็จลดลงจาก 48.0% เหลือ 36.0% ลดลงถึง 12 จุดเปอร์เซ็นต์ ซึ่งพิสูจน์ว่าความรู้ภายนอกมีความสำคัญอย่างยิ่งต่องานบนเว็บ
- เมื่อตัด MoGE (การระบุตำแหน่งแบบผสม) ออก อัตราความสำเร็จลดลงจาก 48.0% เหลือ 40.0% เมื่อตัดความจำแบบปรับตัวออก อัตราความสำเร็จลดลงเหลือ 42.0% หรือแม้แต่ 36.0% ซึ่งแสดงให้เห็นว่าโมดูลการระบุตำแหน่งและความจำนั้นขาดไม่ได้
สำหรับงานระยะยาว กลไกการสรุปแบบเรียกซ้ำช่วยหลีกเลี่ยงความสับสนในการตัดสินใจที่เกิดจากบริเวณล้น

ทีมวิจัยระบุว่า Avenir-Web เป็นก้าวสำคัญสู่การสร้างผู้ช่วยดิจิทัลอเนกประสงค์ที่มีความน่าเชื่อถือระดับมนุษย์ ปัจจุบันโครงการนี้เป็นโอเพนซอร์สแล้ว นักพัฒนาสามารถนำชุด Agent Harness นี้ไปประยุกต์ใช้ในระบบอัตโนมัติ การทดสอบซอฟต์แวร์ และผู้ช่วยอัจฉริยะเพื่อการสำรวจเพิ่มเติม โดยไม่ต้องฝึกโมเดลใหม่
- ลิงก์เอกสาร: https://arxiv.org/abs/2602.02468
- ลิงก์โค้ด: https://github.com/Princeton-AI2-Lab/Avenir-Web
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/32696
