ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

บอกลา “ความผิดพลาดในการใช้งานเว็บ”: Open Source Web Agent Avenir-Web ทำลายสถิติใหม่ อัตราความสำเร็จพุ่งถึง 53.7%

ทีมวิจัยร่วมจาก University College London (UCL), Princeton University และ University of Edinburgh เพิ่งเปิดตัวเฟรมเวิร์กโอเพนซอร์สชื่อ Avenir-Web ซึ่งทำให้โมเดลมัลติโมดัลที่มีอยู่สามารถทำงานบนเว็บได้เหมือนมนุษย์ โดยไม่ต้องฝึกอบรมเพิ่มเติมใดๆ

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

Web Agent ที่มีอยู่ในปัจจุบันมักประสบปัญหาต่างๆ เช่น “ระบุตำแหน่งไม่แม่นยำ” “ขาดความรู้ทั่วไป” หรือ “ลืมเป้าหมายระหว่างการทำงาน” เมื่อต้องจัดการกับโครงสร้างเว็บที่ซับซ้อน (เช่น iframe และ Shadow DOM)

โดยเฉพาะอย่างยิ่งในงานระยะยาว (Long-horizon tasks) เนื่องจาก Agent ขาดความรู้เกี่ยวกับขั้นตอนการทำงานของเว็บไซต์เฉพาะ จึงมักต้องสำรวจแบบสุ่มสี่สุ่มห้า ส่งผลให้อัตราความสำเร็จโดยรวมต่ำ

Avenir-Web โดยพื้นฐานแล้วคือชุด Agent Harness แบบโอเพนซอร์ส ซึ่งเป็นเฟรมเวิร์กที่ไม่ต้องฝึกอบรม (training-free) ในการทดสอบเกณฑ์มาตรฐาน ONLINE-MIND2WEB สามารถทำอัตราความสำเร็จได้ 53.7% สร้างสถิติใหม่ที่ดีที่สุดในแวดวงโอเพนซอร์ส

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

ความท้าทายหลักสามประการที่ Web Agent เผชิญ

ทีมวิจัยชี้ให้เห็นถึงปัญหาคอขวดสำคัญสามประการที่ Web Agent มักพบในการใช้งานจริง:

  1. การระบุตำแหน่งองค์ประกอบไม่แม่นยำ (Inaccurate Grounding): พึ่งพา DOM Tree มากเกินไป และมักล้มเหลวเมื่อต้องจัดการกับโครงสร้างที่ไม่ได้มาตรฐาน เช่น Canvas หรือ iframe ที่ซ้อนกัน
  2. ขาดความรู้เกี่ยวกับขั้นตอนเฉพาะของเว็บไซต์ (Site-specific Procedural Knowledge): Agent ไม่สามารถค้นหา “คู่มือผู้ใช้” หรือ “คำแนะนำ” ได้เหมือนมนุษย์ ต้องลองผิดลองถูกบนหน้าเว็บแบบสุ่มสี่สุ่มห้า
  3. การติดตามและความจำในงานระยะยาวไม่เสถียร (Unstable Memory): เมื่อทำงานข้ามหน้าเว็บ มักเกิด “การเลื่อนไหลของเส้นทาง” (navigation drift) และติดอยู่ในวงจรข้อผิดพลาดซ้ำซาก

เพื่อแก้ไขปัญหาข้างต้น Avenir-Web ได้เสนอเฟรมเวิร์ก Agent Harness แบบโมดูลาร์ เนื่องจากเป็น Harness ไม่ใช่โมเดลที่ต้องฝึกใหม่ จึงมีข้อได้เปรียบในการปรับใช้แบบไม่ต้องฝึกอบรม (training-free) โดยธรรมชาติ

การออกแบบหลักของ Avenir-Web Agent Harness

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

การวางแผนเลียนแบบประสบการณ์ (Experience-Imitation Planning, EIP)

มนุษย์เมื่อใช้งานเว็บไซต์ที่ไม่คุ้นเคย มักจะค้นหาคำแนะนำก่อน EIP เลียนแบบพฤติกรรมนี้: ก่อนเริ่มงาน มันจะใช้ความสามารถในการค้นหาออนไลน์ของโมเดลขนาดใหญ่ เพื่อค้นหาศูนย์ช่วยเหลือ ฟอรัม หรือคู่มือการใช้งานของเว็บไซต์เป้าหมาย และแปลงข้อมูลนี้เป็นแผนผังกลยุทธ์ระดับสูง

วิธีการ “อ่านคำแนะนำก่อนลงมือทำ” นี้ช่วยลดเวลาการสำรวจแบบสุ่มของ Agent ได้อย่างมาก และหลีกเลี่ยงข้อผิดพลาดในการนำทางที่ไม่อาจย้อนกลับได้อย่างมีประสิทธิภาพ

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

ผู้เชี่ยวชาญการระบุตำแหน่งแบบผสม (Mixture of Grounding Experts, MoGE)

MoGE ใช้หลักการ “มองเห็นก่อน” โดยมองทั้งหน้าเว็บเป็นผืนผ้าใบภาพเดียว และโต้ตอบโดยตรงตามพิกัด วิธีการนี้แก้ปัญหาที่ Agent ที่พึ่งพา DOM Tree มักเจอ เช่น iframe ที่ซ้อนกันได้โดยธรรมชาติ

เมื่อข้อมูลภาพไม่เพียงพอสำหรับการระบุตำแหน่งที่แม่นยำ MoGE จะเรียกใช้การอนุมานโครงสร้างเชิงความหมายเป็นแผนสำรอง กลยุทธ์แบบผสม “พิกัดภาพ + แผนสำรองเชิงความหมาย” นี้ทำให้ Agent มีความทนทานสูงในการจัดการกับรูปแบบ UI ต่างๆ

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

รายการตรวจสอบติดตามงาน (Task-Tracking Checklist)

เพื่อป้องกันไม่ให้ Agent “หลงทาง” ระหว่างปฏิบัติงาน ทีมวิจัยได้นำรายการตรวจสอบงานที่มีโครงสร้างมาใช้ โดยแบ่งคำสั่งที่ซับซ้อนออกเป็นเหตุการณ์สำคัญ (Milestones) ที่ตรวจสอบได้ 2 ถึง 6 เหตุการณ์ และหลังจากแต่ละขั้นตอน จะใช้โมเดลน้ำหนักเบา (เช่น Qwen-3-VL-8B) อัปเดตสถานะของแต่ละเหตุการณ์สำคัญแบบเรียลไทม์ (Pending, In Progress, Completed, Failed)

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

ความจำแบบปรับตัว (Adaptive Memory)

เพื่อแก้ปัญหาภาพหลอนที่เกิดจากบริบทที่ยาวเกินไป Avenir-Web ใช้กลไกการสรุปแบบแบ่งส่วนแบบเรียกซ้ำ (Chunked Recursive Summarization) โดยรักษาหน้าต่างเลื่อนที่มีขนาดคงที่ สกัดการดำเนินการในอดีตเป็นสถานะความจำเชิงนามธรรม และตั้งค่า “บัฟเฟอร์สะท้อนข้อผิดพลาด” (Failure Reflection Buffer) โดยเฉพาะ เพื่อให้แน่ใจว่า Agent สามารถเรียนรู้จากข้อผิดพลาดในอดีตได้

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

ผลการทดลอง

ทีมวิจัยได้ทำการทดสอบบนเกณฑ์มาตรฐานที่เข้มงวด ONLINE-MIND2WEB ซึ่งประกอบด้วยเว็บไซต์จริง 136 แห่งและงานเรียลไทม์ 300 รายการ ผลลัพธ์แสดงให้เห็นว่า Avenir-Web ที่ใช้ Gemini 3 Pro เป็นแกนหลัก มีอัตราความสำเร็จ 53.7% ซึ่งเพิ่มขึ้น 23.7 จุดเปอร์เซ็นต์เมื่อเทียบกับ SeeAct (30.0%) ซึ่งเป็นเกณฑ์มาตรฐานโอเพนซอร์สก่อนหน้านี้

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

ที่น่าทึ่งยิ่งกว่านั้นคือ Avenir-Web มีประสิทธิภาพเหนือกว่าโมเดลปิดอย่าง Claude Computer Use 3.7 (47.3%) และ ACT-1 (52.7%) และเริ่มเข้าใกล้ระดับของ Agent เชิงพาณิชย์ชั้นนำอย่าง OpenAI Operator (58.3%)

แม้จะใช้ Qwen-3-VL-8B ซึ่งเป็นโอเพนซอร์สและน้ำหนักเบาเป็นแกนหลัก Avenir-Web ก็ยังคงทำอัตราความสำเร็จได้ 25.7% ใกล้เคียงกับ Agent หนักรุ่นแรกๆ ที่ใช้ GPT-4o เช่น Browser Use (26.0%) และ Agent-E (27.0%) ซึ่งแสดงให้เห็นว่าในฐานะชุด Agent Harness โอเพนซอร์สที่สามารถเชื่อมต่อกับโมเดลที่มีอยู่ได้โดยไม่ต้องฝึกอบรมเพิ่มเติม Avenir-Web มีคุณค่าในทางปฏิบัติอย่างมากแม้ในโมเดลน้ำหนักเบา

การทดสอบแบบตัดทอน: โมดูลใดสำคัญที่สุด?

นักวิจัยได้ตรวจสอบการมีส่วนร่วมของแต่ละโมดูลผ่านการทดสอบแบบตัดทอน ผลลัพธ์แสดงให้เห็นว่า:

  • เมื่อตัด EIP (การเลียนแบบประสบการณ์) ออก อัตราความสำเร็จลดลงจาก 48.0% เหลือ 36.0% ลดลงถึง 12 จุดเปอร์เซ็นต์ ซึ่งพิสูจน์ว่าความรู้ภายนอกมีความสำคัญอย่างยิ่งต่องานบนเว็บ
  • เมื่อตัด MoGE (การระบุตำแหน่งแบบผสม) ออก อัตราความสำเร็จลดลงจาก 48.0% เหลือ 40.0% เมื่อตัดความจำแบบปรับตัวออก อัตราความสำเร็จลดลงเหลือ 42.0% หรือแม้แต่ 36.0% ซึ่งแสดงให้เห็นว่าโมดูลการระบุตำแหน่งและความจำนั้นขาดไม่ได้

สำหรับงานระยะยาว กลไกการสรุปแบบเรียกซ้ำช่วยหลีกเลี่ยงความสับสนในการตัดสินใจที่เกิดจากบริเวณล้น

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

ทีมวิจัยระบุว่า Avenir-Web เป็นก้าวสำคัญสู่การสร้างผู้ช่วยดิจิทัลอเนกประสงค์ที่มีความน่าเชื่อถือระดับมนุษย์ ปัจจุบันโครงการนี้เป็นโอเพนซอร์สแล้ว นักพัฒนาสามารถนำชุด Agent Harness นี้ไปประยุกต์ใช้ในระบบอัตโนมัติ การทดสอบซอฟต์แวร์ และผู้ช่วยอัจฉริยะเพื่อการสำรวจเพิ่มเติม โดยไม่ต้องฝึกโมเดลใหม่

  • ลิงก์เอกสาร: https://arxiv.org/abs/2602.02468
  • ลิงก์โค้ด: https://github.com/Princeton-AI2-Lab/Avenir-Web

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/32696

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐