ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

2 hours ago • โครงการโอเพนซอร์ส • 8 views

บอกลา “ความผิดพลาดในการใช้งานเว็บ”: Open Source Web Agent Avenir-Web ทำลายสถิติใหม่ อัตราความสำเร็จพุ่งถึง 53.7%

ทีมวิจัยร่วมจาก University College London (UCL), Princeton University และ University of Edinburgh เพิ่งเปิดตัวเฟรมเวิร์กโอเพนซอร์สชื่อ Avenir-Web ซึ่งทำให้โมเดลมัลติโมดัลที่มีอยู่สามารถทำงานบนเว็บได้เหมือนมนุษย์ โดยไม่ต้องฝึกอบรมเพิ่มเติมใดๆ

ไม่ต้องเทรน! Avenir-Web เอเจนต์เว็บโอเพนซอร์สทำลายสถิติ อัตราความสำเร็จ 53.7% ใกล้เคียง OpenAI Operator

Web Agent ที่มีอยู่ในปัจจุบันมักประสบปัญหาต่างๆ เช่น “ระบุตำแหน่งไม่แม่นยำ” “ขาดความรู้ทั่วไป” หรือ “ลืมเป้าหมายระหว่างการทำงาน” เมื่อต้องจัดการกับโครงสร้างเว็บที่ซับซ้อน (เช่น iframe และ Shadow DOM)

โดยเฉพาะอย่างยิ่งในงานระยะยาว (Long-horizon tasks) เนื่องจาก Agent ขาดความรู้เกี่ยวกับขั้นตอนการทำงานของเว็บไซต์เฉพาะ จึงมักต้องสำรวจแบบสุ่มสี่สุ่มห้า ส่งผลให้อัตราความสำเร็จโดยรวมต่ำ

Avenir-Web โดยพื้นฐานแล้วคือชุด Agent Harness แบบโอเพนซอร์ส ซึ่งเป็นเฟรมเวิร์กที่ไม่ต้องฝึกอบรม (training-free) ในการทดสอบเกณฑ์มาตรฐาน ONLINE-MIND2WEB สามารถทำอัตราความสำเร็จได้ 53.7% สร้างสถิติใหม่ที่ดีที่สุดในแวดวงโอเพนซอร์ส

ความท้าทายหลักสามประการที่ Web Agent เผชิญ

ทีมวิจัยชี้ให้เห็นถึงปัญหาคอขวดสำคัญสามประการที่ Web Agent มักพบในการใช้งานจริง:

การระบุตำแหน่งองค์ประกอบไม่แม่นยำ (Inaccurate Grounding): พึ่งพา DOM Tree มากเกินไป และมักล้มเหลวเมื่อต้องจัดการกับโครงสร้างที่ไม่ได้มาตรฐาน เช่น Canvas หรือ iframe ที่ซ้อนกัน
ขาดความรู้เกี่ยวกับขั้นตอนเฉพาะของเว็บไซต์ (Site-specific Procedural Knowledge): Agent ไม่สามารถค้นหา “คู่มือผู้ใช้” หรือ “คำแนะนำ” ได้เหมือนมนุษย์ ต้องลองผิดลองถูกบนหน้าเว็บแบบสุ่มสี่สุ่มห้า
การติดตามและความจำในงานระยะยาวไม่เสถียร (Unstable Memory): เมื่อทำงานข้ามหน้าเว็บ มักเกิด “การเลื่อนไหลของเส้นทาง” (navigation drift) และติดอยู่ในวงจรข้อผิดพลาดซ้ำซาก

เพื่อแก้ไขปัญหาข้างต้น Avenir-Web ได้เสนอเฟรมเวิร์ก Agent Harness แบบโมดูลาร์ เนื่องจากเป็น Harness ไม่ใช่โมเดลที่ต้องฝึกใหม่ จึงมีข้อได้เปรียบในการปรับใช้แบบไม่ต้องฝึกอบรม (training-free) โดยธรรมชาติ

การออกแบบหลักของ Avenir-Web Agent Harness

การวางแผนเลียนแบบประสบการณ์ (Experience-Imitation Planning, EIP)

มนุษย์เมื่อใช้งานเว็บไซต์ที่ไม่คุ้นเคย มักจะค้นหาคำแนะนำก่อน EIP เลียนแบบพฤติกรรมนี้: ก่อนเริ่มงาน มันจะใช้ความสามารถในการค้นหาออนไลน์ของโมเดลขนาดใหญ่ เพื่อค้นหาศูนย์ช่วยเหลือ ฟอรัม หรือคู่มือการใช้งานของเว็บไซต์เป้าหมาย และแปลงข้อมูลนี้เป็นแผนผังกลยุทธ์ระดับสูง

วิธีการ “อ่านคำแนะนำก่อนลงมือทำ” นี้ช่วยลดเวลาการสำรวจแบบสุ่มของ Agent ได้อย่างมาก และหลีกเลี่ยงข้อผิดพลาดในการนำทางที่ไม่อาจย้อนกลับได้อย่างมีประสิทธิภาพ

ผู้เชี่ยวชาญการระบุตำแหน่งแบบผสม (Mixture of Grounding Experts, MoGE)

MoGE ใช้หลักการ “มองเห็นก่อน” โดยมองทั้งหน้าเว็บเป็นผืนผ้าใบภาพเดียว และโต้ตอบโดยตรงตามพิกัด วิธีการนี้แก้ปัญหาที่ Agent ที่พึ่งพา DOM Tree มักเจอ เช่น iframe ที่ซ้อนกันได้โดยธรรมชาติ

เมื่อข้อมูลภาพไม่เพียงพอสำหรับการระบุตำแหน่งที่แม่นยำ MoGE จะเรียกใช้การอนุมานโครงสร้างเชิงความหมายเป็นแผนสำรอง กลยุทธ์แบบผสม “พิกัดภาพ + แผนสำรองเชิงความหมาย” นี้ทำให้ Agent มีความทนทานสูงในการจัดการกับรูปแบบ UI ต่างๆ

รายการตรวจสอบติดตามงาน (Task-Tracking Checklist)

เพื่อป้องกันไม่ให้ Agent “หลงทาง” ระหว่างปฏิบัติงาน ทีมวิจัยได้นำรายการตรวจสอบงานที่มีโครงสร้างมาใช้ โดยแบ่งคำสั่งที่ซับซ้อนออกเป็นเหตุการณ์สำคัญ (Milestones) ที่ตรวจสอบได้ 2 ถึง 6 เหตุการณ์ และหลังจากแต่ละขั้นตอน จะใช้โมเดลน้ำหนักเบา (เช่น Qwen-3-VL-8B) อัปเดตสถานะของแต่ละเหตุการณ์สำคัญแบบเรียลไทม์ (Pending, In Progress, Completed, Failed)

ความจำแบบปรับตัว (Adaptive Memory)

เพื่อแก้ปัญหาภาพหลอนที่เกิดจากบริบทที่ยาวเกินไป Avenir-Web ใช้กลไกการสรุปแบบแบ่งส่วนแบบเรียกซ้ำ (Chunked Recursive Summarization) โดยรักษาหน้าต่างเลื่อนที่มีขนาดคงที่ สกัดการดำเนินการในอดีตเป็นสถานะความจำเชิงนามธรรม และตั้งค่า “บัฟเฟอร์สะท้อนข้อผิดพลาด” (Failure Reflection Buffer) โดยเฉพาะ เพื่อให้แน่ใจว่า Agent สามารถเรียนรู้จากข้อผิดพลาดในอดีตได้

ผลการทดลอง

ทีมวิจัยได้ทำการทดสอบบนเกณฑ์มาตรฐานที่เข้มงวด ONLINE-MIND2WEB ซึ่งประกอบด้วยเว็บไซต์จริง 136 แห่งและงานเรียลไทม์ 300 รายการ ผลลัพธ์แสดงให้เห็นว่า Avenir-Web ที่ใช้ Gemini 3 Pro เป็นแกนหลัก มีอัตราความสำเร็จ 53.7% ซึ่งเพิ่มขึ้น 23.7 จุดเปอร์เซ็นต์เมื่อเทียบกับ SeeAct (30.0%) ซึ่งเป็นเกณฑ์มาตรฐานโอเพนซอร์สก่อนหน้านี้

ที่น่าทึ่งยิ่งกว่านั้นคือ Avenir-Web มีประสิทธิภาพเหนือกว่าโมเดลปิดอย่าง Claude Computer Use 3.7 (47.3%) และ ACT-1 (52.7%) และเริ่มเข้าใกล้ระดับของ Agent เชิงพาณิชย์ชั้นนำอย่าง OpenAI Operator (58.3%)

แม้จะใช้ Qwen-3-VL-8B ซึ่งเป็นโอเพนซอร์สและน้ำหนักเบาเป็นแกนหลัก Avenir-Web ก็ยังคงทำอัตราความสำเร็จได้ 25.7% ใกล้เคียงกับ Agent หนักรุ่นแรกๆ ที่ใช้ GPT-4o เช่น Browser Use (26.0%) และ Agent-E (27.0%) ซึ่งแสดงให้เห็นว่าในฐานะชุด Agent Harness โอเพนซอร์สที่สามารถเชื่อมต่อกับโมเดลที่มีอยู่ได้โดยไม่ต้องฝึกอบรมเพิ่มเติม Avenir-Web มีคุณค่าในทางปฏิบัติอย่างมากแม้ในโมเดลน้ำหนักเบา

การทดสอบแบบตัดทอน: โมดูลใดสำคัญที่สุด?

นักวิจัยได้ตรวจสอบการมีส่วนร่วมของแต่ละโมดูลผ่านการทดสอบแบบตัดทอน ผลลัพธ์แสดงให้เห็นว่า:

เมื่อตัด EIP (การเลียนแบบประสบการณ์) ออก อัตราความสำเร็จลดลงจาก 48.0% เหลือ 36.0% ลดลงถึง 12 จุดเปอร์เซ็นต์ ซึ่งพิสูจน์ว่าความรู้ภายนอกมีความสำคัญอย่างยิ่งต่องานบนเว็บ
เมื่อตัด MoGE (การระบุตำแหน่งแบบผสม) ออก อัตราความสำเร็จลดลงจาก 48.0% เหลือ 40.0% เมื่อตัดความจำแบบปรับตัวออก อัตราความสำเร็จลดลงเหลือ 42.0% หรือแม้แต่ 36.0% ซึ่งแสดงให้เห็นว่าโมดูลการระบุตำแหน่งและความจำนั้นขาดไม่ได้

สำหรับงานระยะยาว กลไกการสรุปแบบเรียกซ้ำช่วยหลีกเลี่ยงความสับสนในการตัดสินใจที่เกิดจากบริเวณล้น

ทีมวิจัยระบุว่า Avenir-Web เป็นก้าวสำคัญสู่การสร้างผู้ช่วยดิจิทัลอเนกประสงค์ที่มีความน่าเชื่อถือระดับมนุษย์ ปัจจุบันโครงการนี้เป็นโอเพนซอร์สแล้ว นักพัฒนาสามารถนำชุด Agent Harness นี้ไปประยุกต์ใช้ในระบบอัตโนมัติ การทดสอบซอฟต์แวร์ และผู้ช่วยอัจฉริยะเพื่อการสำรวจเพิ่มเติม โดยไม่ต้องฝึกโมเดลใหม่

ลิงก์เอกสาร: https://arxiv.org/abs/2602.02468
ลิงก์โค้ด: https://github.com/Princeton-AI2-Lab/Avenir-Web

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/32696

Like (0)

0 0

โมเดลโอเพนซอร์ส SenseNova U1 จาก商汤: ยักษ์ใหญ่แห่งการสร้างภาพและข้อความต่อเนื่องที่ปรับใช้ในเครื่องท้องถิ่น

Previous 2 hours ago

การทดสอบฟีเจอร์ภาพ DeepSeek V4 แบบค่อยเป็นค่อยไป: ความสามารถในการเข้าใจภาพจริงเปิดให้บริการแล้ว ต่อจิ๊กซอว์มัลติโมดัลให้สมบูรณ์

Next 2 hours ago

โครงการโอเพนซอร์ส

ทำลายเกาะโมดอล: โมเดลพื้นฐานการออกแบบโมเลกุลแบบโมดอลเต็มรูปแบบ ODesign ให้ AI ออกแบบโมเลกุลเหมือนกับการออกแบบภาษา

ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าที่น่าประทับใจที่สุดในสาขา AI4Bio คงหนีไม่พ้น AlphaFold ที่พัฒนาโดย Google DeepMind เทคโนโลยีนี้ทำให้ AI สามารถ “มองเห็น” โครงสร้างส…

10 hours ago
15000
โครงการโอเพนซอร์ส

MiroThinker: AI Agent วิจัยขั้นสูงแบบโอเพนซอร์ส ให้กุ้งเครย์ฟิชช่วยคุณทำวิจัยเชิงลึก

เมื่อต้องจัดการกับงานที่ซับซ้อนซึ่งต้องการการค้นหาอย่างลึกซึ้ง การเปรียบเทียบจากหลายฝ่าย และการตรวจสอบข้ามเพื่อให้ได้ข้อสรุปที่เป็นระบบ ฉันจะใช้ MiroThinker นี่คือ AI Agent ประเภทว…

2026年3月19日
203000
คลังสินค้า AI

4 โครงการ AI แบบโอเพนซอร์สที่น่าทึ่ง: ตั้งแต่การสร้างแผนภูมิใหม่ไปจนถึงผู้ช่วยเดสก์ท็อป ปลดล็อกประสบการณ์อัจฉริยะใหม่

01 แปลงรูปภาพและ PDF เป็นรูปแบบที่แก้ไขได้ Edit Banana เป็นโครงการโอเพนซอร์สที่พัฒนาโดยมหาวิทยาลัยเทคโนโลยีปักกิ่ง มันสามารถแปลงแผนภูมิสถิติ แผนผังลำดับงานในรูปแบบรูปภาพหรือ PDF ที…

2026年2月21日
324000
โครงการโอเพนซอร์ส

จากนิยายวิทยาศาสตร์สู่ความเป็นจริง: โครงการ autoresearch ของ Karpathy ทำให้ AI วิจัยอิสระเป็นไปได้อย่างไร

คำสำคัญ: การวิจัย AI อัตโนมัติ, แบบจำลองภาษาขนาดใหญ่, การวิวัฒนาการด้วยตนเอง, การเรียนรู้ของเครื่องอัตโนมัติ, การปรับปรุงโปรแกรม ลองจินตนาการถึงสถานการณ์นี้: ครั้งหนึ่ง การวิจัย AI…

2026年3月15日
217000
โครงการโอเพนซอร์ส

OpenResearcher: ระบบท่อส่งข้อมูลสังเคราะห์เส้นทางการวิจัยเชิงลึกแบบออฟไลน์โอเพนซอร์สตัวแรก ฝึกโมเดล 30B ให้เหนือกว่า GPT-4.1 และ Claude-4-Opus

การฝึกฝนเอเจนต์วิจัยเชิงลึกที่สามารถดำเนินการ “ค้นหา → เยี่ยมชม → ใช้เหตุผล” ได้เหมือนนักวิจัยมนุษย์นั้น อุปสรรคหลักมักไม่ได้อยู่ที่ความสามารถของโมเดลเอง แต่กลับอยู่ที่…

2026年3月29日
163000