HyperEyes: กระบวนทัศน์ใหม่แห่งการค้นหาแบบมัลติโมดัลแบบขนาน ทำลายข้อจำกัดแบบอนุกรม เพิ่มประสิทธิภาพสูงถึง 10 เท่า

1 hour ago • ข่าวสารอุตสาหกรรม AI • 6 views

ในปัจจุบัน เอเจนต์ค้นหาแบบมัลติโมดัลโอเพนซอร์สส่วนใหญ่ถูกจำกัดด้วยกระบวนการประมวลผลแบบอนุกรม “ครอบตัด-ค้นหาใหม่” เมื่อต้องเผชิญกับเป้าหมายหลายรายการ รูปแบบนี้มักทำให้กระบวนการโต้ตอบยืดเยื้อและเสี่ยงต่อการสะสมข้อผิดพลาดแบบลูกโซ่

เพื่อก้าวข้ามอุปสรรคนี้ ทีมวิจัยเสียวหงซู (Xiaohongshu) ได้เปิดตัวโมเดลสถาปัตยกรรมใหม่ชื่อ HyperEyes โมเดลนี้รวมพื้นที่การทำงานของ “การระบุตำแหน่ง” และ “การค้นหา” เข้าด้วยกัน สร้างข้อมูลแบบขนานที่เรียนรู้ได้ และนำเสนอการเรียนรู้เสริมแรงแบบตระหนักรู้ประสิทธิภาพสองระดับ (dual-granularity efficiency-aware reinforcement learning) ด้วยการออกแบบแบบฟูลสแต็ก (full-stack) นี้ โมเดลสามารถยกระดับกระบวนทัศน์การค้นหาแบบมัลติโมดัลจาก “ค้นหาให้ลึกขึ้น” เป็นรูปแบบขนาน “ค้นหาให้กว้างขึ้น”

ลิงก์论文: https://arxiv.org/abs/2605.07177
ลิงก์โค้ด: https://github.com/DeepExperience/HyperEyes

ความเป็นมา: “กับดักแบบอนุกรม” ของเอเจนต์ค้นหาแบบมัลติโมดัล

ปัจจุบัน เอเจนต์หลักส่วนใหญ่เมื่อประมวลผลภาพที่ซับซ้อนซึ่งมีเอนทิตีหลายรายการ มักใช้กลยุทธ์ “การเรียกใช้แบบอนุกรม N รอบ” ที่ค่อนข้างยุ่งยาก

เส้นทางการประมวลผลแบบดั้งเดิมนี้ก่อให้เกิดปัญหาสามประการที่ยากจะเอาชนะ: ประการแรกคือกระบวนการโต้ตอบที่ซ้ำซ้อนอย่างมาก การสอบถามหลายเอนทิตีที่สามารถทำได้ในประโยคเดียวกลับถูกบังคับให้กลายเป็นการค้นหาเอนทิตีเดี่ยวหลายครั้ง ส่งผลให้เวลาแฝงเพิ่มขึ้นอย่างมีนัยสำคัญ ประการที่สองคือเอฟเฟกต์การขยายข้อผิดพลาด คล้ายกับโดมิโน เมื่อการระบุตำแหน่งล่วงหน้าเบี่ยงเบน ผลการค้นหาที่ตามมาทั้งหมดจะถูกปนเปื้อน สุดท้ายคือปัญหาความลำเอียงของรางวัลและการจัดสรรเครดิต (credit assignment) ที่แพร่หลายในการฝึกโมเดล

โมเดลที่มีอยู่มักใช้ “คำตอบสุดท้ายถูกต้องหรือไม่” เป็นเกณฑ์รางวัลเพียงอย่างเดียว สิ่งนี้ไม่เพียงทำให้เอเจนต์พัฒนานิสัยที่ไม่ดีในการ “ค้นหามากเกินไปอย่างรุนแรง” เพื่อแสวงหาความแม่นยำที่ผิวเผิน ซึ่งนำไปสู่สัญญาณรบกวนมากขึ้น แต่ที่ร้ายแรงกว่านั้นคือ รางวัลแบบกระจัดกระจาย (sparse reward) ที่หยาบนี้ก่อให้เกิด “การลงโทษแบบเหมารวม” ที่รุนแรง ในวิถีการสำรวจที่ล้มเหลวในที่สุด การใช้เหตุผลขั้นกลางและการเรียกใช้เครื่องมือที่ถูกต้องและมีตรรกะก็ถูกปฏิเสธทั้งหมดเช่นกัน ทำให้โมเดลไม่สามารถดึงประสบการณ์เฉพาะส่วนจากความล้มเหลวได้อย่างมีประสิทธิภาพ

วิธีการ: การปรับโฉมประสิทธิภาพแบบ “ฟูลสแตก” จากพื้นที่การกระทำ ข้อมูล ไปจนถึง RL

เพื่อให้เอเจนต์มีความสามารถภายในที่แท้จริงในการ “ลงมือครั้งเดียว เป้าหมายหลายรายการพร้อมกัน” ทีมวิจัย HyperEyes ได้ดำเนินการปรับโครงสร้างพื้นฐานใหม่ทั้งหมดจากสามมิติ: พื้นที่การกระทำ การสังเคราะห์ข้อมูล และการเรียนรู้เสริมแรง

เอเจนต์แบบดั้งเดิมมักถือว่า “การครอบตัดด้วยภาพ” และ “การค้นหาเครือข่าย” เป็นสองขั้นตอนแยกจากกัน HyperEyes ทำลายกำแพงนี้ด้วยการเสนอแผนปรับโครงสร้างพื้นที่การกระทำที่เรียกว่า “Unified Grounding as Search” (UGS) แผนนี้ใช้กรอบการระบุตำแหน่งด้วยภาพโดยตรงเป็นพารามิเตอร์ภายในของการกระทำการค้นหา ทำให้การเรียกใช้ฟังก์ชันครั้งเดียวสามารถพกพากรอบเป้าหมายหลายรายการพร้อมกันได้ การออกแบบนี้เปิดช่องทางสำหรับการทำงานพร้อมกันของหลายเป้าหมายภายในรอบการโต้ตอบเดียวในระดับกายภาพ

อย่างไรก็ตาม การมีเพียงสถาปัตยกรรมยังไม่เพียงพอ ชุมชนโอเพนซอร์สขาดข้อมูลการฝึกอบรมสำหรับ “การค้นหาแบบขนาน” มาเป็นเวลานาน ดังนั้น ทีมวิจัยจึงออกแบบชุดสายการผลิตสังเคราะห์ที่แม่นยำ ขั้นแรก พวกเขาต่อภาพหลายประเภทเข้าด้วยกันเพื่อสังเคราะห์คำถามทางภาพที่ต้องระบุตำแหน่งและค้นหาพร้อมกันจึงจะตอบได้ จากนั้น ใช้การสุ่มเดินบนกราฟ (graph random walk) เพื่อสร้างปัญหาจุดตัดที่มีข้อจำกัดหลายข้อ และกำจัดทางลัดอย่างเคร่งครัด สุดท้าย ด้วยเทคนิค Progressive Rejection Sampling (PRS) ภายใต้งบประมาณรอบที่เพิ่มขึ้นอย่างเคร่งครัด พวกเขาทำให้บริสุทธิ์ได้ข้อมูลเมล็ดพันธุ์พฤติกรรมขนาน “ไร้ความซ้ำซ้อน” จำนวน 30,000 รายการ ซึ่งแก้ปัญหาการเริ่มต้นเย็นของ SFT ของโมเดลได้อย่างสมบูรณ์แบบ

ในขั้นตอนการปรับแนว RL ที่สำคัญที่สุด HyperEyes พลิกโฉมกระบวนทัศน์ “ผลลัพธ์เท่านั้น” ของ RL แบบดั้งเดิมโดยสิ้นเชิง รางวัลแบบกระจัดกระจายแบบดั้งเดิมมักก่อให้เกิดอันตรายสองประการ: กลไกการให้รางวัลที่ขาดข้อจำกัดด้านประสิทธิภาพจะปล่อยให้โมเดลพัฒนาความเฉื่อยชาในการ “ลองผิดลองถูกซ้ำซ้อน” โดยเสียสละความเร็วในการอนุมานเพื่อแลกกับความแม่นยำ ที่แย่กว่านั้นคือ เมื่อจัดการกับงานระยะยาว การมุ่งเน้นผลลัพธ์ที่หยาบจะนำมาซึ่ง “การลงโทษแบบเหมารวม” ที่ไม่ยุติธรรมอย่างยิ่ง แม้แต่กระบวนการใช้เหตุผลขั้นกลางที่สมบูรณ์แบบก็อาจถูกทำลายได้เนื่องจากความผิดพลาดในขั้นตอนสุดท้าย ทำให้โมเดลสูญเสียทิศทางในการสำรวจที่ซับซ้อน

เพื่อแก้ปัญหานี้ ทีมงานได้เสนอกรอบการเรียนรู้เสริมแรงแบบตระหนักรู้ประสิทธิภาพสองระดับ “มหภาค + จุลภาค” อย่างสร้างสรรค์ ในระดับวิถีมหภาค ระบบได้แนะนำกลไก TRACE (Time-aware Reference-based Adaptive Cost Efficiency) นี่ไม่ใช่คำสั่งตายตัวเกี่ยวกับจำนวนขั้นตอน แต่เป็นมาตรวัดแบบไดนามิกที่ “ก้าวข้ามตนเอง” ระบบจะเปรียบเทียบประสิทธิภาพการเรียกใช้เครื่องมือปัจจุบันของโมเดลกับมาตรวัด และจะให้รางวัลก็ต่อเมื่อมีประสิทธิภาพสูงกว่ามาตรวัดเท่านั้น หลังจากแต่ละ Epoch สิ้นสุดลง ระบบจะใช้วิถีที่มีประสิทธิภาพดีที่สุดและมีจำนวนขั้นตอนน้อยที่สุดในรอบนี้เพื่อรีเฟรชและกระชับมาตรวัดให้แน่นขึ้น เช่นเดียวกับการแข่งขันกระโดดสูง คานจะถูกยกสูงขึ้นเรื่อยๆ ตามความสามารถของโมเดลที่เพิ่มขึ้น บังคับให้โมเดลบีบส่วนที่เกินออกไปอย่างต่อเนื่อง

ในระดับจุลภาคของ Token เพื่อกอบกู้ “กระบวนการขั้นกลางที่ถูกต้อง” ในวิถีที่ล้มเหลวอย่างแม่นยำ HyperEyes ได้แนะนำกลไก OPD (Intra-Policy Distillation) กลไกนี้จะทำงานก็ต่อเมื่อวิถีตอบผิดในที่สุดเท่านั้น โดยจะนำโมเดลครูขนาด 235B ที่สมบูรณ์มาใช้เพื่อให้สัญญาณการกำกับดูแลระดับ Token ที่หนาแน่นสำหรับแต่ละขั้นตอนในวิถีที่ล้มเหลว ช่วยกู้แผนขั้นกลางที่ถูกต้องแต่เดิมได้อย่างแม่นยำ

การออกแบบที่ไม่สมมาตรนี้ที่ “กลั่นเฉพาะเมื่อล้มเหลว” ช่วยหลีกเลี่ยงการบดบังสัญชาตญาณ “การทำงานพร้อมกันอย่างมีประสิทธิภาพ” ของโมเดลนักเรียนได้อย่างสมบูรณ์แบบ เมื่อประสบความสำเร็จ รางวัลมหภาคจะนำประสิทธิภาพ เมื่อล้มเหลว การกลั่นจุลภาคจะช่วยแก้ไข การประสานกันอย่างแนบเนียนระหว่างมหภาคและจุลภาคนี้ปลดปล่อยสัญชาตญาณการค้นหาพร้อมกันของโมเดลมัลติโมดัลขนาดใหญ่ได้อย่างสมบูรณ์

IMEB Benchmark: ทำให้ “ประสิทธิภาพการค้นหา” เป็นมิติการประเมินที่สำคัญ

เกณฑ์มาตรฐานมัลติโมดัลที่มีอยู่ในปัจจุบันมักมีข้อเสียที่ “ดูแค่ความแม่น ไม่ดูความเร็ว” เพื่อแก้ไขแนวทางนี้ ทีมงานได้เปิดตัว IMEB (Image Multi-Entity Benchmark) ซึ่งเป็นเกณฑ์มาตรฐานการประเมินทางภาพหลายเอนทิตีที่ท้าทายเป็นครั้งแรก ประกอบด้วย 300 รายการ

ควบคู่ไปกับสิ่งนี้ ทีมงานยังได้เสนอ “Cost-Aware Scoring” (CAS) เกณฑ์การให้คะแนนนี้ภายใต้มาตรฐานเดียวกัน จะประเมินความแม่นยำ การใช้ Token และจำนวนรอบการเรียกใช้เครื่องมือร่วมกัน โดยแปลงคุณภาพคำตอบแบบดั้งเดิมเป็น “ความหนาแน่นของข้อมูลที่มีประสิทธิผลต่อหน่วยเวลาแฝง” ซึ่งจะยับยั้งพฤติกรรมของโมเดลขนาดใหญ่ที่ใช้พลังคำนวณจำนวนมากเพื่อทำคะแนนสูงอย่างรุนแรงได้อย่างมีประสิทธิภาพ

ผลการทดลองและการค้นพบหลัก

ในการทดสอบเกณฑ์มาตรฐานหลัก 6 รายการถัดมา HyperEyes แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นและเหนือกว่าในด้านความแม่นยำและประสิทธิภาพแบบ Pareto การสร้าง SOTA โอเพนซอร์สอย่างสมบูรณ์ไม่ใช่คำกล่าวเกินจริง HyperEyes-30B มีความแม่นยำ 64.0% สูงกว่าโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุดในระดับเดียวกันอย่าง VDR ถึง 9.9% ในขณะที่จำนวนรอบการเรียกใช้เครื่องมือโดยเฉลี่ยน้อยกว่าหนึ่งในห้าของ VDR (2.2 เทียบกับ 11.6) และรุ่น 235B ยังเข้าใกล้เรือธงแบบปิดอย่าง Gemini-3.1-Pro ด้วยช่องว่างเพียง 1.1%

ในการให้คะแนนประสิทธิภาพต้นทุน CAS ที่เข้มงวดมาก รุ่น 30B มีประสิทธิภาพสูงกว่าโมเดลโอเพนซอร์สอันดับสองถึง 7.6 เท่า ซึ่งพิสูจน์ว่าความหนาแน่นของข้อมูลที่ส่งออกต่อหน่วยพลังคำนวณนั้นสูงมาก การทดสอบแบบ Ablation ยังยืนยันว่าการออกแบบปรับโครงสร้างพื้นที่การกระทำในระดับพื้นฐานนี้เป็นการโจมตีที่เหนือชั้นต่อ “การครอบตัดแบบ LLM ภายนอก” หรือ “การครอบตัดในแซนด์บ็อกซ์โค้ด” แบบดั้งเดิม

ที่น่าสนใจยิ่งกว่าคือความทนทานที่แข็งแกร่งต่อสัญญาณรบกวน ในการทดสอบการรบกวนด้วยหลักฐานจริงและเท็จผสมกัน กลยุทธ์แบบขนานของ HyperEyes ที่ “กล้าค้นหาน้อยลง ดูทั้งหมดในครั้งเดียว” กลับช่วยหลีกเลี่ยงกับดักภาพหลอนจากการค้นหามากเกินไปได้อย่างมาก

ในกรณีทดสอบจริงของการตอบคำถามที่ซับซ้อนซึ่งมี 6 คนอยู่ในเฟรมเดียวกัน เอเจนต์แบบดั้งเดิมเนื่องจากตรรกะที่งุ่มง่ามของ “ครอบตัดทีละคน + ค้นหา” ทำให้กระบวนการยืดเยื้อไปถึง 12 รอบ และในที่สุดก็ตอบผิดเนื่องจากการสะสมของสัญญาณรบกวน ในขณะที่ HyperEyes ระบุตำแหน่งและค้นหาทั้ง 6 คนพร้อมกันในรอบแรก และให้คำตอบที่แม่นยำในเวลาเพียง 3 รอบ ซึ่งแสดงให้เห็นอย่างชัดเจนถึงความหมายของ “ลงมือครั้งเดียว มองเห็นภาพรวม”

บทสรุป: จุดหมายต่อไปของเอเจนต์ค้นหาแบบมัลติโมดัลคือ “ประสิทธิภาพคือความฉลาด”

เป็นเวลานานที่หลายคนเชื่อว่าการค้นหาแบบมัลติโมดัลต้องใช้การทำงานแบบอนุกรมที่ลึกขึ้นเพื่อรับประกันความแม่นยำ แต่ HyperEyes ได้ทำลายความเชื่อเดิมนี้ มันพิสูจน์ด้วยการทดลองที่ละเอียดถี่ถ้วนว่าในการฝึกเอเจนต์ “ความแม่นยำ” และ “ประสิทธิภาพ” สามารถพัฒนาไปพร้อมกันได้อย่างสมบูรณ์

เมื่อเอเจนต์มัลติโมดัลค่อยๆ เข้าสู่สถานการณ์ทางธุรกิจจริงที่มีการทำงานพร้อมกันสูง เช่น การเปรียบเทียบราคาในอีคอมเมิร์ซ การค้นหาด้วยภาพ และการโต้ตอบแบบเรียลไทม์ การเปลี่ยนจาก “ค้นหาให้ลึกขึ้น” เป็น “ค้นหาให้กว้างขึ้น” จะกลายเป็นความสามารถหลักในการแข่งขันของเอเจนต์รุ่นต่อไปอย่างแน่นอน