บอกลาการล่องลอยของสมาธิ! Visual Para-Thinker: กรอบการคิดแบบขนานทางภาพเป็นครั้งแรก ใช้กลยุทธ์แบ่งแยกและเอาชนะเพื่อพิชิตภาพหลอนทางสายตา

2 hours ago • การอนุมานโมเดลขนาดใหญ่ • 10 views

ในปัจจุบัน กระบวนทัศน์การขยายขนาดในระหว่างการทดสอบมักมุ่งเน้นไปที่การเพิ่มความยาวของการอนุมาน อย่างไรก็ตาม งานวิจัยที่มีอยู่ชี้ให้เห็นว่า เมื่อลำดับการอนุมานเพิ่มขึ้นอย่างต่อเนื่อง กระบวนทัศน์การคำนวณที่เน้นการขยายในแนวตั้งอาจติดอยู่ในปัญหาต่างๆ เช่น การสำรวจที่ตายตัว ดังนั้น การขยายความกว้างของการอนุมานในอีกมิติหนึ่งจึงมีความสำคัญอย่างยิ่ง โมเดลต่างๆ เช่น K2.5, Step3-VL และ LongCat-Flash-Thinking ได้เริ่มทดลองในด้านความกว้างของการอนุมานแล้ว

อย่างไรก็ตาม ในงานด้านภาพ การอนุมานเชิงลึกยังคงเผชิญกับความท้าทายที่รุนแรง: เมื่อลำดับการอนุมานยาวขึ้น ความสนใจของโมเดลต่อคุณลักษณะทางภาพจะถูกเจือจางลงเรื่อยๆ นำไปสู่ “การเลื่อนไหลของความสนใจ” ซึ่งก่อให้เกิดภาพหลอนทางสายตาที่รุนแรง

ด้วยเหตุนี้ เราจึงเสนอ Visual Para-Thinker: นี่คือกรอบงานการคิดแบบขนานแรกที่ออกแบบมาสำหรับโมเดลภาษาภาพขนาดใหญ่ และได้วิเคราะห์เชิงลึกถึงกลไกภายในที่กรอบงานนี้ทำงานในงานด้านภาพ เราได้รวมกลไก Pa-Attention (กลไกความสนใจแบบขนาน) และ LPRoPE (การเข้ารหัสตำแหน่งแบบแบ่งส่วนที่เรียนรู้ได้) เข้ากับวิธีการของเรา เพื่อให้เกิดการแยกส่วน ความเป็นกลาง และความสามารถในการแยกแยะของเส้นทางการอนุมานที่แตกต่างกัน

บอกลาการล่องลอยของสมาธิ! Visual Para-Thinker: กรอบการคิดแบบขนานทางภาพเป็นครั้งแรก ใช้กลยุทธ์แบ่งแยกและเอาชนะเพื่อพิชิตภาพหลอนทางสายตา

ชื่อบทความ: Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
ลิงก์บทความ: https://arxiv.org/abs/2602.13310
ลิงก์หน้าแรก: https://github.com/xuhaoran1/Visual-Para-Thinker

เส้นทางการอนุมานแบบขนาน: การแบ่งส่วนที่เน้นภาพเป็นศูนย์กลาง

กระบวนทัศน์การคิดแบบขนานที่เสนอในงานวิจัยก่อนหน้านี้ มีแกนหลักคือการเพิ่มประสิทธิภาพของโมเดลโดยการขยายความกว้างของการอนุมาน โดยมีหลักการพื้นฐานคือ “รักษาความหลากหลายของเส้นทางการอนุมาน” Visual Para-Thinker ของเราก็ปฏิบัติตามหลักการนี้เช่นกัน อย่างไรก็ตาม ด้วยคุณลักษณะเฉพาะของโมเดลภาษาภาพ เราได้เสนอวิธีการแบ่งเส้นทางที่เน้นภาพเป็นศูนย์กลางเพิ่มเติม และเชื่อว่าแก่นแท้ของมันคือการจัดสรรความสนใจของโทเค็นภาพใหม่ ดังนั้น เราจึงเสนอรูปแบบการจัดสรรการแบ่งภาพสองแบบ: การแบ่งเป็นบล็อกและการแบ่งแบบสแกน

การแบ่งเป็นบล็อก: กลยุทธ์นี้จะแบ่งเส้นทางการอนุมานตามกราฟย่อยของพื้นที่เฉพาะ ภายใต้การกำหนดค่านี้ แต่ละเส้นทางจะดึงดูดการกระจายความสนใจทางภาพที่ไม่ซ้ำกัน ซึ่งกระจุกตัวอยู่ในพื้นที่ย่อยที่กำหนด เช่น มุมซ้ายบน มุมขวาบน มุมซ้ายล่าง หรือมุมขวาล่าง ดังแสดงในรูป (a)

การแบ่งแบบสแกน: วิธีนี้จะแยกแยะเส้นทางการอนุมานโดยใช้วิถีการสแกนภาพที่แตกต่างกัน โดยเฉพาะอย่างยิ่ง แต่ละเส้นทางแสดงถึงการจัดสรรความสนใจทางภาพที่ไม่ซ้ำกัน ซึ่งสอดคล้องกับลำดับการสแกนที่กำหนดไว้ล่วงหน้า เช่น จากซ้ายไปขวา จากบนลงล่าง จากขวาไปซ้าย และจากล่างขึ้นบน ดังแสดงในรูป (b)

การแบ่งภาพทั้งสองแบบนี้มีข้อดีและข้อเสีย: การแบ่งเป็นบล็อกแม้จะสร้างพื้นที่ย่อยที่แตกต่างกัน แต่อาจทำให้เกิดการคำนวณซ้ำซ้อนระหว่างเส้นทางต่างๆ ในขณะที่การแบ่งแบบสแกนแม้จะมีโครงสร้างที่เรียบง่าย แต่อาจลดความหลากหลายระหว่างเส้นทางได้ ด้วยเหตุนี้ เราจึงใช้กลยุทธ์การฝึกแบบผสมผสาน โดยนำข้อมูลที่สร้างจากทั้งสองวิธีมาใช้ในการฝึกโมเดลร่วมกัน เพื่อให้เกิดการเสริมจุดแข็งซึ่งกันและกัน

การแสดงภาพรูปแบบการจัดสรรความสนใจของโทเค็นภาพของเส้นทางต่างๆ ภายใต้วิธีการแบ่งเป็นบล็อก

กรอบงานการคิดแบบขนานทางภาพ

จากวิธีการแบ่งเส้นทางภาพทั้งสองแบบข้างต้น เราได้เสนอกรอบงานการคิดแบบขนานทางภาพ กรอบงานนี้แบ่งออกเป็นขั้นตอนการคิดแบบขนานและขั้นตอนการสรุป และรักษาความเป็นอิสระ ความเป็นกลาง และความสามารถในการแยกแยะของเส้นทางการอนุมานแบบขนานต่างๆ

ขั้นตอนการคิดแบบขนาน: ขึ้นอยู่กับบริบทร่วมกัน ผ่านแนวคิดการแบ่งภาพ จะกำหนดทิศทางการคิดของเส้นทางการอนุมานที่แตกต่างกัน
ขั้นตอนการสรุป: รวมข้อมูลพื้นฐานจากเส้นทางการอนุมานแบบขนานต่างๆ และพิจารณาข้อมูลเหล่านี้โดยรวมเพื่อให้ได้ข้อสรุปสุดท้าย

ความเป็นอิสระ

เพื่อรับประกันความเป็นอิสระของเส้นทางการอนุมาน เราได้เสนอ Path-aware Attention (ความสนใจที่รับรู้เส้นทาง) ซึ่งแตกต่างจากความสนใจเชิงเหตุผล ความสนใจที่รับรู้เส้นทางจะใช้โทเค็นพิเศษ <think i> ที่แตกต่างกันเพื่อสร้างกระบวนทัศน์การแยกบริบทของเส้นทางต่างๆ

ความเป็นกลาง

เพื่อรับประกันความสามารถในการแยกแยะของเส้นทางการอนุมาน แนวทางก่อนหน้านี้คือการกำหนดช่วงตำแหน่งที่แตกต่างกันให้กับเส้นทางต่างๆ เพื่อให้เกิดความสามารถในการแยกแยะระหว่างเส้นทาง อย่างไรก็ตาม เนื่องจากความเอนเอียงโดยธรรมชาติของโมเดลภาษาใหญ่ ตำแหน่ง ID ในช่วงที่แตกต่างกันจะมีลำดับก่อนหลัง ทำให้เกิดปรากฏการณ์เช่น loss in the middle น้ำหนักการคิดของเส้นทางต่างๆ จะมีความเอนเอียงทางตำแหน่งโดยธรรมชาติ เราเชื่อว่าวิธีนี้ไม่สามารถมองว่าเส้นทางการอนุมานต่างๆ เท่าเทียมกัน และโดยพื้นฐานแล้วยังคงเป็นการคิดแบบอนุกรม จากข้อมูลเชิงลึกนี้ เราจึงกำหนดช่วงตำแหน่งเดียวกันให้กับตำแหน่ง ID ของเส้นทางต่างๆ โดยเฉพาะอย่างยิ่ง ในขั้นตอนการอนุมานแบบขนาน โทเค็นเริ่มต้นของเส้นทางต่างๆ จะมีตำแหน่ง ID เดียวกัน

ในขณะที่ในขั้นตอนการสรุป โทเค็นเริ่มต้นของโทเค็นสรุปจะใช้ตำแหน่ง ID ของโทเค็นสิ้นสุดของเส้นทางการอนุมานที่ยาวที่สุด + 1

ทำให้เส้นทางการอนุมานต่างๆ ไม่มีความเอนเอียงทางตำแหน่งโดยธรรมชาติในมุมมองของโมเดล Visual Para-Thinker จึงรับประกันความเป็นกลาง

ความสามารถในการแยกแยะ

อย่างไรก็ตาม การแมปการเข้ารหัสตำแหน่งของเส้นทางต่างๆ ไปยังช่วงเดียวกันดังกล่าวข้างต้นรับประกันเฉพาะความเป็นกลาง แต่ทำให้ความสามารถในการแยกแยะของเส้นทางต่างๆ ลดลง หากใช้การเข้ารหัสตำแหน่งนี้โดยตรง จะทำให้ Visual Para-Thinker สับสนระหว่างเส้นทางการอนุมานต่างๆ นำไปสู่ผลลัพธ์สุดท้ายที่ผิดพลาด ดังนั้น เราจึงเสนอ Learnable Parallel Rotary Position Embedding (LPRoPE) โดยเฉพาะอย่างยิ่ง ก่อนที่จะทำการเข้ารหัสตำแหน่งแบบหมุนของโทเค็นต่างๆ เราจะเพิ่มการเข้ารหัสตำแหน่งที่เรียนรู้ได้ของเส้นทางการอนุมานที่โทเค็นนั้นสังกัดอยู่ รวมการเข้ารหัสตำแหน่งแบบหมุนและการเข้ารหัสตำแหน่งสัมบูรณ์ที่เรียนรู้ได้เข้าด้วยกัน เพื่อให้เกิดความสามารถในการแยกแยะของเส้นทางในที่สุด

ข้อมูลและการทดลอง

สูตรการฝึก

เราได้สร้างชุดข้อมูลการอนุมานแบบขนานที่มีคู่คำถาม-คำตอบ 163,000 คู่ แหล่งข้อมูลรวมถึง LVIS, LAION, Microsoft COCO, PixMoCount, RefCOCO, RefCOCO+ และ RefCOCOg

ในกรอบงานการสร้างข้อมูลของเรา Qwen3-VL-235B-A22BInstruct ทำหน้าที่เป็นโมเดลครู เราใช้กลยุทธ์การแบ่งภาพแบบผสมผสานที่รวมการแบ่งเป็นบล็อกและการแบ่งตามลำดับการสแกนภายใต้อุณหภูมิ 0.1 เพื่อสร้างเส้นทางการอนุมานที่เน้นภาพเป็นศูนย์กลางสี่เส้นทางสำหรับแต่ละตัวอย่าง นอกจากนี้ เรายังใช้ Qwen3-VL-30B-A3B-Instruct และ InternVL3 5-241B-A28B ที่มีอุณหภูมิสูงเพื่อสร้างข้อมูลและตรวจสอบตัวอย่างที่หลากหลายยิ่งขึ้น

รูปที่ 1

ผลการทดลอง

การทดลองของเราดำเนินการในงานการรับรู้ทางภาพที่เน้นภาพเป็นศูนย์กลางเป็นหลัก รวมถึงงานนับจำนวน (Pixmo, CountBench), การค้นหาทางภาพ (V), งานภาพหลอน (MMVP, HallusionBench) และการระบุตำแหน่งทางภาพ (RefCOCO) และงานการรับรู้ทางภาพอื่นๆ ผ่านการทดลองจำนวนมาก เราได้ตรวจสอบประสิทธิภาพของวิธีการที่เสนอ ดังแสดงในรูปที่ 1 วิธีการของเราได้รับการปรับปรุง 12.6 และ 6.3 ในงาน V บนโมเดลขนาด 3B และ 7B ตามลำดับ ในทางกลับกัน ในงานภาพหลอน HallusionBench วิธีการของเราได้รับการปรับปรุง 6.1 และ 5.0 บนโมเดลขนาด 3B และ 7B ซึ่งยืนยันอย่างเต็มที่ถึงการปรับปรุงของการอนุมานแบบขนานแบบหลายรูปแบบในงานการรับรู้ทางภาพ นอกจากนี้ ในงาน Grounding เมื่อเทียบกับ Qwen2.5-VL ดั้งเดิม วิธีการของเราก็ได้รับการปรับปรุงในระดับหนึ่งเช่นกัน การทดลองเหล่านี้ยืนยันประสิทธิภาพของวิธีการของเราในด้านต่างๆ

รูปที่ 2

นอกจากนี้ เรายังได้สำรวจความชอบของรูปแบบการแบ่งในงานภาพต่างๆ ยกตัวอย่างงานนับจำนวน ความสนใจทางภาพมักกระจายไปทั่วภาพ หากใช้การแบ่งเป็นบล็อก ผลการคำนวณของแต่ละเส้นทางอาจเกิดความเอนเอียงสะสมเนื่องจากการทับซ้อนของพื้นที่ ซึ่งนำไปสู่ภาพหลอน ดังนั้น ในงานประเภทนี้ เรามักจะใช้การแบ่งแบบสแกน

โดยแก่นแท้แล้ว วิธีการแบ่งเป็นบล็อกจะจัดสรรความสนใจอย่างชัดเจนโดยการกำหนดพื้นที่ภาพที่แตกต่างกันให้กับเส้นทางต่างๆ ในขณะที่วิธีการแบ่งแบบสแกนจะเปลี่ยนลำดับและวิธีการที่โมเดลให้ความสนใจกับโทเค็นภาพ ทำให้เกิดกลไกการจัดสรรความสนใจโดยนัย ซึ่งท้ายที่สุดก็สะท้อนให้เห็นเป็นเส้นทางการอนุมานที่หลากหลายเช่นกัน วิธีแรกสะท้อนถึงแนวคิดการออกแบบจากภาพรวมไปยังส่วนย่อย ในขณะที่วิธีหลังยังคงรักษามุมมองโดยรวมไว้

วิธีการแบ่งเป็นบล็อกอาจทำให้เกิดการคำนวณซ้ำซ้อนในการอนุมานที่แตกต่างกัน

ข้อคิดส่งท้าย

Visual Para-Thinker เป็นการสำรวจเบื้องต้นในการนำกรอบงานการคิดแบบขนานเข้าสู่สาขาภาษาภาพ ในอนาคต เราวางแผนที่จะบูรณาการวิธีการต่างๆ เช่น การเรียนรู้เสริมกำลังแบบคิดขนาน กลไกการคิดหลายรอบ และการเรียนรู้เสริมกำลังแบบใช้ตัวแทน เข้ากับกรอบงานนี้อย่างต่อเนื่อง เพื่อขับเคลื่อนให้เกิดการขยายขนาดที่รวดเร็วและมีคุณภาพดียิ่งขึ้น เมื่อโมเดลพื้นฐาน เช่น K2.5, Step3-VL และ LongCat-Flash-Thinking เริ่มให้ความสนใจกับกระบวนทัศน์การคิดแบบขนาน เราเชื่อว่ารูปแบบนี้จะแสดงศักยภาพในการพัฒนาอย่างมหาศาลในอนาคต

ข้อมูลผู้เขียน

Xu Haoran, ปริญญาโทจากมหาวิทยาลัยเจ้อเจียง สาขาการวิจัยครอบคลุมถึงตัวแทนหลายตัว, หลายรูปแบบ และการเรียนรู้เสริมกำลัง เป็นต้น เขาได้ตีพิมพ์บทความหลายฉบับในฐานะผู้เขียนคนแรกหรือผู้เขียนร่วมคนแรกในการประชุมระดับนานาชาติชั้นนำ เช่น ICML, ACL, CVPR, AAAI, ICLR หน่วยงานติดต่อคือทีม MiLMPlus ของ Xiaomi ผู้เขียนที่ติดต่อคือ Li Jiaze ปัจจุบันดำรงตำแหน่งวิศวกรอัลกอริทึมอาวุโสของ Xiaomi โดย研究方向รวมถึงตัวแทนหลายตัวและการเรียนรู้เสริมกำลังแบบใช้ตัวแทน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง