โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal Large Models) ได้ก้าวหน้าไปอย่างมากในด้านการสร้างและทำความเข้าใจโค้ด แต่ประสิทธิภาพของโมเดลเหล่านี้ในงานพื้นฐานทางด้านการมองเห็น (Vision) มักจะไม่เป็นที่น่าพอใจ เพื่อแก้ไขจุดอ่อนนี้ UniPat AI ได้เสนอกรอบงานเอเจนต์ด้านการมองเห็นที่เรียบง่ายที่สุด นั่นคือ SWE-Vision แนวคิดหลักของกรอบงานนี้คือการทำให้โมเดลสามารถเขียนและรันโค้ด Python เพื่อประมวลผลและตรวจสอบการตัดสินใจทางด้านการมองเห็นของตัวเอง ในห้าชุดทดสอบมาตรฐาน (Benchmark) ด้านการมองเห็นหลัก SWE-Vision ได้ทำคะแนนได้ดีที่สุดในปัจจุบัน
01|โมเดลมองเห็นได้ แต่ประมวลผลอย่างแม่นยำได้ยาก
ในปีที่ผ่านมา โมเดลขนาดใหญ่แบบหลายรูปแบบมีความสามารถด้านโค้ดที่ก้าวหน้าอย่างรวดเร็ว จนสามารถสร้างและดีบั๊กโปรเจกต์ที่ซับซ้อนได้ อย่างไรก็ตาม ในงานพื้นฐานอย่าง “การทำความเข้าใจโลกแห่งการมองเห็น” ความน่าเชื่อถือของโมเดลยังห่างไกลจากระดับเดียวกัน ชุดทดสอบมาตรฐานหลายรูปแบบ BabyVision ที่ UniPat AI เผยแพร่ก่อนหน้านี้ได้เผยให้เห็นปรากฏการณ์นี้: โมเดลมักจะให้เหตุผลที่ดูสมเหตุสมผลได้ แต่กลับทำผิดพลาดบ่อยครั้งในการวัดพื้นฐาน การนับ และการตัดสินความสัมพันธ์เชิงพื้นที่
ชุดทดสอบมาตรฐาน BabyVision ได้ถูกนำไปรวมไว้ในการประเมินโมเดลสำคัญหลายรุ่นที่เผยแพร่ล่าสุด สะท้อนถึงความสนใจอย่างกว้างขวางของชุมชนต่อปัญหานี้ จากการวิเคราะห์กรณีที่ผิดพลาด จะพบปัญหาสำคัญประการหนึ่ง: โมเดลสามารถรับรู้ได้ แต่ไม่สามารถประมวลผลเชิงปริมาณได้อย่างแม่นยำ
- การอ่านแผนภูมิ: โมเดลสามารถรับรู้ได้ว่า “ประมาณ 75%” แต่ไม่สามารถคำนวณอัตราส่วนที่แน่นอนได้
- การนับในฉากที่ซับซ้อน: โมเดลอาจระบุวัตถุทั้งหมดได้ แต่ทำผิดพลาดในการนับทีละชิ้น
- การอธิบายความสัมพันธ์เชิงพื้นที่: โมเดลสามารถให้การตัดสินเชิงคุณภาพได้ (เช่น “ด้านซ้าย”) แต่ทำการคำนวณระยะทางและการให้เหตุผลทางเรขาคณิตได้อย่างเสถียรได้ยาก
เมื่อเผชิญกับปัญหาประเภทนี้ มนุษย์มักจะใช้เครื่องมือช่วย เช่น การวาดเส้นช่วย การทำเครื่องหมาย หรือการคำนวณ สิ่งนี้ทำให้เกิดข้อสันนิษฐานสำคัญ: เนื่องจากโมเดลเก่งในการเขียนโปรแกรมเป็นอย่างมาก เราจะสามารถให้มันใช้โค้ด ซึ่งเป็นเครื่องมือที่มันคุ้นเคยที่สุด เพื่อชดเชยจุดอ่อนด้านความแม่นยำในการประมวลผลภาพได้หรือไม่?
SWE-Vision คือการทดสอบเชิงระบบต่อข้อสันนิษฐานนี้

ผลลัพธ์มีนัยสำคัญ: ในห้าชุดทดสอบมาตรฐานที่ครอบคลุมการรับรู้พื้นฐาน การให้เหตุผลจากแผนภูมิ ปัญหาคณิตศาสตร์ การทำความเข้าใจเชิงพื้นที่ และความท้าทายด้านการมองเห็นหลายขั้นตอนที่ซับซ้อน SWE-Vision ได้ปรับปรุงประสิทธิภาพของโมเดลขนาดใหญ่แนวหน้าและทำผลลัพธ์ที่ทันสมัยที่สุดได้
02|SWE-Vision คืออะไร: เอเจนต์ด้านการมองเห็นที่ ‘เรียบง่ายที่สุด’
แนวคิดการออกแบบของ SWE-Vision คือความเรียบง่ายสุดขีด โดยไม่ได้นำเครื่องมือด้านการมองเห็นเฉพาะทางจำนวนมากมาใช้ แต่รวมความสามารถไว้ที่สองจุดหลัก
2.1 ชั้นเครื่องมือ: รักษาไว้เพียงสองเครื่องมือหลัก
ในการกำหนดค่า โมเดลสามารถเรียกใช้เครื่องมือได้เพียงสองอย่าง:
* execute_code: ให้โมเดลรันโค้ด Python ในสภาพแวดล้อม Jupyter ที่คงสถานะไว้ได้
* finish: เมื่อโมเดลมั่นใจว่าคำตอบถูกต้องแล้ว ให้ส่งออกผลลัพธ์สุดท้าย
ประเด็นสำคัญคือ อินเทอร์เฟซของเครื่องมือเองมีขนาดเล็กและเป็นสากล SWE-Vision ไม่ได้กำหนด API ด้านการมองเห็นเฉพาะทางจำนวนมากไว้ล่วงหน้า แต่เปิดเผยเพียงแอ็กชันที่โมเดลคุ้นเคยอยู่แล้ว นั่นคือการเขียนโค้ด Python
2.2 ชั้นควบคุม: วงจรมาตรฐานของเอเจนต์
เอเจนต์นำวงจรการทำงานที่สมบูรณ์มาใช้: จัดระเบียบคำถามและรูปภาพจากผู้ใช้เป็นข้อความ เรียกใช้อินเทอร์เฟซโมเดลที่รองรับการใช้เครื่องมือ; หากโมเดลเรียกใช้ execute_code จะส่งโค้ดไปยังเคอร์เนล Notebook เพื่อดำเนินการ; จากนั้นส่งผลลัพธ์การดำเนินการกลับไปยังโมเดลเป็นข้อความเครื่องมือ; โมเดลจะตัดสินใจตามนั้นว่าจะเรียกใช้เครื่องมือต่อไปหรือส่งออกคำตอบสุดท้าย กรอบงานรองรับการเลือกเครื่องมืออัตโนมัติโดยค่าเริ่มต้น และสามารถเปิดโหมดการให้เหตุผลได้ ซึ่งอนุญาตให้มีการวิเคราะห์แบบวนซ้ำหลายรอบ
2.3 ชั้นการดำเนินการ: เคอร์เนล Jupyter ที่คงสถานะไว้ใน Docker
ชั้นการดำเนินการไม่ใช่แค่การรันโค้ดหนึ่งส่วน แต่เป็นการเริ่มเคอร์เนล Jupyter ที่คงอยู่ภายในคอนเทนเนอร์ Docker โฮสต์จะเชื่อมต่อกับเคอร์เนลนี้ผ่านไคลเอนต์และรวบรวมผลลัพธ์การดำเนินการ สถานะของเคอร์เนลจะคงอยู่ ตัวแปร โมดูลที่นำเข้า วัตถุภาพ และผลลัพธ์กลางสามารถคงอยู่ระหว่างการเรียกใช้โค้ดหลายครั้งได้ ในขณะเดียวกัน โค้ดทำงานในสภาพแวดล้อม Docker ที่แยกออกมา ซึ่งรับประกันความปลอดภัยและความสามารถในการทำซ้ำได้
พูดง่ายๆ คือ SWE-Vision ไม่ได้บังคับให้โมเดลเขียนโค้ดสำหรับทุกปัญหา แต่จัดเตรียม “ห้องปฏิบัติการคำนวณภาพ” ที่พร้อมใช้และคุ้นเคยให้กับโมเดล
03|เวิร์กโฟลว์: จากการให้เหตุผลจากภาพ สู่การตรวจสอบแบบวนซ้ำพร้อมภาพ
เวิร์กโฟลว์ของ SWE-Vision คล้ายกับนักวิทยาศาสตร์ข้อมูลที่มองเห็นภาพได้:
- อินพุต: ผู้ใช้ให้คำถามและรูปภาพ
- การคิด: โมเดลตัดสินใจก่อนว่าสามารถตอบคำถามได้โดยตรงหรือไม่ จำเป็นต้องคำนวณหรือตรวจสอบหรือไม่
- การดำเนินการ: หากจำเป็น จะเรียกใช้
execute_codeเพื่อวิเคราะห์โดยใช้ไลบรารีต่างๆ เช่น PIL, NumPy, Matplotlib ใน Notebook - ข้อเสนอแนะ: ผลลัพธ์การดำเนินการโค้ด (ค่าตัวเลข ข้อความแสดงข้อผิดพลาด หรือแผนภูมิที่สร้างขึ้น) จะไหลกลับไปยังโมเดล
- การวนซ้ำ: โมเดลวิเคราะห์ต่อจากข้อเสนอแนะ จนกระทั่งเรียกใช้
finishเพื่อให้คำตอบสุดท้าย

การออกแบบที่สำคัญ ได้แก่:
* สภาพแวดล้อมการดำเนินการที่มีสถานะ: ตัวแปร การนำเข้า รูปภาพที่โหลด สามารถคงอยู่ระหว่างการเรียกใช้หลายครั้ง
* แซนด์บ็อกซ์ Docker: ให้สภาพแวดล้อมการดำเนินการที่ปลอดภัย ควบคุมได้ และทำซ้ำได้
* อินพุตและเอาต์พุตภาพ: โมเดลไม่เพียงอ่านภาพอินพุตได้ แต่ยังสามารถส่งผลลัพธ์การแสดงภาพที่ตัวเองสร้างขึ้นกลับไปยังตัวเองเพื่อตรวจสอบได้ ซึ่งเป็นกุญแจสำคัญในการทำให้เกิดการแก้ไขข้อผิดพลาดด้วยตัวเอง
* อินเทอร์เฟซมาตรฐานสำหรับเรียกใช้เครื่องมือ: รับประกันความเข้ากันได้กับโมเดลหลักโดยไม่ต้องปรับแต่ง
คุณค่าของการออกแบบชุดนี้คือ อนุญาตให้โมเดลทำงานเหมือนนักวิทยาศาสตร์จริงๆ นั่นคือทำการทดลองก่อน แล้วจึงสรุปผล
04|ทำไม Notebook ที่มีสถานะจึงสำคัญกว่าโปรแกรมรันโค้ดแบบครั้งเดียว
เมื่อมองผิวเผิน SWE-Vision ดูเหมือนเพียงเพิ่มเครื่องมือ Python ให้กับโมเดลภาษาภาพ (VLM) แต่ความแตกต่างที่แท้จริงอยู่ที่ “การมีสถานะ”
ใน SWE-Vision สถานะของเคอร์เนลจะคงอยู่ระหว่างการเรียกใช้หลายครั้ง ซึ่งหมายความว่าโมเดลสามารถทำงานเป็นขั้นตอนได้เหมือนนักวิเคราะห์มนุษย์: รอบแรกอ่านภาพ ตรวจสอบขนาด; รอบที่สองครอปส่วนท้องถิ่น สังเกตขอบ; รอบที่สามนับสถิติสีหรือวัดระยะทาง; รอบที่สี่วาดเส้นช่วยเพื่อยืนยัน; สุดท้ายจึงสร้างคำตอบ
หากการรันโค้ดแต่ละครั้งไม่มีสถานะ การวิเคราะห์หลายขั้นตอนนี้จะกลายเป็นเรื่องยุ่งยาก: ทุกขั้นตอนต้องนำเข้าไลบรารีใหม่ โหลดภาพใหม่ สร้างตัวแปรใหม่ SWE-Vision ผ่านเคอร์เนลที่คงสถานะไว้ ทำให้ “การเรียกใช้เครื่องมือหลายรอบ” กลายเป็น “การทดลองต่อเนื่องในเซสชัน Notebook เดียวกัน” จากมุมมองการนำไปปฏิบัติ นี่คือเหตุผลที่ทำให้มันสามารถจัดการงานวัดแผนภูมิ ความสัมพันธ์เชิงพื้นที่ และงานด้านการมองเห็นหลายขั้นตอนที่ซับซ้อนได้ ไม่จำกัดแค่ OCR หรือการตรวจจับแบบครั้งเดียว
05|ความสามารถหลัก: ตรวจสอบการตัดสินใจด้านการมองเห็นของตัวเอง
ในงานของ SWE-Vision ในการจัดการงาน “สังเกตแผนภูมิวิทยาศาสตร์ สรุปกฎเกณฑ์” จะเห็นรูปแบบพฤติกรรมที่เป็นเอกลักษณ์ ตัวอย่างเช่น ในงานวิเคราะห์แผนภูมิวิจัยที่แสดงในภาพด้านล่าง ต้องการให้โมเดลตัดสินว่าในเงื่อนไขเฉพาะใด กราฟย่อยใดที่มีช่องว่างระหว่างเส้นโค้งสองเส้นมากที่สุด

เอเจนต์ SWE-Vision แสดงวิธีแก้ปัญหาที่เข้มงวดและสามารถอธิบายได้ ขั้นแรก มันตัดกราฟย่อยที่ไม่มีเส้นประสีแดงออก (d); ต่อมา ที่ตำแหน่ง Quarters = 15 มันวาดเส้นช่วยอย่างแม่นยำสำหรับกราฟย่อยที่เป็นตัวเลือกแต่ละอัน เพื่อหาตำแหน่งจุดตัดของเส้นสีแดงและเส้นสีดำ; จากนั้น ผ่านการรันโค้ดเพื่อคำนวณค่าความแตกต่างระหว่างเส้นโค้งสองเส้นที่ตำแหน่งนั้นอย่างแม่นยำ; สุดท้ายให้คำตอบที่ถูกต้องตามผลการคำนวณ
วงจรความคิดและการกระทำแบบ “วิเคราะห์เชิงโครงสร้างก่อน จากนั้นวัดด้วยโปรแกรม สุดท้ายตรวจสอบด้วยค่าตัวเลข” นี้ แตกต่างอย่างชัดเจนกับวิธีของโมเดลภาษาภาพแบบดั้งเดิมที่พึ่งพาการ “สังเกตด้วยตา” แบบสัญชาตญาณเพื่อให้คำตอบโดยตรง มันไม่เพียงปรับปรุงความน่าเชื่อถือและความสามารถในการอธิบายผลลัพธ์อย่างมีนัยสำคัญ แต่ยังแสดงให้เห็นถึงขีดจำกัดความสามารถที่สูงขึ้นและศักยภาพในการปรับใช้ทั่วไปที่แข็งแกร่งขึ้น

06|ทำไมการออกแบบที่เรียบง่ายกลับแข็งแกร่งกว่า
ข้อสรุปสำคัญประการหนึ่งของ SWE-Vision คือ: สำหรับงานด้านการมองเห็น การนำเครื่องมือโค้ดสากลมาใช้สำหรับโมเดลหลายรูปแบบแนวหน้า เป็นทิศทางการขยายตัวระหว่างการทดสอบที่มีประสิทธิภาพในการเพิ่มความสามารถด้านการมองเห็นของโมเดล
ประสิทธิภาพของมันเกิดจากการออกแบบที่เรียบง่ายที่สุด:
* จำนวนเครื่องมือน้อย ขอบเขตการตัดสินใจชัดเจน
* ความหมายของเครื่องมือ สอดคล้องกับความสามารถที่มีอยู่ของโมเดลเป็นอย่างดี
* รองรับการวนซ้ำหลายรอบ และการสะสมสถานะ
* ผลลัพธ์กลางสามารถถูกสังเกตได้อีกครั้ง แทนที่จะส่งกลับเป็นข้อความครั้งเดียว
* ไม่ผูกกับกลยุทธ์เฉพาะที่ออกแบบด้วยมือสำหรับชุดทดสอบมาตรฐานใดชุดหนึ่ง
สิ่งนี้แตกต่างจากวิธีการ “ออกแบบชุดอินเทอร์เฟซเครื่องมือแยกต่างหากสำหรับงานด้านการมองเห็นประเภทหนึ่ง” วิธีการหลังมักมีประสิทธิภาพในงานแคบเฉพาะทาง แต่ความสามารถในการปรับใช้ทั่วไปไม่เพียงพอ ในขณะที่เป้าหมายของ SWE-Vision คือการจัดเตรียมกรอบงานเสริมการมองเห็นที่เป็นสากลที่สุดเท่าที่จะเป็นไปได้ เพื่อให้โมเดลตัดสินใจได้เองว่าจะเรียกใช้โค้ดเมื่อใด และจะจัดระเบียบขั้นตอนการวิเคราะห์อย่างไร
07|ปรับปรุงครบทั้งห้าชุดทดสอบมาตรฐาน: ‘ตัวเสริมความสามารถด้านการมองเห็น’ ที่เป็นสากลมากขึ้น
SWE-Vision ได้รับการประเมินบนชุดทดสอบมาตรฐานด้านการมองเห็นห้าชุดที่มีขอบเขตกว้างขวาง (ครอบคลุมการรับรู้พื้นฐาน แผนภูมิ คณิตศาสตร์ พื้นที่ การให้เหตุผลหลายขั้นตอนแบบผสมผสาน) และข้อค้นพบหลักมีความสอดคล้องกันสูง: การนำความสามารถในการรันโค้ดมาใช้ สามารถปรับปรุงขีดจำกัดประสิทธิภาพด้านการมองเห็นของโมเดลแนวหน้าได้อย่างเป็นระบบ
ในการทดลองเปรียบเทียบ (โมเดลพื้นฐานรุ่นเดียวกัน เทียบกับรุ่นที่เสริมด้วย SWE-Vision) SWE-Vision นำมาซึ่งการปรับปรุงอย่างมีนัยสำคัญสำหรับโมเดลภาษาภาพแนวหน้าสองรุ่น (GPT-5.2, Seed-2.0):


ข้อค้นพบที่ “ขัดกับสัญชาตญาณ” คือ: งานที่ได้รับการปรับปรุงมากที่สุด มักไม่ใช่งานการให้เหตุผลระดับสูงที่ซับซ้อนที่สุด แต่เป็นความสามารถในการรับรู้และการประมวลผลที่แม่นยำที่สุด เช่น การนับ การระบุสี และการตัดสินความสัมพันธ์เชิงพื้นที่ในชุดทดสอบมาตรฐาน BabyVision งานประเภทนี้มนุษย์สามารถทำได้อย่างเสถียรโดยใช้สัญชาตญาณและเครื่องมือง่ายๆ ในขณะที่โมเดลที่พึ่งพาเพียง “การมองเห็นในรูปแบบภาษา” มักจะละเลยรายละเอียด นับจำนวนผิดพลาด และขาดวิธีการตรวจสอบ
ผลลัพธ์ของ SWE-Vision ยังเผยให้เห็นความเป็นไปได้อีกประการหนึ่ง: สำหรับการทำความเข้าใจด้านการมองเห็น การขยายตัวระหว่างการทดสอบไม่จำเป็นต้องพึ่งพาเพียงโซ่ความคิด (Chain-of-Thought) “การสร้างข้อความเพิ่มอีกสองสามย่อหน้า” เท่านั้น แต่ยังสามารถทำได้ผ่าน “การรันโค้ดเพิ่มอีกสองสามบรรทัด” เพื่อการสังเกตและการวัดที่ละเอียดยิ่งขึ้น
08|ทิศทางการพัฒนาในอนาคต: ทำให้ ‘การเสริมการมองเห็นด้วยโค้ด’ เป็นความสามารถโดยกำเนิดของเอเจนต์ด้านการมองเห็น
ต่างจากข้อมูลดั้งเดิมที่ใช้ฝึกโมเดลภาษาขนาดใหญ่หลายรูปแบบ (ซึ่งมักเป็นสามสิ่งประกอบ: คำถาม
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25904
