SWE-Vision: เปิดโลกทัศน์ให้โมเดลใหญ่ “มองเห็น” ด้วยโค้ด ปรับปรุงสถิติ SOTA ในห้ามาตรฐานการมองเห็น

7 hours ago • โครงการโอเพนซอร์ส • 13 views

โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal Large Models) ได้ก้าวหน้าไปอย่างมากในด้านการสร้างและทำความเข้าใจโค้ด แต่ประสิทธิภาพของโมเดลเหล่านี้ในงานพื้นฐานทางด้านการมองเห็น (Vision) มักจะไม่เป็นที่น่าพอใจ เพื่อแก้ไขจุดอ่อนนี้ UniPat AI ได้เสนอกรอบงานเอเจนต์ด้านการมองเห็นที่เรียบง่ายที่สุด นั่นคือ SWE-Vision แนวคิดหลักของกรอบงานนี้คือการทำให้โมเดลสามารถเขียนและรันโค้ด Python เพื่อประมวลผลและตรวจสอบการตัดสินใจทางด้านการมองเห็นของตัวเอง ในห้าชุดทดสอบมาตรฐาน (Benchmark) ด้านการมองเห็นหลัก SWE-Vision ได้ทำคะแนนได้ดีที่สุดในปัจจุบัน

01｜โมเดลมองเห็นได้ แต่ประมวลผลอย่างแม่นยำได้ยาก

ในปีที่ผ่านมา โมเดลขนาดใหญ่แบบหลายรูปแบบมีความสามารถด้านโค้ดที่ก้าวหน้าอย่างรวดเร็ว จนสามารถสร้างและดีบั๊กโปรเจกต์ที่ซับซ้อนได้ อย่างไรก็ตาม ในงานพื้นฐานอย่าง “การทำความเข้าใจโลกแห่งการมองเห็น” ความน่าเชื่อถือของโมเดลยังห่างไกลจากระดับเดียวกัน ชุดทดสอบมาตรฐานหลายรูปแบบ BabyVision ที่ UniPat AI เผยแพร่ก่อนหน้านี้ได้เผยให้เห็นปรากฏการณ์นี้: โมเดลมักจะให้เหตุผลที่ดูสมเหตุสมผลได้ แต่กลับทำผิดพลาดบ่อยครั้งในการวัดพื้นฐาน การนับ และการตัดสินความสัมพันธ์เชิงพื้นที่

ชุดทดสอบมาตรฐาน BabyVision ได้ถูกนำไปรวมไว้ในการประเมินโมเดลสำคัญหลายรุ่นที่เผยแพร่ล่าสุด สะท้อนถึงความสนใจอย่างกว้างขวางของชุมชนต่อปัญหานี้ จากการวิเคราะห์กรณีที่ผิดพลาด จะพบปัญหาสำคัญประการหนึ่ง: โมเดลสามารถรับรู้ได้ แต่ไม่สามารถประมวลผลเชิงปริมาณได้อย่างแม่นยำ

การอ่านแผนภูมิ: โมเดลสามารถรับรู้ได้ว่า “ประมาณ 75%” แต่ไม่สามารถคำนวณอัตราส่วนที่แน่นอนได้
การนับในฉากที่ซับซ้อน: โมเดลอาจระบุวัตถุทั้งหมดได้ แต่ทำผิดพลาดในการนับทีละชิ้น
การอธิบายความสัมพันธ์เชิงพื้นที่: โมเดลสามารถให้การตัดสินเชิงคุณภาพได้ (เช่น “ด้านซ้าย”) แต่ทำการคำนวณระยะทางและการให้เหตุผลทางเรขาคณิตได้อย่างเสถียรได้ยาก

เมื่อเผชิญกับปัญหาประเภทนี้ มนุษย์มักจะใช้เครื่องมือช่วย เช่น การวาดเส้นช่วย การทำเครื่องหมาย หรือการคำนวณ สิ่งนี้ทำให้เกิดข้อสันนิษฐานสำคัญ: เนื่องจากโมเดลเก่งในการเขียนโปรแกรมเป็นอย่างมาก เราจะสามารถให้มันใช้โค้ด ซึ่งเป็นเครื่องมือที่มันคุ้นเคยที่สุด เพื่อชดเชยจุดอ่อนด้านความแม่นยำในการประมวลผลภาพได้หรือไม่?

SWE-Vision คือการทดสอบเชิงระบบต่อข้อสันนิษฐานนี้

SWE-Vision: เปิดโลกทัศน์ให้โมเดลใหญ่ "มองเห็น" ด้วยโค้ด ปรับปรุงสถิติ SOTA ในห้ามาตรฐานการมองเห็น

ผลลัพธ์มีนัยสำคัญ: ในห้าชุดทดสอบมาตรฐานที่ครอบคลุมการรับรู้พื้นฐาน การให้เหตุผลจากแผนภูมิ ปัญหาคณิตศาสตร์ การทำความเข้าใจเชิงพื้นที่ และความท้าทายด้านการมองเห็นหลายขั้นตอนที่ซับซ้อน SWE-Vision ได้ปรับปรุงประสิทธิภาพของโมเดลขนาดใหญ่แนวหน้าและทำผลลัพธ์ที่ทันสมัยที่สุดได้

02｜SWE-Vision คืออะไร: เอเจนต์ด้านการมองเห็นที่ ‘เรียบง่ายที่สุด’

แนวคิดการออกแบบของ SWE-Vision คือความเรียบง่ายสุดขีด โดยไม่ได้นำเครื่องมือด้านการมองเห็นเฉพาะทางจำนวนมากมาใช้ แต่รวมความสามารถไว้ที่สองจุดหลัก

2.1 ชั้นเครื่องมือ: รักษาไว้เพียงสองเครื่องมือหลัก
ในการกำหนดค่า โมเดลสามารถเรียกใช้เครื่องมือได้เพียงสองอย่าง:
* execute_code: ให้โมเดลรันโค้ด Python ในสภาพแวดล้อม Jupyter ที่คงสถานะไว้ได้
* finish: เมื่อโมเดลมั่นใจว่าคำตอบถูกต้องแล้ว ให้ส่งออกผลลัพธ์สุดท้าย

ประเด็นสำคัญคือ อินเทอร์เฟซของเครื่องมือเองมีขนาดเล็กและเป็นสากล SWE-Vision ไม่ได้กำหนด API ด้านการมองเห็นเฉพาะทางจำนวนมากไว้ล่วงหน้า แต่เปิดเผยเพียงแอ็กชันที่โมเดลคุ้นเคยอยู่แล้ว นั่นคือการเขียนโค้ด Python

2.2 ชั้นควบคุม: วงจรมาตรฐานของเอเจนต์
เอเจนต์นำวงจรการทำงานที่สมบูรณ์มาใช้: จัดระเบียบคำถามและรูปภาพจากผู้ใช้เป็นข้อความ เรียกใช้อินเทอร์เฟซโมเดลที่รองรับการใช้เครื่องมือ; หากโมเดลเรียกใช้ execute_code จะส่งโค้ดไปยังเคอร์เนล Notebook เพื่อดำเนินการ; จากนั้นส่งผลลัพธ์การดำเนินการกลับไปยังโมเดลเป็นข้อความเครื่องมือ; โมเดลจะตัดสินใจตามนั้นว่าจะเรียกใช้เครื่องมือต่อไปหรือส่งออกคำตอบสุดท้าย กรอบงานรองรับการเลือกเครื่องมืออัตโนมัติโดยค่าเริ่มต้น และสามารถเปิดโหมดการให้เหตุผลได้ ซึ่งอนุญาตให้มีการวิเคราะห์แบบวนซ้ำหลายรอบ

2.3 ชั้นการดำเนินการ: เคอร์เนล Jupyter ที่คงสถานะไว้ใน Docker
ชั้นการดำเนินการไม่ใช่แค่การรันโค้ดหนึ่งส่วน แต่เป็นการเริ่มเคอร์เนล Jupyter ที่คงอยู่ภายในคอนเทนเนอร์ Docker โฮสต์จะเชื่อมต่อกับเคอร์เนลนี้ผ่านไคลเอนต์และรวบรวมผลลัพธ์การดำเนินการ สถานะของเคอร์เนลจะคงอยู่ ตัวแปร โมดูลที่นำเข้า วัตถุภาพ และผลลัพธ์กลางสามารถคงอยู่ระหว่างการเรียกใช้โค้ดหลายครั้งได้ ในขณะเดียวกัน โค้ดทำงานในสภาพแวดล้อม Docker ที่แยกออกมา ซึ่งรับประกันความปลอดภัยและความสามารถในการทำซ้ำได้

พูดง่ายๆ คือ SWE-Vision ไม่ได้บังคับให้โมเดลเขียนโค้ดสำหรับทุกปัญหา แต่จัดเตรียม “ห้องปฏิบัติการคำนวณภาพ” ที่พร้อมใช้และคุ้นเคยให้กับโมเดล

03｜เวิร์กโฟลว์: จากการให้เหตุผลจากภาพ สู่การตรวจสอบแบบวนซ้ำพร้อมภาพ

เวิร์กโฟลว์ของ SWE-Vision คล้ายกับนักวิทยาศาสตร์ข้อมูลที่มองเห็นภาพได้:

อินพุต: ผู้ใช้ให้คำถามและรูปภาพ
การคิด: โมเดลตัดสินใจก่อนว่าสามารถตอบคำถามได้โดยตรงหรือไม่ จำเป็นต้องคำนวณหรือตรวจสอบหรือไม่
การดำเนินการ: หากจำเป็น จะเรียกใช้ execute_code เพื่อวิเคราะห์โดยใช้ไลบรารีต่างๆ เช่น PIL, NumPy, Matplotlib ใน Notebook
ข้อเสนอแนะ: ผลลัพธ์การดำเนินการโค้ด (ค่าตัวเลข ข้อความแสดงข้อผิดพลาด หรือแผนภูมิที่สร้างขึ้น) จะไหลกลับไปยังโมเดล
การวนซ้ำ: โมเดลวิเคราะห์ต่อจากข้อเสนอแนะ จนกระทั่งเรียกใช้ finish เพื่อให้คำตอบสุดท้าย

การออกแบบที่สำคัญ ได้แก่:
* สภาพแวดล้อมการดำเนินการที่มีสถานะ: ตัวแปร การนำเข้า รูปภาพที่โหลด สามารถคงอยู่ระหว่างการเรียกใช้หลายครั้ง
* แซนด์บ็อกซ์ Docker: ให้สภาพแวดล้อมการดำเนินการที่ปลอดภัย ควบคุมได้ และทำซ้ำได้
* อินพุตและเอาต์พุตภาพ: โมเดลไม่เพียงอ่านภาพอินพุตได้ แต่ยังสามารถส่งผลลัพธ์การแสดงภาพที่ตัวเองสร้างขึ้นกลับไปยังตัวเองเพื่อตรวจสอบได้ ซึ่งเป็นกุญแจสำคัญในการทำให้เกิดการแก้ไขข้อผิดพลาดด้วยตัวเอง
* อินเทอร์เฟซมาตรฐานสำหรับเรียกใช้เครื่องมือ: รับประกันความเข้ากันได้กับโมเดลหลักโดยไม่ต้องปรับแต่ง

คุณค่าของการออกแบบชุดนี้คือ อนุญาตให้โมเดลทำงานเหมือนนักวิทยาศาสตร์จริงๆ นั่นคือทำการทดลองก่อน แล้วจึงสรุปผล

04｜ทำไม Notebook ที่มีสถานะจึงสำคัญกว่าโปรแกรมรันโค้ดแบบครั้งเดียว

เมื่อมองผิวเผิน SWE-Vision ดูเหมือนเพียงเพิ่มเครื่องมือ Python ให้กับโมเดลภาษาภาพ (VLM) แต่ความแตกต่างที่แท้จริงอยู่ที่ “การมีสถานะ”

ใน SWE-Vision สถานะของเคอร์เนลจะคงอยู่ระหว่างการเรียกใช้หลายครั้ง ซึ่งหมายความว่าโมเดลสามารถทำงานเป็นขั้นตอนได้เหมือนนักวิเคราะห์มนุษย์: รอบแรกอ่านภาพ ตรวจสอบขนาด; รอบที่สองครอปส่วนท้องถิ่น สังเกตขอบ; รอบที่สามนับสถิติสีหรือวัดระยะทาง; รอบที่สี่วาดเส้นช่วยเพื่อยืนยัน; สุดท้ายจึงสร้างคำตอบ

หากการรันโค้ดแต่ละครั้งไม่มีสถานะ การวิเคราะห์หลายขั้นตอนนี้จะกลายเป็นเรื่องยุ่งยาก: ทุกขั้นตอนต้องนำเข้าไลบรารีใหม่ โหลดภาพใหม่ สร้างตัวแปรใหม่ SWE-Vision ผ่านเคอร์เนลที่คงสถานะไว้ ทำให้ “การเรียกใช้เครื่องมือหลายรอบ” กลายเป็น “การทดลองต่อเนื่องในเซสชัน Notebook เดียวกัน” จากมุมมองการนำไปปฏิบัติ นี่คือเหตุผลที่ทำให้มันสามารถจัดการงานวัดแผนภูมิ ความสัมพันธ์เชิงพื้นที่ และงานด้านการมองเห็นหลายขั้นตอนที่ซับซ้อนได้ ไม่จำกัดแค่ OCR หรือการตรวจจับแบบครั้งเดียว

05｜ความสามารถหลัก: ตรวจสอบการตัดสินใจด้านการมองเห็นของตัวเอง

ในงานของ SWE-Vision ในการจัดการงาน “สังเกตแผนภูมิวิทยาศาสตร์ สรุปกฎเกณฑ์” จะเห็นรูปแบบพฤติกรรมที่เป็นเอกลักษณ์ ตัวอย่างเช่น ในงานวิเคราะห์แผนภูมิวิจัยที่แสดงในภาพด้านล่าง ต้องการให้โมเดลตัดสินว่าในเงื่อนไขเฉพาะใด กราฟย่อยใดที่มีช่องว่างระหว่างเส้นโค้งสองเส้นมากที่สุด

เอเจนต์ SWE-Vision แสดงวิธีแก้ปัญหาที่เข้มงวดและสามารถอธิบายได้ ขั้นแรก มันตัดกราฟย่อยที่ไม่มีเส้นประสีแดงออก (d); ต่อมา ที่ตำแหน่ง Quarters = 15 มันวาดเส้นช่วยอย่างแม่นยำสำหรับกราฟย่อยที่เป็นตัวเลือกแต่ละอัน เพื่อหาตำแหน่งจุดตัดของเส้นสีแดงและเส้นสีดำ; จากนั้น ผ่านการรันโค้ดเพื่อคำนวณค่าความแตกต่างระหว่างเส้นโค้งสองเส้นที่ตำแหน่งนั้นอย่างแม่นยำ; สุดท้ายให้คำตอบที่ถูกต้องตามผลการคำนวณ

วงจรความคิดและการกระทำแบบ “วิเคราะห์เชิงโครงสร้างก่อน จากนั้นวัดด้วยโปรแกรม สุดท้ายตรวจสอบด้วยค่าตัวเลข” นี้ แตกต่างอย่างชัดเจนกับวิธีของโมเดลภาษาภาพแบบดั้งเดิมที่พึ่งพาการ “สังเกตด้วยตา” แบบสัญชาตญาณเพื่อให้คำตอบโดยตรง มันไม่เพียงปรับปรุงความน่าเชื่อถือและความสามารถในการอธิบายผลลัพธ์อย่างมีนัยสำคัญ แต่ยังแสดงให้เห็นถึงขีดจำกัดความสามารถที่สูงขึ้นและศักยภาพในการปรับใช้ทั่วไปที่แข็งแกร่งขึ้น

06｜ทำไมการออกแบบที่เรียบง่ายกลับแข็งแกร่งกว่า

ข้อสรุปสำคัญประการหนึ่งของ SWE-Vision คือ: สำหรับงานด้านการมองเห็น การนำเครื่องมือโค้ดสากลมาใช้สำหรับโมเดลหลายรูปแบบแนวหน้า เป็นทิศทางการขยายตัวระหว่างการทดสอบที่มีประสิทธิภาพในการเพิ่มความสามารถด้านการมองเห็นของโมเดล

ประสิทธิภาพของมันเกิดจากการออกแบบที่เรียบง่ายที่สุด:
* จำนวนเครื่องมือน้อย ขอบเขตการตัดสินใจชัดเจน
* ความหมายของเครื่องมือ สอดคล้องกับความสามารถที่มีอยู่ของโมเดลเป็นอย่างดี
* รองรับการวนซ้ำหลายรอบ และการสะสมสถานะ
* ผลลัพธ์กลางสามารถถูกสังเกตได้อีกครั้ง แทนที่จะส่งกลับเป็นข้อความครั้งเดียว
* ไม่ผูกกับกลยุทธ์เฉพาะที่ออกแบบด้วยมือสำหรับชุดทดสอบมาตรฐานใดชุดหนึ่ง

สิ่งนี้แตกต่างจากวิธีการ “ออกแบบชุดอินเทอร์เฟซเครื่องมือแยกต่างหากสำหรับงานด้านการมองเห็นประเภทหนึ่ง” วิธีการหลังมักมีประสิทธิภาพในงานแคบเฉพาะทาง แต่ความสามารถในการปรับใช้ทั่วไปไม่เพียงพอ ในขณะที่เป้าหมายของ SWE-Vision คือการจัดเตรียมกรอบงานเสริมการมองเห็นที่เป็นสากลที่สุดเท่าที่จะเป็นไปได้ เพื่อให้โมเดลตัดสินใจได้เองว่าจะเรียกใช้โค้ดเมื่อใด และจะจัดระเบียบขั้นตอนการวิเคราะห์อย่างไร

07｜ปรับปรุงครบทั้งห้าชุดทดสอบมาตรฐาน: ‘ตัวเสริมความสามารถด้านการมองเห็น’ ที่เป็นสากลมากขึ้น

SWE-Vision ได้รับการประเมินบนชุดทดสอบมาตรฐานด้านการมองเห็นห้าชุดที่มีขอบเขตกว้างขวาง (ครอบคลุมการรับรู้พื้นฐาน แผนภูมิ คณิตศาสตร์ พื้นที่ การให้เหตุผลหลายขั้นตอนแบบผสมผสาน) และข้อค้นพบหลักมีความสอดคล้องกันสูง: การนำความสามารถในการรันโค้ดมาใช้ สามารถปรับปรุงขีดจำกัดประสิทธิภาพด้านการมองเห็นของโมเดลแนวหน้าได้อย่างเป็นระบบ

ในการทดลองเปรียบเทียบ (โมเดลพื้นฐานรุ่นเดียวกัน เทียบกับรุ่นที่เสริมด้วย SWE-Vision) SWE-Vision นำมาซึ่งการปรับปรุงอย่างมีนัยสำคัญสำหรับโมเดลภาษาภาพแนวหน้าสองรุ่น (GPT-5.2, Seed-2.0):

ข้อค้นพบที่ “ขัดกับสัญชาตญาณ” คือ: งานที่ได้รับการปรับปรุงมากที่สุด มักไม่ใช่งานการให้เหตุผลระดับสูงที่ซับซ้อนที่สุด แต่เป็นความสามารถในการรับรู้และการประมวลผลที่แม่นยำที่สุด เช่น การนับ การระบุสี และการตัดสินความสัมพันธ์เชิงพื้นที่ในชุดทดสอบมาตรฐาน BabyVision งานประเภทนี้มนุษย์สามารถทำได้อย่างเสถียรโดยใช้สัญชาตญาณและเครื่องมือง่ายๆ ในขณะที่โมเดลที่พึ่งพาเพียง “การมองเห็นในรูปแบบภาษา” มักจะละเลยรายละเอียด นับจำนวนผิดพลาด และขาดวิธีการตรวจสอบ

ผลลัพธ์ของ SWE-Vision ยังเผยให้เห็นความเป็นไปได้อีกประการหนึ่ง: สำหรับการทำความเข้าใจด้านการมองเห็น การขยายตัวระหว่างการทดสอบไม่จำเป็นต้องพึ่งพาเพียงโซ่ความคิด (Chain-of-Thought) “การสร้างข้อความเพิ่มอีกสองสามย่อหน้า” เท่านั้น แต่ยังสามารถทำได้ผ่าน “การรันโค้ดเพิ่มอีกสองสามบรรทัด” เพื่อการสังเกตและการวัดที่ละเอียดยิ่งขึ้น

08｜ทิศทางการพัฒนาในอนาคต: ทำให้ ‘การเสริมการมองเห็นด้วยโค้ด’ เป็นความสามารถโดยกำเนิดของเอเจนต์ด้านการมองเห็น

ต่างจากข้อมูลดั้งเดิมที่ใช้ฝึกโมเดลภาษาขนาดใหญ่หลายรูปแบบ (ซึ่งมักเป็นสามสิ่งประกอบ: คำถาม

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25904

การดำเนินการโค้ด การทดสอบมาตรฐานภาพ เอเจนต์อัจฉริยะด้านการมองเห็น โครงการโอเพนซอร์ส โมเดลขนาดใหญ่แบบหลายรูปแบบ

Like (0)

0 0

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

Previous 20 hours ago

นักศึกษา MIT เรียนจบหนึ่งเทอมใน 48 ชั่วโมง: เปิดเผยเทคนิคการตั้งคำถามระดับมืออาชีพของ NotebookLM

Next 7 hours ago

โครงการโอเพนซอร์ส

เอเจนต์ AI โพสต์เฟซบุ๊กด้วยตัวเองจนกลายเป็นประเด็นร้อน! มหาวิทยาลัยฟู่ตานเปิดตัว GenericAgent เอเจนต์อเนกประสงค์แบบโอเพนซอร์ส เปิดศักราชใหม่แห่งชีวิตดิจิทัล

เมื่อไม่นานมานี้ โพสต์ในเฟซบุ๊กของศาสตราจารย์เซียว หยางหัว จากมหาวิทยาลัยฟู่ตั้น ได้ก่อให้เกิดการพูดคุยอย่างกว้างขวาง ทีมวิจัยของเขาได้พัฒนาเอไอเอเจนต์ทดสอบที่สามารถเรียนรู้ด้วยตนเ…

2026年3月1日
71000
โครงการโอเพนซอร์ส

เปิดโปงเทคนิคจิตวิทยา AI: โครงการโอเพนซอร์สสองโครงการสอนวิธี “PUA” แบบจำลองใหญ่เพื่อดึงประสิทธิภาพสูงสุด

ไม่รู้ว่าทุกคนยังจำเหตุการณ์รั่วไหลของพรอมต์ระบบที่มีชื่อเสียงเมื่อปีที่แล้วได้หรือไม่ เหตุการณ์เกี่ยวข้องกับ Windsurf (คู่แข่งของ Cursor) โดยพรอมต์ที่รั่วไหลออกมาได้รับความสนใจอย่…

3 days ago
57000
โครงการโอเพนซอร์ส

Ali เปิดตัว OpenSandbox: Sandbox ระดับการผลิตสำหรับ AI Agents พร้อมรองรับหลายภาษาและการปรับใช้แบบ K8s Native

แซนด์บ็อกซ์ได้กลายเป็นโครงสร้างพื้นฐานที่สำคัญสำหรับการพัฒนาเอเจนต์อัจฉริยะ ล่าสุด Alibaba ได้เปิดตัวโซลูชันแซนด์บ็อกซ์ระดับการผลิตของพวกเขาในรูปแบบโอเพนซอร์ส นั่นคือ OpenSandbox เ…

2026年3月1日
82000
โครงการโอเพนซอร์ส

OpenClaw: ขึ้นอันดับ 1 บน GitHub ในสองเดือน เฟรมเวิร์ก AI ระดับท้องถิ่นพลิกโฉมชุมชนโอเพนซอร์สและเศรษฐกิจความสนใจอย่างไร

คำนำ ใช้เวลาเพียงสองเดือน เฟรมเวิร์ก AI ระดับท้องถิ่นอย่าง OpenClaw ก็สามารถเอาชนะ Linux ได้ และขึ้นแท่นอันดับหนึ่งในรายการดาวของ GitHub บทความนี้ย้อนมองเส้นทางความนิยมอย่างรวดเร็ว…

2026年3月4日
79000
โครงการโอเพนซอร์ส

UniScientist: โมเดลโอเพนซอร์ส 30B พารามิเตอร์ สร้างวงจรการวิจัยครบวงจร เทียบเคียงโมเดลปิด 100B+ พารามิเตอร์

โมเดลภาษาขนาดใหญ่ส่วนมากสามารถสร้างข้อความที่ “ดูเหมือน” งานวิจัยทางวิชาการได้ แต่มีน้อยมากที่สามารถดำเนินกระบวนการวิจัยจริงได้ นั่นคือ การตั้งสมมติฐาน รวบรวมหลักฐาน ดำ…

2026年3月9日
58000

SWE-Vision: เปิดโลกทัศน์ให้โมเดลใหญ่ “มองเห็น” ด้วยโค้ด ปรับปรุงสถิติ SOTA ในห้ามาตรฐานการมองเห็น

01｜โมเดลมองเห็นได้ แต่ประมวลผลอย่างแม่นยำได้ยาก

02｜SWE-Vision คืออะไร: เอเจนต์ด้านการมองเห็นที่ ‘เรียบง่ายที่สุด’

03｜เวิร์กโฟลว์: จากการให้เหตุผลจากภาพ สู่การตรวจสอบแบบวนซ้ำพร้อมภาพ

04｜ทำไม Notebook ที่มีสถานะจึงสำคัญกว่าโปรแกรมรันโค้ดแบบครั้งเดียว

05｜ความสามารถหลัก: ตรวจสอบการตัดสินใจด้านการมองเห็นของตัวเอง

06｜ทำไมการออกแบบที่เรียบง่ายกลับแข็งแกร่งกว่า

07｜ปรับปรุงครบทั้งห้าชุดทดสอบมาตรฐาน: ‘ตัวเสริมความสามารถด้านการมองเห็น’ ที่เป็นสากลมากขึ้น

相关推荐

เปิดโปงเทคนิคจิตวิทยา AI: โครงการโอเพนซอร์สสองโครงการสอนวิธี “PUA” แบบจำลองใหญ่เพื่อดึงประสิทธิภาพสูงสุด

Ali เปิดตัว OpenSandbox: Sandbox ระดับการผลิตสำหรับ AI Agents พร้อมรองรับหลายภาษาและการปรับใช้แบบ K8s Native

UniScientist: โมเดลโอเพนซอร์ส 30B พารามิเตอร์ สร้างวงจรการวิจัยครบวงจร เทียบเคียงโมเดลปิด 100B+ พารามิเตอร์