Google DeepMind เปิดตัว Vision Banana โมเดลวิทัศน์มัลติโมดัลขนาดใหญ่แบบทั่วไปล่าสุด โดยใช้ Nano Banana Pro เป็นฐาน —
He Kaiming และ Xie Saining ร่วมพิสูจน์ว่า การฝึกอบรมล่วงหน้าแบบสร้างภาพ สามารถเป็นกระบวนทัศน์แบบรวมสำหรับการเรียนรู้วิทัศน์ทั่วไป
โมเดลทั่วไปหนึ่งเดียว ภายใต้การถ่ายโอนแบบ zero-shot เอาชนะโมเดลเฉพาะทางอย่าง SAM 3 และ Depth Anything 3 โดยภารกิจหลักด้านการแบ่งส่วน ความลึก และเส้นตั้งฉาก ทำลายสถิติ SOTA หลายรายการ
เหมือนกับที่ LLM ใช้การสร้างข้อความเพื่อรวมภารกิจ NLP ทั้งหมด ช่วงเวลา LLM ในด้านวิทัศน์อาจมาถึงแล้วจริงๆ
Xie Saining กล่าวว่า ในฐานะคนที่เริ่มต้นสัมผัสกับคอมพิวเตอร์วิทัศน์จากภารกิจการติดฉลากระดับพิกเซล (เช่น การแบ่งส่วน ขอบ ความลึก หรือเส้นตั้งฉากพื้นผิว) การเห็นผลลัพธ์นี้ทำให้รู้สึกอย่างแท้จริงว่า:
สาขานี้กำลังเกิดการเปลี่ยนแปลงครั้งใหญ่ Vision Banana จะเปลี่ยนวิธีการแก้ปัญหาทางวิทัศน์เหล่านี้ไปอย่างสิ้นเชิง
ใช้ “การปรับแต่งด้วยคำสั่ง + อินเทอร์เฟซการสร้าง” เพื่อรวมภารกิจวิทัศน์ทั้งหมด
โมเดลการสร้าง เช่น การสร้างภาพจากข้อความและการแก้ไขภาพ กำลังพัฒนาอย่างรวดเร็ว คุณภาพภาพสมจริงยิ่งขึ้น ความหมายแม่นยำยิ่งขึ้น แต่วงการวิชาการยังคงมีคำถามค้างคา:
โมเดลที่สร้างเนื้อหาภาพได้แม่นยำ เข้าใจโลกวิทัศน์จริงหรือ?
สิ่งนี้เปรียบเหมือนข้อสงสัยในยุคแรกของสาขา NLP: โมเดลที่สร้างข้อความได้ เข้าใจภาษาจริงหรือ?
จนถึงตอนนี้ AI พัฒนามาถึงจุดที่ LLM พิสูจน์ด้วยข้อเท็จจริงว่า การฝึกอบรมล่วงหน้าแบบสร้างเป็นการฝึกอบรมเพื่อความเข้าใจที่ดีที่สุด
ในกระบวนการสร้างข้อความ โมเดลภาษาเรียนรู้ไวยากรณ์ ความหมาย การให้เหตุผล และความรู้โดยธรรมชาติ
แล้วสาขาวิทัศน์ล่ะ?
งานวิจัยวิทัศน์ในอดีตส่วนใหญ่ใช้แนวทางการเรียนรู้แบบจำแนก เช่น การเรียนรู้แบบจำแนกแบบมีผู้สอน การเรียนรู้แบบเปรียบเทียบ การเรียนรู้แบบบูตสแตรป ออโต้เอนโค้ดเดอร์… เกือบทั้งหมดไม่ใช่การสร้างแบบจำลอง
การจำแนก การตรวจจับ การแบ่งส่วน และการประมาณความลึก ต่างใช้สถาปัตยกรรมและชุดข้อมูลของตัวเอง โมเดลมีความเชี่ยวชาญแต่ไม่ทั่วไป
และคำตอบของ Vision Banana คือ:
โมเดลการสร้างภาพเรียนรู้ที่จะเข้าใจโลกวิทัศน์อย่างเงียบๆ มานานแล้ว เพียงแต่ไม่มีใครสอนให้มันแสดงผลลัพธ์ความเข้าใจออกมา
มันเปลี่ยนเส้นทางอย่างสิ้นเชิง: ใช้แนวคิดแบบสร้าง เพื่อรวมภารกิจการรับรู้ทางวิทัศน์ทั้งหมดเป็นเรื่องเดียว
Vision Banana ใช้ฐานการสร้างของ Google เองคือ Nano Banana Pro เป็นฐาน เพียงใช้ การปรับแต่งด้วยคำสั่งแบบเบา เพื่อรวมภารกิจการรับรู้ทั้งหมด เช่น การแบ่งส่วน การประมาณความลึก และเส้นตั้งฉากพื้นผิว เป็น การสร้างภาพ RGB ที่ถอดรหัสได้ เพียงเรื่องเดียว
การดำเนินการเฉพาะแบ่งเป็นสามขั้นตอน
ขั้นตอนแรก ใช้คำแนะนำภาษาธรรมชาติเพื่อระบุรูปแบบผลลัพธ์
Vision Banana สืบทอดความสามารถมัลติโมดัลของโมเดลการสร้าง ทำให้เข้าใจภาษามนุษย์ได้ง่าย
เช่น บอกมันโดยตรงว่า “แมวใช้สีเหลือง (255,255,0) ทำเครื่องหมาย พื้นหลังใช้สีดำ” หรือให้แผนที่สี JSON มันก็เข้าใจและดำเนินการได้อย่างแม่นยำ
ความสามารถนี้มาจากความเข้าใจมัลติโมดัลของ Nano Banana Pro โดยตรง โมเดลการสร้างเรียนรู้ที่จะเชื่อมโยงข้อความและภาพในระหว่างการฝึกอบรม ตอนนี้แค่ต้องสอนให้มันแสดงผลลัพธ์ความเข้าใจเป็นภาพด้วย
ขั้นตอนที่สอง ออกแบบการเข้ารหัส RGB ที่ถอดรหัสย้อนกลับได้
ผลลัพธ์การรับรู้ทั้งหมด (การแบ่งส่วน ความลึก เส้นตั้งฉาก) ถูกเข้ารหัสเป็นภาพ RGB ทั่วไป และการเข้ารหัสสามารถย้อนกลับได้
การประมาณเส้นตั้งฉากง่ายที่สุด เวกเตอร์หน่วย (−1 ถึง 1) แมปเชิงเส้นตรงไปยัง RGB (0 ถึง 255)
การแบ่งส่วนความหมายเข้าใจง่ายกว่า แต่ละหมวดหมู่กำหนดสีหนึ่งสี โมเดลสร้างภาพระบายสี เมื่อถอดรหัสจะได้ mask ผ่านการจับคู่สีแบบคลัสเตอร์
การแบ่งส่วนอินสแตนซ์แตกต่างเล็กน้อย เพราะจำนวนอินสแตนซ์ไม่ทราบ ไม่สามารถกำหนดสีล่วงหน้าในคำแนะนำ Vision Banana ใช้กลยุทธ์การอนุมานทีละหมวดหมู่ แบ่งส่วนทีละหมวดหมู่ โมเดลจะกำหนดสีต่างกันให้อินสแตนซ์ต่างกันโดยอัตโนมัติ
ที่ประณีตที่สุดคือการประมาณความลึก บีบอัดค่าความลึกที่ไม่มีที่สิ้นสุดก่อน แมปไปยังช่วง 0~1 จากนั้นจับคู่กับสี RGB ทำให้ค่าความลึกหนึ่งค่าสอดคล้องกับสีเดียว และสีเดียวก็สามารถคืนค่าความลึกได้อย่างแม่นยำโดยไม่สูญเสียข้อมูล
ขั้นตอนที่สาม การปรับแต่งด้วยคำสั่งแบบเบา
เพียงแค่ผสมข้อมูลภารกิจวิทัศน์จำนวนเล็กน้อยลงในข้อมูลการฝึกอบรมเดิมของ Nano Banana Pro ก็สามารถทำการจัดตำแหน่งได้
การปรับแต่งแบบเบานี้มีข้อดีสามประการ:
- น้ำหนักชุดเดียวใช้ได้กับทุกภารกิจ เพียงเปลี่ยนคำสั่งก็สลับภารกิจได้
- ไม่จำเป็นต้องใช้ข้อมูลติดฉลากเพิ่มเติมจำนวนมาก ต้นทุนการฝึกอบรมต่ำมาก
- ไม่สูญเสียความสามารถในการสร้างภาพจากข้อความและการแก้ไขภาพเดิมเลย
จากตัวอย่างที่官方ให้มา จะเห็นว่าโมเดลใช้คำแนะนำข้อความเพื่อกำหนดรหัสสีเฉพาะให้วัตถุต่างๆ อาศัยกฎการแมปสี สร้างภาพการแบ่งส่วนความหมายที่มองเห็นได้
แล้วทำไมแนวคิดนี้ถึงได้ผล?
เหมือนกับการฝึกอบรมล่วงหน้าแบบสร้างที่เรียนรู้ไวยากรณ์และการให้เหตุผลในกระบวนการสร้างข้อความ โมเดลการสร้างภาพเรียนรู้ขอบเขตวัตถุ ความสัมพันธ์เชิงลึก และโครงสร้างเรขาคณิตในกระบวนการสร้างพิกเซล
การแสดงเหล่านี้มีอยู่ในโมเดลตลอด เพียงแต่ไม่มีอินเทอร์เฟซที่เหมาะสมในการปลดปล่อยออกมา
ที่สำคัญกว่านั้น การสร้างแบบจำลองโดยธรรมชาติแก้ปัญหามัลติโมดัลได้
ภารกิจวิทัศน์หลายอย่างเป็นแบบหนึ่งต่อหลาย ข้อมูลนำเข้าเดียวกัน อาจมีผลลัพธ์ที่สมเหตุสมผลหลายแบบ
เช่น การประมาณความลึก ความลึกของพิกเซลหนึ่งมีความคลุมเครือภายใน โมเดลแบบจำแนกเพื่อหลีกเลี่ยงผลลัพธ์ที่คลุมเครือ ต้องออกแบบสถาปัตยกรรมและ loss เฉพาะ
SAM ถึงกับใช้ loss กับ mask เดียวเท่านั้น ละเว้นตัวเลือกอื่น
ในขณะที่โมเดลการสร้างเรียนรู้การกระจายข้อมูลที่สมบูรณ์โดยธรรมชาติ
LLM ใช้การสร้างข้อความเพื่อรวมภารกิจ NLP ทั้งหมด เช่น ความเข้าใจ การแปล การสรุป และการให้เหตุผล
Vision Banana พิสูจน์ว่า: การสร้างภาพสามารถเป็นอินเทอร์เฟซแบบรวมในสาขาวิทัศน์
ครอบคลุมทั้ง 2D และ 3D
โซลูชันที่เรียบง่ายสุดขีดนี้เอาชนะโมเดลเฉพาะทางในเกณฑ์มาตรฐาน权威ได้อย่างสมบูรณ์ และตลอดทั้งกระบวนการเป็น การถ่ายโอนแบบ zero-shot —
ระหว่างการฝึกอบรมไม่แตะข้อมูลชุดทดสอบเลย การประมาณความลึกไม่ต้องใช้พารามิเตอร์ภายในกล้อง
ประการแรก ในความเข้าใจ 2D การแบ่งส่วนความหมาย mIoU 0.699 เอาชนะ SAM 3; การแบ่งส่วนอ้างอิงทำลายสถิติ zero-shot SOTA ทั้งคู่; การแบ่งส่วนอินสแตนซ์เทียบเท่ากับ DINO-X อยู่ในระดับแนวหน้า
จากนั้น ในความเข้าใจ 3D Vision Banana ทำผลลัพธ์ที่น่าประหลาดใจยิ่งขึ้น การประมาณความลึกและการประมาณเส้นตั้งฉากทำลาย SOTA ทั้งคู่
มีรายละเอียดสำคัญ: Vision Banana ไม่ต้องการพารามิเตอร์ภายในกล้องทั้งในการฝึกอบรมและการอน inference
โมเดลความลึก SOTA ทั้งหมด เช่น DepthLM, Depth Anything V3, Depth Pro, UniK3D, MoGe-2 อย่างน้อยต้องใช้พารามิเตอร์ภายในกล้องระหว่างการฝึกอบรม
ในขณะที่ Vision Banana อาศัยความรู้ก่อนหน้าทางวิทัศน์ล้วนๆ
การปรับแต่งแบบเบาไม่สูญเสียความสามารถในการสร้างเลย
บน GenAI-Bench อัตราชนะ Nano Banana Pro 53.5% บน ImgEdit อัตราชนะ 47.8%
Vision Banana รักษาความสามารถของโมเดลการสร้างเดิมไว้ พร้อมกับรับภารกิจการรับรู้ด้วย
โมเดลเดียว ทั้งสร้างและเข้าใจ ครบทุกอย่าง
เหมือนกับเส้นทางการฝึกอบรมล่วงหน้าแบบสร้างในสาขา NLP ที่เปลี่ยนวิธีการดำเนินงานภารกิจภาษาทั้งหมด สาขาวิทัศน์อาจกำลังเผชิญกับการเปลี่ยนแปลงกระบวนทัศน์เดียวกัน
แนะนำทีม
งาน Vision Banana ทั้งหมดมีนักวิจัย 25 คนร่วมกัน
นำโดยผู้เขียนหลักสามคน: Valentin Gabeur, Shangbang Long, Songyou Peng
Valentin Gabeur นักวิจัย Google DeepMind เชี่ยวชาญด้านการเรียนรู้มัลติโมดัล จบ postdoc จาก Meta AI และเป็นผู้เขียนร่วมคนแรกของ SAM 2
ปริญญาเอก Inria เคยชนะการแข่งขัน CVPR 2020 Video Pentathlon Challenge
ที่น่าสนใจคือ ก่อนเปลี่ยนมาสาย AI เขาเป็นวิศวกรเครื่องกล ทำงานในระบบอัตโนมัติอุตสาหกรรมมา 6 ปี
Shangbang Long ศิษย์เก่ามหาวิทยาลัยปักกิ่ง นักวิจัย Google DeepMind เชี่ยวชาญด้านการรู้จำ การตรวจจับ และการแบ่งส่วน
จบปริญญาโทจาก CMU เข้าร่วมโครงการหลัก เช่น Gemini Robotics, Genie 2
深耕ด้าน OCR และความเข้าใจเอกสาร ผลงานตัวแทน TextSnake มีอิทธิพลอย่างมากในด้านการตรวจจับข้อความในฉาก
Songyou Peng (彭崧猷) ศิษย์เก่ามหาวิทยาลัย Xi’an Jiaotong นักวิทยาศาสตร์วิจัย Google DeepMind ทำงานด้านวิทัศน์ 3D มายาวนาน
รับผิดชอบความเข้าใจและการสร้างมัลติโมดัลของ Gemini และ Nano Banana มีผลงานที่มีอิทธิพลสูงหลายรายการในด้าน NeRF และการสร้าง 3 มิติ
นอกจากนี้ He Kaiming และ Xie Saining เข้าร่วมสนับสนุนงานนี้ในฐานะ Leadership Sponsors
ที่อยู่โครงการ: https://vision-banana.github.io/
ที่อยู่论文: https://arxiv.org/abs/2604.20329
ลิงก์อ้างอิง: https://x.com/sainingxie/status/2047339789926429166
หากคุณกำลังทำ หรือเป็นพยานถึงการเปลี่ยนแปลงเหล่านี้ ยินดีต้อนรับการสมัคร
ให้ผู้คนเห็นคุณมากขึ้น 👉 https://wj.qq.com/s2/25829730/09xz/
กดติดตาม 👇 点亮星标พบกับความก้าวหน้าทางเทคโนโลยี前沿ทุกวัน
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31997
