Google DeepMind เปิดตัว Vision Banana: การสร้างภาพด้วยการฝึกอบรมล่วงหน้าเพื่อรวมภารกิจการรับรู้ทางภาพ

2 days ago • วิศวกรรมโมเดลขนาดใหญ่ • 25 views

Google DeepMind เปิดตัว Vision Banana โมเดลวิทัศน์มัลติโมดัลขนาดใหญ่แบบทั่วไปล่าสุด โดยใช้ Nano Banana Pro เป็นฐาน —

He Kaiming และ Xie Saining ร่วมพิสูจน์ว่า การฝึกอบรมล่วงหน้าแบบสร้างภาพ สามารถเป็นกระบวนทัศน์แบบรวมสำหรับการเรียนรู้วิทัศน์ทั่วไป

โมเดลทั่วไปหนึ่งเดียว ภายใต้การถ่ายโอนแบบ zero-shot เอาชนะโมเดลเฉพาะทางอย่าง SAM 3 และ Depth Anything 3 โดยภารกิจหลักด้านการแบ่งส่วน ความลึก และเส้นตั้งฉาก ทำลายสถิติ SOTA หลายรายการ

เหมือนกับที่ LLM ใช้การสร้างข้อความเพื่อรวมภารกิจ NLP ทั้งหมด ช่วงเวลา LLM ในด้านวิทัศน์อาจมาถึงแล้วจริงๆ

Xie Saining กล่าวว่า ในฐานะคนที่เริ่มต้นสัมผัสกับคอมพิวเตอร์วิทัศน์จากภารกิจการติดฉลากระดับพิกเซล (เช่น การแบ่งส่วน ขอบ ความลึก หรือเส้นตั้งฉากพื้นผิว) การเห็นผลลัพธ์นี้ทำให้รู้สึกอย่างแท้จริงว่า:

สาขานี้กำลังเกิดการเปลี่ยนแปลงครั้งใหญ่ Vision Banana จะเปลี่ยนวิธีการแก้ปัญหาทางวิทัศน์เหล่านี้ไปอย่างสิ้นเชิง

ใช้ “การปรับแต่งด้วยคำสั่ง + อินเทอร์เฟซการสร้าง” เพื่อรวมภารกิจวิทัศน์ทั้งหมด

โมเดลการสร้าง เช่น การสร้างภาพจากข้อความและการแก้ไขภาพ กำลังพัฒนาอย่างรวดเร็ว คุณภาพภาพสมจริงยิ่งขึ้น ความหมายแม่นยำยิ่งขึ้น แต่วงการวิชาการยังคงมีคำถามค้างคา:

โมเดลที่สร้างเนื้อหาภาพได้แม่นยำ เข้าใจโลกวิทัศน์จริงหรือ?

สิ่งนี้เปรียบเหมือนข้อสงสัยในยุคแรกของสาขา NLP: โมเดลที่สร้างข้อความได้ เข้าใจภาษาจริงหรือ?

จนถึงตอนนี้ AI พัฒนามาถึงจุดที่ LLM พิสูจน์ด้วยข้อเท็จจริงว่า การฝึกอบรมล่วงหน้าแบบสร้างเป็นการฝึกอบรมเพื่อความเข้าใจที่ดีที่สุด

ในกระบวนการสร้างข้อความ โมเดลภาษาเรียนรู้ไวยากรณ์ ความหมาย การให้เหตุผล และความรู้โดยธรรมชาติ

แล้วสาขาวิทัศน์ล่ะ?

งานวิจัยวิทัศน์ในอดีตส่วนใหญ่ใช้แนวทางการเรียนรู้แบบจำแนก เช่น การเรียนรู้แบบจำแนกแบบมีผู้สอน การเรียนรู้แบบเปรียบเทียบ การเรียนรู้แบบบูตสแตรป ออโต้เอนโค้ดเดอร์… เกือบทั้งหมดไม่ใช่การสร้างแบบจำลอง

การจำแนก การตรวจจับ การแบ่งส่วน และการประมาณความลึก ต่างใช้สถาปัตยกรรมและชุดข้อมูลของตัวเอง โมเดลมีความเชี่ยวชาญแต่ไม่ทั่วไป

และคำตอบของ Vision Banana คือ:

โมเดลการสร้างภาพเรียนรู้ที่จะเข้าใจโลกวิทัศน์อย่างเงียบๆ มานานแล้ว เพียงแต่ไม่มีใครสอนให้มันแสดงผลลัพธ์ความเข้าใจออกมา

มันเปลี่ยนเส้นทางอย่างสิ้นเชิง: ใช้แนวคิดแบบสร้าง เพื่อรวมภารกิจการรับรู้ทางวิทัศน์ทั้งหมดเป็นเรื่องเดียว

Vision Banana ใช้ฐานการสร้างของ Google เองคือ Nano Banana Pro เป็นฐาน เพียงใช้ การปรับแต่งด้วยคำสั่งแบบเบา เพื่อรวมภารกิจการรับรู้ทั้งหมด เช่น การแบ่งส่วน การประมาณความลึก และเส้นตั้งฉากพื้นผิว เป็น การสร้างภาพ RGB ที่ถอดรหัสได้ เพียงเรื่องเดียว

การดำเนินการเฉพาะแบ่งเป็นสามขั้นตอน

ขั้นตอนแรก ใช้คำแนะนำภาษาธรรมชาติเพื่อระบุรูปแบบผลลัพธ์

Vision Banana สืบทอดความสามารถมัลติโมดัลของโมเดลการสร้าง ทำให้เข้าใจภาษามนุษย์ได้ง่าย

เช่น บอกมันโดยตรงว่า “แมวใช้สีเหลือง (255,255,0) ทำเครื่องหมาย พื้นหลังใช้สีดำ” หรือให้แผนที่สี JSON มันก็เข้าใจและดำเนินการได้อย่างแม่นยำ

ความสามารถนี้มาจากความเข้าใจมัลติโมดัลของ Nano Banana Pro โดยตรง โมเดลการสร้างเรียนรู้ที่จะเชื่อมโยงข้อความและภาพในระหว่างการฝึกอบรม ตอนนี้แค่ต้องสอนให้มันแสดงผลลัพธ์ความเข้าใจเป็นภาพด้วย

ขั้นตอนที่สอง ออกแบบการเข้ารหัส RGB ที่ถอดรหัสย้อนกลับได้

ผลลัพธ์การรับรู้ทั้งหมด (การแบ่งส่วน ความลึก เส้นตั้งฉาก) ถูกเข้ารหัสเป็นภาพ RGB ทั่วไป และการเข้ารหัสสามารถย้อนกลับได้

การประมาณเส้นตั้งฉากง่ายที่สุด เวกเตอร์หน่วย (−1 ถึง 1) แมปเชิงเส้นตรงไปยัง RGB (0 ถึง 255)

การแบ่งส่วนความหมายเข้าใจง่ายกว่า แต่ละหมวดหมู่กำหนดสีหนึ่งสี โมเดลสร้างภาพระบายสี เมื่อถอดรหัสจะได้ mask ผ่านการจับคู่สีแบบคลัสเตอร์

การแบ่งส่วนอินสแตนซ์แตกต่างเล็กน้อย เพราะจำนวนอินสแตนซ์ไม่ทราบ ไม่สามารถกำหนดสีล่วงหน้าในคำแนะนำ Vision Banana ใช้กลยุทธ์การอนุมานทีละหมวดหมู่ แบ่งส่วนทีละหมวดหมู่ โมเดลจะกำหนดสีต่างกันให้อินสแตนซ์ต่างกันโดยอัตโนมัติ

ที่ประณีตที่สุดคือการประมาณความลึก บีบอัดค่าความลึกที่ไม่มีที่สิ้นสุดก่อน แมปไปยังช่วง 0~1 จากนั้นจับคู่กับสี RGB ทำให้ค่าความลึกหนึ่งค่าสอดคล้องกับสีเดียว และสีเดียวก็สามารถคืนค่าความลึกได้อย่างแม่นยำโดยไม่สูญเสียข้อมูล

ขั้นตอนที่สาม การปรับแต่งด้วยคำสั่งแบบเบา

เพียงแค่ผสมข้อมูลภารกิจวิทัศน์จำนวนเล็กน้อยลงในข้อมูลการฝึกอบรมเดิมของ Nano Banana Pro ก็สามารถทำการจัดตำแหน่งได้

การปรับแต่งแบบเบานี้มีข้อดีสามประการ:

น้ำหนักชุดเดียวใช้ได้กับทุกภารกิจ เพียงเปลี่ยนคำสั่งก็สลับภารกิจได้
ไม่จำเป็นต้องใช้ข้อมูลติดฉลากเพิ่มเติมจำนวนมาก ต้นทุนการฝึกอบรมต่ำมาก
ไม่สูญเสียความสามารถในการสร้างภาพจากข้อความและการแก้ไขภาพเดิมเลย

จากตัวอย่างที่官方ให้มา จะเห็นว่าโมเดลใช้คำแนะนำข้อความเพื่อกำหนดรหัสสีเฉพาะให้วัตถุต่างๆ อาศัยกฎการแมปสี สร้างภาพการแบ่งส่วนความหมายที่มองเห็นได้

แล้วทำไมแนวคิดนี้ถึงได้ผล?

เหมือนกับการฝึกอบรมล่วงหน้าแบบสร้างที่เรียนรู้ไวยากรณ์และการให้เหตุผลในกระบวนการสร้างข้อความ โมเดลการสร้างภาพเรียนรู้ขอบเขตวัตถุ ความสัมพันธ์เชิงลึก และโครงสร้างเรขาคณิตในกระบวนการสร้างพิกเซล

การแสดงเหล่านี้มีอยู่ในโมเดลตลอด เพียงแต่ไม่มีอินเทอร์เฟซที่เหมาะสมในการปลดปล่อยออกมา

ที่สำคัญกว่านั้น การสร้างแบบจำลองโดยธรรมชาติแก้ปัญหามัลติโมดัลได้

ภารกิจวิทัศน์หลายอย่างเป็นแบบหนึ่งต่อหลาย ข้อมูลนำเข้าเดียวกัน อาจมีผลลัพธ์ที่สมเหตุสมผลหลายแบบ

เช่น การประมาณความลึก ความลึกของพิกเซลหนึ่งมีความคลุมเครือภายใน โมเดลแบบจำแนกเพื่อหลีกเลี่ยงผลลัพธ์ที่คลุมเครือ ต้องออกแบบสถาปัตยกรรมและ loss เฉพาะ

SAM ถึงกับใช้ loss กับ mask เดียวเท่านั้น ละเว้นตัวเลือกอื่น

ในขณะที่โมเดลการสร้างเรียนรู้การกระจายข้อมูลที่สมบูรณ์โดยธรรมชาติ

LLM ใช้การสร้างข้อความเพื่อรวมภารกิจ NLP ทั้งหมด เช่น ความเข้าใจ การแปล การสรุป และการให้เหตุผล

Vision Banana พิสูจน์ว่า: การสร้างภาพสามารถเป็นอินเทอร์เฟซแบบรวมในสาขาวิทัศน์

ครอบคลุมทั้ง 2D และ 3D

โซลูชันที่เรียบง่ายสุดขีดนี้เอาชนะโมเดลเฉพาะทางในเกณฑ์มาตรฐาน权威ได้อย่างสมบูรณ์ และตลอดทั้งกระบวนการเป็น การถ่ายโอนแบบ zero-shot —

ระหว่างการฝึกอบรมไม่แตะข้อมูลชุดทดสอบเลย การประมาณความลึกไม่ต้องใช้พารามิเตอร์ภายในกล้อง

ประการแรก ในความเข้าใจ 2D การแบ่งส่วนความหมาย mIoU 0.699 เอาชนะ SAM 3; การแบ่งส่วนอ้างอิงทำลายสถิติ zero-shot SOTA ทั้งคู่; การแบ่งส่วนอินสแตนซ์เทียบเท่ากับ DINO-X อยู่ในระดับแนวหน้า

จากนั้น ในความเข้าใจ 3D Vision Banana ทำผลลัพธ์ที่น่าประหลาดใจยิ่งขึ้น การประมาณความลึกและการประมาณเส้นตั้งฉากทำลาย SOTA ทั้งคู่

มีรายละเอียดสำคัญ: Vision Banana ไม่ต้องการพารามิเตอร์ภายในกล้องทั้งในการฝึกอบรมและการอน inference

โมเดลความลึก SOTA ทั้งหมด เช่น DepthLM, Depth Anything V3, Depth Pro, UniK3D, MoGe-2 อย่างน้อยต้องใช้พารามิเตอร์ภายในกล้องระหว่างการฝึกอบรม

ในขณะที่ Vision Banana อาศัยความรู้ก่อนหน้าทางวิทัศน์ล้วนๆ

การปรับแต่งแบบเบาไม่สูญเสียความสามารถในการสร้างเลย

บน GenAI-Bench อัตราชนะ Nano Banana Pro 53.5% บน ImgEdit อัตราชนะ 47.8%

Vision Banana รักษาความสามารถของโมเดลการสร้างเดิมไว้ พร้อมกับรับภารกิจการรับรู้ด้วย

โมเดลเดียว ทั้งสร้างและเข้าใจ ครบทุกอย่าง

เหมือนกับเส้นทางการฝึกอบรมล่วงหน้าแบบสร้างในสาขา NLP ที่เปลี่ยนวิธีการดำเนินงานภารกิจภาษาทั้งหมด สาขาวิทัศน์อาจกำลังเผชิญกับการเปลี่ยนแปลงกระบวนทัศน์เดียวกัน

แนะนำทีม

งาน Vision Banana ทั้งหมดมีนักวิจัย 25 คนร่วมกัน

นำโดยผู้เขียนหลักสามคน: Valentin Gabeur, Shangbang Long, Songyou Peng

Valentin Gabeur นักวิจัย Google DeepMind เชี่ยวชาญด้านการเรียนรู้มัลติโมดัล จบ postdoc จาก Meta AI และเป็นผู้เขียนร่วมคนแรกของ SAM 2

ปริญญาเอก Inria เคยชนะการแข่งขัน CVPR 2020 Video Pentathlon Challenge

ที่น่าสนใจคือ ก่อนเปลี่ยนมาสาย AI เขาเป็นวิศวกรเครื่องกล ทำงานในระบบอัตโนมัติอุตสาหกรรมมา 6 ปี

Shangbang Long ศิษย์เก่ามหาวิทยาลัยปักกิ่ง นักวิจัย Google DeepMind เชี่ยวชาญด้านการรู้จำ การตรวจจับ และการแบ่งส่วน

จบปริญญาโทจาก CMU เข้าร่วมโครงการหลัก เช่น Gemini Robotics, Genie 2

深耕ด้าน OCR และความเข้าใจเอกสาร ผลงานตัวแทน TextSnake มีอิทธิพลอย่างมากในด้านการตรวจจับข้อความในฉาก

Songyou Peng (彭崧猷) ศิษย์เก่ามหาวิทยาลัย Xi’an Jiaotong นักวิทยาศาสตร์วิจัย Google DeepMind ทำงานด้านวิทัศน์ 3D มายาวนาน

รับผิดชอบความเข้าใจและการสร้างมัลติโมดัลของ Gemini และ Nano Banana มีผลงานที่มีอิทธิพลสูงหลายรายการในด้าน NeRF และการสร้าง 3 มิติ

นอกจากนี้ He Kaiming และ Xie Saining เข้าร่วมสนับสนุนงานนี้ในฐานะ Leadership Sponsors

ที่อยู่โครงการ: https://vision-banana.github.io/
ที่อยู่论文: https://arxiv.org/abs/2604.20329
ลิงก์อ้างอิง: https://x.com/sainingxie/status/2047339789926429166

หากคุณกำลังทำ หรือเป็นพยานถึงการเปลี่ยนแปลงเหล่านี้ ยินดีต้อนรับการสมัคร

ให้ผู้คนเห็นคุณมากขึ้น 👉 https://wj.qq.com/s2/25829730/09xz/

กดติดตาม 👇 点亮星标พบกับความก้าวหน้าทางเทคโนโลยี前沿ทุกวัน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/31997

Like (0)

0 0

DeepSeek-V4 เวอร์ชันพรีวิวเปิดตัวแล้ว: รองรับบริบทนับล้าน ความสามารถ Agent โดดเด่น พร้อมเปิดซอร์สโค้ด

Previous 2 days ago

AI แมวน้อยที่พูดคุยได้เข้ามาอยู่บนหน้าจอเดสก์ท็อป ทดสอบ SentiCat: เขียนรายงานและทำพรีเซนเทชัน ความสามารถในการพัฒนาด้วยตนเองของจีนโดดเด่น

Next 2 days ago

วิศวกรรมโมเดลขนาดใหญ่

มหาวิทยาลัยชิงหว่าร่วมกับ Meituan เปิดตัว 3DThinker: กรอบงานที่ก้าวล้ำครั้งแรกที่ทำให้โมเดลขนาดใหญ่ “จินตนาการ” ฉากสามมิติ

เมื่อได้รับภาพฉากหลายๆ ภาพ มนุษย์มักสามารถจินตนาการโครงร่างสามมิติของฉากนั้นในใจได้ อย่างไรก็ตาม โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal) ในปัจจุบันยังคงอาศัยการให้เหตุผลจากข้อมูลข้…

2026年3月11日
192000
วิศวกรรมโมเดลขนาดใหญ่

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%

การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transforme…

2026年3月14日
190000
วิศวกรรมโมเดลขนาดใหญ่

ผู้ได้รับรางวัล Fields Medal Michael Freedman เผยแก่นแท้ของคณิตศาสตร์: การบีบอัดคือทุกสิ่ง มุมมองใหม่ของความร่วมมือระหว่าง AI กับคณิตศาสตร์

เมื่อพูดถึงคณิตศาสตร์ เรามักคิดโดยสัญชาตญาณว่ามันเป็นระบบตรรกะที่เข้มงวด แม่นยำ และสมบูรณ์แบบไร้ข้อกังขา แต่ในมุมมองของ ไมเคิล ฟรีดแมน (Michael Freedman) ผู้ได้รับรางวัลฟิลด์ส เมทั…

6 days ago
56000
วิศวกรรมโมเดลขนาดใหญ่

แผนภูมิการตัดสินใจรูปแบบการออกแบบ: ลาก่อนการท่องจำ ตรงจุดกับปัญหาของโค้ด

เลือกใช้ Design Pattern ตามปัญหาที่เจอ: การจับคู่ Pattern ที่เหมาะสมในภาษาเชิงวัตถุใดๆ ด้วยการออกแบบที่เกินความจำเป็นน้อยที่สุด Design Pattern นั้นไม่ค่อยล้มเหลวเพราะ “ผิด&#8…

2026年2月22日
225000
วิศวกรรมโมเดลขนาดใหญ่

ทีม Tencent Hunyuan เปิดตัวชุดโมเดล HY-Embodied-0.5 ที่ออกแบบมาสำหรับปัญญาประดิษฐ์เชิงกายภาพโดยเฉพาะ เพื่อให้เกิดการโต้ตอบที่แม่นยำในโลกกายภาพ

การทำให้โมเดลภาษาขนาดใหญ่สามารถเข้าถึงและเข้าใจโลกกายภาพได้อย่างแท้จริง เป็นหนึ่งในความท้าทายที่เร่งด่วนที่สุดในสาขาปัญญาประดิษฐ์ในปัจจุบัน อย่างไรก็ตาม แม้ว่าโมเดลภาษาภาพทั่วไป (V…

2026年4月9日
148000