Google เปิดตัว Gemini Embedding 2 แบบจำลองฝังตัวหลายรูปแบบแรกที่สร้างขึ้นมาโดยเฉพาะ เพื่อรวมพื้นที่การฝังตัวของข้อความ ภาพ วิดีโอ เสียง และเอกสาร

2026年3月11日 pm12:42 • ข่าวสารอุตสาหกรรม AI • 231 views

Google ประกาศเปิดตัวโมเดลฝังตัวแบบหลายรูปแบบใหม่ล่าสุด Gemini Embedding 2 ซึ่งเป็นโมเดลฝังตัวแบบหลายรูปแบบดั้งเดิมตัวแรกที่สร้างขึ้นบนสถาปัตยกรรม Gemini ขณะนี้ โมเดลนี้พร้อมให้ผู้พัฒนาทดลองใช้ผ่าน Gemini API และ Vertex AI แล้ว

Google เปิดตัว Gemini Embedding 2 แบบจำลองฝังตัวหลายรูปแบบแรกที่สร้างขึ้นมาโดยเฉพาะ เพื่อรวมพื้นที่การฝังตัวของข้อความ ภาพ วิดีโอ เสียง และเอกสาร

พื้นที่ฝังตัวแบบหลายรูปแบบที่เป็นหนึ่งเดียว

ต่างจากโมเดลฝังตัวรุ่นก่อนที่รองรับเฉพาะการแปลงข้อความเป็นเวกเตอร์ Gemini Embedding 2 สามารถแมปข้อมูลหลายประเภท เช่น ข้อความ รูปภาพ วิดีโอ เสียง และเอกสาร ไปยังพื้นที่ฝังตัวที่เป็นหนึ่งเดียวกันได้ ส่งผลให้รองรับการทำความเข้าใจและค้นหาความหมายข้ามสื่อ ความสามารถนี้หมายความว่าผู้พัฒนาสามารถประมวลผลข้อมูลประเภทต่าง ๆ ในฐานข้อมูลเวกเตอร์เดียวกัน และดำเนินการค้นหา จัดประเภท และจัดกลุ่มข้ามรูปแบบตามความคล้ายคลึงทางความหมาย

ในแง่ของการใช้งาน พื้นที่ฝังตัวที่เป็นหนึ่งเดียวสามารถลดความซับซ้อนของโครงสร้างระบบ AI แบบหลายรูปแบบได้อย่างมาก ในอดีต หากองค์กรต้องการสร้างระบบที่รองรับการค้นหาข้อความและรูปภาพ มักต้องใช้โมเดลต่างกันในการสร้างเวกเตอร์ จากนั้นจึงใช้กลไกการจัดตำแหน่งหรือการแมปเพิ่มเติมเพื่อผสานเข้าด้วยกัน ในขณะที่ Gemini Embedding 2 ฉายความหมายของรูปแบบข้อมูลต่าง ๆ ลงในพื้นที่เวกเตอร์เดียวกันโดยตรง ทำให้งานต่าง ๆ เช่น การสร้างเสริมด้วยการค้นหา (RAG) การค้นหาความหมาย การวิเคราะห์ความรู้สึก ระบบแนะนำ และการจัดกลุ่มข้อมูล สามารถดำเนินการภายใต้กรอบงานเดียวกันได้

สเปกความสามารถในการประมวลผลแบบหลายรูปแบบ

ในด้านสเปกความสามารถ Gemini Embedding 2 สืบทอดข้อได้เปรียบในการประมวลผลแบบหลายรูปแบบของตระกูลโมเดล Gemini และให้ขอบเขตการรองรับที่ชัดเจนสำหรับประเภทข้อมูลนำเข้าต่าง ๆ:

ข้อความ: รองรับคอนเท็กซ์แบบขยายได้สูงสุด 8192 โทเค็นนำเข้า
การประมวลผลรูปภาพ: สามารถประมวลผลรูปภาพได้สูงสุด 6 รูปต่อคำขอ รองรับรูปแบบ PNG และ JPEG
วิดีโอ: รองรับการนำเข้าวิดีโอในรูปแบบ MP4 และ MOV ความยาวสูงสุด 120 วินาที
เสียง: รองรับการนำเข้าและฝังตัวข้อมูลเสียงโดยตรง โดยไม่ต้องมีการถอดเสียงเป็นข้อความขั้นกลาง
เอกสาร: ฝังตัวไฟล์ PDF ได้โดยตรงสูงสุด 6 หน้า

นอกจากความสามารถในการประมวลผลแบบเดี่ยวแล้ว Gemini Embedding 2 ยังรองรับการนำเข้าแบบสลับโดยธรรมชาติ ผู้พัฒนาสามารถส่งข้อมูลหลายรูปแบบพร้อมกันในคำขอเดียวกันได้ เช่น “รูปภาพ + คำอธิบายข้อความ” หรือ “วิดีโอ + คำแนะนำข้อความ” โมเดลจะพิจารณาความสัมพันธ์ระหว่างสื่อต่าง ๆ เมื่อสร้างการแสดงผลเวกเตอร์ เพื่อจับภาพโครงสร้างความหมายที่ซับซ้อนยิ่งขึ้น ตัวอย่างเช่น ในสถานการณ์การวิเคราะห์อีคอมเมิร์ซหรือสื่อ ระบบสามารถเข้าใจความเชื่อมโยงระหว่างรูปภาพสินค้าและคำอธิบายข้อความได้พร้อมกัน

การแสดงผลเวกเตอร์และเทคโนโลยีการบีบอัด

ในระดับการแสดงผลเวกเตอร์ Gemini Embedding 2 ใช้เทคโนโลยี Matryoshka Representation Learning วิธีการเรียนรู้การแสดงผลนี้ใช้โครงสร้างข้อมูลแบบ “ซ้อนกัน” ทำให้โมเดลสามารถบีบอัดมิติเวกเตอร์แบบไดนามิกได้ ในขณะที่ยังคงรักษาคุณภาพความหมายไว้

โดยค่าเริ่มต้น โมเดลจะส่งออกเวกเตอร์ 3072 มิติ แต่ผู้พัฒนาสามารถลดมิติตามความต้องการ เพื่อลดต้นทุนการจัดเก็บและการค้นหา ทาง Google แนะนำให้เลือกจากสามระดับ: 3072, 1536 หรือ 768 มิติ เพื่อสร้างสมดุลระหว่างประสิทธิภาพและการใช้ทรัพยากร

ผลการทดสอบมาตรฐานนำหน้า

Google ระบุว่า Gemini Embedding 2 สร้างมาตรฐานประสิทธิภาพใหม่ในการทดสอบมาตรฐานหลายรายการ

ในงานจับคู่ความหมายแบบข้อความ-ข้อความ Gemini Embedding 2 ทำได้ดีกว่าโมเดลอื่น ในการทดสอบมาตรฐานหลายภาษา MTEB:
* Gemini Embedding 2: 69.9
* Gemini-embedding-001: 68.4
* Amazon Nova 2: 63.8
* Voyage 3.5: 58.5

ในงาน ความเข้าใจความหมายของโค้ด ก็มีข้อได้เปรียบเช่นกัน:
* Gemini Embedding 2: 84.0
* Gemini-embedding-001: 76.0

ในงานข้อความ-รูปภาพ และรูปภาพ-ข้อความ Gemini Embedding 2 นำหน้าเกือบทั้งหมดในชุดข้อมูลหลัก ในการค้นหารูปภาพจากข้อความ บนชุดข้อมูล TextCaps:
* Gemini Embedding 2: 89.6
* Amazon Nova 2: 76.0
* Voyage 3.5: 79.4
* multimodalembedding@001: 74.0

ในการค้นหาข้อความจากรูปภาพ บนชุดข้อมูล TextCaps:
* Gemini Embedding 2: 97.4
* Google multimodalembedding@001: 88.1
* Amazon Nova 2: 88.9
* Voyage 3.5: 88.6

ความคิดเห็นจากพันธมิตรระยะแรก

Google เน้นย้ำว่า เทคโนโลยีการฝังตัวเป็นแรงขับเคลื่อนหลักของประสบการณ์ผลิตภัณฑ์หลายอย่างของ Google พันธมิตรระยะแรกบางส่วนได้ใช้ Gemini Embedding 2 เพื่อปลดล็อกแอปพลิเคชันแบบหลายรูปแบบที่มีมูลค่าสูงแล้ว

Max Christoff CTO ของบริษัท Everlaw กล่าวว่า “ในการสืบสวนทางกฎหมายซึ่งเป็นขั้นตอนที่ต้องการเทคโนโลยีสูง การค้นหาข้อมูลหลักเป็นความท้าทายที่ยิ่งใหญ่ เราเลือกเทคโนโลยีการฝังตัวของ Gemini เนื่องจากประสิทธิภาพที่ยอดเยี่ยม ผลการทดสอบล่าสุดแสดงให้เห็นว่า โมเดลฝังตัวแบบหลายรูปแบบของ Gemini ช่วยเพิ่มความแม่นยำและอัตราการเรียกคืนในการค้นหาได้อย่างมีนัยสำคัญ เมื่อประมวลผลบันทึกหลายล้านรายการ และปลดล็อกความสามารถการค้นหาที่ทรงพลังสำหรับไฟล์รูปภาพและวิดีโอได้สำเร็จ”

Guneet Singh ผู้ร่วมก่อตั้ง Sparkonomy กล่าวว่า “Gemini Embedding 2 เป็นรากฐานที่มั่นคงสำหรับ ‘เครื่องยนต์ความเท่าเทียมทางเศรษฐกิจของผู้สร้าง’ ของเรา ด้วยความสามารถแบบหลายรูปแบบโดยธรรมชาติ เราสามารถลดเวลาแฝงลงได้ถึง 70% โดยการข้ามขั้นตอนการอนุมานของโมเดลขนาดใหญ่ ในขณะเดียวกัน คะแนนความคล้ายคลึงทางความหมายของคู่ข้อความ-รูปภาพและข้อความ-วิดีโอเพิ่มขึ้นจาก 0.4 เป็น 0.8 ซึ่งเป็นการก้าวกระโดดเกือบสองเท่า สิ่งนี้ให้พลังขับเคลื่อนแก่ ‘จีโนมของผู้สร้าง’ ที่เป็นเอกลักษณ์ของเรา ทำให้สามารถจัดทำดัชนีวิดีโอนับล้านนาที รวมถึงรูปภาพและข้อความจำนวนมหาศาล ด้วยความแม่นยำที่ไม่เคยมีมาก่อน”

เสียงตอบรับจากชุมชนนักพัฒนา

ในบริบทของการแข่งขันที่ดุเดือดของโมเดลขนาดใหญ่แบบหลายรูปแบบ การเปิดตัวโมเดลฝังตัวรุ่นใหม่ของ Google ก่อให้เกิดการอภิปรายอย่างกว้างขวางในชุมชนนักพัฒนา

มีข้อคิดเห็นชี้ให้เห็นว่า พื้นที่ฝังตัวที่เป็นหนึ่งเดียวของโมเดลใหม่มีความหมายที่ลึกซึ้ง และสามารถลดความซับซ้อนของโครงสร้างทางวิศวกรรมได้อย่างมาก กระบวนการประมวลผลข้อมูลทั้งชุดที่เคยต้องดูแลโดยทีมที่ซับซ้อน ตอนนี้อาจถูกแทนที่ด้วยการเรียกใช้ API ง่าย ๆ นี่ไม่ใช่แค่ความก้าวหน้าทางเทคโนโลยี แต่ยังเพิ่มประสิทธิภาพทางวิศวกรรมอย่างมีนัยสำคัญ

เป็นเวลานานมาแล้วที่ AI มักจะเหมือนอยู่ใน “เกาะโดดเดี่ยว” ที่ไม่เชื่อมต่อกันเมื่อประมวลผลข้อมูลรูปแบบต่าง ๆ การรองรับการนำเข้าแบบสลับ (Interleaved Input) ของโมเดลใหม่ ถือเป็นจุดก้าวกระโดดที่สำคัญ ข้อได้เปรียบหลักแสดงให้เห็นใน:

การผสานทุกสถานการณ์: ผู้ใช้สามารถป้อนข้อมูลต่างรูปแบบ เช่น รูปภาพ เสียงยาว เอกสาร PDF ฯลฯ เข้าไปในโมเดลเพื่อประมวลผลโดยตรง
ความเข้าใจข้ามรูปแบบเชิงลึก: โมเดลไม่จำกัดอยู่แค่การดึงคำสำคัญ แต่สามารถเข้าใจน้ำเสียง บรรยากาศ และตรรกะภายในของเนื้อหาได้

ความสามารถในการเข้าใจภาพรวมนี้ เป็นสัญลักษณ์ของการวิวัฒนาการของ AI จาก “เครื่องจักรจัดประเภท” สู่ “ปรมาจารย์ด้านบริบท”

หากการลดความซับซ้อนของโครงสร้างและการเพิ่มประสิทธิภาพการทำงานคือ “หน้ากาก” ข้อมูลการทดสอบจริงจากพันธมิตรระยะแรกก็ให้ “แก่นแท้” ที่มั่นคง คำติชมจากผู้ที่เข้าถึงในระยะแรก เช่น Everlaw และ Sparkonomy ได้รับความสนใจอย่างกว้างขวางในวงการ

จากข้อมูลที่มีอยู่ การเปิดตัวครั้งนี้ไม่ใช่การอัปเดตตามปกติ แต่เป็นการกำหนดมาตรฐานอุตสาหกรรมใหม่สำหรับ RAG แบบหลายรูปแบบ (การสร้างเสริมด้วยการค้นหา)

ลิงก์อ้างอิง:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
https://x.com/search?q=gemini%20embedding%202&src=typed_query

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง