กูเกิลเปิดตัวตระกูลโมเดล Gemma 4: รุ่น 31B แซงหน้าคู่แข่งที่ใหญ่กว่า 10 เท่า ทุกรุ่นรองรับมัลติโมดัลและใช้สัญญาอนุญาต Apache 2.0
ตระกูลโมเดลโอเพนซอร์สล่าสุดของกูเกิลอย่าง Gemma 4 แสดงผลงานโดดเด่น โดยโมเดลแบบหนาแน่น (Dense) ที่มีพารามิเตอร์ 31,000 ล้าน (31B) ทำได้คะแนนเหนือคู่แข่งที่มีพารามิเตอร์มากกว่า 10-20 เท่า ในการทดสอบมาตรฐาน เช่น Qwen3.5-397B และ DeepSeek v3.2-671B

ตระกูล Gemma 4 ที่เปิดตัวครั้งนี้ประกอบด้วยโมเดล 4 ขนาดที่แตกต่างกัน ล้วนสร้างจากเทคโนโลยีเดียวกันกับ Gemini 3 และรองรับการป้อนข้อมูลแบบมัลติโมดัลตั้งแต่ต้น รุ่นต่างๆ ได้แก่: E2B, E4B, 26B MoE และ 31B Dense
โมเดล E2B ที่เล็กที่สุดออกแบบมาสำหรับอุปกรณ์เอดจ์ เช่น โทรศัพท์มือถือและ Raspberry Pi และสามารถทำงานแบบออฟไลน์กับงานมัลติโมดัลได้ เช่น ประมวลผลข้อมูลเสียงและวิดีโอ

โมเดล 31B ชนะคู่แข่งยักษ์ โมเดล 26B MoE มุ่งเน้นประสิทธิภาพการอนุมาน
ตระกูลโมเดลนี้ทั้งหมดออกแบบโดยมีประสิทธิภาพเป็นแกนหลัก
* โมเดล 31B Dense: เป็นโมเดลแบบหนาแน่น เหมาะสำหรับการปรับแต่ง (fine-tuning) งานปลายน้ำ
* โมเดล 26B MoE: ใช้สถาปัตยกรรม Mixture of Experts (MoE) ซึ่งเปิดใช้งานพารามิเตอร์เพียงประมาณ 3,800 ล้านตัวในระหว่างการอนุมาน รักษาอันดับประสิทธิภาพสูงในขณะที่มุ่งเน้นความเร็ว
ในด้านความต้องการฮาร์ดแวร์ รุ่นน้ำหนัก bfloat16 ที่ยังไม่ควอนไทซ์สามารถทำงานบน GPU H100 ขนาด 80GB เพียงตัวเดียวได้ ส่วนรุ่นที่ควอนไทซ์แล้วสามารถปรับใช้ในเครื่องด้วย GPU ระดับผู้บริโภคได้

ตามข้อมูลอย่างเป็นทางการ ตระกูล Gemma 4 ได้เพิ่มความสามารถหลัก 6 ด้าน:
1. การให้เหตุผลขั้นสูง: รองรับการวางแผนหลายขั้นตอนและตรรกะที่ซับซ้อน มีการพัฒนาอย่างเห็นได้ชัดในการทดสอบมาตรฐานคณิตศาสตร์และการปฏิบัติตามคำสั่ง
2. รองรับเวิร์กโฟลว์เอเจนต์โดยธรรมชาติ: มีฟังก์ชันการเรียกใช้ในตัว (function calling) ผลลัพธ์ JSON มีโครงสร้าง สามารถสร้างเอเจนต์อัตโนมัติได้โดยตรง
3. การสร้างโค้ด: รองรับการสร้างโค้ดคุณภาพสูงแบบออฟไลน์
4. การประมวลผลภาพและเสียง: ทุกรุ่นสามารถประมวลผลภาพและวิดีโอได้โดยธรรมชาติ รองรับความละเอียดที่แปรผันได้ รุ่นพารามิเตอร์เล็กยังรองรับการป้อนข้อมูลเสียงโดยธรรมชาติ
5. รองรับคอนเท็กซ์ยาว: โมเดลสำหรับอุปกรณ์ปลายทาง (Edge) รองรับคอนเท็กซ์ 128K โมเดลพารามิเตอร์ใหญ่รองรับคอนเท็กซ์สูงสุด 256K
6. รองรับหลายภาษา: รองรับมากกว่า 140 ภาษาโดยธรรมชาติ
ออกแบบสำหรับอุปกรณ์ปลายทางโดยเฉพาะ: โทรศัพท์และ Raspberry Pi ทำงานมัลติโมดัลแบบออฟไลน์ได้
ตัวอักษร “E” ใน E2B และ E4B ย่อมาจาก Effective (มีประสิทธิภาพ) ซึ่งใช้แนวทาง MoE ที่มีอัตราการเปิดใช้งานต่ำเช่นกัน ตัวอย่างเช่น โมเดล E2B มีพารามิเตอร์ทั้งหมดมากกว่า 2,000 ล้านตัว แต่ในระหว่างการอนุมานจะเปิดใช้งานเพียงส่วน 2,000 ล้านตัวเท่านั้น
โมเดลทั้งสองรุ่นนี้ออกแบบมาสำหรับโทรศัพท์มือถือและอุปกรณ์ IoT โดยเฉพาะ สามารถประมวลผลข้อมูลเสียงและภาพได้โดยธรรมชาติ ทำให้เกิดการโต้ตอบแบบไม่มีหน่วงเวลา (zero latency) แบบออฟไลน์สมบูรณ์ กูเกิลได้ร่วมมือกับ Pixel, Qualcomm และ MediaTek เพื่อปรับปรุงประสิทธิภาพตลอดทั้งสายการผลิต ตั้งแต่ชิปไปจนถึงอุปกรณ์
ย้อนดูวิวัฒนาการของตระกูล Gemma:
* Gemma 1 (กุมภาพันธ์ 2024): โมเดลข้อความล้วน มีขนาด 2B และ 7B
* Gemma 2 (มิถุนายน 2024): โมเดลข้อความล้วน มีขนาด 2B, 9B และ 27B
* Gemma 3 (มีนาคม 2025): เริ่มรองรับมัลติโมดัล แต่รุ่น 1B สำหรับอุปกรณ์ปลายทางมีความสามารถจำกัด
* Gemma 4: เป็นครั้งแรกที่ผสานความสามารถมัลติโมดัลที่แข็งแกร่งเข้ากับโมเดลขนาดเล็กสำหรับอุปกรณ์ปลายทาง เช่น E2B/E4B และรองรับเวิร์กโฟลว์เอเจนต์แบบสมบูรณ์
ใช้สัญญาอนุญาตโอเพนซอร์ส Apache 2.0
Gemma 4 ใช้สัญญาอนุญาตโอเพนซอร์ส Apache 2.0 ที่มีความยืดหยุ่นสูง อนุญาตให้ใช้เชิงพาณิชย์ แก้ไข และแจกจ่ายได้ โดยไม่มีข้อกำหนดค่าลิขสิทธิ์ นักพัฒนาสามารถนำไปปรับใช้บนคลาวด์สาธารณะ เซิร์ฟเวอร์ส่วนตัว หรืออุปกรณ์ปลายทางได้อย่างอิสระ
ทีม Google DeepMind ระบุในบล็อกทางการว่า การดำเนินการนี้เป็นการตอบรับเสียงเรียกร้องจากชุมชนโอเพนซอร์สมาเป็นเวลานาน CEO ของ Hugging Face ให้ความเห็นว่า นี่ไม่ใช่แค่การเปลี่ยนแปลงสัญญาอนุญาต แต่เป็นเหตุการณ์สำคัญ (watershed moment) สำหรับชุมชน AI โอเพนซอร์ส

จนถึงปัจจุบัน โมเดลในตระกูล Gemma มีการดาวน์โหลดสะสมมากกว่า 400 ล้านครั้ง และมีโมเดลแปรผัน (variants) ที่ปรับแต่งโดยชุมชนมากกว่า 100,000 รุ่น
โมเดลโอเพนซอร์สผลักดันการค้นพบทางวิทยาศาสตร์
คุณค่าของโมเดลโอเพนซอร์สไม่เพียงแต่ลดต้นทุนการพัฒนา แต่ยังสามารถผลักดันการวิจัยแนวหน้าได้โดยตรง ตัวอย่างเช่น ทีมวิจัยจากมหาวิทยาลัยเยลใช้ Gemma เป็นโมเดลฐานในการพัฒนาโครงการ “Cell2Sentence-Scale” ซึ่งแปลงข้อมูลการแสดงออกของยีนในเซลล์เดี่ยว (single-cell gene expression data) ให้เป็นลำดับที่โมเดลสามารถอ่านได้ เพื่อใช้ค้นหาเป้าหมายการรักษามะเร็งใหม่ๆ และพบเส้นทางที่วิธีการดั้งเดิมอาจมองข้ามไป

ลิงก์อ้างอิง:
[1] บล็อกทางการของกูเกิล
[2] การอภิปรายทางเทคนิคที่เกี่ยวข้อง
[3] คำติชมจากชุมชน
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28364
