Google DeepMind ได้เปิดตัว Gemma 4 อย่างเป็นทางการ ซึ่งเป็นตระกูลโมเดลโอเพนซอร์สแบบมัลติโมดัลที่มีทั้งหมด 4 รุ่น
โมเดลทั้งสี่รุ่น ได้แก่: E2B (พารามิเตอร์ที่มีประสิทธิภาพ 2.3B), E4B (พารามิเตอร์ที่มีประสิทธิภาพ 4.5B), 31B (โมเดลแบบหนาแน่น) และ 26B A4B (สถาปัตยกรรม MoE, พารามิเตอร์ที่เปิดใช้งาน 4B) โดยรุ่น 31B และ 26B A4B รองรับหน้าต่างบริบท 256K และสามารถทำงานบน GPU H100 เพียงตัวเดียวได้

ในแง่ของสถาปัตยกรรม Gemma 4 (31B) มีการเปลี่ยนแปลงไม่มากนักเมื่อเทียบกับ Gemma 3 (27B) โดยยังคงใช้การตั้งค่าผสมระหว่าง Pre-norm และ Post-norm ที่เป็นเอกลักษณ์ รวมถึงกลไกความสนใจแบบผสม 5:1 (ความสนใจเฉพาะที่แบบหน้าต่างเลื่อน 5 ชั้น + ความสนใจแบบทั่วโลก 1 ชั้น) กลไกความสนใจยังคงเป็น Grouped Query Attention (GQA) แบบคลาสสิก ขนาดคำศัพท์ยังคงอยู่ที่ 262K ในขณะที่ความยาวบริบทเพิ่มขึ้นจาก 128K เป็น 256K

จุดเด่นทางเทคนิคหลักของการเปิดตัวครั้งนี้ ได้แก่:
- หน้าต่างบริบท 256K: นี่เป็นหนึ่งในหน้าต่างบริบทที่ใหญ่ที่สุดในบรรดาโมเดลโอเพนซอร์สในปัจจุบัน ช่วยให้ผู้ใช้สามารถป้อนทั้ง repository ของโค้ดหรือเอกสารยาวๆ ได้ในครั้งเดียว ทำให้โมเดลที่ทำงานในเครื่องสามารถทำการวิเคราะห์โค้ดและประมวลผลเอกสารยาวได้อย่างแท้จริง แทนที่จะเป็นเพียงการประมวลผลบางส่วน
- ความสามารถแบบมัลติโมดัลโดยกำเนิด: การประมวลผลภาพและเสียงกลายเป็นการกำหนดค่ามาตรฐาน แม้แต่โมเดลขนาดเล็ก E2B และ E4B ยังรองรับการประมวลผลเสียงในเครื่อง สิ่งนี้ให้การสนับสนุนที่ใช้งานได้จริงสำหรับสถานการณ์ต่างๆ เช่น OCR, การทำความเข้าใจแผนภูมิ หรือการโต้ตอบด้วยเสียงบนอุปกรณ์
- การเรียกใช้เครื่องมือโดยกำเนิด: โมเดลรองรับการเรียกใช้ฟังก์ชัน, การส่งออก JSON โครงสร้าง และคำสั่งระบบโดยกำเนิด นี่เป็นเครื่องหมายแสดงว่ามีความสามารถของเอเจนต์ที่แท้จริง ไม่เพียงแต่สามารถสนทนาได้ แต่ยังสามารถดำเนินการกับเครื่องมือและเรียกใช้ API ได้
นี่เป็นครั้งแรกของตระกูล Gemma ที่มีความสามารถแบบมัลติโมดัลอย่างแท้จริง รองรับการประมวลผลข้อความ, ภาพ, วิดีโอ และโมเดลขนาดเล็ก (E2B, E4B) ยังรองรับเสียงเพิ่มเติม
แม้ว่าจำนวนพารามิเตอร์ของโมเดลจะดูไม่มาก แต่ประสิทธิภาพจริงกลับโดดเด่น รุ่น 31B อยู่ในอันดับที่ 3 ของโลกใน Arena Leaderboard สำหรับโมเดลโอเพนซอร์ส ส่วนรุ่น 26B MoE อยู่ในอันดับที่ 6 สิ่งที่น่าสนใจยิ่งกว่านั้นคือโมเดล “เล็ก” เหล่านี้สามารถแสดงผลได้ดีกว่าในบางงานเมื่อเทียบกับคู่แข่งที่มีพารามิเตอร์มากกว่าถึง 20 เท่า

ในการทดสอบมาตรฐานการให้เหตุผลทางวิทยาศาสตร์ GPQA Diamond Gemma 4 31B ได้คะแนน 85.7% ซึ่งต่ำกว่า Qwen3.5 27B เพียง 0.1 เปอร์เซ็นต์เท่านั้น

ที่น่าสนใจคือ Gemma 4 ใช้โทเค็นเอาต์พุตเพียงประมาณ 1.2 ล้านตัวเพื่อให้ได้ประสิทธิภาพระดับนี้ ในขณะที่ Qwen ใช้ 1.5 ล้านตัว แสดงให้เห็นถึงประสิทธิภาพการฝึกที่สูงกว่า

ในด้านการปรับให้เข้ากับฮาร์ดแวร์ค่อนข้างมั่นคง น้ำหนัก bfloat16 ของโมเดล 31B สามารถใส่ลงใน GPU H100 80GB เพียงตัวเดียวได้ และเวอร์ชันควอนไทซ์ก็สามารถทำงานบน GPU ระดับผู้บริโภคได้เช่นกัน E2B และ E4B ได้รับการปรับให้เหมาะสมเป็นพิเศษ ตามที่ Google อ้างว่าสามารถทำงานออฟไลน์บนโทรศัพท์ Pixel และอุปกรณ์ Jetson ได้แล้ว โดยมีความหน่วงต่ำมาก ซึ่งเป็นทางเลือกที่ดีกว่าสำหรับแอปพลิเคชันบนอุปกรณ์
การสนับสนุนระบบนิเวศตามมาได้อย่างรวดเร็ว เฟรมเวิร์กหลักต่างๆ เช่น Transformers, llama.cpp, MLX, transformers.js, Mistral.rs ได้รองรับ Gemma 4 ทันที TRL ของ Hugging Face ก็ได้รับการอัปเดตแล้วเพื่อรองรับฟังก์ชันการเรียกใช้เครื่องมือแบบมัลติโมดัลของ Gemma 4 โดยเฉพาะ ผ่าน vLLM ผู้ใช้สามารถเริ่มต้นบริการได้อย่างรวดเร็วด้วยคำสั่ง Docker เพียงบรรทัดเดียว:
bash
docker run --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
--env "HF_TOKEN=$HF_TOKEN"
-p 8000:8000
--ipc=host
vllm/vllm-openai:gemma4
--model google/gemma-4-31B-it
การเปลี่ยนแปลงสำคัญอีกประการของการเปิดตัวครั้งนี้คือการใช้ใบอนุญาต Apache 2.0 ที่มีข้อจำกัดน้อยกว่า ซึ่งหมายความว่าบริษัทต่างๆ สามารถนำไปใช้เพื่อวัตถุประสงค์ทางการค้าได้อย่างมั่นใจมากขึ้น
น้ำหนักโมเดลได้ถูกอัปโหลดไปยัง Hugging Face แล้ว
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28459
