Gemma 4 เปิดตัวอย่างยิ่งใหญ่: 256K คอนเท็กซ์, มัลติโมดัลแบบเนทีฟ, ใบอนุญาต Apache 2.0 ตั้งมาตรฐานใหม่ให้โมเดลโอเพนซอร์ส

2026年4月3日 am11:43 • ข่าวสารอุตสาหกรรม AI • 171 views

Google DeepMind ได้เปิดตัว Gemma 4 อย่างเป็นทางการ ซึ่งเป็นตระกูลโมเดลโอเพนซอร์สแบบมัลติโมดัลที่มีทั้งหมด 4 รุ่น

โมเดลทั้งสี่รุ่น ได้แก่: E2B (พารามิเตอร์ที่มีประสิทธิภาพ 2.3B), E4B (พารามิเตอร์ที่มีประสิทธิภาพ 4.5B), 31B (โมเดลแบบหนาแน่น) และ 26B A4B (สถาปัตยกรรม MoE, พารามิเตอร์ที่เปิดใช้งาน 4B) โดยรุ่น 31B และ 26B A4B รองรับหน้าต่างบริบท 256K และสามารถทำงานบน GPU H100 เพียงตัวเดียวได้

Gemma 4 เปิดตัวอย่างยิ่งใหญ่: 256K คอนเท็กซ์, มัลติโมดัลแบบเนทีฟ, ใบอนุญาต Apache 2.0 ตั้งมาตรฐานใหม่ให้โมเดลโอเพนซอร์ส

ในแง่ของสถาปัตยกรรม Gemma 4 (31B) มีการเปลี่ยนแปลงไม่มากนักเมื่อเทียบกับ Gemma 3 (27B) โดยยังคงใช้การตั้งค่าผสมระหว่าง Pre-norm และ Post-norm ที่เป็นเอกลักษณ์ รวมถึงกลไกความสนใจแบบผสม 5:1 (ความสนใจเฉพาะที่แบบหน้าต่างเลื่อน 5 ชั้น + ความสนใจแบบทั่วโลก 1 ชั้น) กลไกความสนใจยังคงเป็น Grouped Query Attention (GQA) แบบคลาสสิก ขนาดคำศัพท์ยังคงอยู่ที่ 262K ในขณะที่ความยาวบริบทเพิ่มขึ้นจาก 128K เป็น 256K

จุดเด่นทางเทคนิคหลักของการเปิดตัวครั้งนี้ ได้แก่:

หน้าต่างบริบท 256K: นี่เป็นหนึ่งในหน้าต่างบริบทที่ใหญ่ที่สุดในบรรดาโมเดลโอเพนซอร์สในปัจจุบัน ช่วยให้ผู้ใช้สามารถป้อนทั้ง repository ของโค้ดหรือเอกสารยาวๆ ได้ในครั้งเดียว ทำให้โมเดลที่ทำงานในเครื่องสามารถทำการวิเคราะห์โค้ดและประมวลผลเอกสารยาวได้อย่างแท้จริง แทนที่จะเป็นเพียงการประมวลผลบางส่วน
ความสามารถแบบมัลติโมดัลโดยกำเนิด: การประมวลผลภาพและเสียงกลายเป็นการกำหนดค่ามาตรฐาน แม้แต่โมเดลขนาดเล็ก E2B และ E4B ยังรองรับการประมวลผลเสียงในเครื่อง สิ่งนี้ให้การสนับสนุนที่ใช้งานได้จริงสำหรับสถานการณ์ต่างๆ เช่น OCR, การทำความเข้าใจแผนภูมิ หรือการโต้ตอบด้วยเสียงบนอุปกรณ์
การเรียกใช้เครื่องมือโดยกำเนิด: โมเดลรองรับการเรียกใช้ฟังก์ชัน, การส่งออก JSON โครงสร้าง และคำสั่งระบบโดยกำเนิด นี่เป็นเครื่องหมายแสดงว่ามีความสามารถของเอเจนต์ที่แท้จริง ไม่เพียงแต่สามารถสนทนาได้ แต่ยังสามารถดำเนินการกับเครื่องมือและเรียกใช้ API ได้

นี่เป็นครั้งแรกของตระกูล Gemma ที่มีความสามารถแบบมัลติโมดัลอย่างแท้จริง รองรับการประมวลผลข้อความ, ภาพ, วิดีโอ และโมเดลขนาดเล็ก (E2B, E4B) ยังรองรับเสียงเพิ่มเติม

แม้ว่าจำนวนพารามิเตอร์ของโมเดลจะดูไม่มาก แต่ประสิทธิภาพจริงกลับโดดเด่น รุ่น 31B อยู่ในอันดับที่ 3 ของโลกใน Arena Leaderboard สำหรับโมเดลโอเพนซอร์ส ส่วนรุ่น 26B MoE อยู่ในอันดับที่ 6 สิ่งที่น่าสนใจยิ่งกว่านั้นคือโมเดล “เล็ก” เหล่านี้สามารถแสดงผลได้ดีกว่าในบางงานเมื่อเทียบกับคู่แข่งที่มีพารามิเตอร์มากกว่าถึง 20 เท่า

ในการทดสอบมาตรฐานการให้เหตุผลทางวิทยาศาสตร์ GPQA Diamond Gemma 4 31B ได้คะแนน 85.7% ซึ่งต่ำกว่า Qwen3.5 27B เพียง 0.1 เปอร์เซ็นต์เท่านั้น

ที่น่าสนใจคือ Gemma 4 ใช้โทเค็นเอาต์พุตเพียงประมาณ 1.2 ล้านตัวเพื่อให้ได้ประสิทธิภาพระดับนี้ ในขณะที่ Qwen ใช้ 1.5 ล้านตัว แสดงให้เห็นถึงประสิทธิภาพการฝึกที่สูงกว่า

ในด้านการปรับให้เข้ากับฮาร์ดแวร์ค่อนข้างมั่นคง น้ำหนัก bfloat16 ของโมเดล 31B สามารถใส่ลงใน GPU H100 80GB เพียงตัวเดียวได้ และเวอร์ชันควอนไทซ์ก็สามารถทำงานบน GPU ระดับผู้บริโภคได้เช่นกัน E2B และ E4B ได้รับการปรับให้เหมาะสมเป็นพิเศษ ตามที่ Google อ้างว่าสามารถทำงานออฟไลน์บนโทรศัพท์ Pixel และอุปกรณ์ Jetson ได้แล้ว โดยมีความหน่วงต่ำมาก ซึ่งเป็นทางเลือกที่ดีกว่าสำหรับแอปพลิเคชันบนอุปกรณ์

การสนับสนุนระบบนิเวศตามมาได้อย่างรวดเร็ว เฟรมเวิร์กหลักต่างๆ เช่น Transformers, llama.cpp, MLX, transformers.js, Mistral.rs ได้รองรับ Gemma 4 ทันที TRL ของ Hugging Face ก็ได้รับการอัปเดตแล้วเพื่อรองรับฟังก์ชันการเรียกใช้เครื่องมือแบบมัลติโมดัลของ Gemma 4 โดยเฉพาะ ผ่าน vLLM ผู้ใช้สามารถเริ่มต้นบริการได้อย่างรวดเร็วด้วยคำสั่ง Docker เพียงบรรทัดเดียว:

bash docker run --gpus all -v ~/.cache/huggingface:/root/.cache/huggingface --env "HF_TOKEN=$HF_TOKEN" -p 8000:8000 --ipc=host vllm/vllm-openai:gemma4 --model google/gemma-4-31B-it

การเปลี่ยนแปลงสำคัญอีกประการของการเปิดตัวครั้งนี้คือการใช้ใบอนุญาต Apache 2.0 ที่มีข้อจำกัดน้อยกว่า ซึ่งหมายความว่าบริษัทต่างๆ สามารถนำไปใช้เพื่อวัตถุประสงค์ทางการค้าได้อย่างมั่นใจมากขึ้น

น้ำหนักโมเดลได้ถูกอัปโหลดไปยัง Hugging Face แล้ว

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/28459

Like (0)

0 0

SkipOPU: 突破ขีดจำกัดการอนุมานแบบไดนามิก FPGA เร่งความเร็วการปฏิวัติประสิทธิภาพโมเดลภาษาขนาดใหญ่

Previous 2026年4月3日 am11:39

openJiuwen ได้รับความสนใจจากสื่อต่างประเทศ: สร้าง AgentOS เพื่อแก้ปัญหาการนำ AI Agent ไปใช้ในวงกว้าง

Next 2026年4月3日 pm12:38

ข่าวสารอุตสาหกรรม AI

ทีม HKUST เปิดตัว RebuttalAgent: ใช้ทฤษฎีจิตวิเคราะห์เจตนาผู้ตรวจ เพื่อตอบโต้จุดอ่อนในบทความวิชาการ AI

เมื่อต้องเผชิญกับการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer review) ผู้เขียนหลายคนเคยมีประสบการณ์แบบนี้: ตอบทุกคำถามของผู้ตรวจสอบอย่างชัดเจน แสดงท่าทีถ่อมตัวอย่างเพียงพอ แต่ทำไมสุดท้ายกลับไม…

2026年2月3日
299000
ข่าวสารอุตสาหกรรม AI

กูเกิลเปิดตัว TPU รุ่นที่ 8: แยกชิปสำหรับฝึกและอนุมาน ประสิทธิภาพพุ่ง 2.7 เท่า

เส้นทางกลยุทธ์ชิป AI ของ Google กำลังเปลี่ยนครั้งสำคัญ ในงาน Google Cloud Next 2026 ที่เพิ่งผ่านพ้นไป Google ได้เปิดตัวหน่วยประมวลผลเทนเซอร์ (TPU) รุ่นที่ 8 อย่างเป็นทางการ จุดเด่น…

2026年4月23日
84000
ข่าวสารอุตสาหกรรม AI

快手เตรียมแยกธุรกิจ AI “Kling” จดทะเบียนตลาดหลักทรัพย์ มูลค่าประมาณ 2 หมื่นล้านดอลลาร์สหรัฐ ใกล้เคียง 70% ของมูลค่าบริษัทแม่

快手เตรียมแยก Kling AI เข้าตลาดหุ้น มูลค่า 2 หมื่นล้านดอลลาร์ ใกล้เคียง 70% ของมูลค่าบริษัทแม่ 快手 อาจกำลังจะฟักไข่ “快手” ตัวที่สองขึ้นมาเอง ตามข่าวจาก The Information 快手กำ…

2026年5月12日
62000
ข่าวสารอุตสาหกรรม AI

โค้ดเพียง 500 บรรทัด! nanoclaw ผู้ช่วยส่วนบุคคล Claude แบบเรียบง่ายและปลอดภัย เปิดตัวแล้ว ใช้การแยก AI ระดับคอนเทนเนอร์

สร้างด้วย TypeScript 500 บรรทัด nanoclaw เป็นเฟรมเวิร์กผู้ช่วย AI ส่วนบุคคลที่เรียบง่ายที่สุด ใช้ TypeScript และ Node.js เป็นหลักในการเขียน โดยมีปริมาณโค้ดหลักประมาณ 500 บรรทัด เมื…

2026年2月14日
368000
ข่าวสารอุตสาหกรรม AI

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

OpenAI ได้เปิดตัวโมเดลเสียงแบบเรียลไทม์ใหม่สามรุ่นอย่างเป็นทางการ โมเดลเหล่านี้ไม่เพียงแต่ผสานความสามารถในการใช้เหตุผลระดับ GPT-5 เท่านั้น แต่ยังส่งผลกระทบอย่างใหญ่หลวงต่ออุตสาหกรร…

2026年5月8日
89000

Gemma 4 เปิดตัวอย่างยิ่งใหญ่: 256K คอนเท็กซ์, มัลติโมดัลแบบเนทีฟ, ใบอนุญาต Apache 2.0 ตั้งมาตรฐานใหม่ให้โมเดลโอเพนซอร์ส

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ทีม HKUST เปิดตัว RebuttalAgent: ใช้ทฤษฎีจิตวิเคราะห์เจตนาผู้ตรวจ เพื่อตอบโต้จุดอ่อนในบทความวิชาการ AI

กูเกิลเปิดตัว TPU รุ่นที่ 8: แยกชิปสำหรับฝึกและอนุมาน ประสิทธิภาพพุ่ง 2.7 เท่า

โค้ดเพียง 500 บรรทัด! nanoclaw ผู้ช่วยส่วนบุคคล Claude แบบเรียบง่ายและปลอดภัย เปิดตัวแล้ว ใช้การแยก AI ระดับคอนเทนเนอร์