MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

2026年2月13日 pm2:40 • ข่าวสารอุตสาหกรรม AI • 205 views

MiniCPM-o 4.5: โมเดลโอเพ่นซอร์สออลโมดัลขนาด 9B พารามิเตอร์ ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

MiniCPM-o 4.5 เป็นโมเดลเรือธงออลโมดัลรุ่นใหม่ที่เปิดตัวโดย OpenBMB ของ Mianbi AI โดยมีพารามิเตอร์เพียง 9B เท่านั้น โมเดลนี้มีประสิทธิภาพเทียบเคียงหรือเหนือกว่าโมเดลขนาดใหญ่แบบปิดบางรุ่นในหลายงาน และถูกมองว่าเป็นทางเลือกแทน GPT‑4o บนอุปกรณ์ปลายทาง ปัจจุบัน MiniCPM-o 4.5 ขึ้นอันดับ 2 บน Hugging Face Trending MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

MiniCPM-o 4.5 สามารถประมวลผลอินพุตภาพ วิดีโอ และเสียง พร้อมกัน และให้เอาต์พุตเป็นข้อความและเสียงได้ โดยรองรับการโต้ตอบแบบฟูลดูเพล็กซ์แบบเรียลไทม์ นั่นคือสามารถรับข้อมูลภาพและเสียงไปพร้อมๆ กับสร้างการตอบสนองด้วยเสียงได้ เป้าหมายคือการนำความสามารถมัลติโมดัลที่ใกล้เคียงกับ GPT‑4o หรือ Gemini 2.5 Flash ไปใช้งานบนอุปกรณ์ปลายทาง เช่น โทรศัพท์มือถือ พีซี และระบบในรถยนต์

ภาพรวมโครงการ

MiniCPM-o 4.5 = โมเดลใหญ่โอเพ่นซอร์สออลโมดัล 9B พารามิเตอร์ + การโต้ตอบแบบฟูลดูเพล็กซ์เรียลไทม์ดั้งเดิม + การปรับใช้ที่เหมาะกับอุปกรณ์ปลายทาง

คุณสมบัติหลักสามารถสรุปได้เป็นสามประเด็นต่อไปนี้:

① ออลโมดัล
สามารถประมวลผลอินพุตภาพ วิดีโอ ข้อความ และเสียง พร้อมกัน และให้เอาต์พุตเป็นข้อความและเสียง

② ฟูลดูเพล็กซ์
สามารถโต้ตอบแบบเรียลไทม์โดยการดู ฟัง และพูดไปพร้อมกันได้ แทนที่จะเป็นการถามตอบแบบเทิร์นเบส ทำให้ AI สามารถรับรู้สภาพแวดล้อมอย่างต่อเนื่องและตัดสินใจว่าจะตอบสนองเมื่อใดได้เองเหมือนมนุษย์ รองรับการขัดจังหวะและเปลี่ยนหัวข้อได้ตลอดเวลา

③ ให้ความสำคัญกับอุปกรณ์ปลายทาง
แม้จะมีพารามิเตอร์เพียง 9B แต่มีประสิทธิภาพใกล้เคียงกับระดับ Gemini 2.5 Flash ในด้านความเข้าใจภาพ การวิเคราะห์เอกสาร และการโต้ตอบด้วยเสียง ขณะที่การออกแบบที่เบาทำให้เหมาะกับการทำงานบนอุปกรณ์ท้องถิ่น เช่น โทรศัพท์มือถือ ระบบในรถยนต์ และหุ่นยนต์

ที่อยู่โอเพ่นซอร์ส: https://github.com/OpenBMB/MiniCPM-o
Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5

สถาปัตยกรรมทางเทคนิค: ทำอย่างไรให้ “ครบถ้วนและเล็ก”?

จากมุมมองโครงสร้างทางเทคนิค MiniCPM-o 4.5 สามารถเข้าใจได้ว่าเป็น: โมเดลพื้นฐานภาษาขนาด Qwen3‑8B ที่ผสานรวมเอ็นโคเดอร์ภาพ SigLIP2 โมดูลความเข้าใจเสียง Whisper และโมดูลสร้างเสียง CosyVoice2 เข้าด้วยกันผ่านสถาปัตยกรรมออลโมดัลแบบเอนด์ทูเอนด์ที่รวมเป็นหนึ่งเดียว MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

ประเด็นทางเทคนิคสำคัญ:

① สถาปัตยกรรมออลโมดัลแบบรวมเป็นหนึ่งเดียว
ไม่ใช่การเชื่อมโยงโมเดลภาพและเสียงกับโมเดลภาษาอย่างหลวมๆ อีกต่อไป แต่เป็นการประสานงานกระบวนการทั้งหมดตั้งแต่การเข้ารหัสอินพุตไปจนถึงการถอดรหัสเอาต์พุตผ่านระบบเดียว ข้อความ เสียง ภาพ และวิดีโอถูกทำความเข้าใจในพื้นที่ความหมายร่วมกัน ทำให้การอนุมานข้ามโมดัล (เช่น การเข้าใจเหตุการณ์โดยผสมผสานภาพวิดีโอและเสียง) เป็นธรรมชาติมากขึ้น

② การถอดรหัสเสียงแบบฟูลดูเพล็กซ์
ดีโคเดอร์เสียงใช้วิธีการสร้างแบบจำลองโทเค็นข้อความและโทเค็นเสียงสลับกัน ซึ่งทำให้โมเดลสามารถรับอินพุตใหม่ได้อย่างต่อเนื่องแม้ขณะกำลังส่งออกเสียง ทำให้เกิดการโต้ตอบแบบฟูลดูเพล็กซ์ที่แท้จริง พร้อมทั้งรับประกันความสม่ำเสมอและความเป็นธรรมชาติของโทนเสียงและน้ำเสียงในการส่งออกเสียงยาว

③ การประมวลผลภาพ/วิดีโอที่มีประสิทธิภาพ
นำการออกแบบจาก MiniCPM-V 4.5 มาใช้ โดยใช้โครงข่ายหลักภาพที่มีประสิทธิภาพและกลยุทธ์การบีบอัดโทเค็น เพื่อบีบอัดภาพความละเอียดสูงและวิดีโอหลายเฟรมให้เหลือจำนวนโทเค็นภาพที่น้อยมาก ทำให้การทำความเข้าใจวิดีโอมีประสิทธิภาพสูง ในกำลังประมวลผลเท่ากันสามารถประมวลผลวิดีโอที่ยาวกว่าได้ โดยเฉพาะเหมาะสำหรับอุปกรณ์ปลายทางในการวิเคราะห์กล้องแบบเรียลไทม์หรือการทำความเข้าใจวิดีโอยาว

วิธีการใช้งาน

วิธีที่ง่ายที่สุดคือทดลองใช้ Demo ที่ Hugging Face สร้างไว้อย่างเป็นทางการ เพียงให้สิทธิ์ไมโครโฟนและกล้องเท่านั้น MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

Demo ออนไลน์: https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

MiniCPM-o 4.5 ถูกออกแบบโดยคำนึงถึงการปรับใช้จริงตั้งแต่แรก MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

สามารถดูคำแนะนำการปรับใช้ได้ที่ลิงก์ต่อไปนี้:
* คำแนะนำการปรับใช้: https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md

ทีมงานได้เตรียมชุดโซลูชันการปรับใช้โอเพ่นซอร์สไว้ครบถ้วน ได้แก่:

llama.cpp-omni: เฟรมเวิร์กการอนุมานออลโมดัลแบบสตรีมมิ่งโอเพ่นซอร์สที่พัฒนาขึ้นเองโดย Mianbi AI มุ่งเน้นการอนุมานความหน่วงต่ำบนอุปกรณ์ปลายทาง/เอจ รองรับการโต้ตอบแบบฟูลดูเพล็กซ์
การปรับให้เข้ากับเฟรมเวิร์กการอนุมานทั่วไป: รองรับ vLLM, SGLang, Ollama, LLaMA-Factory เป็นต้นแล้ว
โมเดลควอนไทซ์หลายรูปแบบ: โมเดลความแม่นยำ BF16 ดั้งเดิมต้องการหน่วยความจำประมาณ 19GB; หลังควอนไทซ์ INT4 หน่วยความจำสามารถลดลงเหลือประมาณ 11GB หรือน้อยกว่า ความเร็วในการอนุมานสามารถเกิน 200 tokens/s ทำให้การรัน AI ออลโมดัลบน GPU ระดับผู้บริโภคทั่วไปเป็นไปได้

ในด้านระบบนิเวศการประมวลผลของจีน MiniCPM-o 4.5 ผ่านซอฟต์แวร์สแต็กระบบ FlagOS ได้รับการปรับให้เข้ากับชิปจีนหลายรุ่น เช่น Iluvatar CoreX, Huawei Ascend, T-Head, Hygon และ MetaX ซึ่งเป็นตัวเลือกที่พร้อมใช้งานและสามารถปรับใช้ได้ทันทีสำหรับทีมที่ต้องการนำ AI ไปใช้งานบนฮาร์ดแวร์จีน

ติดตาม “Whale Perch” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง