MiniCPM-o 4.5: โมเดลโอเพ่นซอร์สออลโมดัลขนาด 9B พารามิเตอร์ ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง
MiniCPM-o 4.5 เป็นโมเดลเรือธงออลโมดัลรุ่นใหม่ที่เปิดตัวโดย OpenBMB ของ Mianbi AI โดยมีพารามิเตอร์เพียง 9B เท่านั้น โมเดลนี้มีประสิทธิภาพเทียบเคียงหรือเหนือกว่าโมเดลขนาดใหญ่แบบปิดบางรุ่นในหลายงาน และถูกมองว่าเป็นทางเลือกแทน GPT‑4o บนอุปกรณ์ปลายทาง ปัจจุบัน MiniCPM-o 4.5 ขึ้นอันดับ 2 บน Hugging Face Trending 
MiniCPM-o 4.5 สามารถประมวลผลอินพุตภาพ วิดีโอ และเสียง พร้อมกัน และให้เอาต์พุตเป็นข้อความและเสียงได้ โดยรองรับการโต้ตอบแบบฟูลดูเพล็กซ์แบบเรียลไทม์ นั่นคือสามารถรับข้อมูลภาพและเสียงไปพร้อมๆ กับสร้างการตอบสนองด้วยเสียงได้ เป้าหมายคือการนำความสามารถมัลติโมดัลที่ใกล้เคียงกับ GPT‑4o หรือ Gemini 2.5 Flash ไปใช้งานบนอุปกรณ์ปลายทาง เช่น โทรศัพท์มือถือ พีซี และระบบในรถยนต์
ภาพรวมโครงการ
MiniCPM-o 4.5 = โมเดลใหญ่โอเพ่นซอร์สออลโมดัล 9B พารามิเตอร์ + การโต้ตอบแบบฟูลดูเพล็กซ์เรียลไทม์ดั้งเดิม + การปรับใช้ที่เหมาะกับอุปกรณ์ปลายทาง
คุณสมบัติหลักสามารถสรุปได้เป็นสามประเด็นต่อไปนี้:
① ออลโมดัล
สามารถประมวลผลอินพุตภาพ วิดีโอ ข้อความ และเสียง พร้อมกัน และให้เอาต์พุตเป็นข้อความและเสียง
② ฟูลดูเพล็กซ์
สามารถโต้ตอบแบบเรียลไทม์โดยการดู ฟัง และพูดไปพร้อมกันได้ แทนที่จะเป็นการถามตอบแบบเทิร์นเบส ทำให้ AI สามารถรับรู้สภาพแวดล้อมอย่างต่อเนื่องและตัดสินใจว่าจะตอบสนองเมื่อใดได้เองเหมือนมนุษย์ รองรับการขัดจังหวะและเปลี่ยนหัวข้อได้ตลอดเวลา
③ ให้ความสำคัญกับอุปกรณ์ปลายทาง
แม้จะมีพารามิเตอร์เพียง 9B แต่มีประสิทธิภาพใกล้เคียงกับระดับ Gemini 2.5 Flash ในด้านความเข้าใจภาพ การวิเคราะห์เอกสาร และการโต้ตอบด้วยเสียง ขณะที่การออกแบบที่เบาทำให้เหมาะกับการทำงานบนอุปกรณ์ท้องถิ่น เช่น โทรศัพท์มือถือ ระบบในรถยนต์ และหุ่นยนต์
- ที่อยู่โอเพ่นซอร์ส: https://github.com/OpenBMB/MiniCPM-o
- Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5
สถาปัตยกรรมทางเทคนิค: ทำอย่างไรให้ “ครบถ้วนและเล็ก”?
จากมุมมองโครงสร้างทางเทคนิค MiniCPM-o 4.5 สามารถเข้าใจได้ว่าเป็น: โมเดลพื้นฐานภาษาขนาด Qwen3‑8B ที่ผสานรวมเอ็นโคเดอร์ภาพ SigLIP2 โมดูลความเข้าใจเสียง Whisper และโมดูลสร้างเสียง CosyVoice2 เข้าด้วยกันผ่านสถาปัตยกรรมออลโมดัลแบบเอนด์ทูเอนด์ที่รวมเป็นหนึ่งเดียว 
ประเด็นทางเทคนิคสำคัญ:
① สถาปัตยกรรมออลโมดัลแบบรวมเป็นหนึ่งเดียว
ไม่ใช่การเชื่อมโยงโมเดลภาพและเสียงกับโมเดลภาษาอย่างหลวมๆ อีกต่อไป แต่เป็นการประสานงานกระบวนการทั้งหมดตั้งแต่การเข้ารหัสอินพุตไปจนถึงการถอดรหัสเอาต์พุตผ่านระบบเดียว ข้อความ เสียง ภาพ และวิดีโอถูกทำความเข้าใจในพื้นที่ความหมายร่วมกัน ทำให้การอนุมานข้ามโมดัล (เช่น การเข้าใจเหตุการณ์โดยผสมผสานภาพวิดีโอและเสียง) เป็นธรรมชาติมากขึ้น
② การถอดรหัสเสียงแบบฟูลดูเพล็กซ์
ดีโคเดอร์เสียงใช้วิธีการสร้างแบบจำลองโทเค็นข้อความและโทเค็นเสียงสลับกัน ซึ่งทำให้โมเดลสามารถรับอินพุตใหม่ได้อย่างต่อเนื่องแม้ขณะกำลังส่งออกเสียง ทำให้เกิดการโต้ตอบแบบฟูลดูเพล็กซ์ที่แท้จริง พร้อมทั้งรับประกันความสม่ำเสมอและความเป็นธรรมชาติของโทนเสียงและน้ำเสียงในการส่งออกเสียงยาว
③ การประมวลผลภาพ/วิดีโอที่มีประสิทธิภาพ
นำการออกแบบจาก MiniCPM-V 4.5 มาใช้ โดยใช้โครงข่ายหลักภาพที่มีประสิทธิภาพและกลยุทธ์การบีบอัดโทเค็น เพื่อบีบอัดภาพความละเอียดสูงและวิดีโอหลายเฟรมให้เหลือจำนวนโทเค็นภาพที่น้อยมาก ทำให้การทำความเข้าใจวิดีโอมีประสิทธิภาพสูง ในกำลังประมวลผลเท่ากันสามารถประมวลผลวิดีโอที่ยาวกว่าได้ โดยเฉพาะเหมาะสำหรับอุปกรณ์ปลายทางในการวิเคราะห์กล้องแบบเรียลไทม์หรือการทำความเข้าใจวิดีโอยาว
วิธีการใช้งาน
วิธีที่ง่ายที่สุดคือทดลองใช้ Demo ที่ Hugging Face สร้างไว้อย่างเป็นทางการ เพียงให้สิทธิ์ไมโครโฟนและกล้องเท่านั้น 
- Demo ออนไลน์: https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo
MiniCPM-o 4.5 ถูกออกแบบโดยคำนึงถึงการปรับใช้จริงตั้งแต่แรก 
สามารถดูคำแนะนำการปรับใช้ได้ที่ลิงก์ต่อไปนี้:
* คำแนะนำการปรับใช้: https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md
ทีมงานได้เตรียมชุดโซลูชันการปรับใช้โอเพ่นซอร์สไว้ครบถ้วน ได้แก่:
- llama.cpp-omni: เฟรมเวิร์กการอนุมานออลโมดัลแบบสตรีมมิ่งโอเพ่นซอร์สที่พัฒนาขึ้นเองโดย Mianbi AI มุ่งเน้นการอนุมานความหน่วงต่ำบนอุปกรณ์ปลายทาง/เอจ รองรับการโต้ตอบแบบฟูลดูเพล็กซ์
- การปรับให้เข้ากับเฟรมเวิร์กการอนุมานทั่วไป: รองรับ vLLM, SGLang, Ollama, LLaMA-Factory เป็นต้นแล้ว
- โมเดลควอนไทซ์หลายรูปแบบ: โมเดลความแม่นยำ BF16 ดั้งเดิมต้องการหน่วยความจำประมาณ 19GB; หลังควอนไทซ์ INT4 หน่วยความจำสามารถลดลงเหลือประมาณ 11GB หรือน้อยกว่า ความเร็วในการอนุมานสามารถเกิน 200 tokens/s ทำให้การรัน AI ออลโมดัลบน GPU ระดับผู้บริโภคทั่วไปเป็นไปได้
ในด้านระบบนิเวศการประมวลผลของจีน MiniCPM-o 4.5 ผ่านซอฟต์แวร์สแต็กระบบ FlagOS ได้รับการปรับให้เข้ากับชิปจีนหลายรุ่น เช่น Iluvatar CoreX, Huawei Ascend, T-Head, Hygon และ MetaX ซึ่งเป็นตัวเลือกที่พร้อมใช้งานและสามารถปรับใช้ได้ทันทีสำหรับทีมที่ต้องการนำ AI ไปใช้งานบนฮาร์ดแวร์จีน
ติดตาม “Whale Perch” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22938
