面壁智能เปิดตัวโมเดล MiniCPM-o 4.5 แบบฟูลดูเพล็กซ์และมัลติโมดัล ใช้ VRAM เพียง 12GB ก็ปรับใช้ได้
面壁智能ได้เปิดเผยสถาปัตยกรรมเทคโนโลยีหลักในด้านการโต้ตอบแบบฟูลดูเพล็กซ์และมัลติโมดัลอย่างเป็นทางการ นั่นคือ เฟรมเวิร์ก Omni-Flow แบบสตรีมมิงมัลติโมดัล

วันนี้ 面壁智能ร่วมกับชุมชนโอเพนซอร์ส OpenBMB ห้องปฏิบัติการ THUNLP แห่งมหาวิทยาลัยชิงหัว และห้องปฏิบัติการ THUMAI ได้เปิดตัวรายงานทางเทคนิคของ MiniCPM-o 4.5
โมเดลขนาดใหญ่ในอดีตมักใช้รูปแบบการโต้ตอบแบบฮาล์ฟดูเพล็กซ์ คล้ายกับการสนทนาสลับกันแบบวอล์กี้ทอล์กกี้ ผู้ใช้และ AI ไม่สามารถสื่อสารแบบขนานได้ AI ไม่สามารถรับรู้การเปลี่ยนแปลงของสภาพแวดล้อมแบบเรียลไทม์ และผู้ใช้ก็ไม่สามารถขัดจังหวะการพูดของ AI ได้ การโต้ตอบแบบนี้มีความรู้สึกขาดตอนในเชิงพื้นที่และเวลา ทำให้ประสบการณ์ผู้ใช้ไม่ดี และเป็นอุปสรรคต่อการนำ AI มัลติโมดัลไปใช้จริงอย่างรุนแรง
MiniCPM-o 4.5 เป็นโมเดลฟูลดูเพล็กซ์และมัลติโมดัลที่ 面壁智能 เปิดตัวในเดือนกุมภาพันธ์ปีนี้ และเป็นโมเดลขนาดใหญ่แบบฟูลดูเพล็กซ์และมัลติโมดัลแบบครบวงจรตัวแรกในอุตสาหกรรม

△ MiniCPM-o 4.5 บรรลุการโต้ตอบแบบสตรีมมิงฟูลดูเพล็กซ์ทางด้านขวาสุด
โมเดลนี้มีพารามิเตอร์ประมาณ 9B สามารถจัดการอินพุตแบบสตรีมของวิดีโอ เสียง และข้อความ และรองรับเอาต์พุตต่อเนื่องของข้อความและเสียง
ด้วย MiniCPM-o 4.5 คุณไม่จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต เพียงใช้การ์ดจอระดับผู้บริโภคเพียงใบเดียว ก็สามารถมีผู้ช่วย AI ที่เหมือนมนุษย์ “มองเห็น ฟัง พูด และแจ้งเตือนเชิงรุก” บนคอมพิวเตอร์ส่วนตัวของคุณได้
ปัจจุบัน MiniCPM-o 4.5 ได้ดำเนินการปรับปริมาณโมเดลและเพิ่มประสิทธิภาพการอนุมานบน llama.cpp แล้ว การทดสอบจริงแสดงให้เห็นว่าสามารถรันโหมดฟูลดูเพล็กซ์ได้อย่างราบรื่น (RTF 0.4) บน RTX 5070 ที่มี VRAM เพียง 12GB ซึ่งช่วยลดอุปสรรคในการปรับใช้บนอุปกรณ์ส่วนบุคคลลงอย่างมาก อุปกรณ์ MAC ตั้งแต่ M1 ถึง M5 Max (รวมถึง M5 Pro) ก็สามารถใช้งานได้เช่นกัน โดยแนะนำให้มีหน่วยความจำมากกว่า 16GB
วิดีโอด้านล่างแสดงกระบวนการปรับใช้และรัน MiniCPM-o 4.5 บนแล็ปท็อปส่วนตัวอย่างสมบูรณ์ รวมถึงการสาธิตความสามารถต่างๆ เช่น การสนทนาด้วยเสียงแบบฟูลดูเพล็กซ์ การทำความเข้าใจภาพแบบเรียลไทม์ และการแจ้งเตือนเชิงรุก
นับตั้งแต่เปิดตัว โมเดลนี้มียอดดาวน์โหลดบน Hugging Face เกิน 250,000 ครั้ง
นอกจากรายงานทางเทคนิคแล้ว MiniCPM-o 4.5 ยังเปิดตัว Demo ทดลองออนไลน์ API แบบฟูลดูเพล็กซ์มัลติโมดัล แพ็คเกจติดตั้งฝั่งอุปกรณ์ Comni และที่เก็บ Demo พร้อมกัน
อาศัยเฟรมเวิร์ก Omni-Flow แบบสตรีมมิงมัลติโมดัลเป็นหลัก
ประสบการณ์การโต้ตอบแบบฟูลดูเพล็กซ์ที่ราบรื่นอย่างยิ่งของ MiniCPM-o 4.5 อาศัย เฟรมเวิร์ก Omni-Flow แบบสตรีมมิงมัลติโมดัล ที่พัฒนาโดย 面壁智能 ร่วมกับมหาวิทยาลัยชิงหัวเป็นหลัก ซึ่งเป็นเทคโนโลยีพื้นฐานหลักที่เปิดเผยในรายงานทางเทคนิคครั้งนี้
เฟรมเวิร์กนี้ทำลายตรรกะการโต้ตอบแบบแยกส่วนแบบเดิมของโมเดลแบบดั้งเดิมอย่างสิ้นเชิง และสร้างไทม์ไลน์แบบรวมในระดับมิลลิวินาที ด้วยกลไกการมัลติเพล็กซ์แบบแบ่งเวลา เฟรมเวิร์ก Omni-Flow แบบสตรีมมิงมัลติโมดัลสามารถจัดตำแหน่ง แยก และจัดกลุ่มสตรีมข้อมูลมัลติโมดัลแบบขนาน เช่น ภาพ เสียง และข้อความ ได้อย่างแม่นยำ เพื่อสร้างกลุ่มข้อมูลตามลำดับเวลาแบบเป็นรอบ
โมเดลจะรีเฟรชการรับรู้สภาพแวดล้อมด้วยความถี่สูงทุกวินาที และอัปเดตความเข้าใจเกี่ยวกับฉากและความตั้งใจของผู้ใช้แบบเรียลไทม์ กระบวนการทั้งหมดไม่จำเป็นต้องพึ่งพาเครื่องมือตรวจจับกิจกรรมเสียง VAD ภายนอก และรองรับการรับรู้อย่างต่อเนื่อง การตอบสนองทันที และการขัดจังหวะอย่างอิสระโดยธรรมชาติ
ในด้านสถาปัตยกรรมโมเดล MiniCPM-o 4.5 ใช้การออกแบบมัลติโมดัลแบบครบวงจรที่มีน้ำหนักเบา โดยรวมมีพารามิเตอร์เพียง 9B ประกอบด้วยโมดูลหลักสี่ส่วนที่ทำงานร่วมกันอย่างมีประสิทธิภาพ:
- ตัวเข้ารหัสภาพ SigLIP-ViT ขนาด 0.4B พารามิเตอร์ รับผิดชอบการรับรู้สภาพแวดล้อมทางภาพ
- ตัวเข้ารหัสเสียง Whisper-Medium ขนาด 0.3B พารามิเตอร์ ทำหน้าที่รวบรวมข้อมูลเสียง
- ฐาน LLM Qwen3-8B ขนาด 8B พารามิเตอร์ ทำหน้าที่คิดและเข้าใจความหมายหลัก
- จับคู่กับตัวถอดรหัสโทเค็นเสียงน้ำหนักเบาขนาด 0.3B พารามิเตอร์ เพื่อสร้างเสียง

การออกแบบแบบโมดูลาร์นี้ทำให้แต่ละส่วนประกอบทำหน้าที่ของตนและทำงานร่วมกันอย่างมีประสิทธิภาพ โดยคงไว้ซึ่งความสามารถในการทำความเข้าใจและอนุมานที่แข็งแกร่งของโมเดลขนาดใหญ่ ในขณะเดียวกันก็หลีกเลี่ยงการใช้ทรัพยากรการคำนวณหลักกับงานด้านเสียงที่ซับซ้อน นอกจากนี้ ยังจับคู่กับโซลูชันการสร้างเสียงแบบสลับเวลา TAIL ที่พัฒนาขึ้นเอง ซึ่งสามารถจับคู่จังหวะเอาต์พุตของข้อความและเสียงได้อย่างแม่นยำ ภายใต้สมมติฐานที่รับประกันว่าเสียงเป็นธรรมชาติ ราบรื่น และมีอารมณ์ ช่วยลดความหน่วงในการโต้ตอบให้เหลือน้อยที่สุด และแก้ปัญหาอุตสาหกรรมที่เกี่ยวกับอาการกระตุก ล่าช้า และการเชื่อมต่อที่ไม่เป็นธรรมชาติในการสนทนาแบบสตรีมได้อย่างสมบูรณ์
แม้ขนาดพารามิเตอร์จะไม่ใหญ่ แต่ความสามารถก็ไม่ควรมองข้าม ในการทดสอบเกณฑ์มาตรฐานที่เชื่อถือได้หลายรายการ MiniCPM-o 4.5 บรรลุการเปรียบเทียบข้ามระดับ โดยประสิทธิภาพโดยรวมเทียบเท่าหรือเหนือกว่าโมเดลขนาดใหญ่ชั้นนำในอุตสาหกรรมหลายรุ่น

ในด้านความสามารถทางภาพ คะแนนรวม OpenCompass ของโมเดลคือ 77.6 คะแนน MMBench ภาษาอังกฤษคือ 87.6 โดยประสิทธิภาพโดยรวมเทียบเท่ากับ Gemini 2.5 Flash และทำงานได้ดีเยี่ยมในการทำความเข้าใจภาพ การอนุมานทางคณิตศาสตร์ และการวิเคราะห์เอกสาร
ในด้านการโต้ตอบแบบไดนามิกมัลติโมดัลและการทำความเข้าใจฉากวิดีโอ ข้อได้เปรียบของ MiniCPM-o 4.5 นั้นโดดเด่นยิ่งขึ้น ในการทดสอบหลายรายการ เช่น Daily-Omni และ Video-Holmes ประสิทธิภาพของ MiniCPM-o 4.5 ดีกว่าโมเดลขนาดใหญ่อย่าง Gemini 2.5 Flash ในการทดสอบเกณฑ์มาตรฐานวิดีโอฟูลดูเพล็กซ์ LiveSports-3K-CC อัตราการชนะสูงถึง 54.4% นำหน้าโมเดลวิดีโอแบบสตรีมเฉพาะทางต่างๆ
ในขณะเดียวกัน ข้อได้เปรียบด้านประสิทธิภาพการอนุมานของโมเดลมีความสำคัญ การใช้หน่วยความจำของเวอร์ชัน INT4 ที่ผ่านการปรับปริมาณลดลงอย่างมาก โดยใช้ VRAM เพียง 12GB ก็สามารถรันได้ ความเร็วในการถอดรหัสสูงถึง 212 tokens/s ซึ่งเร็วกว่าโมเดลที่คล้ายกันมากกว่า 40% ความหน่วงในการตอบสนองต่ำกว่า และความคุ้มค่าและข้อได้เปรียบในการนำไปใช้นั้นโดดเด่นมาก

นอกจากนี้ โมเดลยังมาพร้อมกับฟังก์ชันพิเศษที่ใช้งานได้จริงหลายอย่าง ซึ่งปรับให้เข้ากับสถานการณ์การใช้งานที่หลากหลาย MiniCPM-o 4.5 รองรับการสนทนาด้วยเสียงแบบเรียลไทม์สองภาษา (จีนและอังกฤษ) อย่างเต็มรูปแบบ โดยคุณภาพการสร้างเสียงเป็นผู้นำในอุตสาหกรรม โดยมีอัตราข้อผิดพลาด CER ภาษาจีนและ WER ภาษาอังกฤษต่ำกว่าโมเดลหลักอย่าง CosyVoice2 และมีความสามารถในการแสดงอารมณ์ที่แข็งแกร่งกว่า นอกจากนี้ยังรองรับการโคลนเสียงและการสวมบทบาทผ่านเสียงอ้างอิงง่ายๆ โดยมีโทนเสียงที่เป็นธรรมชาติและสมจริง สืบสานข้อได้เปรียบของซีรีส์ MiniCPM-V ด้วยความสามารถในการวิเคราะห์เอกสาร OCR ที่ล้ำสมัย รองรับการประมวลผลภาพความละเอียดสูงและวิดีโออัตราเฟรมสูง และความสามารถในการวิเคราะห์หลายภาษาครอบคลุมมากกว่า 30 ภาษา ในขณะเดียวกัน โมเดลรองรับทั้งโหมดการสนทนาแบบรอบดั้งเดิมและการโต้ตอบแบบสตรีมมิงฟูลดูเพล็กซ์ Omni-Flow โดยธรรมชาติ สามารถสลับไปมาได้อย่างราบรื่น ตอบสนองความต้องการทั้งการตอบคำถามที่แม่นยำและการโต้ตอบแบบสตรีมแบบเรียลไทม์ และปรับให้เข้ากับสถานการณ์การใช้งานต่างๆ
ตอบสนองทั้งประสบการณ์ผู้ใช้ทั่วไปและความต้องการพัฒนาต่อยอดของนักพัฒนา
เพื่อให้เทคโนโลยีเกิดประโยชน์อย่างแท้จริง MiniCPM-o 4.5 ได้สร้างระบบนิเวศการนำเสนอแบบเปิดทุกช่องทางและทุกกลุ่มคน ซึ่งตอบสนองทั้งประสบการณ์ผู้ใช้ทั่วไปและความต้องการพัฒนาต่อยอดของนักพัฒนา
สำหรับผู้ใช้ทั่วไป ทางบริษัทได้เปิด Demo ทดลองออนไลน์ที่ไม่ต้องลงทะเบียนหรือดาวน์โหลด พร้อมทั้งเปิดตัวแพ็คเกจติดตั้ง Comni แบบเดสก์ท็อปที่รองรับระบบ Windows และ macOS ทำให้กระบวนการปรับใช้งานง่ายขึ้น และผู้ใช้ทั่วไปก็สามารถสัมผัสความสามารถในการโต้ตอบ AI แบบฟูลดูเพล็กซ์ได้อย่างรวดเร็ว
สำหรับนักพัฒนา แพลตฟอร์มได้เปิด API WebSocket แบบฟูลดูเพล็กซ์แบบเรียลไทม์ฟรี พร้อมเอกสารอินเทอร์เฟซที่สมบูรณ์และเป็นมาตรฐาน รองรับการเชื่อมต่อกับแอปพลิเคชันต่างๆ ได้อย่างรวดเร็ว ในขณะเดียวกันก็เปิดซอร์สโค้ดส่วนหน้าและส่วนหลังของ Demo อย่างสมบูรณ์ และมีแผนการปรับใช้บน Linux รองรับนักพัฒนาในการพัฒนาและปรับแต่งตามความต้องการอย่างอิสระ ช่วยให้แอปพลิเคชัน AI มัลติโมดัลต่างๆ นำไปใช้ได้อย่างรวดเร็ว
ด้วยความสามารถหลักที่เป็นฟูลดูเพล็กซ์โดยธรรมชาติ การรับรู้อย่างต่อเนื่อง และการโต้ตอบเชิงรุก MiniCPM-o 4.5 ได้ทำลายข้อจำกัดของสถานการณ์การถามตอบครั้งเดียวของ AI แบบดั้งเดิม และปลดล็อกสถานการณ์การใช้งานแบบสตรีมมิงโต้ตอบใหม่ๆ มากมาย
ในด้านบริการชีวิต มันมีศักยภาพที่จะเป็นผู้ช่วยอัจฉริยะที่ดื่มด่ำ ให้คำตอบแบบเรียลไทม์ แจ้งเตือนเชิงรุก และแนะนำตลอดทางเมื่อผู้ใช้ออกกำลังกาย ทำอาหาร หรือทำงานประจำวัน
ในด้านสวัสดิการสำหรับผู้พิการ มันสามารถให้บริการรับรู้สภาพแวดล้อมแบบเรียลไทม์สำหรับผู้พิการทางสายตา ประกาศสภาพถนน สถานะอุปกรณ์ และการเปลี่ยนแปลงของสภาพแวดล้อมอย่างแข็งขัน กลายเป็น “ผู้ช่วยด้านภาพ” ที่เชื่อถือได้
ในด้านยานยนต์อัจฉริยะ มันสามารถตรวจสอบสภาพถนนและสถานะของผู้ขับขี่อย่างต่อเนื่อง แจ้งเตือนความเสี่ยงอย่างแข็งขัน แนะนำที่จอดรถว่าง ช่วยในการจอดรถ และเพิ่มความปลอดภัยในการขับขี่
ในด้านหุ่นยนต์ที่มีกายภาพ มันสามารถทำหน้าที่เป็นสมองหลักของหุ่นยนต์ รับรู้สภาพแวดล้อมแบบไดนามิกอย่างต่อเนื่อง ตัดสินใจเวลาที่จะโต้ตอบอย่างอิสระ ปรับให้เข้ากับสถานการณ์อัจฉริยะ เช่น หุ่นยนต์อัจฉริยะและบ้านอัจฉริยะ ครอบคลุมความต้องการหลายมิติทั้งในชีวิตประจำวัน สวัสดิการ และระดับอุตสาหกรรม
อาจกล่าวได้ว่า MiniCPM-o 4.5 ได้เปลี่ยน “AI เชิงรุก” จากแนวคิดให้เป็นสิ่งที่สามารถรันบนคอมพิวเตอร์ของคุณได้
แน่นอนว่าทีมงานยังชี้ให้เห็นถึงข้อบกพร่องในปัจจุบันอย่างตรงไปตรงมาในรายงานทางเทคนิค: ความเสถียรในการโต้ตอบระยะยาว ความหลากหลายของพฤติกรรมเชิงรุก และความทนทานต่อสถานการณ์ที่ซับซ้อน ยังคงมีพื้นที่ให้ปรับปรุง
แต่สิ่งนี้ไม่ได้ขัดขวางไม่ให้มันสร้างจุดเริ่มต้นใหม่ขึ้นมา นั่นคือ ฟูลดูเพล็กซ์มัลติโมดัล ปรับใช้ได้บนอุปกรณ์ปลายทาง และโอเพนซอร์สแบบครบวงจร เส้นทางนี้ได้ถูกปูไว้แล้ว
ปัจจุบัน ประสบการณ์ออนไลน์ API แพ็คเกจติดตั้งฝั่งอุปกรณ์ และที่เก็บโค้ด Demo ของ MiniCPM-o 4.5 ทั้งหมดได้เปิดให้บริการบน GitHub และเว็บไซต์ทางการของ 面壁 แล้ว
ผู้ที่สนใจสามารถลองสัมผัสได้โดยตรง และหวังว่าจะได้รับคำติชมในส่วนความคิดเห็น
รายงานทางเทคนิค PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
ประสบการณ์ออนไลน์:
https://minicpmo45.modelbest.cn/
ประสบการณ์ออนไลน์ (แนะนำสำหรับมือถือ):
https://minicpmo45.modelbest.cn/mobile/
GitHub Demo (รวมแพ็คเกจติดตั้งในเครื่อง):
https://github.com/OpenBMB/MiniCPM-o-Demo
Hugging Face:
https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
กด Like แชร์ และติดตาม「👍」「🔄」「❤️」
ยินดีต้อนรับความคิดเห็นของคุณในส่วนคอมเมนต์!
— จบ —
เรากำลังรับสมัคร นักศึกษาฝึกงานบรรณาธิการวิชาการ ที่มีสายตาไวและสนใจ AI 🎓
ผู้สนใจสามารถคลิก 👉 ดูรายละเอียด
*🌟 ติดดาว 🌟*
พบกับความก้าวหน้าทางเทคโนโลยี前沿ทุกวัน
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32501
