MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替
MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。 
MiniCPM-o 4.5 能够同时处理图像、视频、音频输入,并输出文本和语音。它支持全双工实时交互,即可以一边接收视觉和音频信息,一边主动生成语音回应。其目标是将接近 GPT‑4o 或 Gemini 2.5 Flash 水平的多模态能力,部署到手机、PC、车机等端侧设备上运行。
项目简介
MiniCPM-o 4.5 = 9B 参数的开源全模态大模型 + 原生全双工实时交互 + 端侧友好部署
其核心特性可以概括为以下三点:
① 全模态
能够同时处理图像、视频、文本、音频输入,并输出文本和语音。
② 全双工
能够实现边看、边听、边说的实时交互,而非传统的回合制问答。它让 AI 能够像人一样持续感知环境,并自主决定何时回应,支持随时打断和切换话题。
③ 端侧优先
尽管只有 9B 参数,但在视觉理解、文档解析、语音交互等方面表现接近 Gemini 2.5 Flash 级别,同时其轻量化设计使其适合在手机、车机、机器人等本地设备上运行。
- 开源地址:https://github.com/OpenBMB/MiniCPM-o
- Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4_5
技术架构:如何实现“又全又小”?
从技术结构上看,MiniCPM-o 4.5 可以理解为:在 Qwen3‑8B 语言模型底座上,集成了 SigLIP2 视觉编码器、Whisper 语音理解模块和 CosyVoice2 语音生成模块,并通过统一的端到端全模态架构进行整合。 
几个关键技术点:
① 统一的全模态架构
不再是视觉、语音模型与语言模型的松散拼接,而是通过一个统一系统协调从输入编码到输出解码的全过程。文本、语音、图像、视频在一个共享的语义空间中被理解,使得跨模态推理(如结合视频画面与音轨理解事件)更加自然。
② 全双工语音解码
语音解码器采用文本 token 与语音 token 交错建模的方式。这使得模型在输出语音时,仍能持续读入新的输入,实现真正的全双工交互,同时保证了长语音输出时音色和语气的统一与自然。
③ 高效视觉/视频处理
借鉴了 MiniCPM-V 4.5 的设计,采用高效视觉主干网络与 token 压缩策略,将高分辨率图像和多帧视频压缩到极少的视觉 token 数量。这使得视频理解的性价比极高,在同等算力下能处理更长的视频内容,特别适合端侧设备进行实时摄像头分析或长视频理解。
如何使用
最简便的方式是直接在 Hugging Face 上体验官方搭建的 Demo,只需授予麦克风和摄像头权限即可。 
- 在线 Demo:https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo
MiniCPM-o 4.5 从设计之初就着眼于实际部署。 
具体的部署指引可参考以下链接:
* 部署指引:https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md
官方提供了一整套开源部署方案,包括:
- llama.cpp-omni:面壁自研的开源流式全模态推理框架,主打端侧/边缘设备的低延迟推理,支持全双工交互。
- 常见推理框架适配:已支持 vLLM、SGLang、Ollama、LLaMA-Factory 等。
- 多种量化模型:原始 BF16 精度模型约需 19GB 显存;INT4 量化后内存可降至约 11GB 或更低,推理速度可超过 200 tokens/s,使得在主流消费级 GPU 上运行全模态 AI 成为可能。
在国产算力生态方面,MiniCPM-o 4.5 通过 FlagOS 系统软件栈,已适配天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片,为希望在国产硬件上落地 AI 应用的团队提供了成熟、可立即部署的选项。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21349
