MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

15小时前 • 开源项目 • 阅读 20

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型，其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型，被广泛视为端侧设备上的 GPT‑4o 平替。目前，MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。 MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

MiniCPM-o 4.5 能够同时处理图像、视频、音频输入，并输出文本和语音。它支持全双工实时交互，即可以一边接收视觉和音频信息，一边主动生成语音回应。其目标是将接近 GPT‑4o 或 Gemini 2.5 Flash 水平的多模态能力，部署到手机、PC、车机等端侧设备上运行。

项目简介

MiniCPM-o 4.5 = 9B 参数的开源全模态大模型 + 原生全双工实时交互 + 端侧友好部署

其核心特性可以概括为以下三点：

① 全模态
能够同时处理图像、视频、文本、音频输入，并输出文本和语音。

② 全双工
能够实现边看、边听、边说的实时交互，而非传统的回合制问答。它让 AI 能够像人一样持续感知环境，并自主决定何时回应，支持随时打断和切换话题。

③ 端侧优先
尽管只有 9B 参数，但在视觉理解、文档解析、语音交互等方面表现接近 Gemini 2.5 Flash 级别，同时其轻量化设计使其适合在手机、车机、机器人等本地设备上运行。

开源地址：https://github.com/OpenBMB/MiniCPM-o
Hugging Face：https://huggingface.co/openbmb/MiniCPM-o-4_5

技术架构：如何实现“又全又小”？

从技术结构上看，MiniCPM-o 4.5 可以理解为：在 Qwen3‑8B 语言模型底座上，集成了 SigLIP2 视觉编码器、Whisper 语音理解模块和 CosyVoice2 语音生成模块，并通过统一的端到端全模态架构进行整合。 MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

几个关键技术点：

① 统一的全模态架构
不再是视觉、语音模型与语言模型的松散拼接，而是通过一个统一系统协调从输入编码到输出解码的全过程。文本、语音、图像、视频在一个共享的语义空间中被理解，使得跨模态推理（如结合视频画面与音轨理解事件）更加自然。

② 全双工语音解码
语音解码器采用文本 token 与语音 token 交错建模的方式。这使得模型在输出语音时，仍能持续读入新的输入，实现真正的全双工交互，同时保证了长语音输出时音色和语气的统一与自然。

③ 高效视觉/视频处理
借鉴了 MiniCPM-V 4.5 的设计，采用高效视觉主干网络与 token 压缩策略，将高分辨率图像和多帧视频压缩到极少的视觉 token 数量。这使得视频理解的性价比极高，在同等算力下能处理更长的视频内容，特别适合端侧设备进行实时摄像头分析或长视频理解。

如何使用

最简便的方式是直接在 Hugging Face 上体验官方搭建的 Demo，只需授予麦克风和摄像头权限即可。 MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

在线 Demo：https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

MiniCPM-o 4.5 从设计之初就着眼于实际部署。 MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

具体的部署指引可参考以下链接：
* 部署指引：https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md

官方提供了一整套开源部署方案，包括：

llama.cpp-omni：面壁自研的开源流式全模态推理框架，主打端侧/边缘设备的低延迟推理，支持全双工交互。
常见推理框架适配：已支持 vLLM、SGLang、Ollama、LLaMA-Factory 等。
多种量化模型：原始 BF16 精度模型约需 19GB 显存；INT4 量化后内存可降至约 11GB 或更低，推理速度可超过 200 tokens/s，使得在主流消费级 GPU 上运行全模态 AI 成为可能。

在国产算力生态方面，MiniCPM-o 4.5 通过 FlagOS 系统软件栈，已适配天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片，为希望在国产硬件上落地 AI 应用的团队提供了成熟、可立即部署的选项。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21349

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

项目简介

技术架构：如何实现“又全又小”？

如何使用

相关推荐

GitHub爆款AI技能包盘点：让AI成为你的视频剪辑与知识管理专家

昆仑天工SkyReels-V3开源：多模态视频生成新标杆，开启AI创作新纪元

五大前沿AI开源项目盘点：从多智能体协作到方言播客生成

MiroFish：多智能体博弈推演，AI如何预见特斯拉财报走势？

三大前沿GitHub项目解析：云端IDE、开源游戏宝库与AI呼叫中心革新