MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5 能够同时处理图像、视频、音频输入,并输出文本和语音。它支持全双工实时交互,即可以一边接收视觉和音频信息,一边主动生成语音回应。其目标是将接近 GPT‑4o 或 Gemini 2.5 Flash 水平的多模态能力,部署到手机、PC、车机等端侧设备上运行。

项目简介

MiniCPM-o 4.5 = 9B 参数的开源全模态大模型 + 原生全双工实时交互 + 端侧友好部署

其核心特性可以概括为以下三点:

① 全模态
能够同时处理图像、视频、文本、音频输入,并输出文本和语音。

② 全双工
能够实现边看、边听、边说的实时交互,而非传统的回合制问答。它让 AI 能够像人一样持续感知环境,并自主决定何时回应,支持随时打断和切换话题。

③ 端侧优先
尽管只有 9B 参数,但在视觉理解、文档解析、语音交互等方面表现接近 Gemini 2.5 Flash 级别,同时其轻量化设计使其适合在手机、车机、机器人等本地设备上运行。

  • 开源地址:https://github.com/OpenBMB/MiniCPM-o
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4_5

技术架构:如何实现“又全又小”?

从技术结构上看,MiniCPM-o 4.5 可以理解为:在 Qwen3‑8B 语言模型底座上,集成了 SigLIP2 视觉编码器、Whisper 语音理解模块和 CosyVoice2 语音生成模块,并通过统一的端到端全模态架构进行整合。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

几个关键技术点:

① 统一的全模态架构
不再是视觉、语音模型与语言模型的松散拼接,而是通过一个统一系统协调从输入编码到输出解码的全过程。文本、语音、图像、视频在一个共享的语义空间中被理解,使得跨模态推理(如结合视频画面与音轨理解事件)更加自然。

② 全双工语音解码
语音解码器采用文本 token 与语音 token 交错建模的方式。这使得模型在输出语音时,仍能持续读入新的输入,实现真正的全双工交互,同时保证了长语音输出时音色和语气的统一与自然。

③ 高效视觉/视频处理
借鉴了 MiniCPM-V 4.5 的设计,采用高效视觉主干网络与 token 压缩策略,将高分辨率图像和多帧视频压缩到极少的视觉 token 数量。这使得视频理解的性价比极高,在同等算力下能处理更长的视频内容,特别适合端侧设备进行实时摄像头分析或长视频理解。

如何使用

最简便的方式是直接在 Hugging Face 上体验官方搭建的 Demo,只需授予麦克风和摄像头权限即可。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

  • 在线 Demo:https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

MiniCPM-o 4.5 从设计之初就着眼于实际部署。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

具体的部署指引可参考以下链接:
* 部署指引:https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md

官方提供了一整套开源部署方案,包括:

  • llama.cpp-omni:面壁自研的开源流式全模态推理框架,主打端侧/边缘设备的低延迟推理,支持全双工交互。
  • 常见推理框架适配:已支持 vLLM、SGLang、Ollama、LLaMA-Factory 等。
  • 多种量化模型:原始 BF16 精度模型约需 19GB 显存;INT4 量化后内存可降至约 11GB 或更低,推理速度可超过 200 tokens/s,使得在主流消费级 GPU 上运行全模态 AI 成为可能。

在国产算力生态方面,MiniCPM-o 4.5 通过 FlagOS 系统软件栈,已适配天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片,为希望在国产硬件上落地 AI 应用的团队提供了成熟、可立即部署的选项。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21349

(0)
上一篇 2026年2月13日 下午2:08
下一篇 2026年2月14日 下午3:05

相关推荐

  • 从数据闭环到训练闭环:理想汽车世界模型如何重塑自动驾驶AI范式

    近期,人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出,AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”,强调需要为现实世界任务开发新的评估体系,并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下,自动驾驶作为AI技术落地的前沿阵地,其范…

    2025年10月31日
    21000
  • 突破文本桎梏:C2C通信范式如何重塑多智能体协作效率

    随着大语言模型在代码生成、数学推理、视觉理解及边缘计算等垂直领域的深度渗透,多智能体系统正成为处理复杂场景任务的关键架构。传统基于文本对话(Text-to-Text,T2T)的协作模式,虽在基础任务中表现尚可,却在面对高维语义传递时暴露出根本性缺陷:信息在文本压缩过程中大量流失、自然语言固有的模糊性导致指令歧义、以及逐token生成机制引发的通信延迟。这些瓶…

    2025年10月29日
    22300
  • AI普惠革命:从技术精英到全民触达,新兴市场如何成为AI终局的关键战场

    在2025年这个被称为“AI大年”的时间节点,一个令人深思的现象正在全球范围内浮现:尽管AI技术日新月异,但全球超过99.5%的普通人仍然无法真正享受到AI带来的生产力红利。这种普及率与应用密度的严重失衡,揭示了当前AI产业发展的深层结构性矛盾。 与舆论在“AI技术狂欢”与“AI泡沫破裂”两极间摇摆不同,Agnes AI创始人Bruce Yang敏锐地洞察到…

    2025年12月1日
    19700
  • GPT-5.2 vs Gemini 3 Pro:年度AI对决的深度技术剖析与产业格局演变

    在人工智能领域竞争白热化的2025年,OpenAI与谷歌之间的技术对决达到了前所未有的激烈程度。GPT-5.2作为OpenAI年度重磅产品,在发布48小时内即面临来自各方的严格审视,而谷歌Gemini 3 Pro则凭借卓越表现重新定义了行业标杆。这场对决不仅关乎单一产品的成败,更折射出两大科技巨头在技术路线、研发策略和市场布局上的根本差异。 Epoch AI…

    2025年12月14日
    25800
  • 从通用炫技到垂直深耕:斑马口语如何以AI Agent技术重塑英语教育新范式

    2025年,AI产业的焦点正从实验室的惊艳演示转向商业价值的深度挖掘。当OpenAI、Google等巨头仍在探索多模态大模型的通用可能性时,一场决定AI真正落地效能的战役已在教育、医疗、客服等垂直领域悄然打响。在这场产业化竞赛中,斑马推出的业内首个实现AI外教一对一教学的「斑马口语」产品,不仅标志着AI Agent在垂直行业的实质性突破,更以系统性的技术攻坚…

    2025年11月18日
    20500