MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5 能够同时处理图像、视频、音频输入,并输出文本和语音。它支持全双工实时交互,即可以一边接收视觉和音频信息,一边主动生成语音回应。其目标是将接近 GPT‑4o 或 Gemini 2.5 Flash 水平的多模态能力,部署到手机、PC、车机等端侧设备上运行。

项目简介

MiniCPM-o 4.5 = 9B 参数的开源全模态大模型 + 原生全双工实时交互 + 端侧友好部署

其核心特性可以概括为以下三点:

① 全模态
能够同时处理图像、视频、文本、音频输入,并输出文本和语音。

② 全双工
能够实现边看、边听、边说的实时交互,而非传统的回合制问答。它让 AI 能够像人一样持续感知环境,并自主决定何时回应,支持随时打断和切换话题。

③ 端侧优先
尽管只有 9B 参数,但在视觉理解、文档解析、语音交互等方面表现接近 Gemini 2.5 Flash 级别,同时其轻量化设计使其适合在手机、车机、机器人等本地设备上运行。

  • 开源地址:https://github.com/OpenBMB/MiniCPM-o
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4_5

技术架构:如何实现“又全又小”?

从技术结构上看,MiniCPM-o 4.5 可以理解为:在 Qwen3‑8B 语言模型底座上,集成了 SigLIP2 视觉编码器、Whisper 语音理解模块和 CosyVoice2 语音生成模块,并通过统一的端到端全模态架构进行整合。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

几个关键技术点:

① 统一的全模态架构
不再是视觉、语音模型与语言模型的松散拼接,而是通过一个统一系统协调从输入编码到输出解码的全过程。文本、语音、图像、视频在一个共享的语义空间中被理解,使得跨模态推理(如结合视频画面与音轨理解事件)更加自然。

② 全双工语音解码
语音解码器采用文本 token 与语音 token 交错建模的方式。这使得模型在输出语音时,仍能持续读入新的输入,实现真正的全双工交互,同时保证了长语音输出时音色和语气的统一与自然。

③ 高效视觉/视频处理
借鉴了 MiniCPM-V 4.5 的设计,采用高效视觉主干网络与 token 压缩策略,将高分辨率图像和多帧视频压缩到极少的视觉 token 数量。这使得视频理解的性价比极高,在同等算力下能处理更长的视频内容,特别适合端侧设备进行实时摄像头分析或长视频理解。

如何使用

最简便的方式是直接在 Hugging Face 上体验官方搭建的 Demo,只需授予麦克风和摄像头权限即可。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

  • 在线 Demo:https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

MiniCPM-o 4.5 从设计之初就着眼于实际部署。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

具体的部署指引可参考以下链接:
* 部署指引:https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md

官方提供了一整套开源部署方案,包括:

  • llama.cpp-omni:面壁自研的开源流式全模态推理框架,主打端侧/边缘设备的低延迟推理,支持全双工交互。
  • 常见推理框架适配:已支持 vLLM、SGLang、Ollama、LLaMA-Factory 等。
  • 多种量化模型:原始 BF16 精度模型约需 19GB 显存;INT4 量化后内存可降至约 11GB 或更低,推理速度可超过 200 tokens/s,使得在主流消费级 GPU 上运行全模态 AI 成为可能。

在国产算力生态方面,MiniCPM-o 4.5 通过 FlagOS 系统软件栈,已适配天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片,为希望在国产硬件上落地 AI 应用的团队提供了成熟、可立即部署的选项。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21349

(0)
上一篇 15小时前
下一篇 2025年12月1日 上午11:36

相关推荐

  • GitHub爆款AI技能包盘点:让AI成为你的视频剪辑与知识管理专家

    视频制作:Remotion Skill Remotion 是一个使用 React 编程来制作视频的开源框架,在 GitHub 上已获得超过 2.8 万 Star。它允许开发者通过编写代码实现视频生成自动化。 例如,下面这类视频都可以使用 Remotion 框架制作: 随着 AI Agent 的兴起,Remotion 团队推出了 remotion skills…

    2026年2月3日
    2300
  • 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

    昆仑天工开源SkyReels-V3:多模态视频生成模型实现技术突破 近日,昆仑天工正式宣布开源其多模态视频生成模型 SkyReels-V3。该模型在文生视频、图生视频、视频延长及虚拟形象生成等多个维度展现出强大能力,致力于解决AI生成视频内容在真实性、连贯性与物理合理性方面的长期挑战。 多模态生成能力实测 SkyReels-V3支持从图像生成动态视频。以下测…

    2026年1月29日
    6700
  • 五大前沿AI开源项目盘点:从多智能体协作到方言播客生成

    01 AI 大神的新开源项目:多智能体协作委员会 AI 领域知名开发者 Karpathy 近日开源了一个名为 llm-council 的多智能体协作演示项目。 其核心理念是:单个大语言模型(如 GPT-4)的答案可能存在局限或错误,那么集合多个模型的智慧是否能得出更优解?该项目构建了一个“委员会”机制,允许用户邀请不同的 AI 模型(例如 GPT-4、Cla…

    2025年12月6日
    9100
  • MiroFish:多智能体博弈推演,AI如何预见特斯拉财报走势?

    数月前,一款名为 BettaFish(微舆)的开源项目悄然崛起,其惊艳的多智能体分析系统打破了互联网信息茧房,随后连续多日霸榜 GitHub Trending。 在持续多轮的暴涨后,项目已累积斩获 34000+ Star,成为当之无愧的现象级爆款。 项目爆火后,这位 20 岁的开发者并未止步。基于 BettaFish 看清当下的能力,他希望更进一步,让 AI…

    2026年1月13日
    12500
  • 三大前沿GitHub项目解析:云端IDE、开源游戏宝库与AI呼叫中心革新

    把 VS Code 装进浏览器 这个开源项目可以让你在浏览器里面写代码,它把 VS Code 完整地搬进浏览器中运行,现在已经 75K 的 Star 了。 code-server 让 VS Code 编辑器脱离本地电脑的环境,可以在任意服务器上运行,再通过浏览器访问。 这意味着你可以在一台 Linux 服务器上安装 code-server,然后从任何有浏览器…

    2025年11月22日
    11500