MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

MiniCPM-o 4.5 能够同时处理图像、视频、音频输入,并输出文本和语音。它支持全双工实时交互,即可以一边接收视觉和音频信息,一边主动生成语音回应。其目标是将接近 GPT‑4o 或 Gemini 2.5 Flash 水平的多模态能力,部署到手机、PC、车机等端侧设备上运行。

项目简介

MiniCPM-o 4.5 = 9B 参数的开源全模态大模型 + 原生全双工实时交互 + 端侧友好部署

其核心特性可以概括为以下三点:

① 全模态
能够同时处理图像、视频、文本、音频输入,并输出文本和语音。

② 全双工
能够实现边看、边听、边说的实时交互,而非传统的回合制问答。它让 AI 能够像人一样持续感知环境,并自主决定何时回应,支持随时打断和切换话题。

③ 端侧优先
尽管只有 9B 参数,但在视觉理解、文档解析、语音交互等方面表现接近 Gemini 2.5 Flash 级别,同时其轻量化设计使其适合在手机、车机、机器人等本地设备上运行。

  • 开源地址:https://github.com/OpenBMB/MiniCPM-o
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4_5

技术架构:如何实现“又全又小”?

从技术结构上看,MiniCPM-o 4.5 可以理解为:在 Qwen3‑8B 语言模型底座上,集成了 SigLIP2 视觉编码器、Whisper 语音理解模块和 CosyVoice2 语音生成模块,并通过统一的端到端全模态架构进行整合。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

几个关键技术点:

① 统一的全模态架构
不再是视觉、语音模型与语言模型的松散拼接,而是通过一个统一系统协调从输入编码到输出解码的全过程。文本、语音、图像、视频在一个共享的语义空间中被理解,使得跨模态推理(如结合视频画面与音轨理解事件)更加自然。

② 全双工语音解码
语音解码器采用文本 token 与语音 token 交错建模的方式。这使得模型在输出语音时,仍能持续读入新的输入,实现真正的全双工交互,同时保证了长语音输出时音色和语气的统一与自然。

③ 高效视觉/视频处理
借鉴了 MiniCPM-V 4.5 的设计,采用高效视觉主干网络与 token 压缩策略,将高分辨率图像和多帧视频压缩到极少的视觉 token 数量。这使得视频理解的性价比极高,在同等算力下能处理更长的视频内容,特别适合端侧设备进行实时摄像头分析或长视频理解。

如何使用

最简便的方式是直接在 Hugging Face 上体验官方搭建的 Demo,只需授予麦克风和摄像头权限即可。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

  • 在线 Demo:https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

MiniCPM-o 4.5 从设计之初就着眼于实际部署。 MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

具体的部署指引可参考以下链接:
* 部署指引:https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md

官方提供了一整套开源部署方案,包括:

  • llama.cpp-omni:面壁自研的开源流式全模态推理框架,主打端侧/边缘设备的低延迟推理,支持全双工交互。
  • 常见推理框架适配:已支持 vLLM、SGLang、Ollama、LLaMA-Factory 等。
  • 多种量化模型:原始 BF16 精度模型约需 19GB 显存;INT4 量化后内存可降至约 11GB 或更低,推理速度可超过 200 tokens/s,使得在主流消费级 GPU 上运行全模态 AI 成为可能。

在国产算力生态方面,MiniCPM-o 4.5 通过 FlagOS 系统软件栈,已适配天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片,为希望在国产硬件上落地 AI 应用的团队提供了成熟、可立即部署的选项。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21349

(0)
上一篇 2026年2月13日 下午2:08
下一篇 2026年2月14日 下午3:05

相关推荐

  • Dato:突破内存墙,数据流加速器编程新范式实现98%理论峰值利用率

    关键词:Dato、数据流加速器、任务型编程模型、通信抽象、虚拟-物理映射 随着人工智能计算的不断发展,数据流加速器将扮演越来越重要的角色。Dato为这些复杂硬件的编程提供了全新的思路,有望成为下一代人工智能计算基础设施的关键组成部分。 Dato的核心创新在于其类型系统的设计,将数据通信和数据分片都提升为一等类型,这使得编译器能够在早期阶段进行深入的分析和优化…

    2026年1月17日
    15200
  • GitHub宝藏:6款小众开源神器,从地图艺术到算法解密,提升你的技术工具箱

    地图海报生成器 这是一个基于 Python 的开源工具,可以将城市地图数据转化为极简风格的艺术海报。 该项目利用 OpenStreetMap 获取地理数据,并通过 Matplotlib 进行渲染,能够为世界上任何一座城市生成高分辨率的地图图像。 它无需复杂的地理信息软件界面,通过简洁的代码或命令行即可完成创作。工具内置了多种主题,如黑色电影、陶土和赛博朋克等…

    2026年2月5日
    9000
  • 开源音视频生成新突破:MOVA模型实现电影级同步,打破Sora2闭源垄断

    今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 MOVA(MOSS-Video-and-Audio)。 作为中国首个高性能开源音视频模型,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了极高的工业水准…

    2026年1月29日
    19900
  • 学术产业化危机:当AI顶会成为明码标价的“入学筹码”

    在人工智能技术迅猛发展的当下,一个令人担忧的现象正在学术圈蔓延:商业机构将学术研究包装成可量产的“产品”,通过付费辅导班的形式,将顶级学术会议论文变为明码标价的“入学筹码”。这不仅严重稀释了学术研究的含金量,挤占了宝贵的学术资源,更可能引发深层次的学术信任危机。香港大学计算与数据科学学院院长马毅(网名“毅马当闲”)在微博中尖锐指出:“顶会规模化后,已基本失去…

    2025年12月8日
    15600
  • 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

    从模型重编程、参数高效微调,到大模型时代的提示调优、指令提示与上下文学习,研究者和从业者始终在探索一个核心问题:如何在尽量不修改模型参数的前提下,最大限度地复用预训练模型的能力? 过去几年,这类方法在不同研究社区中以相对独立的形式快速发展——有的源于对抗鲁棒性与迁移学习领域,有的专注于下游任务适配,有的则成为大模型对齐与应用的基础工具。然而,这些看似分散的技…

    2026年1月24日
    14600