仅9B参数实现全双工全模态！MiniCPM-o 4.5让端侧AI普惠，12GB显存即可运行

大家好，我是PaperAgent，但不是Agent！

上周DeepSeek V4正式亮相，但多少让人感到一丝遗憾——它并非多模态模型。有网友调侃说，可以拿其他厂商的多模态方案来弥补。

今天，MiniCPM-o 4.5 恰好填补了这个空白。凭借技术创新，它仅以 9B 的参数量，就打造出业界首个端到端、全双工、全模态的大模型，真正让端侧AI普惠成为触手可及的现实。自2026年2月模型发布以来，它在Hugging Face上的下载量已经突破25万次。

这里附上Windows/macOS一键安装包，最低只需12GB显存的GPU即可运行。

你是否曾想象过，无需联网、仅凭一张消费级显卡，就能在自己的个人电脑上拥有一个“能看、能听、能说、还能主动提醒”的类人AI助手？它既能实时感知周围环境的变化，同步理解你的意图，又能全程守护你的隐私安全。

MiniCPM-o 4.5 做到了！

➤ 模型用例展示：
https://openbmb.github.io/minicpm-o-4_5-omni/

➤ 在线体验（无需注册/下载）：
https://minicpmo45.modelbest.cn/

今天，面壁智能携手OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室，正式发布了 MiniCPM-o 4.5 技术报告，首次公开了面壁智能在全双工全模态交互领域的核心技术——Omni-Flow 流式全模态框架。

➤ 技术报告：
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

伴随技术报告的发布，MiniCPM-o 4.5 同步推出了在线体验Demo、全模态全双工API、端侧安装包Comni以及Demo仓库。

在线体验 Demo

在线Demo是MiniCPM-o 4.5的原型示例网页应用，展示了传统轮次交互、语音双工交互、视频双工交互三大类应用原型，并完整开放了模型支持的所有配置，包括prompt和参考音频设置。

Demo可直接在手机和电脑端访问，并配备了排队、录制、保存、分享、回看等功能，以提升用户体验。

➤ 在线体验（手机端推荐）
https://minicpmo45.modelbest.cn/mobile/

➤ 在线体验（电脑端推荐）
https://minicpmo45.modelbest.cn/

全模态全双工 API

同步开放的MiniCPM-o 4.5 API支持全模态全双工实时交互，在全双工模式下无需VAD机制来控制对话轮次，极大地方便了开发者基于MiniCPM-o 4.5构建应用。

API使用 https://api.modelbest.cn/minicpmo45/v1/ 端点，目前完全免费开放。详细使用方法请参阅API文档。

➤ MiniCPM-o 4.5 API 文档：
https://api.modelbest.cn/minicpmo45/docs

Windows / macOS 端侧安装包 Comni

MiniCPM-o 4.5 已基于llama.cpp完成了模型量化和推理性能优化，实测中，最低仅需12GB显存的RTX 5070即可流畅运行全双工模式（RTF 0.4），这大大降低了个人端侧部署的门槛。

为了进一步简化端侧部署的操作流程，桌面软件 Comni 集成了模型下载、环境安装和Demo运行能力，提供了Windows和macOS版本。在电脑上启动本地服务后，除了在本地浏览器中使用外，强烈推荐通过手机连接局域网，进行全双工视频通话。软件包下载链接如下：

平台	下载链接	硬件要求
Windows	GitHub: Comni-Setup-win64.exe ModelScope: Comni-Windows-x64.exe	12GB+ 显存 GPU，如 RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090
macOS	GitHub: Comni-macOS-arm64.dmg ModelScope: Comni-macOS-arm64.dmg	M1-M5 Max / M5 Pro，建议内存16G以上

(上方视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程，包括全双工语音对话、实时视觉理解、主动提醒等能力演示)

Demo 仓库开源与 Linux 部署

上述Demo的全栈代码已经开源，Linux用户可以克隆代码仓库并部署完整的Demo服务。这也是首批可本地部署的全双工全模态交互演示项目之一。

➤ Demo GitHub 仓库：
https://github.com/OpenBMB/MiniCPM-o-Demo

为什么「全双工」是AI交互的下一站？

人类的交流是流畅且并行的。我们边听边思考，甚至可以打断对方。

然而在过去，AI与人类的交互模式是半双工的，就像使用对讲机：你说完了，它才能处理；它说话时，又听不到你的新指令。

AI与人类这种不同频的交流方式，导致大多数用户在与大模型产品互动时难以获得良好的体验，甚至因为交流中的“时空割裂”而逐渐失去耐心。长此以往，大模型在多模态场景下的落地无疑会面临巨大阻碍。

而MiniCPM-o 4.5在全球范围内首创了“全双工全模态”模式，模型能够在持续感知环境（看视频、听声音）的同时进行思考和响应，这使得AI从一个被动的工具转变为一个能主动帮助人类的真正助手。

这背后离不开面壁智能与清华大学共同研发的 Omni-Flow 流式全模态框架。本次技术报告也首次披露了Omni-Flow的技术核心：

简单来说，它创造了一个共享的“时间轴”，将视觉、音频、语言等所有信息流都对齐到毫秒级的时间片上。模型在每个极小的时间片内，完成一次“感知-思考-响应”的循环。

这套机制从底层赋予了模型持续感知和即时反应的能力，是MiniCPM-o实现全双工的基石。

此外，MiniCPM-o 4.5本次发布并坚持开源可本地部署的Web Demo，这对开发者和用户而言意味着：

绝对的隐私安全：全天候陪伴式AI会接触到大量敏感信息。数据不离开本地，就是最好的隐私保护。

断网也能运行的可靠性：即使没有网络也能使用。即使在隧道或野外，你的AI助手也不会“掉线”。

开发者的游乐场：完整的Demo前后端代码已经开源。你可以基于此快速构建自己的全双工多模态应用，无论是智能座舱、无障碍辅助还是具身智能，MiniCPM-o 4.5都能成为你将想象变为现实的助推器。

技术报告深度解读：揭秘MiniCPM-o 4.5的实现之道

MiniCPM-o 4.5采用了端到端全模态架构，总参数量为9B。核心设计包括：

全模态端到端架构：多模态编码器/语音解码器与LLM通过隐藏状态紧密连接，在高压缩率下实现通用的视觉、听觉感知和语音对话。

时分复用机制：将并行的多模态流划分为周期性时间片内的顺序信息组，从而实现高效的流式处理。

可配置语音建模：支持文本+音频双系统提示，通过参考音频和角色提示词即可实现声音克隆和角色扮演。

双模式支持：同一模型既支持传统的轮次交互模式，也支持Omni-Flow全模态全双工模式。

实时交互：Omni-Flow 流式全模态框架

传统多模态模型将交互视为一系列孤立的回合，而Omni-Flow则将其重塑为一个连续的过程。

图1：交互范式的演进，MiniCPM-o 4.5实现了最右侧的全双工流式交互

如图所示，Omni-Flow将视觉、音频输入流以及模型的文本、语音输出流，在时间上进行精确切片和对齐。模型不再被动地等待用户输入完成，而是以极高的频率（例如每秒一次）持续刷新自己的“世界观”，并自主决定在哪个时间点介入（说话或提醒）。

这套机制原生支持了打断、插话等高级交互行为，彻底摆脱了对外部VAD（语音活动检测）等辅助工具的依赖。

端到端架构：9B 模型如何高效协同运作？

为支撑 Omni-Flow 的实现，面壁智能团队设计了一套高效的端到端全模态系统架构，整体参数量为 9B。

核心模块组成如下：

视觉编码器（0.4B）： 采用 SigLIP-ViT，负责处理图像输入。
音频编码器（0.3B）： 基于 Whisper-Medium，负责接收语音信号。
LLM 基座（8B）： 使用 Qwen3-8B，承担核心的推理与理解任务。
语音 Token 解码器（0.3B）： 采用轻量级 Llama 架构，将 LLM 输出的文本 Token 转换为语音单元。
声码器： 负责将语音单元最终合成为可播放的音频波形。

该架构最具巧思的设计在于：LLM 基座仅生成文本 Token，而将专业的语音合成任务“外包”给一个更小、更专业的语音解码器。这样做避免了让大模型直接处理复杂的声学任务，从而保障了其核心的语言与推理能力不受干扰。同时，通过各模块之间 Token 级的稠密连接，确保了模型整体能力的高上限。

为实时交互而生：TAIL 语音生成方案

流式语音面临的一大难题是延迟。为了让语音听起来自然流畅，模型通常需要“预读”一段较长的文本，但这会导致输出语音明显滞后于用户输入。在需要“即时打断”的全双工场景中，这种延迟是致命的。

为此，面壁智能团队提出了 TAIL（Time-Aligned Interleaving）方案，该方案能让每个语音块的生成紧密跟随其对应的文本块，避免文本“抢跑”过多。

此外，通过引入一个轻量级的“预读”（pre-look）机制，有效解决了跨词发音的连贯性问题。最终，TAIL 在保证音频流畅悦耳的同时，将语音输出与交互发生的延迟降至最低。

性能表现：9B 模型挑战业界顶尖水准

参数规模小并不代表模型能力弱。MiniCPM-o 4.5 在多项评测中展现了与 SOTA 大模型一较高下的实力。

推理效率： 在显存占用方面，MiniCPM-o 4.5 的 INT4 量化版本仅需 11GB 显存即可运行，约为 Qwen3-Omni INT4 版本所需显存的一半，这使得它在消费级显卡上的本地部署成为可能。在性能方面，其 INT4 版本的解码速度达到 212 tokens/s，相比 Qwen3 提升了 40% 以上，响应延迟更低。

综合视觉能力： 在 OpenCompass、MMBench 等多个视觉基准测试中，9B 规模的 MiniCPM-o 4.5 表现与 Gemini 2.5 Flash 相当。

Benchmark	MiniCPM-o 4.5 (9B)	Gemini 2.5 Flash	Qwen3-Omni-30B-A3B
OpenCompass	77.6	78.5	75.7
MMBench EN v1.1	87.6	86.6	84.9
MathVista	80.1	75.3	75.9
HallusionBench	63.2	59.1	59.7

全模态与全双工交互： 在需要联合音视频理解的基准上，MiniCPM-o 4.5 全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上，其胜率（54.4%）大幅领先于专用的流式视频模型。

Benchmark	MiniCPM-o 4.5	Gemini-2.5-Flash	Qwen3-Omni-30B
Daily-Omni	80.2	79.3	70.7
Video-Holmes	64.29	51.3	50.4
LiveSports-3K-CC (Win Rate)	54.4%	–	–

语音生成： 无论中文还是英文，MiniCPM-o 4.5 的语音生成质量（字符/单词错误率更低）和情感表现力均优于 Qwen3-Omni 及业界领先的 CosyVoice2。

Benchmark	MiniCPM-o 4.5	CosyVoice2	Qwen3-Omni-30B
SeedTTS Test-ZH (CER↓)	0.86	1.45	1.41
SeedTTS Test-EN (WER↓)	2.38	2.57	3.39
Expresso (Emotion↑)	29.8	17.9	–

真正的全双工，潜力无限

全双工全模态大模型并非遥不可及的概念，它将催生一系列全新的应用场景，例如：

主动式伴侣： 在你烹饪、修理或运动时，提供实时的指导与提醒。
无障碍辅助： 充当视障人士的“眼睛”，持续观察周围环境，主动播报绿灯亮起、水杯将满等关键信息，帮助他们安全生活。
智能座舱： 持续监控路况和驾驶员状态，主动提示“左侧有可用车位”并引导泊车，提供更智能、更及时的安全预警和驾驶辅助。
具身智能： 作为机器人的“大脑”，持续感知动态环境并自主决策交互时机。

这些场景的共同点是：需求并非一次性问答，而是需要 AI 作为“沉默的观察者”和“及时的提醒者”融入动态生活流——这正是传统轮次对话模型无法胜任的。

MiniCPM-o 4.5 作为原生全双工模型，摆脱了对 VAD 的依赖。这意味着：它支持通用的声音感知（包括环境噪音、音乐等，不限于语音）；画面变化跟进更快（原生全双工，无需等待上一句说完）；AI 说话时可被实时引导改变内容。

当然，MiniCPM-o 4.5 目前仍有提升空间，例如长时间交互的稳定性、主动行为的丰富性等。多模态智能的下一个前沿，不仅在于模型能力的扩展，更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向上的关键探索。

开放与协作将持续推动人机交互的演进。欢迎所有开发者试用模型、参与讨论、贡献代码，共同探索人机交互的未来！

➤ 技术报告 PDF：
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

➤ 在线体验：
https://minicpmo45.modelbest.cn/

➤ 在线体验（手机端推荐）：
https://minicpmo45.modelbest.cn/mobile/

➤ GitHub Demo（含本地安装包）：
https://github.com/OpenBMB/MiniCPM-o-Demo

➤ Hugging Face 下载链接：
https://huggingface.co/openbmb/MiniCPM-o-4_5

➤ ModelScope 下载链接：
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/32513

仅9B参数实现全双工全模态！MiniCPM-o 4.5让端侧AI普惠，12GB显存即可运行

在线体验 Demo

全模态全双工 API

Windows / macOS 端侧安装包 Comni

Demo 仓库开源与 Linux 部署

为什么「全双工」是AI交互的下一站？

技术报告深度解读：揭秘MiniCPM-o 4.5的实现之道

实时交互：Omni-Flow 流式全模态框架

端到端架构：9B 模型如何高效协同运作？

为实时交互而生：TAIL 语音生成方案

性能表现：9B 模型挑战业界顶尖水准

真正的全双工，潜力无限

相关推荐

Gemini 3.1 Pro震撼发布：推理能力翻倍，成本效率双突破，AI竞赛进入新阶段

美国AI霸权保卫战：从“创世纪行动”到全球算力联盟的全面布局

PhysX-Anything：单图生成仿真就绪3D资产，突破具身智能物理建模瓶颈

从特征拼接失败到策略共识突破：多模态机器人感知的范式转移

Gemini Canvas与AI Studio深度解析：从零门槛3D交互到开发者核武库的技术革命