大家好,我是PaperAgent,但不是Agent!
上周DeepSeek V4正式亮相,但多少让人感到一丝遗憾——它并非多模态模型。有网友调侃说,可以拿其他厂商的多模态方案来弥补。
今天,MiniCPM-o 4.5 恰好填补了这个空白。凭借技术创新,它仅以 9B 的参数量,就打造出业界首个端到端、全双工、全模态的大模型,真正让端侧AI普惠成为触手可及的现实。自2026年2月模型发布以来,它在Hugging Face上的下载量已经突破25万次。
这里附上Windows/macOS一键安装包,最低只需12GB显存的GPU即可运行。
你是否曾想象过,无需联网、仅凭一张消费级显卡,就能在自己的个人电脑上拥有一个“能看、能听、能说、还能主动提醒”的类人AI助手?它既能实时感知周围环境的变化,同步理解你的意图,又能全程守护你的隐私安全。
MiniCPM-o 4.5 做到了!
➤ 模型用例展示:
https://openbmb.github.io/minicpm-o-4_5-omni/
➤ 在线体验(无需注册/下载):
https://minicpmo45.modelbest.cn/
今天,面壁智能携手OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室,正式发布了 MiniCPM-o 4.5 技术报告,首次公开了面壁智能在全双工全模态交互领域的核心技术——Omni-Flow 流式全模态框架。
➤ 技术报告:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
伴随技术报告的发布,MiniCPM-o 4.5 同步推出了在线体验Demo、全模态全双工API、端侧安装包Comni以及Demo仓库。
在线体验 Demo
在线Demo是MiniCPM-o 4.5的原型示例网页应用,展示了传统轮次交互、语音双工交互、视频双工交互三大类应用原型,并完整开放了模型支持的所有配置,包括prompt和参考音频设置。
Demo可直接在手机和电脑端访问,并配备了排队、录制、保存、分享、回看等功能,以提升用户体验。
➤ 在线体验(手机端推荐)
https://minicpmo45.modelbest.cn/mobile/
➤ 在线体验(电脑端推荐)
https://minicpmo45.modelbest.cn/
全模态全双工 API
同步开放的MiniCPM-o 4.5 API支持全模态全双工实时交互,在全双工模式下无需VAD机制来控制对话轮次,极大地方便了开发者基于MiniCPM-o 4.5构建应用。
API使用 https://api.modelbest.cn/minicpmo45/v1/ 端点,目前完全免费开放。详细使用方法请参阅API文档。
➤ MiniCPM-o 4.5 API 文档:
https://api.modelbest.cn/minicpmo45/docs
Windows / macOS 端侧安装包 Comni
MiniCPM-o 4.5 已基于llama.cpp完成了模型量化和推理性能优化,实测中,最低仅需12GB显存的RTX 5070即可流畅运行全双工模式(RTF 0.4),这大大降低了个人端侧部署的门槛。
为了进一步简化端侧部署的操作流程,桌面软件 Comni 集成了模型下载、环境安装和Demo运行能力,提供了Windows和macOS版本。在电脑上启动本地服务后,除了在本地浏览器中使用外,强烈推荐通过手机连接局域网,进行全双工视频通话。软件包下载链接如下:
| 平台 | 下载链接 | 硬件要求 |
|---|---|---|
| Windows | GitHub: Comni-Setup-win64.exe ModelScope: Comni-Windows-x64.exe |
12GB+ 显存 GPU,如 RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090 |
| macOS | GitHub: Comni-macOS-arm64.dmg ModelScope: Comni-macOS-arm64.dmg |
M1-M5 Max / M5 Pro,建议内存16G以上 |
(上方视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程,包括全双工语音对话、实时视觉理解、主动提醒等能力演示)
Demo 仓库开源与 Linux 部署
上述Demo的全栈代码已经开源,Linux用户可以克隆代码仓库并部署完整的Demo服务。这也是首批可本地部署的全双工全模态交互演示项目之一。
➤ Demo GitHub 仓库:
https://github.com/OpenBMB/MiniCPM-o-Demo
为什么「全双工」是AI交互的下一站?
人类的交流是流畅且并行的。我们边听边思考,甚至可以打断对方。
然而在过去,AI与人类的交互模式是半双工的,就像使用对讲机:你说完了,它才能处理;它说话时,又听不到你的新指令。
AI与人类这种不同频的交流方式,导致大多数用户在与大模型产品互动时难以获得良好的体验,甚至因为交流中的“时空割裂”而逐渐失去耐心。长此以往,大模型在多模态场景下的落地无疑会面临巨大阻碍。
而MiniCPM-o 4.5在全球范围内首创了“全双工全模态”模式,模型能够在持续感知环境(看视频、听声音)的同时进行思考和响应,这使得AI从一个被动的工具转变为一个能主动帮助人类的真正助手。
这背后离不开面壁智能与清华大学共同研发的 Omni-Flow 流式全模态框架。本次技术报告也首次披露了Omni-Flow的技术核心:
简单来说,它创造了一个共享的“时间轴”,将视觉、音频、语言等所有信息流都对齐到毫秒级的时间片上。模型在每个极小的时间片内,完成一次“感知-思考-响应”的循环。
这套机制从底层赋予了模型持续感知和即时反应的能力,是MiniCPM-o实现全双工的基石。
此外,MiniCPM-o 4.5本次发布并坚持开源可本地部署的Web Demo,这对开发者和用户而言意味着:
绝对的隐私安全:全天候陪伴式AI会接触到大量敏感信息。数据不离开本地,就是最好的隐私保护。
断网也能运行的可靠性:即使没有网络也能使用。即使在隧道或野外,你的AI助手也不会“掉线”。
开发者的游乐场:完整的Demo前后端代码已经开源。你可以基于此快速构建自己的全双工多模态应用,无论是智能座舱、无障碍辅助还是具身智能,MiniCPM-o 4.5都能成为你将想象变为现实的助推器。
技术报告深度解读:揭秘MiniCPM-o 4.5的实现之道
MiniCPM-o 4.5采用了端到端全模态架构,总参数量为9B。核心设计包括:
全模态端到端架构:多模态编码器/语音解码器与LLM通过隐藏状态紧密连接,在高压缩率下实现通用的视觉、听觉感知和语音对话。
时分复用机制:将并行的多模态流划分为周期性时间片内的顺序信息组,从而实现高效的流式处理。
可配置语音建模:支持文本+音频双系统提示,通过参考音频和角色提示词即可实现声音克隆和角色扮演。
双模式支持:同一模型既支持传统的轮次交互模式,也支持Omni-Flow全模态全双工模式。
实时交互:Omni-Flow 流式全模态框架
传统多模态模型将交互视为一系列孤立的回合,而Omni-Flow则将其重塑为一个连续的过程。
图1:交互范式的演进,MiniCPM-o 4.5实现了最右侧的全双工流式交互
如图所示,Omni-Flow将视觉、音频输入流以及模型的文本、语音输出流,在时间上进行精确切片和对齐。模型不再被动地等待用户输入完成,而是以极高的频率(例如每秒一次)持续刷新自己的“世界观”,并自主决定在哪个时间点介入(说话或提醒)。
这套机制原生支持了打断、插话等高级交互行为,彻底摆脱了对外部VAD(语音活动检测)等辅助工具的依赖。
端到端架构:9B 模型如何高效协同运作?
为支撑 Omni-Flow 的实现,面壁智能团队设计了一套高效的端到端全模态系统架构,整体参数量为 9B。
核心模块组成如下:
- 视觉编码器(0.4B): 采用 SigLIP-ViT,负责处理图像输入。
- 音频编码器(0.3B): 基于 Whisper-Medium,负责接收语音信号。
- LLM 基座(8B): 使用 Qwen3-8B,承担核心的推理与理解任务。
- 语音 Token 解码器(0.3B): 采用轻量级 Llama 架构,将 LLM 输出的文本 Token 转换为语音单元。
- 声码器: 负责将语音单元最终合成为可播放的音频波形。
该架构最具巧思的设计在于:LLM 基座仅生成文本 Token,而将专业的语音合成任务“外包”给一个更小、更专业的语音解码器。这样做避免了让大模型直接处理复杂的声学任务,从而保障了其核心的语言与推理能力不受干扰。同时,通过各模块之间 Token 级的稠密连接,确保了模型整体能力的高上限。
为实时交互而生:TAIL 语音生成方案
流式语音面临的一大难题是延迟。为了让语音听起来自然流畅,模型通常需要“预读”一段较长的文本,但这会导致输出语音明显滞后于用户输入。在需要“即时打断”的全双工场景中,这种延迟是致命的。
为此,面壁智能团队提出了 TAIL(Time-Aligned Interleaving)方案,该方案能让每个语音块的生成紧密跟随其对应的文本块,避免文本“抢跑”过多。
此外,通过引入一个轻量级的“预读”(pre-look)机制,有效解决了跨词发音的连贯性问题。最终,TAIL 在保证音频流畅悦耳的同时,将语音输出与交互发生的延迟降至最低。
性能表现:9B 模型挑战业界顶尖水准
参数规模小并不代表模型能力弱。MiniCPM-o 4.5 在多项评测中展现了与 SOTA 大模型一较高下的实力。
推理效率: 在显存占用方面,MiniCPM-o 4.5 的 INT4 量化版本仅需 11GB 显存即可运行,约为 Qwen3-Omni INT4 版本所需显存的一半,这使得它在消费级显卡上的本地部署成为可能。在性能方面,其 INT4 版本的解码速度达到 212 tokens/s,相比 Qwen3 提升了 40% 以上,响应延迟更低。
综合视觉能力: 在 OpenCompass、MMBench 等多个视觉基准测试中,9B 规模的 MiniCPM-o 4.5 表现与 Gemini 2.5 Flash 相当。
| Benchmark | MiniCPM-o 4.5 (9B) | Gemini 2.5 Flash | Qwen3-Omni-30B-A3B |
|---|---|---|---|
| OpenCompass | 77.6 | 78.5 | 75.7 |
| MMBench EN v1.1 | 87.6 | 86.6 | 84.9 |
| MathVista | 80.1 | 75.3 | 75.9 |
| HallusionBench | 63.2 | 59.1 | 59.7 |
全模态与全双工交互: 在需要联合音视频理解的基准上,MiniCPM-o 4.5 全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上,其胜率(54.4%)大幅领先于专用的流式视频模型。
| Benchmark | MiniCPM-o 4.5 | Gemini-2.5-Flash | Qwen3-Omni-30B |
|---|---|---|---|
| Daily-Omni | 80.2 | 79.3 | 70.7 |
| Video-Holmes | 64.29 | 51.3 | 50.4 |
| LiveSports-3K-CC (Win Rate) | 54.4% | – | – |
语音生成: 无论中文还是英文,MiniCPM-o 4.5 的语音生成质量(字符/单词错误率更低)和情感表现力均优于 Qwen3-Omni 及业界领先的 CosyVoice2。
| Benchmark | MiniCPM-o 4.5 | CosyVoice2 | Qwen3-Omni-30B |
|---|---|---|---|
| SeedTTS Test-ZH (CER↓) | 0.86 | 1.45 | 1.41 |
| SeedTTS Test-EN (WER↓) | 2.38 | 2.57 | 3.39 |
| Expresso (Emotion↑) | 29.8 | 17.9 | – |
真正的全双工,潜力无限
全双工全模态大模型并非遥不可及的概念,它将催生一系列全新的应用场景,例如:
- 主动式伴侣: 在你烹饪、修理或运动时,提供实时的指导与提醒。
- 无障碍辅助: 充当视障人士的“眼睛”,持续观察周围环境,主动播报绿灯亮起、水杯将满等关键信息,帮助他们安全生活。
- 智能座舱: 持续监控路况和驾驶员状态,主动提示“左侧有可用车位”并引导泊车,提供更智能、更及时的安全预警和驾驶辅助。
- 具身智能: 作为机器人的“大脑”,持续感知动态环境并自主决策交互时机。
这些场景的共同点是:需求并非一次性问答,而是需要 AI 作为“沉默的观察者”和“及时的提醒者”融入动态生活流——这正是传统轮次对话模型无法胜任的。
MiniCPM-o 4.5 作为原生全双工模型,摆脱了对 VAD 的依赖。这意味着:它支持通用的声音感知(包括环境噪音、音乐等,不限于语音);画面变化跟进更快(原生全双工,无需等待上一句说完);AI 说话时可被实时引导改变内容。
当然,MiniCPM-o 4.5 目前仍有提升空间,例如长时间交互的稳定性、主动行为的丰富性等。多模态智能的下一个前沿,不仅在于模型能力的扩展,更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向上的关键探索。
开放与协作将持续推动人机交互的演进。欢迎所有开发者试用模型、参与讨论、贡献代码,共同探索人机交互的未来!
➤ 技术报告 PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
➤ 在线体验:
https://minicpmo45.modelbest.cn/
➤ 在线体验(手机端推荐):
https://minicpmo45.modelbest.cn/mobile/
➤ GitHub Demo(含本地安装包):
https://github.com/OpenBMB/MiniCPM-o-Demo
➤ Hugging Face 下载链接:
https://huggingface.co/openbmb/MiniCPM-o-4_5
➤ ModelScope 下载链接:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32513

