仅9B参数实现全双工全模态!MiniCPM-o 4.5让端侧AI普惠,12GB显存即可运行

大家好,我是PaperAgent,但不是Agent!

上周DeepSeek V4正式亮相,但多少让人感到一丝遗憾——它并非多模态模型。有网友调侃说,可以拿其他厂商的多模态方案来弥补。

今天,MiniCPM-o 4.5 恰好填补了这个空白。凭借技术创新,它仅以 9B 的参数量,就打造出业界首个端到端、全双工、全模态的大模型,真正让端侧AI普惠成为触手可及的现实。自2026年2月模型发布以来,它在Hugging Face上的下载量已经突破25万次。

这里附上Windows/macOS一键安装包,最低只需12GB显存的GPU即可运行。

你是否曾想象过,无需联网仅凭一张消费级显卡,就能在自己的个人电脑上拥有一个“能看、能听、能说、还能主动提醒”的类人AI助手?它既能实时感知周围环境的变化,同步理解你的意图,又能全程守护你的隐私安全。

MiniCPM-o 4.5 做到了!

➤ 模型用例展示:
https://openbmb.github.io/minicpm-o-4_5-omni/

➤ 在线体验(无需注册/下载):
https://minicpmo45.modelbest.cn/

今天,面壁智能携手OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室,正式发布了 MiniCPM-o 4.5 技术报告,首次公开了面壁智能在全双工全模态交互领域的核心技术——Omni-Flow 流式全模态框架

➤ 技术报告:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

伴随技术报告的发布,MiniCPM-o 4.5 同步推出了在线体验Demo、全模态全双工API、端侧安装包Comni以及Demo仓库。

在线体验 Demo

在线Demo是MiniCPM-o 4.5的原型示例网页应用,展示了传统轮次交互、语音双工交互、视频双工交互三大类应用原型,并完整开放了模型支持的所有配置,包括prompt和参考音频设置。

Demo可直接在手机和电脑端访问,并配备了排队、录制、保存、分享、回看等功能,以提升用户体验。

➤ 在线体验(手机端推荐)
https://minicpmo45.modelbest.cn/mobile/

➤ 在线体验(电脑端推荐)
https://minicpmo45.modelbest.cn/

全模态全双工 API

同步开放的MiniCPM-o 4.5 API支持全模态全双工实时交互,在全双工模式下无需VAD机制来控制对话轮次,极大地方便了开发者基于MiniCPM-o 4.5构建应用。

API使用 https://api.modelbest.cn/minicpmo45/v1/ 端点,目前完全免费开放。详细使用方法请参阅API文档。

➤ MiniCPM-o 4.5 API 文档:
https://api.modelbest.cn/minicpmo45/docs

Windows / macOS 端侧安装包 Comni

MiniCPM-o 4.5 已基于llama.cpp完成了模型量化和推理性能优化,实测中,最低仅需12GB显存的RTX 5070即可流畅运行全双工模式(RTF 0.4),这大大降低了个人端侧部署的门槛。

为了进一步简化端侧部署的操作流程,桌面软件 Comni 集成了模型下载、环境安装和Demo运行能力,提供了Windows和macOS版本。在电脑上启动本地服务后,除了在本地浏览器中使用外,强烈推荐通过手机连接局域网,进行全双工视频通话。软件包下载链接如下:

平台 下载链接 硬件要求
Windows GitHub: Comni-Setup-win64.exe
ModelScope: Comni-Windows-x64.exe
12GB+ 显存 GPU,如 RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090
macOS GitHub: Comni-macOS-arm64.dmg
ModelScope: Comni-macOS-arm64.dmg
M1-M5 Max / M5 Pro,建议内存16G以上

(上方视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程,包括全双工语音对话、实时视觉理解、主动提醒等能力演示)

Demo 仓库开源与 Linux 部署

上述Demo的全栈代码已经开源,Linux用户可以克隆代码仓库并部署完整的Demo服务。这也是首批可本地部署的全双工全模态交互演示项目之一。

Demo GitHub 仓库:
https://github.com/OpenBMB/MiniCPM-o-Demo

为什么「全双工」是AI交互的下一站?

人类的交流是流畅且并行的。我们边听边思考,甚至可以打断对方。

然而在过去,AI与人类的交互模式是半双工的,就像使用对讲机:你说完了,它才能处理;它说话时,又听不到你的新指令。

AI与人类这种不同频的交流方式,导致大多数用户在与大模型产品互动时难以获得良好的体验,甚至因为交流中的“时空割裂”而逐渐失去耐心。长此以往,大模型在多模态场景下的落地无疑会面临巨大阻碍。

而MiniCPM-o 4.5在全球范围内首创了“全双工全模态”模式,模型能够在持续感知环境(看视频、听声音)的同时进行思考和响应,这使得AI从一个被动的工具转变为一个能主动帮助人类的真正助手。

这背后离不开面壁智能与清华大学共同研发的 Omni-Flow 流式全模态框架。本次技术报告也首次披露了Omni-Flow的技术核心:

简单来说,它创造了一个共享的“时间轴”,将视觉、音频、语言等所有信息流都对齐到毫秒级的时间片上。模型在每个极小的时间片内,完成一次“感知-思考-响应”的循环。

这套机制从底层赋予了模型持续感知即时反应的能力,是MiniCPM-o实现全双工的基石。

此外,MiniCPM-o 4.5本次发布并坚持开源可本地部署的Web Demo,这对开发者和用户而言意味着:

绝对的隐私安全:全天候陪伴式AI会接触到大量敏感信息。数据不离开本地,就是最好的隐私保护。

断网也能运行的可靠性:即使没有网络也能使用。即使在隧道或野外,你的AI助手也不会“掉线”。

开发者的游乐场:完整的Demo前后端代码已经开源。你可以基于此快速构建自己的全双工多模态应用,无论是智能座舱、无障碍辅助还是具身智能,MiniCPM-o 4.5都能成为你将想象变为现实的助推器。

技术报告深度解读:揭秘MiniCPM-o 4.5的实现之道

MiniCPM-o 4.5采用了端到端全模态架构,总参数量为9B。核心设计包括:

全模态端到端架构:多模态编码器/语音解码器与LLM通过隐藏状态紧密连接,在高压缩率下实现通用的视觉、听觉感知和语音对话。

时分复用机制:将并行的多模态流划分为周期性时间片内的顺序信息组,从而实现高效的流式处理。

可配置语音建模:支持文本+音频双系统提示,通过参考音频和角色提示词即可实现声音克隆和角色扮演。

双模式支持:同一模型既支持传统的轮次交互模式,也支持Omni-Flow全模态全双工模式。

实时交互:Omni-Flow 流式全模态框架

传统多模态模型将交互视为一系列孤立的回合,而Omni-Flow则将其重塑为一个连续的过程

图1:交互范式的演进,MiniCPM-o 4.5实现了最右侧的全双工流式交互

如图所示,Omni-Flow将视觉、音频输入流以及模型的文本、语音输出流,在时间上进行精确切片和对齐。模型不再被动地等待用户输入完成,而是以极高的频率(例如每秒一次)持续刷新自己的“世界观”,并自主决定在哪个时间点介入(说话或提醒)。

这套机制原生支持了打断、插话等高级交互行为,彻底摆脱了对外部VAD(语音活动检测)等辅助工具的依赖。

端到端架构:9B 模型如何高效协同运作?

为支撑 Omni-Flow 的实现,面壁智能团队设计了一套高效的端到端全模态系统架构,整体参数量为 9B。

核心模块组成如下:

  • 视觉编码器(0.4B): 采用 SigLIP-ViT,负责处理图像输入。
  • 音频编码器(0.3B): 基于 Whisper-Medium,负责接收语音信号。
  • LLM 基座(8B): 使用 Qwen3-8B,承担核心的推理与理解任务。
  • 语音 Token 解码器(0.3B): 采用轻量级 Llama 架构,将 LLM 输出的文本 Token 转换为语音单元。
  • 声码器: 负责将语音单元最终合成为可播放的音频波形。

该架构最具巧思的设计在于:LLM 基座仅生成文本 Token,而将专业的语音合成任务“外包”给一个更小、更专业的语音解码器。这样做避免了让大模型直接处理复杂的声学任务,从而保障了其核心的语言与推理能力不受干扰。同时,通过各模块之间 Token 级的稠密连接,确保了模型整体能力的高上限。

为实时交互而生:TAIL 语音生成方案

流式语音面临的一大难题是延迟。为了让语音听起来自然流畅,模型通常需要“预读”一段较长的文本,但这会导致输出语音明显滞后于用户输入。在需要“即时打断”的全双工场景中,这种延迟是致命的。

为此,面壁智能团队提出了 TAIL(Time-Aligned Interleaving)方案,该方案能让每个语音块的生成紧密跟随其对应的文本块,避免文本“抢跑”过多。

此外,通过引入一个轻量级的“预读”(pre-look)机制,有效解决了跨词发音的连贯性问题。最终,TAIL 在保证音频流畅悦耳的同时,将语音输出与交互发生的延迟降至最低。

性能表现:9B 模型挑战业界顶尖水准

参数规模小并不代表模型能力弱。MiniCPM-o 4.5 在多项评测中展现了与 SOTA 大模型一较高下的实力。

推理效率: 在显存占用方面,MiniCPM-o 4.5 的 INT4 量化版本仅需 11GB 显存即可运行,约为 Qwen3-Omni INT4 版本所需显存的一半,这使得它在消费级显卡上的本地部署成为可能。在性能方面,其 INT4 版本的解码速度达到 212 tokens/s,相比 Qwen3 提升了 40% 以上,响应延迟更低。

综合视觉能力: 在 OpenCompass、MMBench 等多个视觉基准测试中,9B 规模的 MiniCPM-o 4.5 表现与 Gemini 2.5 Flash 相当

Benchmark MiniCPM-o 4.5 (9B) Gemini 2.5 Flash Qwen3-Omni-30B-A3B
OpenCompass 77.6 78.5 75.7
MMBench EN v1.1 87.6 86.6 84.9
MathVista 80.1 75.3 75.9
HallusionBench 63.2 59.1 59.7

全模态与全双工交互: 在需要联合音视频理解的基准上,MiniCPM-o 4.5 全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上,其胜率(54.4%)大幅领先于专用的流式视频模型。

Benchmark MiniCPM-o 4.5 Gemini-2.5-Flash Qwen3-Omni-30B
Daily-Omni 80.2 79.3 70.7
Video-Holmes 64.29 51.3 50.4
LiveSports-3K-CC (Win Rate) 54.4%

语音生成: 无论中文还是英文,MiniCPM-o 4.5 的语音生成质量(字符/单词错误率更低)和情感表现力均优于 Qwen3-Omni 及业界领先的 CosyVoice2。

Benchmark MiniCPM-o 4.5 CosyVoice2 Qwen3-Omni-30B
SeedTTS Test-ZH (CER↓) 0.86 1.45 1.41
SeedTTS Test-EN (WER↓) 2.38 2.57 3.39
Expresso (Emotion↑) 29.8 17.9

真正的全双工,潜力无限

全双工全模态大模型并非遥不可及的概念,它将催生一系列全新的应用场景,例如:

  • 主动式伴侣: 在你烹饪、修理或运动时,提供实时的指导与提醒。
  • 无障碍辅助: 充当视障人士的“眼睛”,持续观察周围环境,主动播报绿灯亮起、水杯将满等关键信息,帮助他们安全生活。
  • 智能座舱: 持续监控路况和驾驶员状态,主动提示“左侧有可用车位”并引导泊车,提供更智能、更及时的安全预警和驾驶辅助。
  • 具身智能: 作为机器人的“大脑”,持续感知动态环境并自主决策交互时机。

这些场景的共同点是:需求并非一次性问答,而是需要 AI 作为“沉默的观察者”和“及时的提醒者”融入动态生活流——这正是传统轮次对话模型无法胜任的。

MiniCPM-o 4.5 作为原生全双工模型,摆脱了对 VAD 的依赖。这意味着:它支持通用的声音感知(包括环境噪音、音乐等,不限于语音);画面变化跟进更快(原生全双工,无需等待上一句说完);AI 说话时可被实时引导改变内容。

当然,MiniCPM-o 4.5 目前仍有提升空间,例如长时间交互的稳定性、主动行为的丰富性等。多模态智能的下一个前沿,不仅在于模型能力的扩展,更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向上的关键探索。

开放与协作将持续推动人机交互的演进。欢迎所有开发者试用模型、参与讨论、贡献代码,共同探索人机交互的未来!

➤ 技术报告 PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

➤ 在线体验:
https://minicpmo45.modelbest.cn/

➤ 在线体验(手机端推荐):
https://minicpmo45.modelbest.cn/mobile/

➤ GitHub Demo(含本地安装包):
https://github.com/OpenBMB/MiniCPM-o-Demo

➤ Hugging Face 下载链接:
https://huggingface.co/openbmb/MiniCPM-o-4_5

➤ ModelScope 下载链接:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32513

(0)
上一篇 3小时前
下一篇 2小时前

相关推荐

  • Gemini 3.1 Pro震撼发布:推理能力翻倍,成本效率双突破,AI竞赛进入新阶段

    今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。 具体基准测试表现 根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破: 智能工具使用:能力提升82%,在APEX-Agents测试…

    2026年2月20日
    52300
  • 美国AI霸权保卫战:从“创世纪行动”到全球算力联盟的全面布局

    在当今全球科技竞争的格局中,人工智能已成为国家战略的核心战场。美国政府近期的一系列举措,特别是代号为“创世纪行动”的战略部署,标志着AI竞赛已从单纯的技术迭代升级为国家意志主导的全面对抗。这一行动不仅涉及政策调整、法律手段,更延伸到地缘政治、产业重组和能源战略等多个维度,展现出美国在AI领域维护霸权的系统性布局。 “创世纪行动”的核心逻辑在于集中力量突破AI…

    2025年11月21日
    30400
  • PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

    在机器人、具身智能和交互仿真等前沿领域,对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度,却普遍忽视密度、绝对尺度、关节约束等关键物理属性,导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成,但受限于高质量物理标注数据的稀缺,现有方法多采用“检索现有模型+附加运动”的范式,…

    2025年11月23日
    28500
  • 从特征拼接失败到策略共识突破:多模态机器人感知的范式转移

    在机器人技术快速发展的今天,多模态感知融合已成为提升机器人环境交互能力的关键路径。然而,传统方法在处理稀疏模态任务时暴露出的严重缺陷,正推动着研究范式的根本性转变。由伊利诺伊大学香槟分校、哈佛大学、哥伦比亚大学和麻省理工学院联合完成的这项研究,通过《Multi-Modal Manipulation via Policy Consensus》论文(链接:htt…

    2025年12月3日
    32500
  • Gemini Canvas与AI Studio深度解析:从零门槛3D交互到开发者核武库的技术革命

    在人工智能技术快速迭代的今天,谷歌的Gemini系列模型正以前所未有的方式重塑内容创作与开发的边界。近期,一个名为el.cine的演示引发了广泛关注:仅通过简单的自然语言提示词,即可生成实时交互的3D粒子系统,用户通过摄像头检测双手张合手势直接控制粒子群的缩放与扩散。这一成果不仅震惊了有经验的程序员(他们曾需花费数周学习GLSL着色器),更标志着复杂3D交互…

    2025年12月7日
    40200