面壁智能开源全双工全模态大模型MiniCPM-o 4.5,12GB显存即可部署

面壁智能正式公开了其在全双工全模态交互领域的核心技术架构——Omni-Flow 流式全模态框架

今天,面壁智能携手OpenBMB开源社区、清华大学THUNLP实验室及THUMAI实验室,共同发布了MiniCPM-o 4.5的技术报告。

以往的大模型普遍采用半双工交互模式,类似于对讲机式的轮番对话。用户与AI之间无法进行并行交流,AI既不能实时感知环境变化,也无法被用户打断插话。这种交互在时空上存在割裂感,用户体验较差,严重制约了多模态AI的实际应用落地。

MiniCPM-o 4.5是面壁智能于今年2月推出的全双工全模态模型,也是业界首个端到端的全双工全模态大模型。

面壁智能开源全双工全模态大模型MiniCPM-o 4.5,12GB显存即可部署

△MiniCPM-o 4.5 实现了最右侧的全双工流式交互

该模型拥有约9B参数,能够处理视频、音频、文本的流式输入,并支持文本与语音的连续输出。

借助MiniCPM-o 4.5,你无需联网,仅需一张消费级显卡,就能在个人电脑上拥有一个“能看、能听、能说、还能主动提醒”的类人AI助手。

目前,MiniCPM-o 4.5已基于llama.cpp完成了模型量化与推理性能优化。实测显示,最低仅需12GB显存的RTX 5070即可流畅运行全双工模式(RTF 0.4),这极大地降低了个人在端侧部署的门槛。M1至M5 Max(含M5 Pro)的MAC设备同样可以使用,建议内存超过16GB。

下面的视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程,包括全双工语音对话、实时视觉理解以及主动提醒等能力演示。

自发布以来,该模型在Hugging Face上的下载量已突破25万次。

除技术报告外,MiniCPM-o 4.5还同步推出了在线体验Demo、全模态全双工API、端侧安装包Comni以及Demo仓库。

核心依托Omni-Flow流式全模态框架

MiniCPM-o 4.5所实现的极致流畅的全双工交互体验,其核心依赖于面壁智能与清华大学联合研发的Omni-Flow流式全模态框架。这也是本次技术报告中公开的核心底层技术。

该框架彻底打破了传统模型孤立的回合式交互逻辑,构建了一个毫秒级的统一时间轴。通过时分复用机制,Omni-Flow流式全模态框架能够将视觉、音频、文本等多模态并行信息流进行精准对齐、拆分与重组,形成周期性的时序信息组。

模型以每秒一次的高频次持续刷新对环境的认知,实时更新对场景和用户意图的理解。整个过程中无需依赖外部的VAD语音活动检测工具,原生就支持持续感知、即时响应和自由打断。

在模型架构方面,MiniCPM-o 4.5采用了轻量化的端到端全模态设计,整体仅有9B参数,由四大核心模块高效协同构成:

  • 0.4B参数的SigLIP-ViT视觉编码器负责环境视觉感知;
  • 0.3B参数的Whisper-Medium音频编码器完成声音信息采集;
  • 8B参数的Qwen3-8B LLM基座承担核心思考与语义理解;
  • 搭配0.3B参数的轻量级语音Token解码器实现语音生成。

面壁智能开源全双工全模态大模型MiniCPM-o 4.5,12GB显存即可部署

这种模块化分工设计使得各部件各司其职、高效联动,既保留了大模型强大的理解与推理能力,又避免了复杂声学任务对核心算力的消耗。同时,搭配自研的TAIL时间对齐交错语音生成方案,能够精准匹配文本与语音的输出节奏。在保证语音流畅自然、情感饱满的前提下,最大限度地降低了交互延迟,彻底解决了流式对话中卡顿、滞后、衔接生硬的行业难题。

参数规模不大,但实力不容小觑。在多项权威评测基准中,MiniCPM-o 4.5实现了越级对标,其综合性能比肩甚至超越了多款行业前沿大模型。

面壁智能开源全双工全模态大模型MiniCPM-o 4.5,12GB显存即可部署

在视觉能力上,模型的OpenCompass综合得分为77.6,MMBench英文得分为87.6,整体表现对标Gemini 2.5 Flash,在图像理解、数学推理和文档解析方面表现优异。

在全模态动态交互与视频场景理解领域,MiniCPM-o 4.5的优势更为突出。在Daily-Omni、Video-Holmes等多项评测中,MiniCPM-o 4.5的表现优于Gemini 2.5 Flash等大模型;在LiveSports-3K-CC全双工视频基准测试中,胜率达到54.4%,领先各类专用流式视频模型。

同时,模型的推理效率优势显著。INT4量化版本的显存占用大幅降低,仅需12GB显存即可运行,解码速度可达212 tokens/s,相比同类模型提速40%以上,响应延迟更低,性价比与落地优势非常突出。

面壁智能开源全双工全模态大模型MiniCPM-o 4.5,12GB显存即可部署

除此之外,模型搭载了多项实用特色功能,适配多元化使用场景。MiniCPM-o 4.5全面支持中英双语实时语音对话,语音生成质量行业领先,其中文CER、英文WER错误率低于CosyVoice2等主流模型,情感表现力更强。它还支持通过简单的参考音频即可完成声音克隆与角色扮演,音色自然逼真。延续了MiniCPM-V系列的优势,拥有前沿的OCR文档解析能力,支持高清图像、高帧率视频处理,多语言解析能力覆盖30余种语言。同时,模型原生兼容传统轮次对话与Omni-Flow全双工流式交互两种模式,可无缝切换,兼顾精准问答与实时流式交互需求,适配各类使用场景。

兼顾普通用户体验与开发者二次开发需求

为了让技术真正实现普惠落地,MiniCPM-o 4.5打造了全渠道、全人群的开放落地体系,兼顾了普通用户的体验与开发者的二次开发需求。

面向普通用户,官方开放了无需注册、无需下载的在线体验Demo,同时推出了适配Windows、macOS系统的桌面端Comni一键安装包,简化了部署流程,让普通用户也能快速上手体验全双工AI交互能力。

面向广大开发者,平台免费开放了全双工实时WebSocket API,并提供了完整规范的接口文档,支持快速接入各类应用;同时完整开源了Demo的前后端代码,并提供了Linux部署方案,支持开发者自由进行二次开发和自定义调试,助力各类全模态AI应用的快速落地。

依托其原生全双工、持续感知、主动交互的核心能力,MiniCPM-o 4.5突破了传统AI单次问答的场景局限,解锁了大量全新的流式交互应用场景。

在生活服务领域,它有望成为沉浸式的智能陪伴助手,在用户运动、烹饪、日常劳作时实时答疑、主动提醒、全程指导。

在无障碍公益领域,它可以为视障人群提供实时环境感知服务,主动播报路况、设备状态、环境变化,成为可靠的“视觉辅助助手”。

在智能车载领域,它可以持续监测路况与驾驶员状态,主动预警风险、提示可用车位、辅助泊车,提升驾驶安全性。

在具身智能领域,它可以作为机器人的核心大脑,持续感知动态环境、自主决策交互时机,适配智能机器人、智能家居等智能化场景,覆盖生活化、公益化、工业级的多维度需求。

可以说,MiniCPM-o 4.5把“主动式AI”从概念变成了可以在你电脑上跑起来的东西。

当然,团队也在技术报告中坦诚指出了当前存在的不足:长时间交互的稳定性、主动行为的丰富性以及对复杂场景的鲁棒性,都还有提升空间。

但这并不妨碍它已经树立起一个新的起点——全双工全模态、端侧可部署、全栈开源,这条路线已经走通了。

目前,MiniCPM-o 4.5的在线体验、API、端侧安装包、Demo代码仓库,所有入口都已在GitHub和面壁官网上线。

感兴趣的小伙伴可以直接上手体验,期待大家在评论区反馈。

技术报告PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在线体验:
https://minicpmo45.modelbest.cn/

在线体验(手机端推荐):
https://minicpmo45.modelbest.cn/mobile/

GitHub Demo(含本地安装包):
https://github.com/OpenBMB/MiniCPM-o-Demo

抱抱脸:
https://huggingface.co/openbmb/MiniCPM-o-4_5

魔搭:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32499

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • 从生物进化到AI演进:开源加速与非线性跃迁的深层逻辑

    在科技发展的宏大叙事中,生物进化与人工智能的演进轨迹呈现出令人惊异的相似性。这种相似性不仅体现在表面模式上,更深入到两者共享的底层逻辑——试错、选择与适应性突破。本文将以Daniel Povey在MEET2026智能未来大会上的核心观点为线索,深入剖析AI发展的进化隐喻,探讨开源生态的关键作用,并展望下一代架构的探索路径。 **一、进化逻辑的深层映射:从生物…

    2025年12月15日
    30700
  • 摩尔线程LiteGS技术斩获SIGGRAPH Asia银奖:3D高斯溅射重建效率突破性提升

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成果标志着该公司在下一代图形渲染技术领域取得了重要进展。 3D高斯溅射:图形渲染技术的范式变革3D高斯溅射(3D Gaussian Splatting)是2023年提出的一种革命性…

    2025年12月19日
    52700
  • 从文本瓶颈到心灵感应:LatentMAS如何重塑多智能体协作范式

    在人工智能的演进历程中,多智能体系统(Multi-Agent Systems, MAS)正从理论构想走向工程实践,成为解决复杂任务的关键架构。传统基于大语言模型(LLM)的MAS依赖自然语言作为智能体间的通信媒介——智能体A生成文本输出,智能体B解析后再进行下一步推理。这种模式虽然具备良好的可解释性,却暴露了三大根本性缺陷:首先,文本序列化过程导致信息压缩与…

    2025年12月5日
    33400
  • MiniMax M2.5中文场景实测:准确率提升2.1%,响应速度翻倍,成本效率比优化

    MiniMax在春节假期前发布了MiniMax M2.5新版本,官方表示该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 需要说明的…

    2026年2月13日
    1.3K00
  • 影目INMO:一年三轮融资近5亿,中国AI+AR眼镜如何以技术领跑全球赛道

    CES大奖拿到手软,中国创企正把AI+AR眼镜爆款做向全球。 在刚刚过去的CES 2026上,给人留下印象最为深刻的要数中国的AI眼镜军团和中国机器人军团。如果说人形机器人领域尚有波士顿动力这样的巨头能与中国大厂抗衡,那么AI眼镜赛道几乎完全成为中国公司主场。 据不完全统计,CES上展出各类AI眼镜的中国企业超过了27家,展区人头攒动十分火爆,产品体验热情颇…

    2026年1月15日
    45100