MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

空气炸锅“叮”了一声。

我还没反应过来,AI先开口了:“好了,它已经叮了。”

这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5

手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。

不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。

AI开始竖起耳朵,瞪大眼睛

既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、楼道门口?

老师家长一来就提醒我,岂不美哉?(doge)

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

Wwwwwait!AI肯定不是这么用的。

不过,在实测和官方用例里,我们确实发现了一件挺有意思的事:它能干的事儿,已经和以前的AI不一样了。

先说最直观的。

这次面壁的MiniCPM-o4.5,最大的变化,其实就一句话:它能一边听、一边看,还能主动说

比如逛超市,人往前走,货架在变,商品也在变。

随口问一句:水果都什么价?它立马接得上。

这里的关键不在“答得快”,而在于它在回答我的同时,眼睛其实没停,一直跟着你看。

你走着,货架在变,它也能马上接话,就像旁边有个朋友。

要是放在以前的AI身上,基本就是你问一句,它答一句。

等它下一次再说话,才重新“看”一次世界,加载的圆圈多少要重新开始转几圈。

再比如出门上班。你走进电梯,刷着手机,脑子已经在想别的事了。

你只需要在一开始告诉它提醒你,它就能持续识别电梯楼层的变化,在你该下的时候,直接开口提醒。

还有一点也很关键:MiniCPM-o4.5不需要你先开口,也能主动应答

这一点,在开头的测试里表现得特别明显。因为在现实场景中,等你再去问一句“好了没”,往往已经晚了。

真正有用的是——你没问,AI听到“叮”的一声,直接来一句:“加热好了。”

此外,我们还发现MiniCPM-o4.5一个挺反直觉的地方:它在说话的时候,也还在听

因为大家都知道,人一旦开口说话,注意力基本就不在“听”上了。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

但o4.5不一样,一方面,它能一边跟你聊天,一边留意外界的动静——

敲门声、烧水声、空气炸锅“叮”的那一下,都不会被漏掉。

更狠的是,在它自己说话的时候,也能听见你新插进来的指令,能实现即时自由对话

为此,我们刻意做了件有点“为难”模型的事。

它正在解说画面的蓝色鸭子在哪里,这时我突然插一句新的要求,让它告诉我小黄(鸭子)在哪里。

结果是,MiniCPM-o4.5在说完上句话后,立马回答了这句突然插入的话。

这也让MiniCPM-o4.5跟那种一问一答的AI不一样。

它不是等你说完一句再轮到它,而是一边听、一边说,一边随时改口

换句话说,今年的AI已经不玩回合制问答,开始整临场反应,学会抢答了。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

顺带一提,除了上面这些,还有更“邪修”的玩法。比如让AI解说实况比赛,或者盯着你练组数、数次数。

首个可以「即时自由对话」的大模型

那么,上面这些“自由对话”是怎么做到的?

关键在于MiniCPM-o4.5对交互方式本身做了重构

以往的多模态模型,本质是串行的:先听完,再想,再说。

一旦开始输出,模型对外界输入的感知就会被暂停,形成典型的I/O阻塞,这是无法边看边听边说的原因。

在MiniCPM-o4.5中,面壁团队首次引入了全双工(Full-Duplex)多模态实时流机制。模型可以一边持续接收视频和音频输入,一边同步生成语音或文本输出,两条信息流并行运行,互不阻塞。

在实现上,MiniCPM-o4.5将原本离线的模态编码器与解码器,升级为支持流式输入/输出的在线版本;

语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性。

同时,通过时分复用机制,对在毫秒级时间线上对齐的多模态输入与输出进行统一建模,实现高效的流式处理。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

在整体架构上,MiniCPM-o4.5采用端到端的全模态设计,通过稠密特征将各模态的编码器与解码器直接连接到大语言模型主干,视觉、音频等模态在模型生成输出的同时仍能持续更新。

除了并行处理,MiniCPM-o4.5还改变了对话时机的判断方式。模型会持续进行语义层面的判断,并以1Hz的频率决定是否介入回应,而不再依赖“检测到静音就回答”的VAD(语音互动检测)机制。

(传统语音助手往往依赖外部的VAD:一旦检测到短暂静音,就认为用户“说完了”并开始回答)

这使得模型不仅能被自然打断,还能基于对场景的持续理解,主动发起提醒或评论。

这也是为什么前面我还没把话说完,它就已经“抢答”了。

此外,值得一提的是,在Benchmark测试上,MiniCPM-o4.5的表现同样亮眼。

在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成,声音克隆等多个方向上,均达到了当前全模态模型的领先水平

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

那么像MiniCPM-o4.5这样,边看、边听、主动说的AI,意味着什么?

最近,Clawdbot (现已更名为OpenClaw) 的爆火,其实已经提前给了答案:人们真正需要的,可能不是“更聪明的问答机”,而是能持续运行、一直在场的AI

不是你问它一句,它才醒一下;而是它本来就在运行,在看、在听,也随时准备说话。

这,正是这类“边看、边听、主动说”的模型真正产生价值的地方。

过去的AI,更像对讲机。你说完,它才听;它一开口,外界就等于被按了暂停键。

而这一次,面壁做的尝试是:让AI在说话的时候,世界周遭事物依然是流动的。它在持续感知世界的同时,也在持续参与对话和行为,而不是仅在节点式的“提问/回复”之间来回倒腾。

也正因为这样,它能自然地延展到更多地方:

对具身智能来说,感知、决策、动作本来就不该被拆开;对车端或终端助手来说,真正有用的往往不是“回答问题”,而是在合适的时机接话;对复杂系统来说,“等一下再想”本身就是一种失效。

因此,全双工并不是体验升级,而是AI能否真正进入现实连续世界的分水岭。

也正是在这个意义上,面壁将MiniCPM-o4.5定义为一款全模态的基础模型,并以此作为后续赋能汽车、手机、机器人等各类终端形态的起点。

面壁智能:只做端,把端做到极致

面壁智能成立于2022年8月。

在端侧AI还远没成为行业热词、讨论重心仍集中在云端和算力堆叠时,面壁就已经把方向押在了端侧AI模型这条路上。

这次发布的MiniCPM-o4.5,由清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远牵头研发。

在整场发布中,面壁反复强调了两个关键词:软硬一体,端侧部署

以MiniCPM-o4.5为例,它主打的是持续感知视觉和听觉环境。而这种“全天候伴随”的AI形态,本身就无法以云端为主要形态存在。

一方面是不可回避的隐私风险;另一方面,是延迟、稳定性和可用性在工程上根本扛不住。

也正因为如此,MiniCPM-o4.5从一开始就被定义为一款端侧模型,并且与面壁长期坚持的端侧路线保持高度一致。

面壁智能联合创始人、CEO李大海在采访中提到:

端侧模型的目标,本来就是赋能终端,而赋能终端天然就要跟端侧芯片要做更深的结合。

据透露,过去近两年,面壁与多家芯片厂商形成了一种高度协同的工作方式:

芯片在设计阶段就向模型侧开放,验证架构是否匹配未来模型需求;模型研发也同步反向输入,对算子形式与硬件能力提出明确要求。

这种软硬一体、双向奔赴,已经成为模型演进的前提条件。

在具体的路径上,面壁智能联合创始人、COO雷升涛则给出了更清晰的拆解:

  • 端原生模型:并非将云端模型压缩后移植到端侧,而是在训练阶段就以端侧芯片为目标环境进行设计,让模型“生来就能跑在端上”。
  • 软硬协同的Infra层:涵盖量化、精度压缩等关键技术,并确保压缩后模型能力不损失。这一层技术难度极高,依赖长期积累,是构建核心壁垒的关键。
  • 产品化交付:将上述能力打包成可直接使用的解决方案,交付给客户与合作伙伴,使其能在各类终端上高效运行。

例如,面壁计划在年中发布的首款AI硬件松果派(Pinea Pi),旨在支持硬件场景的全栈开发;以及过去一年多在智能座舱等领域的落地实践,都是这条软硬协同技术路线的具体体现。

从这个视角看,MiniCPM-o4.5本身也可以被理解为一款端侧原生的全模态模型

据面壁智能介绍,MiniCPM-o4.5将与这款AI Native的端侧智能开发板——松果派配套推出,计划于今年上市。届时,模型将在开发板上实现“开箱即用”,助力开发者快速构建端侧智能硬件。

同时,松果派等端侧硬件本身,也构成了面壁在生态建设上的重要能力:在发布模型的同时,就明确指定并深度适配好硬件平台,让开发者能更快上手,也让终端厂商能更迅速地将AI能力真正部署到具体场景中。

本质上,这是在打通从端侧模型到实际应用的“最后一公里”

当被问及如何看待越来越多玩家进入端侧市场时,面壁指出了一个常被误解的观点:许多人将“端侧”视为一个统一市场。但在面壁看来,实际情况恰恰相反——端侧市场由大量差异化的终端和众多长尾、高价值的细分场景构成。

从技术角度看,端侧的关键不在于模型规模,而在于如何用尽可能少的参数,实现尽可能强大的能力。

从商业角度看,这也意味着:这是一个可以同时容纳众多创业公司的市场,而非必须进行同质化“阵地战”的领域。

正是在此背景下,面壁智能给出了非常明确的差异化定位:

我们最大的差异化就是我们只专注于端侧,并且把端侧做到极致。如果一家公司专注于做端侧的话,那我认为其他公司可能很难在端侧领域与我们相比。

从两三年前手机、汽车、机器人行业普遍质疑“真的需要大模型吗”,到今天端侧AI逐渐成为共识,这一领域正在被不断重新定义。

而MiniCPM-o4.5所展现的,并非一次炫技式的能力展示,而是面壁智能沿着“软硬协同、专注端侧”这条技术路线发展至今的自然成果:只做端,把端做到极致

  • GitHub:https://github.com/OpenBMB/MiniCPM-o
  • HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5
  • ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
  • 体验链接-全双工全模态模式:https://huggingface.co/spaces/openbmb/minicpm-omni
  • 体验链接-图文对话模式:http://211.93.21.133:18121/

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20178

(0)
上一篇 2026年2月4日 下午7:12
下一篇 2026年2月5日 上午12:00

相关推荐

  • LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

    当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。 来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic …

    2025年11月26日
    22200
  • 移动端高保真实时3D数字人革命:HRM²Avatar如何用单部手机突破SIGGRAPH Asia

    在计算机图形学、三维视觉、虚拟人与XR技术领域,SIGGRAPH Asia作为SIGGRAPH系列两大主会之一,始终代表着全球学术与工业界的最高研究水平与最前沿技术趋势。今年,淘宝技术-Meta技术团队凭借其自主研发的移动端高保真实时3D数字人重建与渲染系统HRM²Avatar,首次登陆这一国际顶级会议,标志着中国在轻量化数字人技术领域实现了重大突破。 当前…

    2025年12月18日
    29900
  • TL编译器:自动映射Tile程序至空间数据流架构,性能超越厂商库1.03×/1.91×

    TL 证明,编译器驱动的映射可以在空间数据流加速器上提供厂商级别的性能。在 GEMM 和 FlashAttention 上,以最少的人工干预实现了与厂商库足以竞争甚至更好的性能,将手工设计的内核转变为可重用编译流水线的输出。同时,TL 的硬件抽象使得编译器过程在很大程度上可在不同加速器间重用,简化了对多样化空间数据流架构的支持,并为未来芯片的设计空间探索提供…

    2026年2月1日
    26000
  • Qwen3.5震撼发布:3970亿参数性能超万亿模型,推理吞吐量提升19倍,开源AI新标杆诞生

    智东西2月16日报道,刚刚,Qwen3.5正式发布并开源,在多模态理解、复杂推理、编程、Agent智能体等几大能力上领先同级开源模型,多项基准测试成绩媲美甚至超越GPT-5.2、Gemini 3 Pro等闭源第一梯队模型。 Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,其性能超越了万亿参数的Qwen3-Max模型。在部署上,其显存占用降低了…

    2026年2月16日
    34000
  • Pika AI Selves:从视频生成到数字分身,AI智能体的“养育”革命

    当大多数AI厂商专注于打造更多工具时,一家以AI视频闻名的公司已开始着手创造“第二个你”。 近日,Pika推出了名为“AI Selves”的产品,宣称能够生成一个“AI版的你”。 据官方介绍,Pika AI Selves是一个由用户“孕育、培养并放手”的AI分身,它将成为用户一个活生生的延伸。这个分身拥有丰富多面的个性与持久记忆,甚至连“花生过敏”这类细节都…

    2026年2月21日
    16700