MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

空气炸锅“叮”了一声。

我还没反应过来,AI先开口了:“好了,它已经叮了。”

这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5

手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。

不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。

AI开始竖起耳朵,瞪大眼睛

既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、楼道门口?

老师家长一来就提醒我,岂不美哉?(doge)

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

Wwwwwait!AI肯定不是这么用的。

不过,在实测和官方用例里,我们确实发现了一件挺有意思的事:它能干的事儿,已经和以前的AI不一样了。

先说最直观的。

这次面壁的MiniCPM-o4.5,最大的变化,其实就一句话:它能一边听、一边看,还能主动说

比如逛超市,人往前走,货架在变,商品也在变。

随口问一句:水果都什么价?它立马接得上。

这里的关键不在“答得快”,而在于它在回答我的同时,眼睛其实没停,一直跟着你看。

你走着,货架在变,它也能马上接话,就像旁边有个朋友。

要是放在以前的AI身上,基本就是你问一句,它答一句。

等它下一次再说话,才重新“看”一次世界,加载的圆圈多少要重新开始转几圈。

再比如出门上班。你走进电梯,刷着手机,脑子已经在想别的事了。

你只需要在一开始告诉它提醒你,它就能持续识别电梯楼层的变化,在你该下的时候,直接开口提醒。

还有一点也很关键:MiniCPM-o4.5不需要你先开口,也能主动应答

这一点,在开头的测试里表现得特别明显。因为在现实场景中,等你再去问一句“好了没”,往往已经晚了。

真正有用的是——你没问,AI听到“叮”的一声,直接来一句:“加热好了。”

此外,我们还发现MiniCPM-o4.5一个挺反直觉的地方:它在说话的时候,也还在听

因为大家都知道,人一旦开口说话,注意力基本就不在“听”上了。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

但o4.5不一样,一方面,它能一边跟你聊天,一边留意外界的动静——

敲门声、烧水声、空气炸锅“叮”的那一下,都不会被漏掉。

更狠的是,在它自己说话的时候,也能听见你新插进来的指令,能实现即时自由对话

为此,我们刻意做了件有点“为难”模型的事。

它正在解说画面的蓝色鸭子在哪里,这时我突然插一句新的要求,让它告诉我小黄(鸭子)在哪里。

结果是,MiniCPM-o4.5在说完上句话后,立马回答了这句突然插入的话。

这也让MiniCPM-o4.5跟那种一问一答的AI不一样。

它不是等你说完一句再轮到它,而是一边听、一边说,一边随时改口

换句话说,今年的AI已经不玩回合制问答,开始整临场反应,学会抢答了。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

顺带一提,除了上面这些,还有更“邪修”的玩法。比如让AI解说实况比赛,或者盯着你练组数、数次数。

首个可以「即时自由对话」的大模型

那么,上面这些“自由对话”是怎么做到的?

关键在于MiniCPM-o4.5对交互方式本身做了重构

以往的多模态模型,本质是串行的:先听完,再想,再说。

一旦开始输出,模型对外界输入的感知就会被暂停,形成典型的I/O阻塞,这是无法边看边听边说的原因。

在MiniCPM-o4.5中,面壁团队首次引入了全双工(Full-Duplex)多模态实时流机制。模型可以一边持续接收视频和音频输入,一边同步生成语音或文本输出,两条信息流并行运行,互不阻塞。

在实现上,MiniCPM-o4.5将原本离线的模态编码器与解码器,升级为支持流式输入/输出的在线版本;

语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性。

同时,通过时分复用机制,对在毫秒级时间线上对齐的多模态输入与输出进行统一建模,实现高效的流式处理。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

在整体架构上,MiniCPM-o4.5采用端到端的全模态设计,通过稠密特征将各模态的编码器与解码器直接连接到大语言模型主干,视觉、音频等模态在模型生成输出的同时仍能持续更新。

除了并行处理,MiniCPM-o4.5还改变了对话时机的判断方式。模型会持续进行语义层面的判断,并以1Hz的频率决定是否介入回应,而不再依赖“检测到静音就回答”的VAD(语音互动检测)机制。

(传统语音助手往往依赖外部的VAD:一旦检测到短暂静音,就认为用户“说完了”并开始回答)

这使得模型不仅能被自然打断,还能基于对场景的持续理解,主动发起提醒或评论。

这也是为什么前面我还没把话说完,它就已经“抢答”了。

此外,值得一提的是,在Benchmark测试上,MiniCPM-o4.5的表现同样亮眼。

在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成,声音克隆等多个方向上,均达到了当前全模态模型的领先水平

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

那么像MiniCPM-o4.5这样,边看、边听、主动说的AI,意味着什么?

最近,Clawdbot (现已更名为OpenClaw) 的爆火,其实已经提前给了答案:人们真正需要的,可能不是“更聪明的问答机”,而是能持续运行、一直在场的AI

不是你问它一句,它才醒一下;而是它本来就在运行,在看、在听,也随时准备说话。

这,正是这类“边看、边听、主动说”的模型真正产生价值的地方。

过去的AI,更像对讲机。你说完,它才听;它一开口,外界就等于被按了暂停键。

而这一次,面壁做的尝试是:让AI在说话的时候,世界周遭事物依然是流动的。它在持续感知世界的同时,也在持续参与对话和行为,而不是仅在节点式的“提问/回复”之间来回倒腾。

也正因为这样,它能自然地延展到更多地方:

对具身智能来说,感知、决策、动作本来就不该被拆开;对车端或终端助手来说,真正有用的往往不是“回答问题”,而是在合适的时机接话;对复杂系统来说,“等一下再想”本身就是一种失效。

因此,全双工并不是体验升级,而是AI能否真正进入现实连续世界的分水岭。

也正是在这个意义上,面壁将MiniCPM-o4.5定义为一款全模态的基础模型,并以此作为后续赋能汽车、手机、机器人等各类终端形态的起点。

面壁智能:只做端,把端做到极致

面壁智能成立于2022年8月。

在端侧AI还远没成为行业热词、讨论重心仍集中在云端和算力堆叠时,面壁就已经把方向押在了端侧AI模型这条路上。

这次发布的MiniCPM-o4.5,由清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远牵头研发。

在整场发布中,面壁反复强调了两个关键词:软硬一体,端侧部署

以MiniCPM-o4.5为例,它主打的是持续感知视觉和听觉环境。而这种“全天候伴随”的AI形态,本身就无法以云端为主要形态存在。

一方面是不可回避的隐私风险;另一方面,是延迟、稳定性和可用性在工程上根本扛不住。

也正因为如此,MiniCPM-o4.5从一开始就被定义为一款端侧模型,并且与面壁长期坚持的端侧路线保持高度一致。

面壁智能联合创始人、CEO李大海在采访中提到:

端侧模型的目标,本来就是赋能终端,而赋能终端天然就要跟端侧芯片要做更深的结合。

据透露,过去近两年,面壁与多家芯片厂商形成了一种高度协同的工作方式:

芯片在设计阶段就向模型侧开放,验证架构是否匹配未来模型需求;模型研发也同步反向输入,对算子形式与硬件能力提出明确要求。

这种软硬一体、双向奔赴,已经成为模型演进的前提条件。

在具体的路径上,面壁智能联合创始人、COO雷升涛则给出了更清晰的拆解:

  • 端原生模型:并非将云端模型压缩后移植到端侧,而是在训练阶段就以端侧芯片为目标环境进行设计,让模型“生来就能跑在端上”。
  • 软硬协同的Infra层:涵盖量化、精度压缩等关键技术,并确保压缩后模型能力不损失。这一层技术难度极高,依赖长期积累,是构建核心壁垒的关键。
  • 产品化交付:将上述能力打包成可直接使用的解决方案,交付给客户与合作伙伴,使其能在各类终端上高效运行。

例如,面壁计划在年中发布的首款AI硬件松果派(Pinea Pi),旨在支持硬件场景的全栈开发;以及过去一年多在智能座舱等领域的落地实践,都是这条软硬协同技术路线的具体体现。

从这个视角看,MiniCPM-o4.5本身也可以被理解为一款端侧原生的全模态模型

据面壁智能介绍,MiniCPM-o4.5将与这款AI Native的端侧智能开发板——松果派配套推出,计划于今年上市。届时,模型将在开发板上实现“开箱即用”,助力开发者快速构建端侧智能硬件。

同时,松果派等端侧硬件本身,也构成了面壁在生态建设上的重要能力:在发布模型的同时,就明确指定并深度适配好硬件平台,让开发者能更快上手,也让终端厂商能更迅速地将AI能力真正部署到具体场景中。

本质上,这是在打通从端侧模型到实际应用的“最后一公里”

当被问及如何看待越来越多玩家进入端侧市场时,面壁指出了一个常被误解的观点:许多人将“端侧”视为一个统一市场。但在面壁看来,实际情况恰恰相反——端侧市场由大量差异化的终端和众多长尾、高价值的细分场景构成。

从技术角度看,端侧的关键不在于模型规模,而在于如何用尽可能少的参数,实现尽可能强大的能力。

从商业角度看,这也意味着:这是一个可以同时容纳众多创业公司的市场,而非必须进行同质化“阵地战”的领域。

正是在此背景下,面壁智能给出了非常明确的差异化定位:

我们最大的差异化就是我们只专注于端侧,并且把端侧做到极致。如果一家公司专注于做端侧的话,那我认为其他公司可能很难在端侧领域与我们相比。

从两三年前手机、汽车、机器人行业普遍质疑“真的需要大模型吗”,到今天端侧AI逐渐成为共识,这一领域正在被不断重新定义。

而MiniCPM-o4.5所展现的,并非一次炫技式的能力展示,而是面壁智能沿着“软硬协同、专注端侧”这条技术路线发展至今的自然成果:只做端,把端做到极致

  • GitHub:https://github.com/OpenBMB/MiniCPM-o
  • HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5
  • ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
  • 体验链接-全双工全模态模式:https://huggingface.co/spaces/openbmb/minicpm-omni
  • 体验链接-图文对话模式:http://211.93.21.133:18121/

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20178

(0)
上一篇 2026年2月4日 下午7:12
下一篇 2026年2月5日 上午12:00

相关推荐

  • Neuralink脑机接口:从医疗康复到人类增强的范式革命

    马斯克旗下的Neuralink近期公布的数据显示,其脑机接口技术已为12名患者累计植入超过2000天,总活跃时间突破1.5万小时。这一里程碑不仅标志着脑机接口从实验室走向临床应用的实质性突破,更预示着人类与机器融合的新时代正在加速到来。 首位接受Neuralink植入的Noland Arbaugh的案例极具代表性。因脊髓损伤导致颈部以下瘫痪的他,曾依赖咬嘴棒…

    2025年11月2日
    40000
  • 1分钟烧掉4000万token!开发者疯狂调用GPT-5.5,奥特曼紧急救场

    1分钟烧掉4000万Token!开发者疯狂调用GPT-5.5,奥特曼紧急救场 一分钟之内,4000万Token瞬间蒸发,灰飞烟灭。 “龙虾之父”Peter Steinberger恐怕自己也没料到,会以这种方式登上热搜。今年2月,他被Sam Altman亲自招入OpenAI,负责“下一代个人代理”的研发工作。短短数月,他便已成为OpenAI内部最疯狂的API消…

    2026年5月4日
    28100
  • 注意力机制演进:Kimi Linear混合架构如何突破效率与性能的平衡困境

    在大型语言模型快速发展的当下,注意力机制的计算效率与表达能力之间的权衡已成为制约模型规模化应用的核心瓶颈。传统softmax注意力机制虽然具备强大的表达能力,但其二次方的计算复杂度在处理长序列时带来了巨大的计算和内存开销。线性注意力机制通过线性化计算将复杂度降至线性,但长期面临表达能力不足的挑战,尤其是在语言建模等复杂任务中表现欠佳。 近期,月之暗面发布的K…

    2025年10月31日
    49500
  • 马斯克xAI创始团队半数出走:AI人才流失危机下的IPO挑战与Grok发展隐忧

    马斯克于2023年与另外11位联合创始人共同创办的xAI,如今已有6人离开。 最新消息,xAI联合创始人Jimmy Ba于周二宣布,他已经离开了这家AI初创公司。 Jimmy在社交媒体上写道:“这是我在xAI的最后一天。xAI的使命是推动人类提升卡尔达舍夫等级。我非常荣幸能在公司创立之初共同参与这一历程。由衷感谢@elonmusk将我们聚集在一起,开启了这段…

    2026年2月11日
    41700
  • OpenClaw狂潮下的AI自主执行时代:机遇、挑战与安全困境

    我确实对运行 OpenClaw 持相当怀疑的态度。…… 整个生态给人的感觉就像是一个彻底的狂野西部,在安全性上简直是一场噩梦。 —— Andrej Karpathy OpenClaw 已彻底从开发者和科技爱好者的小圈子中破圈而出。 自其首个代表性项目 Clawdbot 诞生以来,OpenClaw 在 GitHub 上已狂揽 352k stars,其飞涨速度超…

    2026年4月8日
    28700