MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

空气炸锅“叮”了一声。

我还没反应过来,AI先开口了:“好了,它已经叮了。”

这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5

手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。

不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。

AI开始竖起耳朵,瞪大眼睛

既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、楼道门口?

老师家长一来就提醒我,岂不美哉?(doge)

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

Wwwwwait!AI肯定不是这么用的。

不过,在实测和官方用例里,我们确实发现了一件挺有意思的事:它能干的事儿,已经和以前的AI不一样了。

先说最直观的。

这次面壁的MiniCPM-o4.5,最大的变化,其实就一句话:它能一边听、一边看,还能主动说

比如逛超市,人往前走,货架在变,商品也在变。

随口问一句:水果都什么价?它立马接得上。

这里的关键不在“答得快”,而在于它在回答我的同时,眼睛其实没停,一直跟着你看。

你走着,货架在变,它也能马上接话,就像旁边有个朋友。

要是放在以前的AI身上,基本就是你问一句,它答一句。

等它下一次再说话,才重新“看”一次世界,加载的圆圈多少要重新开始转几圈。

再比如出门上班。你走进电梯,刷着手机,脑子已经在想别的事了。

你只需要在一开始告诉它提醒你,它就能持续识别电梯楼层的变化,在你该下的时候,直接开口提醒。

还有一点也很关键:MiniCPM-o4.5不需要你先开口,也能主动应答

这一点,在开头的测试里表现得特别明显。因为在现实场景中,等你再去问一句“好了没”,往往已经晚了。

真正有用的是——你没问,AI听到“叮”的一声,直接来一句:“加热好了。”

此外,我们还发现MiniCPM-o4.5一个挺反直觉的地方:它在说话的时候,也还在听

因为大家都知道,人一旦开口说话,注意力基本就不在“听”上了。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

但o4.5不一样,一方面,它能一边跟你聊天,一边留意外界的动静——

敲门声、烧水声、空气炸锅“叮”的那一下,都不会被漏掉。

更狠的是,在它自己说话的时候,也能听见你新插进来的指令,能实现即时自由对话

为此,我们刻意做了件有点“为难”模型的事。

它正在解说画面的蓝色鸭子在哪里,这时我突然插一句新的要求,让它告诉我小黄(鸭子)在哪里。

结果是,MiniCPM-o4.5在说完上句话后,立马回答了这句突然插入的话。

这也让MiniCPM-o4.5跟那种一问一答的AI不一样。

它不是等你说完一句再轮到它,而是一边听、一边说,一边随时改口

换句话说,今年的AI已经不玩回合制问答,开始整临场反应,学会抢答了。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

顺带一提,除了上面这些,还有更“邪修”的玩法。比如让AI解说实况比赛,或者盯着你练组数、数次数。

首个可以「即时自由对话」的大模型

那么,上面这些“自由对话”是怎么做到的?

关键在于MiniCPM-o4.5对交互方式本身做了重构

以往的多模态模型,本质是串行的:先听完,再想,再说。

一旦开始输出,模型对外界输入的感知就会被暂停,形成典型的I/O阻塞,这是无法边看边听边说的原因。

在MiniCPM-o4.5中,面壁团队首次引入了全双工(Full-Duplex)多模态实时流机制。模型可以一边持续接收视频和音频输入,一边同步生成语音或文本输出,两条信息流并行运行,互不阻塞。

在实现上,MiniCPM-o4.5将原本离线的模态编码器与解码器,升级为支持流式输入/输出的在线版本;

语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性。

同时,通过时分复用机制,对在毫秒级时间线上对齐的多模态输入与输出进行统一建模,实现高效的流式处理。

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

在整体架构上,MiniCPM-o4.5采用端到端的全模态设计,通过稠密特征将各模态的编码器与解码器直接连接到大语言模型主干,视觉、音频等模态在模型生成输出的同时仍能持续更新。

除了并行处理,MiniCPM-o4.5还改变了对话时机的判断方式。模型会持续进行语义层面的判断,并以1Hz的频率决定是否介入回应,而不再依赖“检测到静音就回答”的VAD(语音互动检测)机制。

(传统语音助手往往依赖外部的VAD:一旦检测到短暂静音,就认为用户“说完了”并开始回答)

这使得模型不仅能被自然打断,还能基于对场景的持续理解,主动发起提醒或评论。

这也是为什么前面我还没把话说完,它就已经“抢答”了。

此外,值得一提的是,在Benchmark测试上,MiniCPM-o4.5的表现同样亮眼。

在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成,声音克隆等多个方向上,均达到了当前全模态模型的领先水平

MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

那么像MiniCPM-o4.5这样,边看、边听、主动说的AI,意味着什么?

最近,Clawdbot (现已更名为OpenClaw) 的爆火,其实已经提前给了答案:人们真正需要的,可能不是“更聪明的问答机”,而是能持续运行、一直在场的AI

不是你问它一句,它才醒一下;而是它本来就在运行,在看、在听,也随时准备说话。

这,正是这类“边看、边听、主动说”的模型真正产生价值的地方。

过去的AI,更像对讲机。你说完,它才听;它一开口,外界就等于被按了暂停键。

而这一次,面壁做的尝试是:让AI在说话的时候,世界周遭事物依然是流动的。它在持续感知世界的同时,也在持续参与对话和行为,而不是仅在节点式的“提问/回复”之间来回倒腾。

也正因为这样,它能自然地延展到更多地方:

对具身智能来说,感知、决策、动作本来就不该被拆开;对车端或终端助手来说,真正有用的往往不是“回答问题”,而是在合适的时机接话;对复杂系统来说,“等一下再想”本身就是一种失效。

因此,全双工并不是体验升级,而是AI能否真正进入现实连续世界的分水岭。

也正是在这个意义上,面壁将MiniCPM-o4.5定义为一款全模态的基础模型,并以此作为后续赋能汽车、手机、机器人等各类终端形态的起点。

面壁智能:只做端,把端做到极致

面壁智能成立于2022年8月。

在端侧AI还远没成为行业热词、讨论重心仍集中在云端和算力堆叠时,面壁就已经把方向押在了端侧AI模型这条路上。

这次发布的MiniCPM-o4.5,由清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远牵头研发。

在整场发布中,面壁反复强调了两个关键词:软硬一体,端侧部署

以MiniCPM-o4.5为例,它主打的是持续感知视觉和听觉环境。而这种“全天候伴随”的AI形态,本身就无法以云端为主要形态存在。

一方面是不可回避的隐私风险;另一方面,是延迟、稳定性和可用性在工程上根本扛不住。

也正因为如此,MiniCPM-o4.5从一开始就被定义为一款端侧模型,并且与面壁长期坚持的端侧路线保持高度一致。

面壁智能联合创始人、CEO李大海在采访中提到:

端侧模型的目标,本来就是赋能终端,而赋能终端天然就要跟端侧芯片要做更深的结合。

据透露,过去近两年,面壁与多家芯片厂商形成了一种高度协同的工作方式:

芯片在设计阶段就向模型侧开放,验证架构是否匹配未来模型需求;模型研发也同步反向输入,对算子形式与硬件能力提出明确要求。

这种软硬一体、双向奔赴,已经成为模型演进的前提条件。

在具体的路径上,面壁智能联合创始人、COO雷升涛则给出了更清晰的拆解:

  • 端原生模型:并非将云端模型压缩后移植到端侧,而是在训练阶段就以端侧芯片为目标环境进行设计,让模型“生来就能跑在端上”。
  • 软硬协同的Infra层:涵盖量化、精度压缩等关键技术,并确保压缩后模型能力不损失。这一层技术难度极高,依赖长期积累,是构建核心壁垒的关键。
  • 产品化交付:将上述能力打包成可直接使用的解决方案,交付给客户与合作伙伴,使其能在各类终端上高效运行。

例如,面壁计划在年中发布的首款AI硬件松果派(Pinea Pi),旨在支持硬件场景的全栈开发;以及过去一年多在智能座舱等领域的落地实践,都是这条软硬协同技术路线的具体体现。

从这个视角看,MiniCPM-o4.5本身也可以被理解为一款端侧原生的全模态模型

据面壁智能介绍,MiniCPM-o4.5将与这款AI Native的端侧智能开发板——松果派配套推出,计划于今年上市。届时,模型将在开发板上实现“开箱即用”,助力开发者快速构建端侧智能硬件。

同时,松果派等端侧硬件本身,也构成了面壁在生态建设上的重要能力:在发布模型的同时,就明确指定并深度适配好硬件平台,让开发者能更快上手,也让终端厂商能更迅速地将AI能力真正部署到具体场景中。

本质上,这是在打通从端侧模型到实际应用的“最后一公里”

当被问及如何看待越来越多玩家进入端侧市场时,面壁指出了一个常被误解的观点:许多人将“端侧”视为一个统一市场。但在面壁看来,实际情况恰恰相反——端侧市场由大量差异化的终端和众多长尾、高价值的细分场景构成。

从技术角度看,端侧的关键不在于模型规模,而在于如何用尽可能少的参数,实现尽可能强大的能力。

从商业角度看,这也意味着:这是一个可以同时容纳众多创业公司的市场,而非必须进行同质化“阵地战”的领域。

正是在此背景下,面壁智能给出了非常明确的差异化定位:

我们最大的差异化就是我们只专注于端侧,并且把端侧做到极致。如果一家公司专注于做端侧的话,那我认为其他公司可能很难在端侧领域与我们相比。

从两三年前手机、汽车、机器人行业普遍质疑“真的需要大模型吗”,到今天端侧AI逐渐成为共识,这一领域正在被不断重新定义。

而MiniCPM-o4.5所展现的,并非一次炫技式的能力展示,而是面壁智能沿着“软硬协同、专注端侧”这条技术路线发展至今的自然成果:只做端,把端做到极致

  • GitHub:https://github.com/OpenBMB/MiniCPM-o
  • HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5
  • ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
  • 体验链接-全双工全模态模式:https://huggingface.co/spaces/openbmb/minicpm-omni
  • 体验链接-图文对话模式:http://211.93.21.133:18121/

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20178

(0)
上一篇 2026年2月4日 下午7:12
下一篇 2026年2月5日 上午12:00

相关推荐

  • Context7架构革命:子代理架构如何将AI上下文消耗降低65%?

    VibeCoding 必备的 MCP 工具之一 Context7 刚完成了一次重要的架构重构,旨在解决上下文臃肿问题,让 AI 更高效地获取项目文档。此前,用户的一个简单问题,系统就会拉取大量文档,平均上下文大小达到 3000 tokens。这不仅拖慢了响应速度,还增加了不必要的成本。 新架构细节 针对这一问题,团队对产品做了一个关键改进:子代理架构。开发者…

    2025年12月27日
    17000
  • GraphRAG深度解析:融合Neo4j与LangChain,构建下一代知识增强型LLM系统

    LLM 已从根本上改变了我们与数据交互、自动化推理以及构建智能系统的方式。然而,尽管其生成式能力令人印象深刻,LLM 天生并不理解关系、结构或长期的事实一致性。这一缺陷在我们尝试将 LLM 用于企业级知识系统、多跳推理或决策关键型应用时尤为明显。 这正是图数据库与 RAG 结合之处,二者共同为 AI 系统形成一种新的架构范式——将符号推理与神经生成相融合。 …

    2025年12月27日
    11500
  • Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

    谷歌近期发布了一项新的研究进展:其研究团队利用 Gemini 模型进行了一次系统性的数学攻关实验,目标直指著名的 Erdős Problems 数据库中约 700 个仍被标记为“开放”(未解决)的猜想。 实验成果显著:Gemini 在这批问题中成功推进了 13 个问题的解决进程。其中,5 个是由模型自主提出的全新解法,另外 8 个则是模型从文献中挖掘出了早已…

    2026年2月3日
    600
  • 告别手动造数据:5款高效生成逼真测试数据的开发者利器

    几乎每位开发者都经历过因缺少数据而测试受阻的时刻。无论是测试一个API、一个表单还是一个数据看板,如果没有足够真实的数据输入,测试结果往往缺乏参考价值。手动编造假邮箱、手机号或地址,对付几行数据尚可,一旦需要成百上千条记录,就会变成一项耗时且枯燥的苦差事。 为了进行有效的测试,我们需要结构化且逼真的应用数据。无论是验证分页逻辑的稳健性,还是观察API在面对混…

    2025年12月5日
    11800
  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    7800