面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

面壁智能最新开源的 MiniCPM-V 4.6 多模态模型,参数仅 1.3B,却能在所有手机上流畅运行。

这是 MiniCPM-V 系列有史以来参数最小的模型, 只有 1.3B。

但在多模态综合能力上,它超越了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it。

参数更少,能力更强,速度还更快。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

先来看看手机上的效果,在自己手机上体验最新的 MiniCPM-V 4.6 模型。太快了,挡不住的快。我的手机输入框还没缩下去,结果都输出完了。

01

先看成绩

MiniCPM-V 4.6 提供了两个版本:Instruct(直接回答)和 Thinking(深度推理)。

下面是两个版本在不同任务下的表现情况。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

直接看对比数据。

综合能力:在绝大多数图文理解任务上,4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。不是某一项强,是综合能力强。

智能密度:4.6 非推理版本运行只消耗 5.4M token,而 Qwen3.5-0.8B 非推理版本要 101M,1/19 的消耗量。

推理版本差距更大,Qwen3.5-0.8B 推理版消耗 233M token,4.6 只有它的 1/43。

用 2.5% 的 token 量就超过了 Qwen3.5-0.8B,这个效率差距非常夸张。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

推理效率:

基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍 。单卡吞吐 2624 token/s,每秒处理 14.3 张 1344² 图片(输出 200 token 时),是 Qwen3.5-0.8B 的 1.4 倍。同样一张显卡,能承载数倍的线上流量。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

首响延迟(TTFT):

处理 3136² 的高清大图,4.6 只需要 75.7ms。比 Qwen3.5-0.8B 快 2.2 倍。最离谱的是,分辨率从低到高,延迟曲线几乎是平的。分辨率翻倍,延迟几乎不涨。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

02

为什么这么快

MiniCPM-V 4.6 的极致效率,来自两项关键的技术创新。

LLaVA-UHD v4:视觉编码效率翻倍

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

处理高清图片的时候,传统方案的算力消耗会随分辨率呈二次方增长。

图片越大,计算量炸得越快。

现有的解决方案是在 ViT 之后做 Token 压缩,但这只减轻了下游 LLM 的负担,视觉编码器内部的计算量一点没少。

LLaVA-UHD v4 的思路是:把 Token 压缩前移到 ViT 内部浅层。越早压缩,后面需要处理的 Token 越少,整体计算量就越低。

但这里有个技术难点。

ViT 的浅层已经学到了大量视觉表征,直接插入随机初始化的下采样模块,会破坏这些表征,带来高昂的额外训练代价。

可以直接看一下论文原文:https://huggingface.co/papers/2605.08985

LLaVA-UHD v4 的解决方案很巧妙:

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

在 Token 合并前引入窗口注意力(Window Attention),增强邻近 Token 的上下文交互。复用相邻预训练 ViT 层的参数,减小对视觉表征的扰动。

结果就是视觉编码阶段的浮点运算量降低 55.8%,性能不掉点。 相比传统 ViT 节约了大约一半的图像编码开销。

4倍/16倍混合压缩:之前二选一,现在兼得

视觉 Token 压缩率直接影响到显存占用、首响延迟、推理吞吐和功耗这些关键指标。

市面上大部分模型只支持 4 倍压缩。

面壁从 2024 年就开始做 16 倍压缩,但之前只能在 4 倍和 16 倍之间二选一。

MiniCPM-V 4.6 把这两个都做进去了。

要精度用 4 倍压缩,要速度用 16 倍压缩。

一个模型,两种模式。在云端也能以极低成本承接高并发流量。

16 倍压缩不是噱头,快手已经用在生产环境了。

快手 2025 年推出的 OneRec 推荐大模型,用 MiniCPM-V-8B 处理视频的字幕、标签、ASR、OCR、封面图等多模态表征,承接了快手短视频推荐主场景 25% 的请求。

日活几亿的产品,16 倍压缩扛住了。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

03

门槛降低了

1.3B 参数意味着 基本上所有个人设备都能跑。手机、电脑、车机、智能家具,不需要高端芯片。

微调门槛极低。

RTX 4090 这样的消费级显卡就能全量跑通整个微调流程。独立开发者、高校团队、初创公司,不需要租算力集群就能做垂类定制。

而且生态全打通:

  • 微调框架:ms-swift、LLaMA-Factory
  • 推理部署:vLLM、SGLang、llama.cpp、Ollama

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

面壁智能发布1.3B多模态模型MiniCPM-V 4.6,效率碾压Qwen和Gemma,所有手机都能跑

主流框架全覆盖,不需要自己折腾环境。准备好数据,改几行配置,一键拉起训练。

端侧部署指南:

英文:https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md中文:https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.mddemo:https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

看一眼 MiniCPM-V 系列的进化路线:

  • MiniCPM-V 2.0:2.8B 参数(2024 年 4 月)
  • MiniCPM-V 2.5:8B 参数(2024 年 5 月)
  • MiniCPM-V 2.6:8B 参数(2024 年 8 月)
  • MiniCPM-V 4.0:4.1B 参数(2025 年 8 月)
  • MiniCPM-V 4.5:8B 参数(2025 年 8 月)
  • MiniCPM-V 4.6:1.3B 参数(2026 年 5 月)

不是越做越大,是越做越密。

面壁在 2024 年提出了「密度定律」,不是模型越大越好,是智能密度越高越好。

这项研究成果登上了 Nature 子刊。

MiniCPM-V 4.6 是密度定律的又一次验证:1.3B 的参数,做到了同尺寸最高的智能密度。

截至 2026 年 3 月,MiniCPM-V 系列在开源社区的累计下载量接近 3000 万次。

面壁智能从第一天就在走端侧路线。

模型做小不是为了小,是为了让 AI 落到每一台设备上。

Hugging Face地址: https://huggingface.co/openbmb/MiniCPM-V-4.6GitHub地址: https://github.com/OpenBMB/MiniCPM-VModelscope地址: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6Web Demo地址: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-DemoApp Demo地址: https://github.com/OpenBMB/MiniCPM-V-Apps


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34478

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

    商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地端侧 端侧智能面临一个核心矛盾:模型参数太少则能力不足,参数太多又无法部署在车机上。复杂任务需要推理能力,推理能力依赖大参数模型,但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。 近日,商汤绝影正式发布 Sage,一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型,首次将…

    2026年4月22日
    27500
  • 智谱发布AutoClaw:一键安装本地Agent,飞书接入仅需扫码,60+技能免调教

    AutoClaw 的热度仍在持续。在习惯了聊天助手之后,许多用户开始希望拥有一个能实际协助工作的智能体(Agent)。尽管 Agent 能力强大,但目前绝大多数用户仍被其复杂的部署门槛所阻挡。相关技术此前主要在开发者或极客圈内流行,如今正逐渐向更广泛的普通用户群体渗透。市场上甚至出现了收费的 OpenClaw 上门安装服务。 现在,智谱 AI 正式发布了 A…

    2026年3月11日
    1.3K00
  • GitHub Star 数最多的 10+ 款开源无代码 AI 工具

    不久之前,用 AI 构建任何东西通常只有两种可能: 你是一名机器学习工程师 或者你根本就做不出来 现在,这一切变得非常不同。 今天,No‑Code AI 工具让开发者、创业者、设计师,甚至非技术团队都能构建严肃的 AI 产品——无需编写复杂的 ML 管道或从零训练模型。 但有个关键点:大多数榜单都聚焦于付费 SaaS 工具。这篇不是。 本文专注于开源 No‑…

    2025年12月25日
    78600
  • 北大文科博士爆肝49天,17个Agent手搓AI开放世界Elseland:一人就是超级军团的时代来了!

    一位北京大学文科博士,带领17个AI智能体(Agent),在49天内以约5000元成本,完成了超过30万行代码,独立构建出一个名为“Elseland”的AI开放世界。这一项目展示了当技术壁垒被AI突破后,个体可能成为一个“超级军团”的潜力。 2026年4月,持续数月的“AI智能体热潮”逐渐降温。当许多人发现生活并未因使用多个Agent而发生质变,反而面临高昂…

    2026年4月10日
    1.5K00
  • OpenAI前CTO创企发布实时交互模型:200ms微回合,让AI边听边说边想

    AI交互告别“回合制”:200ms微回合,让模型边听边说边思考 AI的交互方式终于突破了“回合制”的桎梏。 Thinking Machines Lab(以下简称 TML)近日发布了其首个模型,将实时交互能力直接嵌入模型的原生架构中。 联合创始人翁荔亲自出镜演示,展示了这一颠覆性的变化:从传统的“人说完→AI答→人再说→AI再答”,进化为“人和AI可以随时插话…

    2天前
    28400