面壁智能最新开源的 MiniCPM-V 4.6 多模态模型,参数仅 1.3B,却能在所有手机上流畅运行。
这是 MiniCPM-V 系列有史以来参数最小的模型, 只有 1.3B。
但在多模态综合能力上,它超越了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it。
参数更少,能力更强,速度还更快。

先来看看手机上的效果,在自己手机上体验最新的 MiniCPM-V 4.6 模型。太快了,挡不住的快。我的手机输入框还没缩下去,结果都输出完了。
01
先看成绩
MiniCPM-V 4.6 提供了两个版本:Instruct(直接回答)和 Thinking(深度推理)。
下面是两个版本在不同任务下的表现情况。


直接看对比数据。
综合能力:在绝大多数图文理解任务上,4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。不是某一项强,是综合能力强。
智能密度:4.6 非推理版本运行只消耗 5.4M token,而 Qwen3.5-0.8B 非推理版本要 101M,1/19 的消耗量。
推理版本差距更大,Qwen3.5-0.8B 推理版消耗 233M token,4.6 只有它的 1/43。
用 2.5% 的 token 量就超过了 Qwen3.5-0.8B,这个效率差距非常夸张。

推理效率:
基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍 。单卡吞吐 2624 token/s,每秒处理 14.3 张 1344² 图片(输出 200 token 时),是 Qwen3.5-0.8B 的 1.4 倍。同样一张显卡,能承载数倍的线上流量。

首响延迟(TTFT):
处理 3136² 的高清大图,4.6 只需要 75.7ms。比 Qwen3.5-0.8B 快 2.2 倍。最离谱的是,分辨率从低到高,延迟曲线几乎是平的。分辨率翻倍,延迟几乎不涨。

02
为什么这么快
MiniCPM-V 4.6 的极致效率,来自两项关键的技术创新。
LLaVA-UHD v4:视觉编码效率翻倍

处理高清图片的时候,传统方案的算力消耗会随分辨率呈二次方增长。
图片越大,计算量炸得越快。
现有的解决方案是在 ViT 之后做 Token 压缩,但这只减轻了下游 LLM 的负担,视觉编码器内部的计算量一点没少。
LLaVA-UHD v4 的思路是:把 Token 压缩前移到 ViT 内部浅层。越早压缩,后面需要处理的 Token 越少,整体计算量就越低。
但这里有个技术难点。
ViT 的浅层已经学到了大量视觉表征,直接插入随机初始化的下采样模块,会破坏这些表征,带来高昂的额外训练代价。
可以直接看一下论文原文:https://huggingface.co/papers/2605.08985
LLaVA-UHD v4 的解决方案很巧妙:

在 Token 合并前引入窗口注意力(Window Attention),增强邻近 Token 的上下文交互。复用相邻预训练 ViT 层的参数,减小对视觉表征的扰动。
结果就是视觉编码阶段的浮点运算量降低 55.8%,性能不掉点。 相比传统 ViT 节约了大约一半的图像编码开销。
4倍/16倍混合压缩:之前二选一,现在兼得
视觉 Token 压缩率直接影响到显存占用、首响延迟、推理吞吐和功耗这些关键指标。
市面上大部分模型只支持 4 倍压缩。
面壁从 2024 年就开始做 16 倍压缩,但之前只能在 4 倍和 16 倍之间二选一。
MiniCPM-V 4.6 把这两个都做进去了。
要精度用 4 倍压缩,要速度用 16 倍压缩。
一个模型,两种模式。在云端也能以极低成本承接高并发流量。
16 倍压缩不是噱头,快手已经用在生产环境了。
快手 2025 年推出的 OneRec 推荐大模型,用 MiniCPM-V-8B 处理视频的字幕、标签、ASR、OCR、封面图等多模态表征,承接了快手短视频推荐主场景 25% 的请求。
日活几亿的产品,16 倍压缩扛住了。

03
门槛降低了
1.3B 参数意味着 基本上所有个人设备都能跑。手机、电脑、车机、智能家具,不需要高端芯片。
微调门槛极低。
RTX 4090 这样的消费级显卡就能全量跑通整个微调流程。独立开发者、高校团队、初创公司,不需要租算力集群就能做垂类定制。
而且生态全打通:
- 微调框架:ms-swift、LLaMA-Factory
- 推理部署:vLLM、SGLang、llama.cpp、Ollama


主流框架全覆盖,不需要自己折腾环境。准备好数据,改几行配置,一键拉起训练。
端侧部署指南:
英文:https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md中文:https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.mddemo:https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
看一眼 MiniCPM-V 系列的进化路线:
- MiniCPM-V 2.0:2.8B 参数(2024 年 4 月)
- MiniCPM-V 2.5:8B 参数(2024 年 5 月)
- MiniCPM-V 2.6:8B 参数(2024 年 8 月)
- MiniCPM-V 4.0:4.1B 参数(2025 年 8 月)
- MiniCPM-V 4.5:8B 参数(2025 年 8 月)
- MiniCPM-V 4.6:1.3B 参数(2026 年 5 月)
不是越做越大,是越做越密。
面壁在 2024 年提出了「密度定律」,不是模型越大越好,是智能密度越高越好。
这项研究成果登上了 Nature 子刊。
MiniCPM-V 4.6 是密度定律的又一次验证:1.3B 的参数,做到了同尺寸最高的智能密度。
截至 2026 年 3 月,MiniCPM-V 系列在开源社区的累计下载量接近 3000 万次。
面壁智能从第一天就在走端侧路线。
模型做小不是为了小,是为了让 AI 落到每一台设备上。
Hugging Face地址: https://huggingface.co/openbmb/MiniCPM-V-4.6GitHub地址: https://github.com/OpenBMB/MiniCPM-VModelscope地址: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6Web Demo地址: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-DemoApp Demo地址: https://github.com/OpenBMB/MiniCPM-V-Apps
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34478

