面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

面壁智能最新开源的 MiniCPM-V 4.6 多模态模型，参数仅 1.3B，却能在所有手机上流畅运行。

这是 MiniCPM-V 系列有史以来参数最小的模型，只有 1.3B。

但在多模态综合能力上，它超越了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it。

参数更少，能力更强，速度还更快。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

先来看看手机上的效果，在自己手机上体验最新的 MiniCPM-V 4.6 模型。太快了，挡不住的快。我的手机输入框还没缩下去，结果都输出完了。

先看成绩

MiniCPM-V 4.6 提供了两个版本：Instruct（直接回答）和 Thinking（深度推理）。

下面是两个版本在不同任务下的表现情况。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

直接看对比数据。

综合能力：在绝大多数图文理解任务上，4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。不是某一项强，是综合能力强。

智能密度：4.6 非推理版本运行只消耗 5.4M token，而 Qwen3.5-0.8B 非推理版本要 101M，1/19 的消耗量。

推理版本差距更大，Qwen3.5-0.8B 推理版消耗 233M token，4.6 只有它的 1/43。

用 2.5% 的 token 量就超过了 Qwen3.5-0.8B，这个效率差距非常夸张。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

推理效率：

基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍 。单卡吞吐 2624 token/s，每秒处理 14.3 张 1344² 图片（输出 200 token 时），是 Qwen3.5-0.8B 的 1.4 倍。同样一张显卡，能承载数倍的线上流量。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

首响延迟（TTFT）：

处理 3136² 的高清大图，4.6 只需要 75.7ms。比 Qwen3.5-0.8B 快 2.2 倍。最离谱的是，分辨率从低到高，延迟曲线几乎是平的。分辨率翻倍，延迟几乎不涨。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

为什么这么快

MiniCPM-V 4.6 的极致效率，来自两项关键的技术创新。

LLaVA-UHD v4：视觉编码效率翻倍

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

处理高清图片的时候，传统方案的算力消耗会随分辨率呈二次方增长。

图片越大，计算量炸得越快。

现有的解决方案是在 ViT 之后做 Token 压缩，但这只减轻了下游 LLM 的负担，视觉编码器内部的计算量一点没少。

LLaVA-UHD v4 的思路是：把 Token 压缩前移到 ViT 内部浅层。越早压缩，后面需要处理的 Token 越少，整体计算量就越低。

但这里有个技术难点。

ViT 的浅层已经学到了大量视觉表征，直接插入随机初始化的下采样模块，会破坏这些表征，带来高昂的额外训练代价。

可以直接看一下论文原文：https://huggingface.co/papers/2605.08985

LLaVA-UHD v4 的解决方案很巧妙：

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

在 Token 合并前引入窗口注意力（Window Attention），增强邻近 Token 的上下文交互。复用相邻预训练 ViT 层的参数，减小对视觉表征的扰动。

结果就是视觉编码阶段的浮点运算量降低 55.8%，性能不掉点。 相比传统 ViT 节约了大约一半的图像编码开销。

4倍/16倍混合压缩：之前二选一，现在兼得

视觉 Token 压缩率直接影响到显存占用、首响延迟、推理吞吐和功耗这些关键指标。

市面上大部分模型只支持 4 倍压缩。

面壁从 2024 年就开始做 16 倍压缩，但之前只能在 4 倍和 16 倍之间二选一。

MiniCPM-V 4.6 把这两个都做进去了。

要精度用 4 倍压缩，要速度用 16 倍压缩。

一个模型，两种模式。在云端也能以极低成本承接高并发流量。

16 倍压缩不是噱头，快手已经用在生产环境了。

快手 2025 年推出的 OneRec 推荐大模型，用 MiniCPM-V-8B 处理视频的字幕、标签、ASR、OCR、封面图等多模态表征，承接了快手短视频推荐主场景 25% 的请求。

日活几亿的产品，16 倍压缩扛住了。

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

门槛降低了

1.3B 参数意味着基本上所有个人设备都能跑。手机、电脑、车机、智能家具，不需要高端芯片。

微调门槛极低。

RTX 4090 这样的消费级显卡就能全量跑通整个微调流程。独立开发者、高校团队、初创公司，不需要租算力集群就能做垂类定制。

而且生态全打通：

微调框架：ms-swift、LLaMA-Factory
推理部署：vLLM、SGLang、llama.cpp、Ollama

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

主流框架全覆盖，不需要自己折腾环境。准备好数据，改几行配置，一键拉起训练。

端侧部署指南：

英文：https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md中文：https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.mddemo：https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

看一眼 MiniCPM-V 系列的进化路线：

MiniCPM-V 2.0：2.8B 参数（2024 年 4 月）
MiniCPM-V 2.5：8B 参数（2024 年 5 月）
MiniCPM-V 2.6：8B 参数（2024 年 8 月）
MiniCPM-V 4.0：4.1B 参数（2025 年 8 月）
MiniCPM-V 4.5：8B 参数（2025 年 8 月）
MiniCPM-V 4.6：1.3B 参数（2026 年 5 月）

不是越做越大，是越做越密。

面壁在 2024 年提出了「密度定律」，不是模型越大越好，是智能密度越高越好。

这项研究成果登上了 Nature 子刊。

MiniCPM-V 4.6 是密度定律的又一次验证：1.3B 的参数，做到了同尺寸最高的智能密度。

截至 2026 年 3 月，MiniCPM-V 系列在开源社区的累计下载量接近 3000 万次。

面壁智能从第一天就在走端侧路线。

模型做小不是为了小，是为了让 AI 落到每一台设备上。

Hugging Face地址: https://huggingface.co/openbmb/MiniCPM-V-4.6GitHub地址: https://github.com/OpenBMB/MiniCPM-VModelscope地址: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6Web Demo地址: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-DemoApp Demo地址: https://github.com/OpenBMB/MiniCPM-V-Apps

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34478

面壁智能发布1.3B多模态模型MiniCPM-V 4.6，效率碾压Qwen和Gemma，所有手机都能跑

相关推荐

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

智谱发布AutoClaw：一键安装本地Agent，飞书接入仅需扫码，60+技能免调教

GitHub Star 数最多的 10+ 款开源无代码 AI 工具

北大文科博士爆肝49天，17个Agent手搓AI开放世界Elseland：一人就是超级军团的时代来了！

OpenAI前CTO创企发布实时交互模型：200ms微回合，让AI边听边说边想