在过去的几年里,Scaling Law 被整个 AI 行业奉为圭臬。业界普遍认为,模型规模越大、参数数量越多,其涌现出的逻辑推理能力与世界知识储备就越强大。
然而,大模型高昂的推理成本、不可控的网络延迟,以及严苛的数据隐私风险,使得真正的 AI 普惠化沦为一个伪命题。性能、时效与并发,共同构成了大模型在落地过程中难以逾越的“不可能三角”。
今年是 AI 应用大规模落地的元年。当我们真正审视 AI 普惠化的现实需求时,会发现一个反直觉的演进趋势:在某些维度上,参数规模较小的模型反而能爆发出更高的效率,并在特定场景下展现出性能优势。
事实上,已有厂商敏锐地捕捉到了端侧部署与云端降本的实际需求,悄悄在 1B(十亿)参数规模以下的端侧模型赛道上布局。
有人可能会质疑:这么小的模型能有什么用?
在真实的业务场景中,这些端侧模型正承担着最基础但最实用、最核心的任务。
它们体积小巧,既能在手机端实现毫秒级离线运行、严格保护用户隐私,也能扛住千万级并发下的低延迟意图识别。在 RAG 系统中,它们充当着智能路由器和数据清洗工,分流闲聊请求、压缩大模型调用成本;在与超大模型协同推理时,它们通过投机采样技术将预测速度提升 2 至 3 倍。更关键的是,在信息提取、格式转换等窄任务上,微调后的端侧模型几乎实现零幻觉,准确率甚至超越百亿级大模型——论单点专精,云端大模型未必是其对手。
从阿里的 Qwen3.5-0.8B 到谷歌针对移动端推出的 Gemma 4 E2B-it,轻量级 LLM 正快速接管那些追求快、稳、省资源的辅助性任务。
5 月 11 日,面壁智能正式发布并开源了 MiniCPM-V 系列新一代基础模型——MiniCPM-V 4.6。这款模型的整体参数规模仅约 1B(1.3B),是该系列有史以来参数规模最小的版本。但在多模态综合能力上,它成功超越了被视为标杆的阿里 Qwen3.5-0.8B 和谷歌 Gemma 4 E2B-it,真正做到了“尺寸更小、效率更高、性能更好”。

🤗 Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4.6
💻 GitHub:https://github.com/OpenBMB/MiniCPM-V
🔭 Modelscope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
🌐 Web Demo:https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
📱 App Demo:https://github.com/OpenBMB/MiniCPM-V-Apps
自 2024 年 4 月初次惊艳亮相至今,MiniCPM-V 已在汽车、PC、手机、智能家居等终端场景中实现了广泛的商业落地。
此次 MiniCPM-V 4.6 的发布,不仅在参数规模、推理速度、计算成本等多个维度实现了显著提升,也让面壁智能在端侧多模态开源领域站稳了脚跟。这距离面壁智能“智周万物”的愿景,又迈出了坚实的一大步。
为什么说 1B 的 MiniCPM-4.6 是“端侧第一”?
评价一款端侧模型,不能仅看参数大小,更要看它在极端受限的算力环境下能爆发出多大的“智能密度”。不同尺寸的模型运行门槛截然不同:参数越小,意味着运行门槛越低、速度越快,能够完美适配更广泛的芯片和算力环境。
MiniCPM-V 4.6 的“端侧第一”,是通过实打实的多模态综合能力与极致的推理效率双重验证的。
在业内公认的几大核心评测基准中,MiniCPM-V 4.6 展现出远超其体量的综合实力。根据最新评测数据,其在同尺寸模型范围内的智能密度位列最高。

- 全面超越 Qwen3.5-0.8B:目前业内最新的 1B 左右多模态标杆是 Qwen3.5-0.8B,而 MiniCPM-4.6 版本在大部分图文理解任务等基础能力上均实现了超越。

- 极致的 Token 利用率:在权威的 Artificial Analysis 评测体系中,MiniCPM-V 4.6 仅使用了相当于 Qwen3.5-0.8B 2.5% 的 Token 吞吐量,就取得了超越后者的成绩。这种对上下文的高效利用,是端侧模型极为看重的特质。
对于“高并发”的云端工业场景和算力功耗受限的终端硬件来说,推理速度和吞吐量是核心指标。得益于 16 倍视觉 Token 压缩这一核心技术,我们直接来看 MiniCPM-V 4.6 在 RTX 4090 + vLLM 推理环境下的实测表现,其在两大关键维度上同时建立起显著优势:
首先,在单并发首字响应延迟(TTFT)上,MiniCPM-V 4.6 表现出极高的稳定性。它几乎把“分辨率—延迟”曲线压得平坦。当处理 3136² 的超高清大图时,其首响仅需 75.7 毫秒,较同基座规模的 Qwen3.5-0.8B 快 2.2 倍。这意味着用户在 4090 显卡上加载一张 4K 级别的照片进行提问时,模型几乎能做到“秒回”。

其次,在高并发吞吐量上优势同样亮眼。在输出长度为 200 token 的设定下,RTX 4090 单卡处理 1344² 分辨率图片的吞吐量可达 2624 token/s,即每秒可处理 14.3 张图片,是 Qwen3.5-0.8B 的 1.4 倍。这意味着同样的硬件部署 MiniCPM-V 4.6,可以承载数倍的线上业务流量。

这两个维度共同指向同一个结论——MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache 占用,把多模态推理的端侧体感与云侧 ROI(投资回报率)同时推到了新的高度。
为了直观感受,我们来看看 MiniCPM-V 4.6 在实际的移动端设备(iPhone 17)上的运行效果。
- 让 AI 观察图片识别物体
我们向 MiniCPM-V 4.6 喂入了一张 3024×3024 分辨率(近千万像素)的实拍食物原图。经过预处理后,正如前文数据所印证的那样,得益于模型极小的 KV-Cache 占用,一旦跨过最耗时的预处理门槛,极度精简的视觉序列交接给 1B 语言基座后,文本生成速度便瞬间起飞。在我们顺着图片细节进行二次追问时,不需要重新经历漫长的读图,直接实现了几乎“零预热”的秒回响应,真正做到了毫秒级的连续解码。
- 复杂的文字识别
再看文本类任务,经过预处理后,无论是提取文本还是翻译成多种语言,MiniCPM-V 4.6 的表现都可以用“迅雷不及掩耳”来形容。按下发送键的瞬间,文字流便如流水般涌出。精准的图文解析能力和极低的首答延迟,真正让人感受到 AI 已经融入了设备的“血液”中,而非遥远的云端接口。
扒开论文,看 MiniCPM-V 4.6 的技术逻辑
为什么在参数量极小(仅 1B)、甚至与竞品相近的情况下,MiniCPM-V 4.6 能够爆发出如此惊人的推理效率和算力性价比?甚至实现了“参数量略大,效率却大幅反超”的奇迹?
答案藏在面壁智能与清华大学团队最新联合研发的第四代 LLaVA-UHD (v4) 架构之中。针对高分辨率图像处理中的视觉编码效率问题,研发团队做了两项关键的技术改进。
创新一:ViT 内部视觉 Token 早压缩
切片编码:从结构上化解计算爆炸
当前,业界在处理高分辨率图像时,主流方法是全局编码(Global Encoding),即保持原始分辨率,将整张图片直接送入视觉编码器。然而,这种做法会导致注意力机制的计算量随分辨率提升呈二次方级别增长,引发严重的算力爆炸。

LLaVA-UHD v4 率先引入了切片编码策略,将大图切分为多个小块分别处理,从根本上避免了二次方算力膨胀的问题。实验数据表明,切片编码不仅能规避计算瓶颈,还能提供比全局编码更丰富的特征表示,从而在下游任务中取得更优性能。
不过,切片编码虽然解决了全局注意力的计算爆炸,但高分辨率图片依然会生成极为庞大的视觉 Token 序列,给后端的语言模型带来沉重的推理负担。当前的主流优化方案,大多是在 ViT 提取完所有特征之后,再进行 Token 压缩。这种做法治标不治本,仅仅减轻了 LLM 的负担,却完全没有降低庞大的视觉编码器内部的计算量。
面壁智能的解法是:将压缩动作「前置」。
为了实现极致高效,LLaVA-UHD v4 设计了一种早期 ViT 内压缩模块。直觉上,压缩越早进行,后续绝大部分的 ViT 层需要处理的 Token 就越少,计算量自然大幅下降。但难点在于,如果在 ViT 浅层简单粗暴地插入随机初始化的下采样模块,会严重破坏模型在预训练阶段辛苦学到的视觉表征,不仅训练代价极其高昂,还会导致模型「变笨」。
为此,研发团队巧妙地引入了窗口注意力机制,在 Token 合并前增强邻近 Token 的上下文交互;同时,通过复用相邻预训练 ViT 层的参数,实现了参数的平滑初始化,最大限度地减小了对视觉表征的扰动。
这一架构创新,使得视觉 Token 压缩能够稳定前移至 ViT 浅层,在保持下游任务性能完全不掉点的前提下,将视觉编码阶段的浮点运算量暴降了 55.8%(节省了约一半的图像编码开销)。这也是为什么 MiniCPM-V 4.6 能够在处理高清大图时,不仅看得清,而且跑得飞快。
创新二:4 倍 / 16 倍混合视觉 Token 压缩率
视觉 Token 的压缩率直接影响到显存占用、首响延迟、推理吞吐和功耗等关键指标。目前市面上的多模态模型,绝大部分只能做到 4 倍的压缩率。
面壁智能的 MiniCPM-V 系列从 2024 年初就开始死磕 16 倍压缩率。在此之前的版本中,开发者只能在「4 倍」和「16 倍」之间二选一。但在 MiniCPM-V 4.6 中,面壁智能实现了「鱼与熊掌兼得」:
- 4 倍压缩模式:性能拉满,精度极高,适合需要细粒度视觉解析的场景。
- 16 倍压缩模式:速度起飞,吞吐量爆表,既利于在算力受限的终端硬件上落地,又能以极低的成本承接巨大的云端业务流量,满足「高并发」的工业级需求。
16 倍压缩率的含金量有多高?我们可以看一个快手推荐算法的真实工业案例。

在快手 2025 年发布的 OneRec 推荐大模型中,系统需要处理海量短视频的字幕、标签、ASR、OCR、封面图等多模态数据。由于用户体量庞大,并发请求量极高,快手最终选用 MiniCPM-V-8B 来处理底层多模态数据的特征提取,承接了快手短视频推荐主场景高达 25% 的请求。这个案例说明 MiniCPM-V 系列在高并发工业场景下的可用性和成本优势是经过实际验证的。
一张 4090 就能爆改的「保姆级」基座
评判一个开源模型的生命力,不仅要看它在榜单上如何称王,更要看它能否迅速落到开发者的代码库里、跑在业务的服务器上发光发热。
本次发布,面壁智能不仅带来了一个极其能打的 1B 模型,更为社区开发者、高校研究团队以及初创公司准备了一套从微调(Fine-tuning)到部署(Deployment)开箱即用的「保姆级」二次开发基石。它天生就是为了被「爆改」而生的。
打破算力壁垒:消费级显卡即刻开跑
大模型的微调往往让人联想到昂贵的 A100/H100 算力集群,这让很多独立开发者和中小型企业望而却步。但 MiniCPM-V 4.6 得益于其极致精简的 1B 参数量,将定制微调的门槛大幅降低。
开发者只需一张 RTX 4090 等消费级显卡,就能跑通完整的微调流程。这意味着验证一个想法、定制一个垂类场景模型(如工业流水线上的缺陷检测、金融领域的复杂财报解析),不需要申请大量算力预算,在本地 PC 上就能完成。
拥抱主流生态:微调与推理全链路打通
「好用」是开源生态的核心。为了让开发者彻底告别配环境配到崩溃的「折磨」,MiniCPM-V 4.6 实现了与当前主流开源工具链的全面无缝对接:
- 微调框架全面原生支持:官方原生深度适配了 ms-swift 与 LLaMA-Factory 等业内最受欢迎的微调框架。无论你是偏好代码还是可视化操作,只需准备好自己的场景数据,修改几行配置文件,一键即可拉起专属模型的训练,官方甚至贴心地提供了中英双语的 CookBook 教程。
- 推理框架全家桶兼容:在模型部署端,官方同步适配了目前最顶级的几大高性能推理框架:vLLM、SGLang、llama.cpp 和 Ollama。
如果你追求云端极致并发,可以使用 vLLM 或 SGLang;如果你要在没有独立显卡的轻薄本、Mac 甚至手机上进行纯 CPU/端侧推理,llama.cpp 和 Ollama 能够让你游刃有余地完成高效部署。
极低的显存占用、极高的并发吞吐量、完备的上下游工具链,使 MiniCPM-V 4.6 成为了构建高并发、极速响应多模态应用的高性价比首选。
不止于 1B:面壁智能的端侧「长期主义」
MiniCPM-V 4.6 的这次表现,背后是面壁智能在端侧多模态领域多年的持续积累。回顾 MiniCPM-V 系列的发展路径,可以看到一条以「智能密度」为核心的清晰脉络:
- MiniCPM-V 2.0(2.8B,2024 年 4 月):确立了「以小博大」的基调,在 7B 以下模型中排名靠前,在 OCRBench 上达到开源最优水平,展现了较强的高清图像解析能力和防幻觉能力。
- MiniCPM-V 2.5(8B,2024 年 5 月):支持 30 多种语言,OCR 成绩达到 SOTA,综合性能超过 GPT-4V 和 Gemini Pro Vision 等商业模型。
- MiniCPM-V 2.6(8B,2024 年 8 月):首次在端侧同时支持单图、多图联合理解和实时视频推理,量化后仅需 6G 内存,在主流手机和 iPad 上实现了对标 GPT-4V 水平的交互。
- MiniCPM-V 4.0(4.1B,2025 年):参数减半但性能提升,专为移动端优化,在新款手机上实现了低延迟的实时交互,在 OpenCompass 等榜单取得同级 SOTA。
- MiniCPM-V 4.5(8B,2025 年):行业首个具备较高帧率视频理解能力的多模态模型,独创 3D-Resampler 架构支持最高 10 FPS 长视频解析,配合 96 倍视频 Token 压缩率,综合能力超过 72B 开源模型,也超越了 GPT-4o-latest。
从 2.0 到 4.6,MiniCPM-V 系列一步步拓展了端侧模型的能力边界:超高清长文档解析、连续视频理解、多图联合推理、高密度文本提取,这些任务在端侧模型上逐渐成为可能。这也让该系列在联想、吉利、上汽大众、广汽等企业的实际业务中落地。
更令人振奋的是,面壁智能在端侧多模态的路线早已获得了国际顶尖学术共同体的认可。其关于「密度定律」的相关成果成功发表于国际顶级学术期刊《Nature Communications》。
2024年6月,斯坦福大学的一个研究团队被发现直接复用了MiniCPM-V 2.5的成果,事后公开道歉。这一事件从侧面印证,中国在多模态大模型领域已经跻身全球开源社区的前沿,不再仅仅依赖对他人成果的二次开发。
结语
回到文章开头提出的问题:参数量低于1B的端侧模型,究竟能发挥什么实际作用?
当我们不断被云端千亿参数巨兽的发布会所冲击时,很容易陷入唯参数论的思维陷阱。然而,AI的终极目标并非在机房中炫技,而是渗透到人类生活的方方面面。
MiniCPM-V 4.6给出了一个具体的答案:端侧模型的价值在于,以更低的成本、更快的速度和更强的隐私保护,将视觉理解和认知推理能力嵌入手机、电脑、汽车和智能家电等设备中。
当一款仅1B参数的模型,通过架构优化和混合Token压缩技术,在性能上超越同类产品,在速度上实现单卡数千Token的秒级吞吐,并且能让开发者用一张消费级显卡轻松定制时,它就不再只是一个简单的“技术原型”,而是推动整个边缘计算生态全面爆发的强力催化剂。
大厂纷纷布局端侧模型,是因为未来属于边缘计算。而面壁智能及其MiniCPM-V系列,正在这条通往“智周万物”的道路上,刻下属于中国架构的深刻印记。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34612

