阿里Qwen3.5小模型震撼发布：0.8B参数即可处理视频，边缘AI时代正式开启！

2026年3月3日上午8:01 • AI产业动态 • 阅读 605

阿里通义千问发布了Qwen3.5系列的四款小参数规模模型，分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制，此项技术借鉴自其397B参数的大模型。

该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算，内存占用保持恒定；全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质量的同时有效控制了内存增长，因此即便是0.8B的模型也能支持高达26.2万token的上下文窗口。

技术突破：原生多模态设计

Qwen3.5系列自训练之初便采用了多模态token进行早期融合。其视觉编码器利用3D卷积来捕捉视频中的时序与运动信息。得益于这种设计，4B和9B模型已能理解UI界面、对视频中的物体进行计数，而这些能力以往通常需要参数量大一个数量级的模型才能实现。

混合架构有效缓解了小模型面临的“内存墙”问题，通过Gated DeltaNet实现了更高的吞吐量与显著降低的推理延迟。

在MMMU-Pro视觉推理基准测试中，9B模型取得了70.1分，超越了Gemini 2.5 Flash-Lite的59.7分。在GPQA Diamond基准测试中，9B模型达到81.7分，超过了参数量超过其十倍的GPT-OSS-120B模型的80.1分。

在视频理解方面，于Video-MME基准测试中，9B模型得分84.5，4B模型得分83.5，显著领先于Gemini 2.5 Flash-Lite的74.6分。数学能力上，在哈佛-MIT数学竞赛评估中，9B模型得分83.2，4B变体得分74.0。

阿里Qwen3.5小模型震撼发布：0.8B参数即可处理视频，边缘AI时代正式开启！

此次小模型发布获得了开发者社区的积极关注。有开发者评论称：“4B版本的能力几乎与之前的80B模型相当。9B版本的表现可与GPT OSS 120B媲美，但参数量小了13倍！它可以在任何笔记本电脑上运行，而0.8B和2B版本则适合在手机上离线、开源地部署。”

开发者Karan Kendre表示：“这些模型可以在我的M1 MacBook Air上免费本地运行。”Hugging Face的开发者Xenova指出，新模型甚至可以直接在用户的网络浏览器中运行，执行视频分析等复杂任务。

视觉工作流自动化： 借助“像素级定位”能力，这些模型可以导航桌面或移动端UI、自动填写表单，并根据自然语言指令整理文件。

文档解析： 在文档理解基准测试中得分超过90%，能够替代独立的OCR和版面分析流程，从各类表单与图表中提取结构化数据。

代码处理： 企业可将整个代码库（最多约40万行代码）输入其100万token的上下文窗口，进行生产就绪的代码重构或自动调试。

边缘分析： 0.8B和2B模型专为移动设备设计，可实现离线视频摘要（最长60秒，8FPS）和空间推理，且对设备续航影响较小。

幻觉级联： 在多步骤工作流中，早期步骤出现的小错误可能导致后续“级联”失败，使智能体执行错误或无意义的计划。

调试局限： 这些模型擅长编写新代码，但在调试或修改现有的复杂遗留系统时可能遇到困难。

硬件需求： 即使是“小”模型（如9B版本），在进行高吞吐量推理时仍需可观的显存，其总参数量仍然会占用相当的GPU资源。

Qwen3.5系列通过Gated DeltaNet架构与原生多模态设计，使小参数模型获得了以往大模型才具备的能力。0.8B模型已能在手机上处理视频，而9B模型在多项基准测试中超越了参数量大得多的竞品。

一年前，在本地运行多模态模型通常需要13B以上参数和高端GPU；如今，配备26.2万上下文窗口的4B模型已能在消费级硬件上处理文本、图像和视频。该系列模型已获得Ollama与Unsloth等工具的支持，并已在Hugging Face和ModelScope平台发布。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23674