阿里通义千问发布了Qwen3.5系列的四款小参数规模模型,分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制,此项技术借鉴自其397B参数的大模型。
该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算,内存占用保持恒定;全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质量的同时有效控制了内存增长,因此即便是0.8B的模型也能支持高达26.2万token的上下文窗口。

技术突破:原生多模态设计
Qwen3.5系列自训练之初便采用了多模态token进行早期融合。其视觉编码器利用3D卷积来捕捉视频中的时序与运动信息。得益于这种设计,4B和9B模型已能理解UI界面、对视频中的物体进行计数,而这些能力以往通常需要参数量大一个数量级的模型才能实现。
混合架构有效缓解了小模型面临的“内存墙”问题,通过Gated DeltaNet实现了更高的吞吐量与显著降低的推理延迟。
性能表现:小模型超越大模型
在MMMU-Pro视觉推理基准测试中,9B模型取得了70.1分,超越了Gemini 2.5 Flash-Lite的59.7分。在GPQA Diamond基准测试中,9B模型达到81.7分,超过了参数量超过其十倍的GPT-OSS-120B模型的80.1分。
在视频理解方面,于Video-MME基准测试中,9B模型得分84.5,4B模型得分83.5,显著领先于Gemini 2.5 Flash-Lite的74.6分。数学能力上,在哈佛-MIT数学竞赛评估中,9B模型得分83.2,4B变体得分74.0。

开发者反响
此次小模型发布获得了开发者社区的积极关注。有开发者评论称:“4B版本的能力几乎与之前的80B模型相当。9B版本的表现可与GPT OSS 120B媲美,但参数量小了13倍!它可以在任何笔记本电脑上运行,而0.8B和2B版本则适合在手机上离线、开源地部署。”
开发者Karan Kendre表示:“这些模型可以在我的M1 MacBook Air上免费本地运行。”Hugging Face的开发者Xenova指出,新模型甚至可以直接在用户的网络浏览器中运行,执行视频分析等复杂任务。
实际应用场景
视觉工作流自动化: 借助“像素级定位”能力,这些模型可以导航桌面或移动端UI、自动填写表单,并根据自然语言指令整理文件。
文档解析: 在文档理解基准测试中得分超过90%,能够替代独立的OCR和版面分析流程,从各类表单与图表中提取结构化数据。
代码处理: 企业可将整个代码库(最多约40万行代码)输入其100万token的上下文窗口,进行生产就绪的代码重构或自动调试。
边缘分析: 0.8B和2B模型专为移动设备设计,可实现离线视频摘要(最长60秒,8FPS)和空间推理,且对设备续航影响较小。
需要注意的问题
幻觉级联: 在多步骤工作流中,早期步骤出现的小错误可能导致后续“级联”失败,使智能体执行错误或无意义的计划。
调试局限: 这些模型擅长编写新代码,但在调试或修改现有的复杂遗留系统时可能遇到困难。
硬件需求: 即使是“小”模型(如9B版本),在进行高吞吐量推理时仍需可观的显存,其总参数量仍然会占用相当的GPU资源。
小结
Qwen3.5系列通过Gated DeltaNet架构与原生多模态设计,使小参数模型获得了以往大模型才具备的能力。0.8B模型已能在手机上处理视频,而9B模型在多项基准测试中超越了参数量大得多的竞品。
一年前,在本地运行多模态模型通常需要13B以上参数和高端GPU;如今,配备26.2万上下文窗口的4B模型已能在消费级硬件上处理文本、图像和视频。该系列模型已获得Ollama与Unsloth等工具的支持,并已在Hugging Face和ModelScope平台发布。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23674
