阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

阿里通义千问发布了Qwen3.5系列的四款小参数规模模型,分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制,此项技术借鉴自其397B参数的大模型。

该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算,内存占用保持恒定;全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质量的同时有效控制了内存增长,因此即便是0.8B的模型也能支持高达26.2万token的上下文窗口。

阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

技术突破:原生多模态设计

Qwen3.5系列自训练之初便采用了多模态token进行早期融合。其视觉编码器利用3D卷积来捕捉视频中的时序与运动信息。得益于这种设计,4B和9B模型已能理解UI界面、对视频中的物体进行计数,而这些能力以往通常需要参数量大一个数量级的模型才能实现。

混合架构有效缓解了小模型面临的“内存墙”问题,通过Gated DeltaNet实现了更高的吞吐量与显著降低的推理延迟。

性能表现:小模型超越大模型

在MMMU-Pro视觉推理基准测试中,9B模型取得了70.1分,超越了Gemini 2.5 Flash-Lite的59.7分。在GPQA Diamond基准测试中,9B模型达到81.7分,超过了参数量超过其十倍的GPT-OSS-120B模型的80.1分。

在视频理解方面,于Video-MME基准测试中,9B模型得分84.5,4B模型得分83.5,显著领先于Gemini 2.5 Flash-Lite的74.6分。数学能力上,在哈佛-MIT数学竞赛评估中,9B模型得分83.2,4B变体得分74.0。

阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启! 阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

开发者反响

此次小模型发布获得了开发者社区的积极关注。有开发者评论称:“4B版本的能力几乎与之前的80B模型相当。9B版本的表现可与GPT OSS 120B媲美,但参数量小了13倍!它可以在任何笔记本电脑上运行,而0.8B和2B版本则适合在手机上离线、开源地部署。”

开发者Karan Kendre表示:“这些模型可以在我的M1 MacBook Air上免费本地运行。”Hugging Face的开发者Xenova指出,新模型甚至可以直接在用户的网络浏览器中运行,执行视频分析等复杂任务。

实际应用场景

视觉工作流自动化: 借助“像素级定位”能力,这些模型可以导航桌面或移动端UI、自动填写表单,并根据自然语言指令整理文件。

文档解析: 在文档理解基准测试中得分超过90%,能够替代独立的OCR和版面分析流程,从各类表单与图表中提取结构化数据。

代码处理: 企业可将整个代码库(最多约40万行代码)输入其100万token的上下文窗口,进行生产就绪的代码重构或自动调试。

边缘分析: 0.8B和2B模型专为移动设备设计,可实现离线视频摘要(最长60秒,8FPS)和空间推理,且对设备续航影响较小。

需要注意的问题

幻觉级联: 在多步骤工作流中,早期步骤出现的小错误可能导致后续“级联”失败,使智能体执行错误或无意义的计划。

调试局限: 这些模型擅长编写新代码,但在调试或修改现有的复杂遗留系统时可能遇到困难。

硬件需求: 即使是“小”模型(如9B版本),在进行高吞吐量推理时仍需可观的显存,其总参数量仍然会占用相当的GPU资源。

小结

Qwen3.5系列通过Gated DeltaNet架构与原生多模态设计,使小参数模型获得了以往大模型才具备的能力。0.8B模型已能在手机上处理视频,而9B模型在多项基准测试中超越了参数量大得多的竞品。

一年前,在本地运行多模态模型通常需要13B以上参数和高端GPU;如今,配备26.2万上下文窗口的4B模型已能在消费级硬件上处理文本、图像和视频。该系列模型已获得Ollama与Unsloth等工具的支持,并已在Hugging Face和ModelScope平台发布。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23674

(0)
上一篇 2026年3月3日 上午6:28
下一篇 2026年3月3日 上午8:18

相关推荐

  • 从规则到认知:TwinMarket如何用大语言模型重塑金融市场仿真

    三十年前,圣塔菲研究所的“人工股票市场”实验揭示了传统Agent-Based Models(ABM)的根本困境:它们难以捕捉人类投资者复杂的认知偏差、情绪波动和社交影响。如今,大语言模型(LLM)的出现为这一领域带来了范式转变的可能。香港中文大学(深圳)与南京大学的研究团队推出的TwinMarket平台,正是这一转变的里程碑式实践。该平台通过构建千人规模的L…

    2025年11月15日
    30000
  • AI浏览器革命:从工具到智能中枢的范式转移

    随着互联网进入AI时代,浏览器作为数字世界的核心入口,正经历着从被动工具到主动智能中枢的深刻变革。Market.us数据显示,全球AI浏览器市场规模预计从2024年的45亿美元增长至2034年的768亿美元,年复合增长率高达32.8%。这一数据背后,反映的不仅是市场规模的扩张,更是浏览器功能定位的根本性重构。 当前全球浏览器市场呈现出明显的“新旧秩序”更替特…

    2025年12月1日
    29500
  • 英伟达CES 2026重磅发布:Rubin架构GPU性能飙升5倍,物理AI平台Cosmos引领全栈生态革命

    英伟达CES 2026重磅发布:Rubin架构GPU性能飙升5倍,物理AI平台Cosmos引领全栈生态革命 刚刚,英伟达CEO黄仁勋在全球最大消费电子展CES 2026上发布了全新AI产品。这是五年来英伟达首次在CES上未发布游戏显卡,其战略重心已明确转向全力投入AI。 这一战略的成果引人瞩目。下一代Rubin架构GPU在NVFP4数据格式下,推理与训练性能…

    2026年1月6日
    55600
  • OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

    OpenAI 发布 ChatGPT Images 2.0:多语言支持、思考能力与精准控制(第 1/2 部分) 编辑:Panda、Youli 北京时间凌晨 3 点,直播准时开始,OpenAI 正式发布了 ChatGPT Images 2.0。 据介绍,「ChatGPT Images 2.0 是下一步进化:一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可…

    2天前
    25800
  • 从萨默斯辞职审视OpenAI治理危机:精英光环褪色与AI伦理的深层悖论

    近日,OpenAI董事会成员、前美国财政部长劳伦斯·萨默斯因与性犯罪者杰弗里·爱泼斯坦的不当通信被曝光而被迫辞职,这一事件不仅终结了萨默斯在硅谷与学术界的权力生涯,更在OpenAI完成商业化转型的关键节点,揭示了其精英治理结构的脆弱性。随着美国众议院监督委员会公开近20000页文件,萨默斯向爱泼斯坦寻求“浪漫建议”的邮件细节浮出水面,其中涉及对女性的物化言论…

    2025年11月20日
    30500