阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

阿里通义千问发布了Qwen3.5系列的四款小参数规模模型,分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制,此项技术借鉴自其397B参数的大模型。

该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算,内存占用保持恒定;全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质量的同时有效控制了内存增长,因此即便是0.8B的模型也能支持高达26.2万token的上下文窗口。

阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

技术突破:原生多模态设计

Qwen3.5系列自训练之初便采用了多模态token进行早期融合。其视觉编码器利用3D卷积来捕捉视频中的时序与运动信息。得益于这种设计,4B和9B模型已能理解UI界面、对视频中的物体进行计数,而这些能力以往通常需要参数量大一个数量级的模型才能实现。

混合架构有效缓解了小模型面临的“内存墙”问题,通过Gated DeltaNet实现了更高的吞吐量与显著降低的推理延迟。

性能表现:小模型超越大模型

在MMMU-Pro视觉推理基准测试中,9B模型取得了70.1分,超越了Gemini 2.5 Flash-Lite的59.7分。在GPQA Diamond基准测试中,9B模型达到81.7分,超过了参数量超过其十倍的GPT-OSS-120B模型的80.1分。

在视频理解方面,于Video-MME基准测试中,9B模型得分84.5,4B模型得分83.5,显著领先于Gemini 2.5 Flash-Lite的74.6分。数学能力上,在哈佛-MIT数学竞赛评估中,9B模型得分83.2,4B变体得分74.0。

阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启! 阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

开发者反响

此次小模型发布获得了开发者社区的积极关注。有开发者评论称:“4B版本的能力几乎与之前的80B模型相当。9B版本的表现可与GPT OSS 120B媲美,但参数量小了13倍!它可以在任何笔记本电脑上运行,而0.8B和2B版本则适合在手机上离线、开源地部署。”

开发者Karan Kendre表示:“这些模型可以在我的M1 MacBook Air上免费本地运行。”Hugging Face的开发者Xenova指出,新模型甚至可以直接在用户的网络浏览器中运行,执行视频分析等复杂任务。

实际应用场景

视觉工作流自动化: 借助“像素级定位”能力,这些模型可以导航桌面或移动端UI、自动填写表单,并根据自然语言指令整理文件。

文档解析: 在文档理解基准测试中得分超过90%,能够替代独立的OCR和版面分析流程,从各类表单与图表中提取结构化数据。

代码处理: 企业可将整个代码库(最多约40万行代码)输入其100万token的上下文窗口,进行生产就绪的代码重构或自动调试。

边缘分析: 0.8B和2B模型专为移动设备设计,可实现离线视频摘要(最长60秒,8FPS)和空间推理,且对设备续航影响较小。

需要注意的问题

幻觉级联: 在多步骤工作流中,早期步骤出现的小错误可能导致后续“级联”失败,使智能体执行错误或无意义的计划。

调试局限: 这些模型擅长编写新代码,但在调试或修改现有的复杂遗留系统时可能遇到困难。

硬件需求: 即使是“小”模型(如9B版本),在进行高吞吐量推理时仍需可观的显存,其总参数量仍然会占用相当的GPU资源。

小结

Qwen3.5系列通过Gated DeltaNet架构与原生多模态设计,使小参数模型获得了以往大模型才具备的能力。0.8B模型已能在手机上处理视频,而9B模型在多项基准测试中超越了参数量大得多的竞品。

一年前,在本地运行多模态模型通常需要13B以上参数和高端GPU;如今,配备26.2万上下文窗口的4B模型已能在消费级硬件上处理文本、图像和视频。该系列模型已获得Ollama与Unsloth等工具的支持,并已在Hugging Face和ModelScope平台发布。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23674

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • FlashMoBA:突破稀疏注意力瓶颈,MoBA机制在长上下文处理中的硬件优化革命

    在人工智能领域,处理长上下文序列一直是大型语言模型面临的核心挑战之一。传统的密集注意力机制虽然功能强大,但其计算复杂度随序列长度呈二次方增长,这严重限制了模型处理长文本、代码或多轮对话的能力。今年2月,月之暗面提出的MoBA(Mixture of Block Attention)机制为这一难题提供了创新解决方案。MoBA将混合专家(MoE)原理引入注意力机制…

    2025年11月18日
    16300
  • OpenAI推出首款ChatGPT浏览器,即刻免费体验!

    从今天起,使用ChatGPT有了OpenAI官方的浏览器选择。 这款名为ChatGPT Atlas(阿特拉斯,灵感来自古希腊神话中托举地球的神祇)的浏览器,是OpenAI首款AI原生的浏览器产品,现已正式上线。 它有哪些功能? 简言之,ChatGPT已有的核心能力正被全面整合进这款浏览器中,未来更多功能也将陆续融入。 这是OpenAI打造的全新入口,旨在让用…

    2025年10月22日
    40500
  • 智能机器人产业生态构建:从技术突破到全要素协同的深度解析

    随着人工智能技术的飞速发展,智能机器人产业正迎来前所未有的变革机遇。从工业自动化到服务型机器人,从人形机器人到特种应用,智能机器人正逐步渗透到社会经济的各个领域。然而,产业的蓬勃发展背后,仍面临着技术瓶颈、产业链协同不足、应用场景碎片化等多重挑战。如何构建健康、可持续的产业生态,成为当前智能机器人领域亟待解决的核心问题。 从技术层面来看,智能机器人的发展高度…

    2025年11月10日
    18200
  • DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

    近日,来自中国人民大学与清华大学的研究团队联合发布了DeepAnalyze,这是全球首个面向自主数据科学的agentic LLM(大型语言模型)。该模型的发布在学术界和工业界引发了广泛关注,一周内即在GitHub上获得超过1000个星标,社交媒体浏览量突破20万次,标志着数据科学领域向智能化、自主化迈出了关键一步。 DeepAnalyze-8B的核心突破在于…

    2025年10月30日
    18300
  • UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

    在人工智能领域,视频生成技术正经历从单一模态学习向多模态统一理解的深刻变革。近期,由香港科技大学、香港中文大学、清华大学与快手可灵团队联合提出的UnityVideo框架,通过整合深度图、光流、骨骼姿态、分割掩码等多种视觉模态,构建了一个能够“理解”物理世界规律的视频生成模型。这一突破不仅显著提升了生成视频的真实性与可控性,更实现了零样本泛化能力,为视觉大模型…

    2025年12月14日
    14500