混合专家架构
-
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…
阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…