混合专家架构
-
DeepSeek-V4预览版发布:百万上下文、Agent能力领先,同步开源
刚刚,DeepSeek 在官方公众号发文宣布,全新系列模型 DeepSeek-V4 的预览版本正式上线,并同步开源! DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。 秉承 DeepSeek 一贯的开放精神,本次发布的模型按大小分为两个版本,欢迎开发者、研究者和企业用户前往体验和下…
-
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…