混合专家架构

AI产业动态

DeepSeek-V4预览版发布：百万上下文、Agent能力领先，同步开源

刚刚，DeepSeek 在官方公众号发文宣布，全新系列模型 DeepSeek-V4 的预览版本正式上线，并同步开源！ DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。秉承 DeepSeek 一贯的开放精神，本次发布的模型按大小分为两个版本，欢迎开发者、研究者和企业用户前往体验和下…

2026年4月24日
1.2K000
大模型工程

阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%

阿里正式发布Qwen3.5系列，并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型，Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，总参数量达39…

2026年2月21日
2.3K000