大模型架构

  • GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆

    GLM-5正式发布,其定位直指Claude,专注于解决复杂的系统工程与长程智能体任务。模型参数规模从GLM-4.5的355B(32B活跃)大幅跃升至744B(40B活跃),预训练数据量也从23T token扩充至28.5T token。 在技术层面,GLM-5采用了GlmMoeDsa架构,直接集成了来自DeepSeek的DSA稀疏注意力与MTP多标记预测技术…

    13小时前
    600
  • DeepSeek V4架构革命:mHC与Engram双核创新,颠覆传统编程工作模式

    DeepSeek V4架构革命:mHC与Engram双核创新,颠覆传统编程工作模式 2026年春节临近,全球AI圈迎来重磅传闻——中国AI实验室DeepSeek预计将在春节假期期间,正式发布其第四代旗舰大模型DeepSeek V4。 多方信源证实,这款承载着架构革命使命的大模型已进入最终筹备阶段,大概率将延续去年春节前发布R1模型的节奏。其带来的技术突破不仅…

    5天前
    300