混合注意力

  • DeepSeek-V4预览版发布:百万级上下文与混合注意力架构,开源引领新突破

    终于,全球 AI 圈等待了几个月的 DeepSeek V4,它终于来了! 今天上午,DeepSeek API 文档上线,让我们看到了新版本的「庐山真面目」。 此次,DeepSeek V4 按大小会有两个版本,分别是 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。上下文长度大家此前已经知道了,是 100 万 tokens。同时,输出长…

    2026年4月24日
    58100
  • Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

    长上下文推理新突破:Kimi提出PrFaaS范式,实现跨机房调度 将长上下文能力做到极致的Kimi,近日联合清华大学团队,在大模型推理架构上取得关键进展。 他们提出了一种名为 Prefill-as-a-Service(PrFaaS) 的全新范式,即“预填充即服务”。其核心突破在于,首次实现了 KV Cache 能够跨数据中心进行传输,从而将大模型推理中的 P…

    2026年4月20日
    63800
  • Meta MobileLLM-Flash:以真实延迟为第一性原理,重塑端侧大模型设计范式

    关键词:端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力 当你对着手机上的 AI 助手提问,然后等待……1 秒、2 秒、3 秒……直到第 10 秒,才看到第一个字出现。根据尼尔森定律,这种超过 4 秒的延迟,已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时,常常忽略的“人性化”痛点。 业界普遍认为,模型的“快”等同于参数少、计算量低…

    2026年3月23日
    38500