混合注意力

DeepSeek-V4预览版发布：百万级上下文与混合注意力架构，开源引领新突破

终于，全球 AI 圈等待了几个月的 DeepSeek V4，它终于来了！今天上午，DeepSeek API 文档上线，让我们看到了新版本的「庐山真面目」。此次，DeepSeek V4 按大小会有两个版本，分别是 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。上下文长度大家此前已经知道了，是 100 万 tokens。同时，输出长…

2026年4月24日

581000

大模型推理

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

长上下文推理新突破：Kimi提出PrFaaS范式，实现跨机房调度将长上下文能力做到极致的Kimi，近日联合清华大学团队，在大模型推理架构上取得关键进展。他们提出了一种名为 Prefill-as-a-Service（PrFaaS）的全新范式，即“预填充即服务”。其核心突破在于，首次实现了 KV Cache 能够跨数据中心进行传输，从而将大模型推理中的 P…

2026年4月20日

638000

大模型推理

Meta MobileLLM-Flash：以真实延迟为第一性原理，重塑端侧大模型设计范式

关键词：端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力当你对着手机上的 AI 助手提问，然后等待……1 秒、2 秒、3 秒……直到第 10 秒，才看到第一个字出现。根据尼尔森定律，这种超过 4 秒的延迟，已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时，常常忽略的“人性化”痛点。业界普遍认为，模型的“快”等同于参数少、计算量低…

2026年3月23日

385000