混合注意力
-
Meta MobileLLM-Flash:以真实延迟为第一性原理,重塑端侧大模型设计范式
关键词:端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力 当你对着手机上的 AI 助手提问,然后等待……1 秒、2 秒、3 秒……直到第 10 秒,才看到第一个字出现。根据尼尔森定律,这种超过 4 秒的延迟,已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时,常常忽略的“人性化”痛点。 业界普遍认为,模型的“快”等同于参数少、计算量低…