架构搜索

大模型推理

Meta MobileLLM-Flash：以真实延迟为第一性原理，重塑端侧大模型设计范式

关键词：端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力当你对着手机上的 AI 助手提问，然后等待……1 秒、2 秒、3 秒……直到第 10 秒，才看到第一个字出现。根据尼尔森定律，这种超过 4 秒的延迟，已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时，常常忽略的“人性化”痛点。业界普遍认为，模型的“快”等同于参数少、计算量低…

2026年3月23日
302000
大模型推理

端侧LLM硬件协同设计新突破：Roofline建模揭示帕累托最优架构，推理效率提升19.42%

关键词：端侧大语言模型、Roofline 建模、软硬件协同设计、缩放定律、帕累托最优、架构搜索第一部分：基于 Roofline 建模的端侧大语言模型硬件协同设计缩放律端侧大语言模型的部署长期面临模型精度与推理效率的核心权衡。现有模型多沿用通用架构范式，缺乏与底层硬件特性深度协同的系统性缩放规律与设计准则。本文针对这一痛点，基于 Roofline 性能建…

2026年3月15日
327000