架构搜索

  • Meta MobileLLM-Flash:以真实延迟为第一性原理,重塑端侧大模型设计范式

    关键词:端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力 当你对着手机上的 AI 助手提问,然后等待……1 秒、2 秒、3 秒……直到第 10 秒,才看到第一个字出现。根据尼尔森定律,这种超过 4 秒的延迟,已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时,常常忽略的“人性化”痛点。 业界普遍认为,模型的“快”等同于参数少、计算量低…

    2026年3月23日
    30200
  • 端侧LLM硬件协同设计新突破:Roofline建模揭示帕累托最优架构,推理效率提升19.42%

    关键词:端侧大语言模型、Roofline 建模、软硬件协同设计、缩放定律、帕累托最优、架构搜索 第一部分:基于 Roofline 建模的端侧大语言模型硬件协同设计缩放律 端侧大语言模型的部署长期面临模型精度与推理效率的核心权衡。现有模型多沿用通用架构范式,缺乏与底层硬件特性深度协同的系统性缩放规律与设计准则。 本文针对这一痛点,基于 Roofline 性能建…

    2026年3月15日
    32700