端侧大模型
-
iPhone 17 Pro跑400B大模型!Flash-MoE让端侧AI突破物理极限
有时候看到一些大模型项目,总会怀疑是不是真的有外星人在干预地球科技。 就比如今天这个。 刚看到这个 Demo 时确实有点想笑,已经很久没见过吐词如此缓慢的大模型了。观感上就像“闪电”老师。 尽管每秒只有 0.6 个 tokens 的输出速度,这依然是一项令人难以置信的成果。因为这是一个运行在 iPhone 17 Pro 上的 400B 大模型! 准确来说,这…
-
商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地
商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地端侧 端侧智能面临一个核心矛盾:模型参数太少则能力不足,参数太多又无法部署在车机上。复杂任务需要推理能力,推理能力依赖大参数模型,但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。 近日,商汤绝影正式发布 Sage,一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型,首次将…
-
Meta MobileLLM-Flash:以真实延迟为第一性原理,重塑端侧大模型设计范式
关键词:端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力 当你对着手机上的 AI 助手提问,然后等待……1 秒、2 秒、3 秒……直到第 10 秒,才看到第一个字出现。根据尼尔森定律,这种超过 4 秒的延迟,已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时,常常忽略的“人性化”痛点。 业界普遍认为,模型的“快”等同于参数少、计算量低…
