谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

谷歌近期开源的全新模型 Gemma 4,为行业带来了显著影响。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

该模型采用了与 Gemini 3 同源的技术架构,支持原生全模态处理,并在 Arena AI 排行榜上位列全球第三。其提供了多个型号,其中较小的 E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)版本可直接部署于手机端本地运行,并具备 128K 的上下文窗口,堪称“口袋中的 Gemini 替代方案”。

模型发布后,迅速吸引了大量手机端用户的关注与尝试。

一位 X 平台用户的帖子获得了数十万次浏览。其发布的视频展示了在 iPhone 上本地运行 Gemma 4 的过程,包括处理图像、音频以及控制手电筒开关。该用户表示,Gemma 4 的运行速度极快,体验近乎“魔法”。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

有用户在 iPhone 17 Pro 上进行了量化测试,指出在采用苹果芯片并配合专为苹果芯片优化的 MLX 机器学习框架时,模型的推理速度可超过每秒 40 个 token。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

另有用户在三星 Galaxy 手机上也实现了相近的运行速度,即便在开启“思考模式”后依然表现流畅,被形容为“快得不真实”。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

这样的性能使得在手机端本地运行 AI 模型成为一个未来可期的选项,尤其在医疗等对数据隐私敏感的领域具有应用潜力。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

同时,128K 的大上下文窗口也显著增强了这些轻量级模型的实用性。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

对于运行方式,谷歌提供了简便的官方途径。用户可通过官方应用 Google AI Edge Gallery 下载并运行所需的模型版本,操作门槛较低。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

由于是谷歌官方发布,其安全性也相对更有保障。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

除了手机端的小模型,也有开发者在更强硬件上测试了更大的 Gemma 4 版本,例如在配备 M5 Pro 芯片的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B 模型。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

在直接对话、文本生成和代码解释等任务中,该模型响应迅速,运行流畅。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

然而,当尝试将其作为编程智能体(coding agent)使用时,问题开始显现。由于智能体任务需要大上下文(该版本支持 256K)、复杂提示词和稳定的工具调用能力,Gemma 4 在此类场景下表现不佳,时常出现卡顿、报错或输出结构混乱的情况。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

转折点出现在开发者将模型切换为 qwen3-coder 后。在相同环境下,后者能正常执行文件创建、命令运行和多步骤任务。这表明问题可能不在于智能体框架,而在于模型本身是否针对“工具调用与结构化输出”进行过优化。Gemma 4 在这方面可能尚有不足,或者开发者尚未找到其最佳使用方法。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

此外,也有观点认为 Gemma 4 在核心智力水平上仍存在提升空间。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

尽管如此,Gemma 4 这类“性能小钢炮”的出现不容忽视。如果未来大量日常查询、对话、简单推理、代码生成和图像理解任务都能在本地设备完成,无需购买云端 token,这将对依赖 API 订阅收费的商业模式构成挑战。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度
谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度
谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

当然,现状尚未如此严峻。目前开源模型与前沿闭源旗舰模型之间仍有差距,且多数性能强大的开源模型仍受限于硬件算力,难以在终端侧达到理想可用级别。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

但趋势是明确的。短期来看,云端闭源模型在复杂推理和大规模多智能体协作等前沿领域仍保持领先;长期而言,随着硬件进步和量化技术优化,终端侧模型将逐步接管云端的高频简单任务。

仅依靠出售 token 或 API 订阅的厂商,将被迫更聚焦于攻克“真正困难”的领域——例如超强智能体、超长可靠上下文,以及依赖海量实时数据的专业能力。

Gemma 4 只是一个开端。下一个惊喜,或许将是某款终端侧模型在日常使用中让用户完全感知不到“本地”与“云端”的差异。当那一天到来时,整个 AI 产业的商业模式将面临一次深刻的变革。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28747

(0)
上一篇 2026年4月7日 上午8:32
下一篇 2026年4月7日 上午8:34

相关推荐

  • 字节豆包Seed 2.0 Mini实测:轻量级AI模型如何实现成本效益与性能平衡?

    字节跳动近期正式发布了Seed 2.0系列,该系列针对大规模生产环境进行了系统性优化,旨在处理真实世界中的复杂任务。通过提供Pro、Lite、Mini及Code/Preview等全系列尺寸,该系列旨在为不同规模与复杂度的应用场景提供专业级支持。 本次评测的Doubao-Seed-2.0-mini是该系列的轻量级版本,面向低时延、高并发与成本敏感场景,强调快速…

    2026年2月25日
    2.4K00
  • 视觉压缩革命:VIST框架如何让大语言模型像人类一样高效阅读长文本

    在人工智能领域,大语言模型(LLM)的上下文长度扩展与计算效率之间的矛盾日益凸显。NeurIPS 2025会议上,南京理工大学、中南大学、南京林业大学联合研究团队提出的VIST(Vision-centric Token Compression in LLM)框架,通过创新的视觉压缩机制,为大语言模型的长文本处理提供了突破性解决方案。这一技术路径与近期备受关注…

    2025年11月10日
    43900
  • 昇腾硬件赋能:openPangu-Ultra-MoE-718B-V1.1推理体系的技术突破与产业影响

    随着2025年接近尾声,大模型技术正经历从单点提效工具向业务系统底层基础设施的深刻转型。在这一关键进程中,推理效率已成为决定大模型能否真正实现商业落地的核心变量。特别是对于超大规模混合专家(MoE)模型而言,推理环节面临的挑战已从单纯的计算能力扩展,演变为涉及计算、通信、访存、并行策略等多维度的系统性优化问题。华为近期发布的openPangu-Ultra-M…

    2025年11月28日
    40000
  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    60200
  • Voyager:基于HLS的端到端DNN加速器设计框架,实现56%面积优化与61%延迟降低

    关键词:Voyager、 DNN Accelerator 、High-Level Synthesis 、Design-Space Exploration 、Quantization 近年来,深度学习模型在计算机视觉、自然语言处理等领域取得了巨大成功,但其庞大的计算量和内存需求对硬件提出了极高要求。传统的通用处理器难以高效运行这些模型,因此设计专用硬件加速器成…

    2026年1月31日
    41100