谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

2026年4月7日上午8:33 • AI产业动态 • 阅读 414

谷歌近期开源的全新模型 Gemma 4，为行业带来了显著影响。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

该模型采用了与 Gemini 3 同源的技术架构，支持原生全模态处理，并在 Arena AI 排行榜上位列全球第三。其提供了多个型号，其中较小的 E2B（有效参数 2.3B）和 E4B（有效参数 4.5B）版本可直接部署于手机端本地运行，并具备 128K 的上下文窗口，堪称“口袋中的 Gemini 替代方案”。

模型发布后，迅速吸引了大量手机端用户的关注与尝试。

一位 X 平台用户的帖子获得了数十万次浏览。其发布的视频展示了在 iPhone 上本地运行 Gemma 4 的过程，包括处理图像、音频以及控制手电筒开关。该用户表示，Gemma 4 的运行速度极快，体验近乎“魔法”。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

有用户在 iPhone 17 Pro 上进行了量化测试，指出在采用苹果芯片并配合专为苹果芯片优化的 MLX 机器学习框架时，模型的推理速度可超过每秒 40 个 token。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

另有用户在三星 Galaxy 手机上也实现了相近的运行速度，即便在开启“思考模式”后依然表现流畅，被形容为“快得不真实”。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

这样的性能使得在手机端本地运行 AI 模型成为一个未来可期的选项，尤其在医疗等对数据隐私敏感的领域具有应用潜力。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

同时，128K 的大上下文窗口也显著增强了这些轻量级模型的实用性。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

对于运行方式，谷歌提供了简便的官方途径。用户可通过官方应用 Google AI Edge Gallery 下载并运行所需的模型版本，操作门槛较低。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

由于是谷歌官方发布，其安全性也相对更有保障。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

除了手机端的小模型，也有开发者在更强硬件上测试了更大的 Gemma 4 版本，例如在配备 M5 Pro 芯片的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B 模型。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

在直接对话、文本生成和代码解释等任务中，该模型响应迅速，运行流畅。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

然而，当尝试将其作为编程智能体（coding agent）使用时，问题开始显现。由于智能体任务需要大上下文（该版本支持 256K）、复杂提示词和稳定的工具调用能力，Gemma 4 在此类场景下表现不佳，时常出现卡顿、报错或输出结构混乱的情况。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

转折点出现在开发者将模型切换为 qwen3-coder 后。在相同环境下，后者能正常执行文件创建、命令运行和多步骤任务。这表明问题可能不在于智能体框架，而在于模型本身是否针对“工具调用与结构化输出”进行过优化。Gemma 4 在这方面可能尚有不足，或者开发者尚未找到其最佳使用方法。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

此外，也有观点认为 Gemma 4 在核心智力水平上仍存在提升空间。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

尽管如此，Gemma 4 这类“性能小钢炮”的出现不容忽视。如果未来大量日常查询、对话、简单推理、代码生成和图像理解任务都能在本地设备完成，无需购买云端 token，这将对依赖 API 订阅收费的商业模式构成挑战。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

当然，现状尚未如此严峻。目前开源模型与前沿闭源旗舰模型之间仍有差距，且多数性能强大的开源模型仍受限于硬件算力，难以在终端侧达到理想可用级别。

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

但趋势是明确的。短期来看，云端闭源模型在复杂推理和大规模多智能体协作等前沿领域仍保持领先；长期而言，随着硬件进步和量化技术优化，终端侧模型将逐步接管云端的高频简单任务。

仅依靠出售 token 或 API 订阅的厂商，将被迫更聚焦于攻克“真正困难”的领域——例如超强智能体、超长可靠上下文，以及依赖海量实时数据的专业能力。

Gemma 4 只是一个开端。下一个惊喜，或许将是某款终端侧模型在日常使用中让用户完全感知不到“本地”与“云端”的差异。当那一天到来时，整个 AI 产业的商业模式将面临一次深刻的变革。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/28747

谷歌Gemma 4引爆手机AI革命：口袋里的Gemini平替，40 token/秒的魔法速度

相关推荐

字节豆包Seed 2.0 Mini实测：轻量级AI模型如何实现成本效益与性能平衡？

视觉压缩革命：VIST框架如何让大语言模型像人类一样高效阅读长文本

昇腾硬件赋能：openPangu-Ultra-MoE-718B-V1.1推理体系的技术突破与产业影响

像开发软件一样造世界，Agent2World来了，把世界模型做成可运行的符号环境

Voyager：基于HLS的端到端DNN加速器设计框架，实现56%面积优化与61%延迟降低