谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

谷歌近期开源的全新模型 Gemma 4,为行业带来了显著影响。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

该模型采用了与 Gemini 3 同源的技术架构,支持原生全模态处理,并在 Arena AI 排行榜上位列全球第三。其提供了多个型号,其中较小的 E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)版本可直接部署于手机端本地运行,并具备 128K 的上下文窗口,堪称“口袋中的 Gemini 替代方案”。

模型发布后,迅速吸引了大量手机端用户的关注与尝试。

一位 X 平台用户的帖子获得了数十万次浏览。其发布的视频展示了在 iPhone 上本地运行 Gemma 4 的过程,包括处理图像、音频以及控制手电筒开关。该用户表示,Gemma 4 的运行速度极快,体验近乎“魔法”。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

有用户在 iPhone 17 Pro 上进行了量化测试,指出在采用苹果芯片并配合专为苹果芯片优化的 MLX 机器学习框架时,模型的推理速度可超过每秒 40 个 token。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

另有用户在三星 Galaxy 手机上也实现了相近的运行速度,即便在开启“思考模式”后依然表现流畅,被形容为“快得不真实”。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

这样的性能使得在手机端本地运行 AI 模型成为一个未来可期的选项,尤其在医疗等对数据隐私敏感的领域具有应用潜力。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

同时,128K 的大上下文窗口也显著增强了这些轻量级模型的实用性。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

对于运行方式,谷歌提供了简便的官方途径。用户可通过官方应用 Google AI Edge Gallery 下载并运行所需的模型版本,操作门槛较低。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

由于是谷歌官方发布,其安全性也相对更有保障。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

除了手机端的小模型,也有开发者在更强硬件上测试了更大的 Gemma 4 版本,例如在配备 M5 Pro 芯片的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B 模型。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

在直接对话、文本生成和代码解释等任务中,该模型响应迅速,运行流畅。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

然而,当尝试将其作为编程智能体(coding agent)使用时,问题开始显现。由于智能体任务需要大上下文(该版本支持 256K)、复杂提示词和稳定的工具调用能力,Gemma 4 在此类场景下表现不佳,时常出现卡顿、报错或输出结构混乱的情况。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

转折点出现在开发者将模型切换为 qwen3-coder 后。在相同环境下,后者能正常执行文件创建、命令运行和多步骤任务。这表明问题可能不在于智能体框架,而在于模型本身是否针对“工具调用与结构化输出”进行过优化。Gemma 4 在这方面可能尚有不足,或者开发者尚未找到其最佳使用方法。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

此外,也有观点认为 Gemma 4 在核心智力水平上仍存在提升空间。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

尽管如此,Gemma 4 这类“性能小钢炮”的出现不容忽视。如果未来大量日常查询、对话、简单推理、代码生成和图像理解任务都能在本地设备完成,无需购买云端 token,这将对依赖 API 订阅收费的商业模式构成挑战。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度
谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度
谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

当然,现状尚未如此严峻。目前开源模型与前沿闭源旗舰模型之间仍有差距,且多数性能强大的开源模型仍受限于硬件算力,难以在终端侧达到理想可用级别。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

但趋势是明确的。短期来看,云端闭源模型在复杂推理和大规模多智能体协作等前沿领域仍保持领先;长期而言,随着硬件进步和量化技术优化,终端侧模型将逐步接管云端的高频简单任务。

仅依靠出售 token 或 API 订阅的厂商,将被迫更聚焦于攻克“真正困难”的领域——例如超强智能体、超长可靠上下文,以及依赖海量实时数据的专业能力。

Gemma 4 只是一个开端。下一个惊喜,或许将是某款终端侧模型在日常使用中让用户完全感知不到“本地”与“云端”的差异。当那一天到来时,整个 AI 产业的商业模式将面临一次深刻的变革。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28747

(0)
上一篇 2026年4月7日 上午8:32
下一篇 2026年4月7日 上午8:34

相关推荐

  • SimKO算法突破RLVR探索困境:实现大模型推理中探索与利用的平衡

    在DeepSeek-R1、Kimi1.5等模型相继展示强化学习对大型语言模型复杂推理能力的显著提升后,可验证强化学习(RLVR)在数学、逻辑与编程等领域的应用已成为研究热点。然而,现有RLVR方法在提升模型pass@1性能的同时,却导致pass@K(K>1)性能下降,这一矛盾现象揭示了当前强化学习范式的根本缺陷。 **RLVR的探索困境:概率分布的过度…

    2025年11月8日
    26400
  • 突破硬件限制:ONNX Runtime GenAI实现LLM本地CPU推理新范式

    有时小模型就足够了,而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由:有时你就是没有 GPU;或者你希望数据留在本地;又或者你只是想保持架构简单。 这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型:有 GPU 就用 GPU,没有就跑 CPU,而且无需改一行代码。本文将展示它如何工作。所有示…

    2026年2月7日
    47800
  • 国产算力新突破:摩尔线程S5000以1000 TFLOPS算力与Day0适配GLM-5,硬撼H100逼近Blackwell

    在国产AI算力领域,硬件性能是基础,而软硬协同的生态适配能力才是决定胜负的关键。随着智谱AI发布最新一代旗舰模型GLM-5,这款在编码能力上位居全球开源第一、总榜第四的模型迅速引发行业关注。 与此同时,摩尔线程宣布其AI旗舰计算卡MTT S5000实现了对GLM-5的Day0“发布即适配”,并首次披露了关键性能参数:在FP8精度下,单卡AI算力高达1000 …

    2026年2月13日
    40900
  • 极简主义编程助手pi-mono:仅凭四个核心工具击败竞品,揭秘OpenClaw背后的技术架构

    最近,一个名为 openClaw 的 Agent 框架项目在 Terminal-Bench 基准测试中表现出色,击败了众多功能丰富的竞品。其背后的核心是开发者 Zechner Mario Zechner 的理念:厌倦了 Claude Code 这类工具变得像“80%功能都用不上的宇宙飞船”,他决定亲手打造一个极简的 AI 编程助手。他的原则很简单:如果不需要…

    2026年2月21日
    1.7K00
  • OpenAI研究员揭秘:无博士学位如何通过公开研究进入顶尖AI实验室

    如果没有博士学位,是否就与前沿AI研究无缘? 至少在Noam Brown看来,答案是否定的。 这位OpenAI研究员、o1模型的核心贡献者,近期分享了一系列“非典型研究员”的职业路径。 他们中,有人没有发表过论文,有人未曾攻读研究生,有人白天在麦肯锡工作,晚上在GitHub上推进研究项目。 也有人习惯于在推特上分享见解,或在开源社区积极提问。 这些人的共同去…

    2026年1月25日
    33000