谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

谷歌近期开源的全新模型 Gemma 4,为行业带来了显著影响。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

该模型采用了与 Gemini 3 同源的技术架构,支持原生全模态处理,并在 Arena AI 排行榜上位列全球第三。其提供了多个型号,其中较小的 E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)版本可直接部署于手机端本地运行,并具备 128K 的上下文窗口,堪称“口袋中的 Gemini 替代方案”。

模型发布后,迅速吸引了大量手机端用户的关注与尝试。

一位 X 平台用户的帖子获得了数十万次浏览。其发布的视频展示了在 iPhone 上本地运行 Gemma 4 的过程,包括处理图像、音频以及控制手电筒开关。该用户表示,Gemma 4 的运行速度极快,体验近乎“魔法”。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

有用户在 iPhone 17 Pro 上进行了量化测试,指出在采用苹果芯片并配合专为苹果芯片优化的 MLX 机器学习框架时,模型的推理速度可超过每秒 40 个 token。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

另有用户在三星 Galaxy 手机上也实现了相近的运行速度,即便在开启“思考模式”后依然表现流畅,被形容为“快得不真实”。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

这样的性能使得在手机端本地运行 AI 模型成为一个未来可期的选项,尤其在医疗等对数据隐私敏感的领域具有应用潜力。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

同时,128K 的大上下文窗口也显著增强了这些轻量级模型的实用性。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

对于运行方式,谷歌提供了简便的官方途径。用户可通过官方应用 Google AI Edge Gallery 下载并运行所需的模型版本,操作门槛较低。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

由于是谷歌官方发布,其安全性也相对更有保障。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

除了手机端的小模型,也有开发者在更强硬件上测试了更大的 Gemma 4 版本,例如在配备 M5 Pro 芯片的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B 模型。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

在直接对话、文本生成和代码解释等任务中,该模型响应迅速,运行流畅。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

然而,当尝试将其作为编程智能体(coding agent)使用时,问题开始显现。由于智能体任务需要大上下文(该版本支持 256K)、复杂提示词和稳定的工具调用能力,Gemma 4 在此类场景下表现不佳,时常出现卡顿、报错或输出结构混乱的情况。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

转折点出现在开发者将模型切换为 qwen3-coder 后。在相同环境下,后者能正常执行文件创建、命令运行和多步骤任务。这表明问题可能不在于智能体框架,而在于模型本身是否针对“工具调用与结构化输出”进行过优化。Gemma 4 在这方面可能尚有不足,或者开发者尚未找到其最佳使用方法。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

此外,也有观点认为 Gemma 4 在核心智力水平上仍存在提升空间。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

尽管如此,Gemma 4 这类“性能小钢炮”的出现不容忽视。如果未来大量日常查询、对话、简单推理、代码生成和图像理解任务都能在本地设备完成,无需购买云端 token,这将对依赖 API 订阅收费的商业模式构成挑战。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度
谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度
谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

当然,现状尚未如此严峻。目前开源模型与前沿闭源旗舰模型之间仍有差距,且多数性能强大的开源模型仍受限于硬件算力,难以在终端侧达到理想可用级别。

谷歌Gemma 4引爆手机AI革命:口袋里的Gemini平替,40 token/秒的魔法速度

但趋势是明确的。短期来看,云端闭源模型在复杂推理和大规模多智能体协作等前沿领域仍保持领先;长期而言,随着硬件进步和量化技术优化,终端侧模型将逐步接管云端的高频简单任务。

仅依靠出售 token 或 API 订阅的厂商,将被迫更聚焦于攻克“真正困难”的领域——例如超强智能体、超长可靠上下文,以及依赖海量实时数据的专业能力。

Gemma 4 只是一个开端。下一个惊喜,或许将是某款终端侧模型在日常使用中让用户完全感知不到“本地”与“云端”的差异。当那一天到来时,整个 AI 产业的商业模式将面临一次深刻的变革。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28747

(0)
上一篇 10小时前
下一篇 10小时前

相关推荐

  • 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,多项基准测试刷新纪录,重新登顶AI模型王座

    上周,谷歌发布了 Gemini 3 Deep Think 的一次重大更新,以应对当今科学、研究和工程领域的复杂挑战。而就在刚刚,谷歌正式推出支撑这些突破的升级版核心智能:Gemini 3.1 Pro。 参与了 Gemini 3 Deep Think 研究的姚顺宇也发推介绍了这项新突破,并表示:「后续还会有更好的模型源源不断地涌现」。 谷歌表示,基于 Gemi…

    2026年2月20日
    29500
  • 从春晚舞台到全球瞩目:宇树机器人如何通过《武BOT》实现人形机器人集群武术表演的技术突破

    宇树的“赛博功夫”,火到海外了。 当机器人开始显露“真功夫”,春晚的科技叙事变了。过去几年,机器人登上各种大大小小的舞台,更多是承载一种科技符号,它们或是节奏偏慢的舞蹈方阵,或是呆萌可爱的互动玩偶,观众图个新鲜,看个热闹。但2026年马年春晚,宇树科技带着G1与H2人形机器人登场的那一刻,几乎所有人意识到:机器人演示进入下一个阶段了。 跑酷、翻桌、单腿连续空…

    2026年2月18日
    30700
  • 谷歌AI逆袭:从官僚困局到Gemini崛起,创始人回归如何重塑竞争格局

    2022年底ChatGPT的横空出世,无疑在科技行业投下了一颗震撼弹。这场由OpenAI引领的对话式AI革命,不仅重新定义了人机交互的边界,更对长期深耕AI领域的巨头谷歌构成了前所未有的挑战。彼时的谷歌,尽管拥有十余年的技术积累与DeepMind等顶尖团队,却在产品化响应上显得迟缓,甚至被外界贴上了“反应慢”“优势不再”的标签。匆忙推出的Bard未能扭转局势…

    2025年11月25日
    24600
  • 美国AI霸权保卫战:从“创世纪行动”到全球算力联盟的全面布局

    在当今全球科技竞争的格局中,人工智能已成为国家战略的核心战场。美国政府近期的一系列举措,特别是代号为“创世纪行动”的战略部署,标志着AI竞赛已从单纯的技术迭代升级为国家意志主导的全面对抗。这一行动不仅涉及政策调整、法律手段,更延伸到地缘政治、产业重组和能源战略等多个维度,展现出美国在AI领域维护霸权的系统性布局。 “创世纪行动”的核心逻辑在于集中力量突破AI…

    2025年11月21日
    22400
  • 从零实现30篇奠基论文:用NumPy揭秘深度学习核心思想

    在深度学习领域,Ilya Sutskever 曾有一个广为流传的判断:如果真正读懂并理解 30 篇奠基性论文,基本可以掌握人工智能 90% 的核心思想。 这不是指记住公式或复现 benchmark,而是理解模型为什么要这样设计、训练为何能收敛、哪些假设是成立的、哪些只是工程妥协。 问题在于,这 30 篇论文并不“友好”。 大量的数学推导、符号化描述、与现实代…

    2026年2月10日
    15600