Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

Google DeepMind 正式发布 Gemma 4,这是一个包含四个型号的多模态开源模型家族。

四款模型分别为:E2B(2.3B 有效参数)、E4B(4.5B 有效参数)、31B(密集模型)以及 26B A4B(MoE 架构,4B 激活参数)。其中,31B 和 26B A4B 均支持 256K 上下文窗口,并可在单张 H100 GPU 上运行。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

从架构上看,Gemma 4(31B)与 Gemma 3(27B)相比变化不大。它延续了独特的 Pre-norm 与 Post-norm 混合设置,以及 5:1 的混合注意力机制(5 层滑动窗口局部注意力 + 1 层全局注意力)。注意力机制仍为经典的分组查询注意力(GQA)。词汇表大小保持在 262K,而上下文长度则从 128K 提升至 256K。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

本次发布的主要技术亮点包括:

  • 256K 上下文窗口:这是目前开源模型中最大的上下文窗口之一。它允许用户一次性输入整个代码仓库或超长文档,使本地运行的模型能够进行真正的代码分析与长文档处理,而非仅处理片段。
  • 原生多模态能力:视觉与音频处理成为标准配置,E2B 和 E4B 小模型甚至支持本地音频处理。这为设备端进行 OCR、图表理解或语音交互等场景提供了实用支持。
  • 原生工具调用:模型支持函数调用、结构化 JSON 输出和原生系统指令。这标志着其具备了真正的智能体能力,不仅能进行对话,还能操作工具与调用 API。

这是 Gemma 系列首次实现真正意义上的多模态,支持文本、图像、视频处理,小模型(E2B、E4B)还额外支持音频。

尽管模型参数量看似不大,但其实际性能表现突出。31B 版本在 Arena 排行榜上已位列全球开源模型第三,26B MoE 版本排名第六。更值得注意的是,这些“小”模型在某些任务上的表现可以超越参数量大 20 倍的竞争对手。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

在 GPQA Diamond 科学推理基准测试中,Gemma 4 31B 取得了 85.7% 的得分,仅比 Qwen3.5 27B 低 0.1 个百分点。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

有趣的是,Gemma 4 仅使用了约 120 万输出 token 就达到了这一性能,而 Qwen 则使用了 150 万,显示出更高的训练效率。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

硬件适配方面较为扎实。31B 模型的 bfloat16 权重可放入单张 80GB H100 GPU,量化版本也能在消费级 GPU 上运行。E2B 和 E4B 经过专门优化,据 Google 称已可在 Pixel 手机和 Jetson 设备上离线运行,且延迟极低,为端侧应用提供了更优选择。

生态支持迅速跟进。Transformers、llama.cpp、MLX、transformers.js、Mistral.rs 等主流框架均已第一时间支持 Gemma 4。Hugging Face 的 TRL 也已更新,专门适配了 Gemma 4 的多模态工具调用功能。通过 vLLM,用户可用一条 Docker 命令快速启动服务:

bash
docker run --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
--env "HF_TOKEN=$HF_TOKEN"
-p 8000:8000
--ipc=host
vllm/vllm-openai:gemma4
--model google/gemma-4-31B-it

此次发布的另一个重要变化是许可证采用了限制更少的 Apache 2.0,这意味着企业可以更放心地将其用于商业用途。

模型权重现已上传至 Hugging Face。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28458

(0)
上一篇 2026年4月3日 上午11:39
下一篇 2026年4月3日 下午12:38

相关推荐

  • 华为战略投资极佳视界:世界模型如何重塑自动驾驶与具身智能的数据范式

    近日,华为哈勃与华控基金联合完成对物理AI公司极佳视界的亿元级A1轮投资,这是该公司两个月内连续完成的第三轮融资。这一动作不仅标志着华为在自动驾驶和具身智能领域的战略深化,更揭示了世界模型作为下一代AI基础设施的核心价值。 极佳视界成立于2023年,是国内首家以“世界模型”为核心定位的纯血物理AI公司。在短短两年内,该公司已构建覆盖自动驾驶世界模型、具身基础…

    2025年11月12日
    58500
  • AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

    11月17日 【闭源|语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。 11月18日 【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

    2025年11月24日
    39100
  • 谷歌Gemini 3.1 Flash-Lite震撼发布:性价比之王,每百万token仅0.25美元

    谷歌发布Gemini 3.1 Flash-Lite:主打轻量高速与极致性价比 谷歌近日正式推出 Gemini 3.1 Flash-Lite 模型。从命名可知,该模型主打轻量化与高速度。官方将其定位为迄今为止 Gemini 3系列中性价比最高 的模型。 其定价极具竞争力:每百万输入token仅需0.25美元,每百万输出token为1.5美元。作为参考,仅需约1…

    2026年3月4日
    43200
  • H-1B签证危机:社交媒体审查新政引发科技巨头员工滞留风险

    谷歌、苹果两大科技巨头近期接连向内部员工发出紧急警告:持有H-1B签证的员工应谨慎考虑在此时离境,否则重返美国可能面临长达数月甚至一年的延误。 根据一份独家报道的内部备忘录,两家公司的律师事务所均强烈建议,需要重新办理签证盖章才能返回美国的员工,暂缓国际旅行计划,以避免滞留海外的风险。 延误根源:审查新政与预约积压 此次延误的主要根源,是美国国务院自12月1…

    2025年12月21日
    37300
  • 阿里开源Zvec:向量数据库迎来轻量级革命,AI应用开发进入新纪元

    阿里开源了向量数据库 Zvec。 对于不熟悉向量数据库的读者,简单来说,它专门用于存储和检索向量数据,常见于相似性搜索、推荐系统、AI应用等场景。 和传统需要独立部署的向量数据库不同,Zvec 直接运行在应用程序进程内部。这意味着不需要额外服务器,没有配置负担,也省去了基础设施成本。 Zvec 基于阿里巴巴内部长期使用的 Proxima 向量搜索引擎构建。官…

    2026年2月23日
    1.1K00