Gemma 4震撼发布：256K上下文、原生多模态、Apache 2.0许可，开源模型新标杆

2026年4月3日上午11:43 • AI产业动态 • 阅读 1173

Google DeepMind 正式发布 Gemma 4，这是一个包含四个型号的多模态开源模型家族。

四款模型分别为：E2B（2.3B 有效参数）、E4B（4.5B 有效参数）、31B（密集模型）以及 26B A4B（MoE 架构，4B 激活参数）。其中，31B 和 26B A4B 均支持 256K 上下文窗口，并可在单张 H100 GPU 上运行。

Gemma 4震撼发布：256K上下文、原生多模态、Apache 2.0许可，开源模型新标杆

从架构上看，Gemma 4（31B）与 Gemma 3（27B）相比变化不大。它延续了独特的 Pre-norm 与 Post-norm 混合设置，以及 5:1 的混合注意力机制（5 层滑动窗口局部注意力 + 1 层全局注意力）。注意力机制仍为经典的分组查询注意力（GQA）。词汇表大小保持在 262K，而上下文长度则从 128K 提升至 256K。

Gemma 4震撼发布：256K上下文、原生多模态、Apache 2.0许可，开源模型新标杆

本次发布的主要技术亮点包括：

256K 上下文窗口：这是目前开源模型中最大的上下文窗口之一。它允许用户一次性输入整个代码仓库或超长文档，使本地运行的模型能够进行真正的代码分析与长文档处理，而非仅处理片段。
原生多模态能力：视觉与音频处理成为标准配置，E2B 和 E4B 小模型甚至支持本地音频处理。这为设备端进行 OCR、图表理解或语音交互等场景提供了实用支持。
原生工具调用：模型支持函数调用、结构化 JSON 输出和原生系统指令。这标志着其具备了真正的智能体能力，不仅能进行对话，还能操作工具与调用 API。

这是 Gemma 系列首次实现真正意义上的多模态，支持文本、图像、视频处理，小模型（E2B、E4B）还额外支持音频。

尽管模型参数量看似不大，但其实际性能表现突出。31B 版本在 Arena 排行榜上已位列全球开源模型第三，26B MoE 版本排名第六。更值得注意的是，这些“小”模型在某些任务上的表现可以超越参数量大 20 倍的竞争对手。

Gemma 4震撼发布：256K上下文、原生多模态、Apache 2.0许可，开源模型新标杆

在 GPQA Diamond 科学推理基准测试中，Gemma 4 31B 取得了 85.7% 的得分，仅比 Qwen3.5 27B 低 0.1 个百分点。

Gemma 4震撼发布：256K上下文、原生多模态、Apache 2.0许可，开源模型新标杆

有趣的是，Gemma 4 仅使用了约 120 万输出 token 就达到了这一性能，而 Qwen 则使用了 150 万，显示出更高的训练效率。

Gemma 4震撼发布：256K上下文、原生多模态、Apache 2.0许可，开源模型新标杆

硬件适配方面较为扎实。31B 模型的 bfloat16 权重可放入单张 80GB H100 GPU，量化版本也能在消费级 GPU 上运行。E2B 和 E4B 经过专门优化，据 Google 称已可在 Pixel 手机和 Jetson 设备上离线运行，且延迟极低，为端侧应用提供了更优选择。

生态支持迅速跟进。Transformers、llama.cpp、MLX、transformers.js、Mistral.rs 等主流框架均已第一时间支持 Gemma 4。Hugging Face 的 TRL 也已更新，专门适配了 Gemma 4 的多模态工具调用功能。通过 vLLM，用户可用一条 Docker 命令快速启动服务：

bash docker run --gpus all -v ~/.cache/huggingface:/root/.cache/huggingface --env "HF_TOKEN=$HF_TOKEN" -p 8000:8000 --ipc=host vllm/vllm-openai:gemma4 --model google/gemma-4-31B-it

此次发布的另一个重要变化是许可证采用了限制更少的 Apache 2.0，这意味着企业可以更放心地将其用于商业用途。

模型权重现已上传至 Hugging Face。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/28458

AI工具调用 Gemma 4 多模态AI 大模型推理开源模型

赞 (0)

0 0

SkipOPU：突破动态推理瓶颈，FPGA加速大语言模型效率革命

上一篇 2026年4月3日上午11:39

openJiuwen获国际媒体关注：打造AgentOS，破解AI智能体规模化落地难题

下一篇 2026年4月3日下午12:38

AI产业动态

华为战略投资极佳视界：世界模型如何重塑自动驾驶与具身智能的数据范式

近日，华为哈勃与华控基金联合完成对物理AI公司极佳视界的亿元级A1轮投资，这是该公司两个月内连续完成的第三轮融资。这一动作不仅标志着华为在自动驾驶和具身智能领域的战略深化，更揭示了世界模型作为下一代AI基础设施的核心价值。极佳视界成立于2023年，是国内首家以“世界模型”为核心定位的纯血物理AI公司。在短短两年内，该公司已构建覆盖自动驾驶世界模型、具身基础…

2025年11月12日
585000
AI产业动态

AI大模型周报：阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

11月17日【闭源｜语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计，支持最长12小时的录音文件。 11月18日【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

2025年11月24日
391000
AI产业动态

谷歌Gemini 3.1 Flash-Lite震撼发布：性价比之王，每百万token仅0.25美元

谷歌发布Gemini 3.1 Flash-Lite：主打轻量高速与极致性价比谷歌近日正式推出 Gemini 3.1 Flash-Lite 模型。从命名可知，该模型主打轻量化与高速度。官方将其定位为迄今为止 Gemini 3系列中性价比最高的模型。其定价极具竞争力：每百万输入token仅需0.25美元，每百万输出token为1.5美元。作为参考，仅需约1…

2026年3月4日
432000
AI产业动态

H-1B签证危机：社交媒体审查新政引发科技巨头员工滞留风险

谷歌、苹果两大科技巨头近期接连向内部员工发出紧急警告：持有H-1B签证的员工应谨慎考虑在此时离境，否则重返美国可能面临长达数月甚至一年的延误。根据一份独家报道的内部备忘录，两家公司的律师事务所均强烈建议，需要重新办理签证盖章才能返回美国的员工，暂缓国际旅行计划，以避免滞留海外的风险。延误根源：审查新政与预约积压此次延误的主要根源，是美国国务院自12月1…

2025年12月21日
373000
AI产业动态

阿里开源Zvec：向量数据库迎来轻量级革命，AI应用开发进入新纪元

阿里开源了向量数据库 Zvec。对于不熟悉向量数据库的读者，简单来说，它专门用于存储和检索向量数据，常见于相似性搜索、推荐系统、AI应用等场景。和传统需要独立部署的向量数据库不同，Zvec 直接运行在应用程序进程内部。这意味着不需要额外服务器，没有配置负担，也省去了基础设施成本。 Zvec 基于阿里巴巴内部长期使用的 Proxima 向量搜索引擎构建。官…

2026年2月23日
1.1K000