Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

Google DeepMind 正式发布 Gemma 4,这是一个包含四个型号的多模态开源模型家族。

四款模型分别为:E2B(2.3B 有效参数)、E4B(4.5B 有效参数)、31B(密集模型)以及 26B A4B(MoE 架构,4B 激活参数)。其中,31B 和 26B A4B 均支持 256K 上下文窗口,并可在单张 H100 GPU 上运行。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

从架构上看,Gemma 4(31B)与 Gemma 3(27B)相比变化不大。它延续了独特的 Pre-norm 与 Post-norm 混合设置,以及 5:1 的混合注意力机制(5 层滑动窗口局部注意力 + 1 层全局注意力)。注意力机制仍为经典的分组查询注意力(GQA)。词汇表大小保持在 262K,而上下文长度则从 128K 提升至 256K。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

本次发布的主要技术亮点包括:

  • 256K 上下文窗口:这是目前开源模型中最大的上下文窗口之一。它允许用户一次性输入整个代码仓库或超长文档,使本地运行的模型能够进行真正的代码分析与长文档处理,而非仅处理片段。
  • 原生多模态能力:视觉与音频处理成为标准配置,E2B 和 E4B 小模型甚至支持本地音频处理。这为设备端进行 OCR、图表理解或语音交互等场景提供了实用支持。
  • 原生工具调用:模型支持函数调用、结构化 JSON 输出和原生系统指令。这标志着其具备了真正的智能体能力,不仅能进行对话,还能操作工具与调用 API。

这是 Gemma 系列首次实现真正意义上的多模态,支持文本、图像、视频处理,小模型(E2B、E4B)还额外支持音频。

尽管模型参数量看似不大,但其实际性能表现突出。31B 版本在 Arena 排行榜上已位列全球开源模型第三,26B MoE 版本排名第六。更值得注意的是,这些“小”模型在某些任务上的表现可以超越参数量大 20 倍的竞争对手。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

在 GPQA Diamond 科学推理基准测试中,Gemma 4 31B 取得了 85.7% 的得分,仅比 Qwen3.5 27B 低 0.1 个百分点。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

有趣的是,Gemma 4 仅使用了约 120 万输出 token 就达到了这一性能,而 Qwen 则使用了 150 万,显示出更高的训练效率。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

硬件适配方面较为扎实。31B 模型的 bfloat16 权重可放入单张 80GB H100 GPU,量化版本也能在消费级 GPU 上运行。E2B 和 E4B 经过专门优化,据 Google 称已可在 Pixel 手机和 Jetson 设备上离线运行,且延迟极低,为端侧应用提供了更优选择。

生态支持迅速跟进。Transformers、llama.cpp、MLX、transformers.js、Mistral.rs 等主流框架均已第一时间支持 Gemma 4。Hugging Face 的 TRL 也已更新,专门适配了 Gemma 4 的多模态工具调用功能。通过 vLLM,用户可用一条 Docker 命令快速启动服务:

bash
docker run --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
--env "HF_TOKEN=$HF_TOKEN"
-p 8000:8000
--ipc=host
vllm/vllm-openai:gemma4
--model google/gemma-4-31B-it

此次发布的另一个重要变化是许可证采用了限制更少的 Apache 2.0,这意味着企业可以更放心地将其用于商业用途。

模型权重现已上传至 Hugging Face。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28458

(0)
上一篇 6小时前
下一篇 5小时前

相关推荐

  • 《赛博徒步·生死鳌太线》生存模拟器深度评测:AI驱动的极限生存挑战与策略博弈

    梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI “不卖烤肠的山,不要爬”。 原本我以为,听完《神秘园》的劝,这辈子大概就和勇闯鳌太 这事儿彻底绝缘了。 直到事情开始朝着一个有点离谱的方向发展—— 昨天半夜,我只是顺手点开了网友发来的一个链接,下一秒,人就已经魂穿赛博鳌太线 ,开始玩命进山了: 在这儿,你压根不用操心预算经费的问题,开局一笔巨款,顶级装备…

    2026年2月1日
    63600
  • AI反派困境:Moral RolePlay基准揭示大模型道德角色扮演的深层局限

    在人类叙事艺术中,复杂角色的塑造始终是衡量作品深度的核心标尺。从莎士比亚笔下的麦克白到《蝙蝠侠》中的小丑,反派角色的心理深度与道德复杂性往往成为故事张力的关键来源。当人工智能开始涉足创意生成领域时,一个根本性问题浮现:这些基于海量人类数据训练的大语言模型,能否真正理解并模拟人类道德光谱中的阴暗面?腾讯混元数字人团队与中山大学联合发布的「Moral RoleP…

    2025年11月22日
    23800
  • 自动驾驶行业效率革命:AI驱动精益生产模式深度解析

    在自动驾驶技术快速迭代的2025年,行业竞争已从单纯的技术突破转向研发效率的全面比拼。L2级辅助驾驶搭载量呈现爆发式增长,Momenta在城市NOA市场保持头部地位,地平线征程芯片量产突破1000万片大关,元戎启行方案量产车辆超过13万辆。与此同时,小鹏和理想等企业开始向L4级自动驾驶迈进。在更前沿的Robotaxi领域,小马智行计划年内落地千台规模车队,文…

    2025年10月31日
    23900
  • 黄仁勋揭秘AI基建狂潮:6600亿美元投入背后,算力翻倍收入或翻四倍的商业逻辑

    上周,英伟达股价创下近一年来的单日最大涨幅,达到7.9%,公司总市值回升至4.5万亿美元。这一强劲表现,与核心客户近期在财报会议上释放的积极信号密切相关。 Meta、亚马逊、谷歌和微软等科技巨头均向投资者表示,计划在2026年大幅增加数据中心和专用芯片的资本支出,合计金额预计高达6600亿美元。这一数字较2025年的4100亿美元和2024年的2450亿美元…

    2026年2月9日
    44500
  • 硅谷辍学创业潮再起:AI时代下学位价值重估与创业窗口期博弈

    在 80、90 后的成长记忆中,“辍学创业,成为亿万富翁”的故事一度广为流传。 理性分析可知,这其中既有幸存者偏差,也存在个体差异。比尔·盖茨和马克·扎克伯格都来自哈佛,随时可以返校完成学业;史蒂夫·乔布斯也并未完全脱离校园,而是以旁听生的身份自由选课。 然而,这股风潮近期在硅谷再度兴起。“辍学创业”正成为一个被主动提及、甚至带有褒义色彩的标签。 这一趋势在…

    2026年1月2日
    24700