Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

Google DeepMind 正式发布 Gemma 4,这是一个包含四个型号的多模态开源模型家族。

四款模型分别为:E2B(2.3B 有效参数)、E4B(4.5B 有效参数)、31B(密集模型)以及 26B A4B(MoE 架构,4B 激活参数)。其中,31B 和 26B A4B 均支持 256K 上下文窗口,并可在单张 H100 GPU 上运行。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

从架构上看,Gemma 4(31B)与 Gemma 3(27B)相比变化不大。它延续了独特的 Pre-norm 与 Post-norm 混合设置,以及 5:1 的混合注意力机制(5 层滑动窗口局部注意力 + 1 层全局注意力)。注意力机制仍为经典的分组查询注意力(GQA)。词汇表大小保持在 262K,而上下文长度则从 128K 提升至 256K。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

本次发布的主要技术亮点包括:

  • 256K 上下文窗口:这是目前开源模型中最大的上下文窗口之一。它允许用户一次性输入整个代码仓库或超长文档,使本地运行的模型能够进行真正的代码分析与长文档处理,而非仅处理片段。
  • 原生多模态能力:视觉与音频处理成为标准配置,E2B 和 E4B 小模型甚至支持本地音频处理。这为设备端进行 OCR、图表理解或语音交互等场景提供了实用支持。
  • 原生工具调用:模型支持函数调用、结构化 JSON 输出和原生系统指令。这标志着其具备了真正的智能体能力,不仅能进行对话,还能操作工具与调用 API。

这是 Gemma 系列首次实现真正意义上的多模态,支持文本、图像、视频处理,小模型(E2B、E4B)还额外支持音频。

尽管模型参数量看似不大,但其实际性能表现突出。31B 版本在 Arena 排行榜上已位列全球开源模型第三,26B MoE 版本排名第六。更值得注意的是,这些“小”模型在某些任务上的表现可以超越参数量大 20 倍的竞争对手。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

在 GPQA Diamond 科学推理基准测试中,Gemma 4 31B 取得了 85.7% 的得分,仅比 Qwen3.5 27B 低 0.1 个百分点。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

有趣的是,Gemma 4 仅使用了约 120 万输出 token 就达到了这一性能,而 Qwen 则使用了 150 万,显示出更高的训练效率。

Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

硬件适配方面较为扎实。31B 模型的 bfloat16 权重可放入单张 80GB H100 GPU,量化版本也能在消费级 GPU 上运行。E2B 和 E4B 经过专门优化,据 Google 称已可在 Pixel 手机和 Jetson 设备上离线运行,且延迟极低,为端侧应用提供了更优选择。

生态支持迅速跟进。Transformers、llama.cpp、MLX、transformers.js、Mistral.rs 等主流框架均已第一时间支持 Gemma 4。Hugging Face 的 TRL 也已更新,专门适配了 Gemma 4 的多模态工具调用功能。通过 vLLM,用户可用一条 Docker 命令快速启动服务:

bash
docker run --gpus all
-v ~/.cache/huggingface:/root/.cache/huggingface
--env "HF_TOKEN=$HF_TOKEN"
-p 8000:8000
--ipc=host
vllm/vllm-openai:gemma4
--model google/gemma-4-31B-it

此次发布的另一个重要变化是许可证采用了限制更少的 Apache 2.0,这意味着企业可以更放心地将其用于商业用途。

模型权重现已上传至 Hugging Face。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28458

(0)
上一篇 2026年4月3日 上午11:39
下一篇 2026年4月3日 下午12:38

相关推荐

  • 2026年AI算力产业链全景解析:从芯片到冷却的万亿级市场机遇

    2026年算力景气度持续上行。 微软、谷歌、Meta、亚马逊等海外大厂对2026年资本开支指引乐观,我们预计2025年、2026年四家大厂资本开支总和分别为4065、5964亿美元,分别同比+46%、47%,且用于投资AI算力及基础设施的比例有望持续提升。 目前,海外大厂仍以采购英伟达AI芯片为主,2026年AMD、海外大厂自研芯片有望快速放量。 互联侧:光…

    2026年1月22日
    94300
  • 机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

    都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。 具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。 过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端…

    2026年3月21日
    34300
  • ICLR 2026评审危机:投稿量激增与质量滑坡背后的学术生态反思

    国际表征学习大会(ICLR)2026年的评审结果近日公布,数据显示投稿量从2025年的11672篇暴增至19631篇,创下历史新高。然而,与数量增长形成鲜明对比的是论文质量的显著下滑:平均分从5.12跌至4.20,最高分也从10分降至8.5分。这一现象引发了学术界对当前AI研究生态的广泛关注与深刻反思。 从统计层面看,ICLR 2026的评分分布呈现出明显的…

    2025年11月13日
    31300
  • 具身智能新突破:开普勒发布原生全感知力触数采系统,破解数据采集瓶颈

    编辑|杜伟 本月,具身智能领域迎来重要进展:硅谷独角兽公司 Generalist AI 发布了新一代基础模型 GEN-1。该模型在执行机器人包装手机、折叠纸箱等任务时,平均成功率提升至创纪录的 99%,其中折叠纸箱的速度更是提升至原先的三倍(从 34 秒缩短至 12.1 秒)。 支撑这一突破的,除了模型架构的重新设计,还有一套规模庞大的数据底座——超过 50…

    2026年4月13日
    25600
  • 告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

    作者介绍* 刘梦源:北京大学深圳研究生院研究员,研究方向为人类行为理解与机器人技能学习。* 盛举义:北京大学在读博士研究生,研究方向为机器人操作技能学习方法。* 王梓懿、李培铭:北京大学在读硕士研究生,研究方向为视频理解分析。* 徐天铭:北京大学在读硕士研究生,研究方向为机器人操作技能学习方法。* 徐天添:中国科学院深圳先进技术研究院集成所研究员,研究领域为…

    2026年1月31日
    27900