谷歌发布Gemma 4模型家族:31B版本性能超越十倍体量对手,全系列支持多模态并采用Apache 2.0协议
谷歌最新发布的Gemma 4开源模型家族表现强劲。其中,参数量为310亿(31B)的密集模型在性能基准测试中,超越了参数量大10-20倍的对手,例如Qwen3.5-397B和DeepSeek v3.2-671B。

此次发布的Gemma 4系列共包含四个不同尺寸的模型,均基于与Gemini 3同源的技术构建,并全系列原生支持多模态输入。具体型号包括:E2B、E4B、26B MoE和31B Dense。
最小的E2B模型设计用于手机、树莓派等边缘设备,并能离线运行多模态任务,例如处理语音和视频输入。

31B模型击败庞大对手,26B MoE模型追求高效推理
该系列模型均以效率为核心设计理念。
* 31B Dense模型:作为密集模型,适合进行下游任务微调。
* 26B MoE模型:采用混合专家架构,在推理时仅激活约38亿参数,在追求速度的同时保持了较高的性能排名。
在硬件需求方面,未量化的bfloat16权重版本可在单张80GB显存的H100 GPU上运行。量化后的版本则能适配消费级GPU进行本地部署。

根据官方介绍,Gemma 4家族重点增强了六大核心能力:
1. 高级推理:支持多步规划与复杂逻辑,在数学和指令遵循基准测试中表现提升显著。
2. 智能体工作流原生支持:内置函数调用、结构化JSON输出,可直接构建自主代理。
3. 代码生成:支持高质量的离线代码生成。
4. 视觉与音频处理:全系列可原生处理图像和视频,支持可变分辨率;小参数版本还支持原生音频输入。
5. 长上下文支持:端侧模型支持128K上下文,大参数模型最高支持256K上下文。
6. 多语言支持:原生支持140多种语言。
专为端侧设计:手机与树莓派可离线运行多模态
E2B和E4B中的“E”代表高效(Effective),同样采用低激活率的MoE路线。例如,E2B模型总参数量远超20亿,但推理时仅激活其中20亿的部分。
这两款模型专为手机和物联网设备设计,能够原生处理音频和视觉输入,实现完全离线的零延迟交互。谷歌已与Pixel手机、高通、联发科合作,进行了从芯片到设备的全链路优化。
回顾Gemma系列的演进:
* Gemma 1(2024年2月):仅文本模型,含2B和7B尺寸。
* Gemma 2(2024年6月):仅文本模型,含2B、9B和27B尺寸。
* Gemma 3(2025年3月):开始支持多模态,但端侧1B版本能力有限。
* Gemma 4:首次将强大的多模态能力集成至E2B/E4B等端侧小模型中,并支持完整的智能体工作流。
采用Apache 2.0开源协议
Gemma 4全面采用宽松的Apache 2.0开源协议,允许商业使用、修改和分发,且无版税要求。开发者可将其自由部署于公有云、私有服务器或边缘设备。
谷歌DeepMind团队在官方博客中表示,此举是响应开源社区长期以来的呼声。Hugging Face首席执行官对此评论称,这不仅是许可证的变更,更是开源AI社区的一个分水岭事件。

截至目前,Gemma系列模型的累计下载量已超过4亿次,社区基于其微调的模型变体超过10万个。
开源模型推动科学发现
开源模型的价值不仅在于降低开发成本,更能直接推动前沿研究。例如,耶鲁大学的研究团队利用Gemma作为基座模型,开发了“Cell2Sentence-Scale”项目,将单细胞基因表达数据转化为模型可读的序列,用于发现新的癌症治疗靶点,找到了传统方法可能忽略的路径。

参考链接:
[1] 谷歌官方博客
[2] 相关技术讨论
[3] 社区反馈
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28363


