谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源

谷歌发布Gemma 4模型家族:31B版本性能超越十倍体量对手,全系列支持多模态并采用Apache 2.0协议

谷歌最新发布的Gemma 4开源模型家族表现强劲。其中,参数量为310亿(31B)的密集模型在性能基准测试中,超越了参数量大10-20倍的对手,例如Qwen3.5-397B和DeepSeek v3.2-671B。

谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源

此次发布的Gemma 4系列共包含四个不同尺寸的模型,均基于与Gemini 3同源的技术构建,并全系列原生支持多模态输入。具体型号包括:E2B、E4B、26B MoE和31B Dense。

最小的E2B模型设计用于手机、树莓派等边缘设备,并能离线运行多模态任务,例如处理语音和视频输入。

谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源

31B模型击败庞大对手,26B MoE模型追求高效推理

该系列模型均以效率为核心设计理念。
* 31B Dense模型:作为密集模型,适合进行下游任务微调。
* 26B MoE模型:采用混合专家架构,在推理时仅激活约38亿参数,在追求速度的同时保持了较高的性能排名。

在硬件需求方面,未量化的bfloat16权重版本可在单张80GB显存的H100 GPU上运行。量化后的版本则能适配消费级GPU进行本地部署。

谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源

根据官方介绍,Gemma 4家族重点增强了六大核心能力:
1. 高级推理:支持多步规划与复杂逻辑,在数学和指令遵循基准测试中表现提升显著。
2. 智能体工作流原生支持:内置函数调用、结构化JSON输出,可直接构建自主代理。
3. 代码生成:支持高质量的离线代码生成。
4. 视觉与音频处理:全系列可原生处理图像和视频,支持可变分辨率;小参数版本还支持原生音频输入。
5. 长上下文支持:端侧模型支持128K上下文,大参数模型最高支持256K上下文。
6. 多语言支持:原生支持140多种语言。

专为端侧设计:手机与树莓派可离线运行多模态

E2B和E4B中的“E”代表高效(Effective),同样采用低激活率的MoE路线。例如,E2B模型总参数量远超20亿,但推理时仅激活其中20亿的部分。

这两款模型专为手机和物联网设备设计,能够原生处理音频和视觉输入,实现完全离线的零延迟交互。谷歌已与Pixel手机、高通、联发科合作,进行了从芯片到设备的全链路优化。

回顾Gemma系列的演进:
* Gemma 1(2024年2月):仅文本模型,含2B和7B尺寸。
* Gemma 2(2024年6月):仅文本模型,含2B、9B和27B尺寸。
* Gemma 3(2025年3月):开始支持多模态,但端侧1B版本能力有限。
* Gemma 4:首次将强大的多模态能力集成至E2B/E4B等端侧小模型中,并支持完整的智能体工作流。

采用Apache 2.0开源协议

Gemma 4全面采用宽松的Apache 2.0开源协议,允许商业使用、修改和分发,且无版税要求。开发者可将其自由部署于公有云、私有服务器或边缘设备。

谷歌DeepMind团队在官方博客中表示,此举是响应开源社区长期以来的呼声。Hugging Face首席执行官对此评论称,这不仅是许可证的变更,更是开源AI社区的一个分水岭事件。

谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源

截至目前,Gemma系列模型的累计下载量已超过4亿次,社区基于其微调的模型变体超过10万个。

开源模型推动科学发现

开源模型的价值不仅在于降低开发成本,更能直接推动前沿研究。例如,耶鲁大学的研究团队利用Gemma作为基座模型,开发了“Cell2Sentence-Scale”项目,将单细胞基因表达数据转化为模型可读的序列,用于发现新的癌症治疗靶点,找到了传统方法可能忽略的路径。

谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源


参考链接
[1] 谷歌官方博客
[2] 相关技术讨论
[3] 社区反馈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28363

(0)
上一篇 2026年4月3日 上午11:24
下一篇 2026年4月3日 上午11:32

相关推荐

  • 三大开源神器:PageLM重塑学习体验,DeepSeek-OCR革新视觉识别,Awesome Web Agents整合AI浏览器生态

    PageLM:NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于,用户只需上传学习资料,它便能生成播客对话、测验题或复习卡片。PageLM 同样如此,它不仅能够提炼资料重点,更能将静态文本转化为互动式的学习资源。 例如,上传一份历史课件后,PageLM 可以自…

    2026年2月6日
    33500
  • 2026年AI算力产业链全景解析:从芯片到冷却的万亿级市场机遇

    2026年算力景气度持续上行。 微软、谷歌、Meta、亚马逊等海外大厂对2026年资本开支指引乐观,我们预计2025年、2026年四家大厂资本开支总和分别为4065、5964亿美元,分别同比+46%、47%,且用于投资AI算力及基础设施的比例有望持续提升。 目前,海外大厂仍以采购英伟达AI芯片为主,2026年AMD、海外大厂自研芯片有望快速放量。 互联侧:光…

    2026年1月22日
    94300
  • 告别重复造轮子:7个Python库彻底解放AI工程师的双手

    我删掉了 350 行封装代码。取而代之的是这些。 “想要流式输出?SSE 我自己解析,有多难?” 难。离谱地难。我花了一个周末写了个能处理 OpenAI 格式的流式解析器,结果 Anthropic 改了他们的格式,我那所谓的“通用”解析器立刻就只通用于一家供应商了。 那一刻我决定不再写自定义 API 封装器。六个月后,伴随着一堆被删掉的代码,就是下面这 7 …

    2026年2月21日
    49800
  • 欧洲AI新锐Mistral AI再发力:Devstral 2代码模型与Vibe CLI工具深度解析

    在人工智能领域竞争日益激烈的背景下,欧洲的Mistral AI近期以惊人的发布频率再次成为行业焦点。继一周前发布Mistral 3系列模型后,该公司又迅速推出了下一代代码模型系列Devstral 2以及原生命令行工具Mistral Vibe CLI。这一系列动作不仅展示了欧洲在AI前沿技术研发上的加速态势,也为全球开发者社区带来了新的技术选择。 Devstr…

    2025年12月10日
    34900
  • Transformer架构深度解析:从“the cat sat on the mat”看大语言模型的内部运作机制

    当我们在聊天界面输入“the cat sat on the mat”并期待大语言模型生成下一个词时,背后实际上是一个由数十亿参数驱动的复杂计算过程。Transformer架构作为现代大语言模型的核心,其内部机制远不止简单的“模式匹配”,而是通过多层神经网络对语言结构进行深度建模。本文将以这个简单句子为例,深入剖析Transformer模型从输入到输出的完整处…

    2025年11月30日
    30500