谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2,这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前,该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。

统一的多模态嵌入空间
与此前仅支持文本向量化的嵌入模型不同,Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多种数据类型映射到同一个统一的嵌入空间,从而支持跨媒体语义理解与检索。这一能力意味着开发者可以在同一向量数据库中处理不同类型的数据,并基于语义相似度实现跨模态搜索、分类与聚类。
从应用层面来看,统一嵌入空间可以显著简化多模态 AI 系统的架构。以往,如果企业希望构建支持文本与图像检索的系统,通常需要分别使用不同模型生成向量,再通过额外的对齐或映射机制进行整合。而 Gemini Embedding 2 将不同模态的语义直接投射到同一向量空间,使得检索增强生成(RAG)、语义搜索、情感分析、推荐系统以及数据聚类等任务能够在统一框架下完成。
多模态处理能力规格
在能力规格上,Gemini Embedding 2 延续了 Gemini 系列模型的多模态处理优势,并对不同输入类型提供了明确的支持范围:
- 文本:支持最多 8192 个输入标记的扩展上下文。
- 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式。
- 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频。
- 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。
- 文档:直接嵌入最多 6 页的 PDF 文件。
除了单模态处理能力之外,Gemini Embedding 2 还原生支持交错输入。开发者可以在同一个请求中同时传入多种模态,例如“图片 + 文本描述”或“视频 + 文本提示”。模型会在生成向量表示时综合不同媒体之间的关系,从而捕捉更复杂的语义结构。例如,在电商或媒体分析场景中,系统可以同时理解商品图片与描述文本之间的关联。
向量表示与压缩技术
在向量表示层面,Gemini Embedding 2 采用了 Matryoshka Representation Learning 技术。这种表示学习方法通过“嵌套”信息结构,使模型能够在保持语义质量的前提下动态压缩向量维度。
默认情况下,模型输出 3072 维向量,但开发者可以根据需求缩减维度,以降低存储与检索成本。官方建议在 3072、1536 或 768 维三个级别之间进行选择,以在性能与资源消耗之间取得平衡。
基准测试表现领先
谷歌表示,Gemini Embedding 2 在多项基准测试中树立了新的性能标杆。
在 Text–Text 的语义匹配任务中,Gemini Embedding 2 表现优于其他模型。在 MTEB 多语言基准测试中:
* Gemini Embedding 2:69.9
* Gemini-embedding-001:68.4
* Amazon Nova 2:63.8
* Voyage 3.5:58.5
在 代码语义理解 任务上,同样具有优势:
* Gemini Embedding 2:84.0
* Gemini-embedding-001:76.0
在 Text–Image 与 Image–Text 任务上,Gemini Embedding 2 在主流数据集上几乎全面领先。在文本到图像检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:89.6
* Amazon Nova 2:76.0
* Voyage 3.5:79.4
* multimodalembedding@001:74.0
在图像到文本检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:97.4
* Google multimodalembedding@001:88.1
* Amazon Nova 2:88.9
* Voyage 3.5:88.6

早期合作伙伴评价
谷歌强调,嵌入技术是许多谷歌产品体验的核心驱动力。一些早期合作伙伴已经在使用 Gemini Embedding 2 来解锁高价值的多模态应用。
Everlaw 公司 CTO Max Christoff 表示:“在诉讼取证这一高技术要求的环节中,寻找核心信息是一项巨大的挑战。我们选择 Gemini 嵌入技术,正是因为其卓越表现。最新的测试结果显示,Gemini 的多模态嵌入模型在处理数百万条记录时,显著提升了搜索的准确率与召回率,并成功解锁了针对图像和视频文件的强大搜索功能。”

Sparkonomy 联合创始人 Guneet Singh 表示:“Gemini Embedding 2 为我们‘创作者经济平等引擎’奠定了坚实基础。得益于其原生的多模态能力,我们通过省去大模型推理环节,将延迟大幅降低了 70%;同时,文本-图像及文本-视频对的语义相似度得分从 0.4 提升至 0.8,实现了近乎翻倍的飞跃。这为我们独有的‘创作者基因组’提供了强大动力,使其能够以前所未有的精度,对数百万分钟的视频以及海量图像和文本进行索引。”

开发者社区反响
在多模态大模型竞争激烈的背景下,谷歌新一代嵌入模型的发布在开发者社区引发了广泛讨论。
有评论指出,新模型统一嵌入空间的意义深远,能够极大简化工程架构。以往需要复杂团队维护的整套数据处理流程,现在可能被一个简单的 API 调用所替代,这不仅是技术的进步,也显著提升了工程效率。

长期以来,AI 在处理不同模态数据时,往往如同身处互不相通的“孤岛”。新模型对交错输入(Interleaved Input)的支持,被认为是关键的突破点。其主要优势体现在:
- 全场景融合:用户可以将图像、长篇音频、PDF 文档等多种异构数据直接输入模型进行处理。
- 跨模态深度理解:模型不仅限于提取关键词,更能理解内容的语气、氛围与内在逻辑。
这种全局理解能力,标志着 AI 从“分类机器”向“语境大师”的演进。

如果说架构的简化与功能的增强是“面子”,那么早期合作伙伴的实测数据则提供了扎实的“里子”。Everlaw 和 Sparkonomy 等早期接入者的反馈,在业内引起了广泛关注。
从现有数据来看,此次发布并非一次常规的迭代,而是为 多模态 RAG(检索增强生成) 树立了新的行业基准。

参考链接:
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
- https://x.com/search?q=gemini%20embedding%202&src=typed_query
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25257
