谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2,这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前,该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

统一的多模态嵌入空间

与此前仅支持文本向量化的嵌入模型不同,Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多种数据类型映射到同一个统一的嵌入空间,从而支持跨媒体语义理解与检索。这一能力意味着开发者可以在同一向量数据库中处理不同类型的数据,并基于语义相似度实现跨模态搜索、分类与聚类。

从应用层面来看,统一嵌入空间可以显著简化多模态 AI 系统的架构。以往,如果企业希望构建支持文本与图像检索的系统,通常需要分别使用不同模型生成向量,再通过额外的对齐或映射机制进行整合。而 Gemini Embedding 2 将不同模态的语义直接投射到同一向量空间,使得检索增强生成(RAG)、语义搜索、情感分析、推荐系统以及数据聚类等任务能够在统一框架下完成。

多模态处理能力规格

在能力规格上,Gemini Embedding 2 延续了 Gemini 系列模型的多模态处理优势,并对不同输入类型提供了明确的支持范围:

  • 文本:支持最多 8192 个输入标记的扩展上下文。
  • 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式。
  • 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频。
  • 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。
  • 文档:直接嵌入最多 6 页的 PDF 文件。

除了单模态处理能力之外,Gemini Embedding 2 还原生支持交错输入。开发者可以在同一个请求中同时传入多种模态,例如“图片 + 文本描述”或“视频 + 文本提示”。模型会在生成向量表示时综合不同媒体之间的关系,从而捕捉更复杂的语义结构。例如,在电商或媒体分析场景中,系统可以同时理解商品图片与描述文本之间的关联。

向量表示与压缩技术

在向量表示层面,Gemini Embedding 2 采用了 Matryoshka Representation Learning 技术。这种表示学习方法通过“嵌套”信息结构,使模型能够在保持语义质量的前提下动态压缩向量维度。

默认情况下,模型输出 3072 维向量,但开发者可以根据需求缩减维度,以降低存储与检索成本。官方建议在 3072、1536 或 768 维三个级别之间进行选择,以在性能与资源消耗之间取得平衡。

基准测试表现领先

谷歌表示,Gemini Embedding 2 在多项基准测试中树立了新的性能标杆。

在 Text–Text 的语义匹配任务中,Gemini Embedding 2 表现优于其他模型。在 MTEB 多语言基准测试中:
* Gemini Embedding 2:69.9
* Gemini-embedding-001:68.4
* Amazon Nova 2:63.8
* Voyage 3.5:58.5

代码语义理解 任务上,同样具有优势:
* Gemini Embedding 2:84.0
* Gemini-embedding-001:76.0

在 Text–Image 与 Image–Text 任务上,Gemini Embedding 2 在主流数据集上几乎全面领先。在文本到图像检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:89.6
* Amazon Nova 2:76.0
* Voyage 3.5:79.4
* multimodalembedding@001:74.0

在图像到文本检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:97.4
* Google multimodalembedding@001:88.1
* Amazon Nova 2:88.9
* Voyage 3.5:88.6

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

早期合作伙伴评价

谷歌强调,嵌入技术是许多谷歌产品体验的核心驱动力。一些早期合作伙伴已经在使用 Gemini Embedding 2 来解锁高价值的多模态应用。

Everlaw 公司 CTO Max Christoff 表示:“在诉讼取证这一高技术要求的环节中,寻找核心信息是一项巨大的挑战。我们选择 Gemini 嵌入技术,正是因为其卓越表现。最新的测试结果显示,Gemini 的多模态嵌入模型在处理数百万条记录时,显著提升了搜索的准确率与召回率,并成功解锁了针对图像和视频文件的强大搜索功能。”

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

Sparkonomy 联合创始人 Guneet Singh 表示:“Gemini Embedding 2 为我们‘创作者经济平等引擎’奠定了坚实基础。得益于其原生的多模态能力,我们通过省去大模型推理环节,将延迟大幅降低了 70%;同时,文本-图像及文本-视频对的语义相似度得分从 0.4 提升至 0.8,实现了近乎翻倍的飞跃。这为我们独有的‘创作者基因组’提供了强大动力,使其能够以前所未有的精度,对数百万分钟的视频以及海量图像和文本进行索引。”

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

开发者社区反响

在多模态大模型竞争激烈的背景下,谷歌新一代嵌入模型的发布在开发者社区引发了广泛讨论。

有评论指出,新模型统一嵌入空间的意义深远,能够极大简化工程架构。以往需要复杂团队维护的整套数据处理流程,现在可能被一个简单的 API 调用所替代,这不仅是技术的进步,也显著提升了工程效率。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

长期以来,AI 在处理不同模态数据时,往往如同身处互不相通的“孤岛”。新模型对交错输入(Interleaved Input)的支持,被认为是关键的突破点。其主要优势体现在:

  • 全场景融合:用户可以将图像、长篇音频、PDF 文档等多种异构数据直接输入模型进行处理。
  • 跨模态深度理解:模型不仅限于提取关键词,更能理解内容的语气、氛围与内在逻辑。

这种全局理解能力,标志着 AI 从“分类机器”向“语境大师”的演进。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

如果说架构的简化与功能的增强是“面子”,那么早期合作伙伴的实测数据则提供了扎实的“里子”。Everlaw 和 Sparkonomy 等早期接入者的反馈,在业内引起了广泛关注。

从现有数据来看,此次发布并非一次常规的迭代,而是为 多模态 RAG(检索增强生成) 树立了新的行业基准。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

参考链接:

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
  • https://x.com/search?q=gemini%20embedding%202&src=typed_query

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25257

(0)
上一篇 2026年3月11日 上午10:57
下一篇 2026年3月11日 下午1:46

相关推荐

  • Meta闪电收购AI社交平台Moltbook,40天创业神话背后的安全与连接博弈

    Meta闪电收购AI社交平台Moltbook,40天创业神话背后的安全与连接博弈 上线仅40天的AI智能体社交平台Moltbook已被收购,收购方为Facebook的母公司Meta。 此前在收购OpenClaw上未能如愿的扎克伯格,此次迅速出手,将Moltbook及其两位创始人Matt Schlicht和Ben Parr一并收入麾下。具体收购金额未披露,两位…

    2026年3月11日
    52000
  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    55400
  • 2026年IEEE Fellow华人学者全景分析:技术贡献、领域分布与未来影响

    美国电气电子工程师学会(IEEE)近日公布了2026年度Fellow名单,这一全球电气电子工程领域的最高荣誉再次彰显了华人学者在该领域的卓越地位。据统计,本届新晋Fellow中约40%为华人学者,这一比例不仅反映了华人科研力量的崛起,更揭示了全球科技格局的深刻变化。本文将从技术贡献、领域分布、机构表现及未来影响四个维度,对2026年IEEE Fellow华人…

    2025年12月5日
    35600
  • 从手工特征到端到端学习:Faster R-CNN如何重塑计算机视觉的十年征程

    在NeurIPS 2025会议上,《Faster R-CNN》论文荣获“时间检验奖”,这不仅是学术界的认可,更是对计算机视觉领域过去十年发展轨迹的深刻总结。何恺明在题为《视觉目标检测简史》的演讲中,系统梳理了从传统方法到深度学习范式的完整演进历程,揭示了现代AI视觉能力背后的技术革命。 回顾计算机视觉的发展,可以清晰地划分为三个技术时代:手工特征工程时代、深…

    2025年12月11日
    39200
  • SimKO算法突破RLVR探索困境:实现大模型推理中探索与利用的平衡

    在DeepSeek-R1、Kimi1.5等模型相继展示强化学习对大型语言模型复杂推理能力的显著提升后,可验证强化学习(RLVR)在数学、逻辑与编程等领域的应用已成为研究热点。然而,现有RLVR方法在提升模型pass@1性能的同时,却导致pass@K(K>1)性能下降,这一矛盾现象揭示了当前强化学习范式的根本缺陷。 **RLVR的探索困境:概率分布的过度…

    2025年11月8日
    34300