谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2,这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前,该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

统一的多模态嵌入空间

与此前仅支持文本向量化的嵌入模型不同,Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多种数据类型映射到同一个统一的嵌入空间,从而支持跨媒体语义理解与检索。这一能力意味着开发者可以在同一向量数据库中处理不同类型的数据,并基于语义相似度实现跨模态搜索、分类与聚类。

从应用层面来看,统一嵌入空间可以显著简化多模态 AI 系统的架构。以往,如果企业希望构建支持文本与图像检索的系统,通常需要分别使用不同模型生成向量,再通过额外的对齐或映射机制进行整合。而 Gemini Embedding 2 将不同模态的语义直接投射到同一向量空间,使得检索增强生成(RAG)、语义搜索、情感分析、推荐系统以及数据聚类等任务能够在统一框架下完成。

多模态处理能力规格

在能力规格上,Gemini Embedding 2 延续了 Gemini 系列模型的多模态处理优势,并对不同输入类型提供了明确的支持范围:

  • 文本:支持最多 8192 个输入标记的扩展上下文。
  • 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式。
  • 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频。
  • 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。
  • 文档:直接嵌入最多 6 页的 PDF 文件。

除了单模态处理能力之外,Gemini Embedding 2 还原生支持交错输入。开发者可以在同一个请求中同时传入多种模态,例如“图片 + 文本描述”或“视频 + 文本提示”。模型会在生成向量表示时综合不同媒体之间的关系,从而捕捉更复杂的语义结构。例如,在电商或媒体分析场景中,系统可以同时理解商品图片与描述文本之间的关联。

向量表示与压缩技术

在向量表示层面,Gemini Embedding 2 采用了 Matryoshka Representation Learning 技术。这种表示学习方法通过“嵌套”信息结构,使模型能够在保持语义质量的前提下动态压缩向量维度。

默认情况下,模型输出 3072 维向量,但开发者可以根据需求缩减维度,以降低存储与检索成本。官方建议在 3072、1536 或 768 维三个级别之间进行选择,以在性能与资源消耗之间取得平衡。

基准测试表现领先

谷歌表示,Gemini Embedding 2 在多项基准测试中树立了新的性能标杆。

在 Text–Text 的语义匹配任务中,Gemini Embedding 2 表现优于其他模型。在 MTEB 多语言基准测试中:
* Gemini Embedding 2:69.9
* Gemini-embedding-001:68.4
* Amazon Nova 2:63.8
* Voyage 3.5:58.5

代码语义理解 任务上,同样具有优势:
* Gemini Embedding 2:84.0
* Gemini-embedding-001:76.0

在 Text–Image 与 Image–Text 任务上,Gemini Embedding 2 在主流数据集上几乎全面领先。在文本到图像检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:89.6
* Amazon Nova 2:76.0
* Voyage 3.5:79.4
* multimodalembedding@001:74.0

在图像到文本检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:97.4
* Google multimodalembedding@001:88.1
* Amazon Nova 2:88.9
* Voyage 3.5:88.6

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

早期合作伙伴评价

谷歌强调,嵌入技术是许多谷歌产品体验的核心驱动力。一些早期合作伙伴已经在使用 Gemini Embedding 2 来解锁高价值的多模态应用。

Everlaw 公司 CTO Max Christoff 表示:“在诉讼取证这一高技术要求的环节中,寻找核心信息是一项巨大的挑战。我们选择 Gemini 嵌入技术,正是因为其卓越表现。最新的测试结果显示,Gemini 的多模态嵌入模型在处理数百万条记录时,显著提升了搜索的准确率与召回率,并成功解锁了针对图像和视频文件的强大搜索功能。”

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

Sparkonomy 联合创始人 Guneet Singh 表示:“Gemini Embedding 2 为我们‘创作者经济平等引擎’奠定了坚实基础。得益于其原生的多模态能力,我们通过省去大模型推理环节,将延迟大幅降低了 70%;同时,文本-图像及文本-视频对的语义相似度得分从 0.4 提升至 0.8,实现了近乎翻倍的飞跃。这为我们独有的‘创作者基因组’提供了强大动力,使其能够以前所未有的精度,对数百万分钟的视频以及海量图像和文本进行索引。”

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

开发者社区反响

在多模态大模型竞争激烈的背景下,谷歌新一代嵌入模型的发布在开发者社区引发了广泛讨论。

有评论指出,新模型统一嵌入空间的意义深远,能够极大简化工程架构。以往需要复杂团队维护的整套数据处理流程,现在可能被一个简单的 API 调用所替代,这不仅是技术的进步,也显著提升了工程效率。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

长期以来,AI 在处理不同模态数据时,往往如同身处互不相通的“孤岛”。新模型对交错输入(Interleaved Input)的支持,被认为是关键的突破点。其主要优势体现在:

  • 全场景融合:用户可以将图像、长篇音频、PDF 文档等多种异构数据直接输入模型进行处理。
  • 跨模态深度理解:模型不仅限于提取关键词,更能理解内容的语气、氛围与内在逻辑。

这种全局理解能力,标志着 AI 从“分类机器”向“语境大师”的演进。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

如果说架构的简化与功能的增强是“面子”,那么早期合作伙伴的实测数据则提供了扎实的“里子”。Everlaw 和 Sparkonomy 等早期接入者的反馈,在业内引起了广泛关注。

从现有数据来看,此次发布并非一次常规的迭代,而是为 多模态 RAG(检索增强生成) 树立了新的行业基准。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

参考链接:

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
  • https://x.com/search?q=gemini%20embedding%202&src=typed_query

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25257

(0)
上一篇 13小时前
下一篇 11小时前

相关推荐

  • 非传统路径突围:揭秘无博士论文背景如何凭个人项目杀入OpenAI等AI巨头

    许多人梦想进入像 OpenAI 这样的前沿实验室从事研究工作,然而对于那些缺乏传统学术背景,比如没有发表过论文或知名导师推荐的人来说,这条路似乎格外艰难。 最近,OpenAI 资深研究科学家 Noam Brown 在 X 上分享了几个真实故事,证明了通过个人努力和巧妙策略,即使没有传统学术履历,也能获得机会。 Keller Jordan:从改进他人论文开始 …

    2026年1月25日
    17600
  • Vercel发布skills 1.1.1:打破AI助手技能孤岛,构建跨平台共享新生态

    Vercel 正式发布了命令行工具 skills 的 1.1.1 版本,该工具旨在解决 AI 助手领域一个长期被忽视的问题:为技能的发现与管理建立一套开放标准。 打破技能孤岛 当前,主流的 AI 编程助手(如 Cursor、Claude Code、GitHub Copilot)都拥有各自独立的技能系统,彼此互不兼容。为其中一个助手开发的技能,无法直接应用于其…

    2026年1月28日
    67800
  • MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

    在当今数字时代,用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而,当前主流推荐系统普遍面临着一个严峻挑战:它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求,这些系统往往只能处理用户最近数千条行为数据,而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为,传统基于ID…

    2025年12月16日
    19600
  • 月之暗面Kimi K2 Thinking开源:万亿参数思考智能体如何重塑AI推理与执行边界

    在人工智能领域,模型规模的扩张与架构的创新始终是推动技术进步的双引擎。近日,月之暗面(Moonshot AI)正式开源其全新模型Kimi K2 Thinking,这款自称“思考Agent模型”的发布,不仅在参数规模上达到惊人的1万亿,更在推理能力、工具调用连续性及工程落地优化等方面展现出突破性进展。其核心在于将“思考”机制深度融入模型架构,实现了从被动响应到…

    2025年11月7日
    16600
  • 模块化教学+智能选动作:UC伯克利破解人形机器人全身协同难题

    UC伯克利团队提出人形机器人全身协同新方案 在家庭厨房自主使用洗碗机,或在办公室边移动边擦拭白板,这些对人类而言稀松平常的场景,对人形机器人来说却是需要协调全身数十个关节的“高难度挑战”。 近日,加州大学伯克利分校的研究团队在arXiv上发表了题为《Coordinated Humanoid Manipulation with Choice Policies》…

    2026年1月18日
    17300