谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2,这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前,该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

统一的多模态嵌入空间

与此前仅支持文本向量化的嵌入模型不同,Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多种数据类型映射到同一个统一的嵌入空间,从而支持跨媒体语义理解与检索。这一能力意味着开发者可以在同一向量数据库中处理不同类型的数据,并基于语义相似度实现跨模态搜索、分类与聚类。

从应用层面来看,统一嵌入空间可以显著简化多模态 AI 系统的架构。以往,如果企业希望构建支持文本与图像检索的系统,通常需要分别使用不同模型生成向量,再通过额外的对齐或映射机制进行整合。而 Gemini Embedding 2 将不同模态的语义直接投射到同一向量空间,使得检索增强生成(RAG)、语义搜索、情感分析、推荐系统以及数据聚类等任务能够在统一框架下完成。

多模态处理能力规格

在能力规格上,Gemini Embedding 2 延续了 Gemini 系列模型的多模态处理优势,并对不同输入类型提供了明确的支持范围:

  • 文本:支持最多 8192 个输入标记的扩展上下文。
  • 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式。
  • 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频。
  • 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。
  • 文档:直接嵌入最多 6 页的 PDF 文件。

除了单模态处理能力之外,Gemini Embedding 2 还原生支持交错输入。开发者可以在同一个请求中同时传入多种模态,例如“图片 + 文本描述”或“视频 + 文本提示”。模型会在生成向量表示时综合不同媒体之间的关系,从而捕捉更复杂的语义结构。例如,在电商或媒体分析场景中,系统可以同时理解商品图片与描述文本之间的关联。

向量表示与压缩技术

在向量表示层面,Gemini Embedding 2 采用了 Matryoshka Representation Learning 技术。这种表示学习方法通过“嵌套”信息结构,使模型能够在保持语义质量的前提下动态压缩向量维度。

默认情况下,模型输出 3072 维向量,但开发者可以根据需求缩减维度,以降低存储与检索成本。官方建议在 3072、1536 或 768 维三个级别之间进行选择,以在性能与资源消耗之间取得平衡。

基准测试表现领先

谷歌表示,Gemini Embedding 2 在多项基准测试中树立了新的性能标杆。

在 Text–Text 的语义匹配任务中,Gemini Embedding 2 表现优于其他模型。在 MTEB 多语言基准测试中:
* Gemini Embedding 2:69.9
* Gemini-embedding-001:68.4
* Amazon Nova 2:63.8
* Voyage 3.5:58.5

代码语义理解 任务上,同样具有优势:
* Gemini Embedding 2:84.0
* Gemini-embedding-001:76.0

在 Text–Image 与 Image–Text 任务上,Gemini Embedding 2 在主流数据集上几乎全面领先。在文本到图像检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:89.6
* Amazon Nova 2:76.0
* Voyage 3.5:79.4
* multimodalembedding@001:74.0

在图像到文本检索中,在 TextCaps 数据集上:
* Gemini Embedding 2:97.4
* Google multimodalembedding@001:88.1
* Amazon Nova 2:88.9
* Voyage 3.5:88.6

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

早期合作伙伴评价

谷歌强调,嵌入技术是许多谷歌产品体验的核心驱动力。一些早期合作伙伴已经在使用 Gemini Embedding 2 来解锁高价值的多模态应用。

Everlaw 公司 CTO Max Christoff 表示:“在诉讼取证这一高技术要求的环节中,寻找核心信息是一项巨大的挑战。我们选择 Gemini 嵌入技术,正是因为其卓越表现。最新的测试结果显示,Gemini 的多模态嵌入模型在处理数百万条记录时,显著提升了搜索的准确率与召回率,并成功解锁了针对图像和视频文件的强大搜索功能。”

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

Sparkonomy 联合创始人 Guneet Singh 表示:“Gemini Embedding 2 为我们‘创作者经济平等引擎’奠定了坚实基础。得益于其原生的多模态能力,我们通过省去大模型推理环节,将延迟大幅降低了 70%;同时,文本-图像及文本-视频对的语义相似度得分从 0.4 提升至 0.8,实现了近乎翻倍的飞跃。这为我们独有的‘创作者基因组’提供了强大动力,使其能够以前所未有的精度,对数百万分钟的视频以及海量图像和文本进行索引。”

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

开发者社区反响

在多模态大模型竞争激烈的背景下,谷歌新一代嵌入模型的发布在开发者社区引发了广泛讨论。

有评论指出,新模型统一嵌入空间的意义深远,能够极大简化工程架构。以往需要复杂团队维护的整套数据处理流程,现在可能被一个简单的 API 调用所替代,这不仅是技术的进步,也显著提升了工程效率。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

长期以来,AI 在处理不同模态数据时,往往如同身处互不相通的“孤岛”。新模型对交错输入(Interleaved Input)的支持,被认为是关键的突破点。其主要优势体现在:

  • 全场景融合:用户可以将图像、长篇音频、PDF 文档等多种异构数据直接输入模型进行处理。
  • 跨模态深度理解:模型不仅限于提取关键词,更能理解内容的语气、氛围与内在逻辑。

这种全局理解能力,标志着 AI 从“分类机器”向“语境大师”的演进。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

如果说架构的简化与功能的增强是“面子”,那么早期合作伙伴的实测数据则提供了扎实的“里子”。Everlaw 和 Sparkonomy 等早期接入者的反馈,在业内引起了广泛关注。

从现有数据来看,此次发布并非一次常规的迭代,而是为 多模态 RAG(检索增强生成) 树立了新的行业基准。

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

参考链接:

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
  • https://x.com/search?q=gemini%20embedding%202&src=typed_query

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25257

(0)
上一篇 2026年3月11日 上午10:57
下一篇 2026年3月11日 下午1:46

相关推荐

  • OpenAI与迪士尼战略合作深度解析:股权换版权背后的AI产业博弈与生态重构

    近日,OpenAI与迪士尼正式宣布达成一项为期三年的战略合作协议,这一合作不仅涉及高达10亿美元的股权交易,更标志着生成式AI与内容IP产业融合进入全新阶段。作为科技主编,我将从产业动态、技术应用、版权合规及生态影响等多个维度,对这一事件进行深度剖析。 ### 一、合作框架:股权置换与IP授权的双重绑定 根据官方公告,迪士尼将成为Sora首个主要内容授权合作…

    2025年12月12日
    38300
  • Anthropic测试移除Claude Code权益,AI编程代理高消耗或推动订阅规则重构

    今日,Anthropic 一度在其 Claude Pro 套餐页面中移除了 Claude Code 权益,引发了开发者社区的广泛关注与不满。数小时后,官网页面恢复原状,相关负责人解释称这仅为一次小范围测试。然而,此次事件传递出一个明确信号:高消耗的 AI 编程代理应用,正促使平台重新审视并可能重构其订阅规则,Claude Code 未来转向更高阶的 Max …

    3天前
    12700
  • 沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

    近日,国产GPU公司沐曦股份在完成IPO后,发布了其上市以来的首个重大技术更新——MXMACA软件栈(MACA)的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越,其核心目标是解决国产GPU“用起来”的关键问题。 在全自主硬件体系的支持下,沐曦构建了完整的“全栈软件”体系,旨在最大化释放硬件算力。MACA(MetaX Acceler…

    2025年12月29日
    1.1K00
  • 蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

    大模型的革命行将结束,即将开启的会是物理 AI 时代? 上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。 LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演…

    2026年2月5日
    37300
  • 对话式AI的情感革命:从文字交互到实时陪伴的万亿产业跃迁

    在人工智能技术快速演进的今天,一段小女孩与AI玩具告别的视频引发了广泛的社会讨论。这看似简单的场景背后,实则揭示了对话式AI技术正在突破传统交互边界,悄然融入人类情感世界的深层变革。当AI不再仅仅是冰冷的工具,而是能够承载情感连接的伙伴时,我们正站在人机关系重塑的历史节点上。 传统AI交互大多停留在“短信时代”的异步模式:用户输入问题,AI输出文字回复。这种…

    2025年11月5日
    29600