向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

多模态数据纳入到RAG(检索增强生成)乃至Agent框架,是目前大语言模型(LLM)应用领域最受关注的方向之一。针对多模态数据最自然的召回方式,便是向量检索

然而,我们正在依赖的这一整套“embedding → 向量检索 → 下游任务”的流程,其实存在一个未被正确认知到的陷阱。许多人认为向量检索方法已经标准化,遇到向量检索需求便不假思索地选择HNSW算法。

事实上,以真实的下游任务为黄金基准进行评估时,我们发现HNSW在很多任务上表现并不理想。在多模态RAG的道路上,标准化还远未实现。我们以往针对向量检索算法的评估体系,可能只是揭示了海平面之上的冰山一角。

为此,向量检索领域专家傅聪联合浙江大学软件学院副院长高云君、柯翔宇团队推出了向量检索新基准IceBerg。该基准以下游语义任务为评估标准,而非传统的Recall-QPS(召回率-每秒查询率)指标,给出了一个足以颠覆过去五年行业认知的排名结果。

向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

认知偏差:距离度量≠语义相似度

向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

我们先来看一组实例:

案例一:
在大规模人脸验证数据集Glink360K上,人脸识别的准确率在基于距离度量计算的Recall达到99%之前,很早就达到了饱和。此外,NSG(基于图的SOTA向量检索算法)在距离度量Recall指标上,相比RaBitQ(基于哈希的量化算法)具有“绝对优势”。但在下游语义任务,即人脸识别准确率上,NSG却一致弱于RaBitQ。

这说明,向量检索领域存在着严重的“产能过剩”和评价体系失准问题。很多时候,我们使用了远超“真实需求”的复杂向量检索算法,消耗了过剩的算力。同时,传统评价体系中的优胜者,在真实应用环境中未必能胜出。

案例二:
针对同样的embedding,不同的度量空间会给下游任务效果带来巨大差异。使用EVA02作为图片编码器抽取的表征,采用欧氏距离可以达到80%以上的语义识别精度,但若使用内积度量,无论如何调整参数,其下游任务精度始终停留在1%附近。

许多人在使用embedding时,会不假思索地选择Cosine相似度(内积相似度的一种特例)。我们的研究表明,度量空间的选择存在巨大的“陷阱”

端到端的信息损失漏斗模型

从下游/终端任务的评价体系来看,为什么向量检索的“真实”效果与行业认知存在如此大的信息偏差?我们提出了一个信息损失漏斗模型,以帮助理解在端到端视角下,信息逐层损失的过程。

向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

阶段一:表征模型的容量瓶颈

我们通常通过一个表征学习模型来获取embedding。表征模型本身的能力上限,决定了embedding的语义表达力和质量。

哪些因素会影响模型的表达力呢?

1. 模型的泛化误差(泛化能力):
大多数模型在测试数据集上的表现会逊色于在训练数据集上的表现。更重要的是,模型很多时候在训练数据上也难以达到100%的准确性。

2. 模型的学习目标:
很多时候,模型并非以“学习一个好的度量空间”为目标来设计的。表征学习并不完全等同于度量学习。大多数情况下,模型学习的是语义相似度。换句话说,模型的学习目标(损失函数)并不一定鼓励“语义相近的样本,在度量空间中更接近”。

值得注意的是,我们常用的向量空间中,欧式空间是一个严格的“度量空间”,而内积空间(包括cosine相似度)在数学上并非一个严格的度量空间(例如,它可能不满足三角不等式准则)。

这些原因导致数据在通过模型转变为embedding的过程中,会产生大量信息损失,尤其是在语义与度量对等性方面。

阶段二:度量选择

有些模型在设计之初,就规定了编码器最适合使用的相似度定义。例如,CLIP模型预设了图片和文本的相似度由向量之间的cosine值决定。

但其他一些生成式表征模型,例如某些自编码预训练模型,则没有对度量空间给出明确约束。此时,选择欧式距离还是内积距离,就会对结果产生巨大影响。

阶段三:向量检索方法选择

向量检索方法种类繁多,但落地应用效果较好的主要可分为两大类:一类是基于空间切分(量化)的方法,例如Faiss中的IVF-PQ、RabitQ;另一类是基于图结构索引的方法,例如NSG、MAG、HNSW。不同的方法,针对不同的数据分布,具有不同的“亲和度”。

这是因为向量检索算法本质上都是在使用某种近似手段,以最小化搜索空间,避免暴力检索。因此,算法在运行过程中总会“忽略”一部分数据。而不同的检索算法,选择性忽略的数据不同,这就导致了它们在下游任务中的表现差异。

1. 向量检索算法排名大洗牌
为了从端到端的视角重新审视各类向量检索方案的真实能力,我们构建了IceBerg基准,覆盖了不同模态、不同任务、不同的embedding模型。观察在这些元素的交叉组合下,向量检索算法的排名会发生何种变化。

向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

从上述结果可以看出,HNSW并非下游任务中的“常胜将军”。在不同的交叉组合下,有不同的方法脱颖而出。

其中最有趣的一点是,在ImageNet图片识别任务上,在欧式距离和内积距离指标上表现最优的算法(HNSW/ScaNN),都没能成为下游任务的最终赢家(赢家是RaBitQ)。这说明,在从语义到度量的理解上,机器学习领域还有很长的路要走。

2. 新手利器:自动化算法选型
向量检索效果如此难以调优,是否有办法让没有相关背景知识的开发者避免暴力测试,从而轻松优化多模态RAG呢?答案是肯定的。IceBench不仅是一个基准测试集,还提供了自动化的算法检测方案。

我们发现,在不了解embedding产出背景信息的前提下,从数据分布的统计信号中,依然可以找到甄选算法的切入点,并以此构建了一个可解释的“决策树”。

向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

我们发现,embedding相对于特定度量、算法的“亲和力”可以从几个统计指标中反映出来。这些指标分别度量了数据的聚类程度、向量方向分散度等属性,可以通过我们随数据集提供的脚本快速计算。系统能够根据我们测试过的、在多种模态、多种编码器主干网络、多种任务视角下均一致有效的决策树,自动推荐方法选择。随着机器学习模型的不断进化,IceBerg也将持续追踪最前沿的编码器,实时更新算法选择工具。

迈向标准化

IceBerg首次从端到端的价值体系出发,重新评估了SOTA向量检索方法的真实能力,同时也暴露了向量数据库领域深埋于“海平面”之下的认知陷阱。

研究团队呼吁未来的向量检索研究,应更加深入到RAG、Agent等下游应用的语境中,关注度量与任务的匹配度、算法与数据分布的兼容性,乃至探索跨度量、多度量、多向量的统一向量检索算法,真正推动RAG走向标准化。

论文 arXiv:https://arxiv.org/abs/2512.12980
论文 Hugging Face:https://huggingface.co/papers/2512.12980
代码 GitHub:https://github.com/ZJU-DAILY/Iceberg


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15198

(0)
上一篇 2025年12月25日 下午12:05
下一篇 2025年12月25日 下午12:10

相关推荐

  • Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话

    谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …

    2025年11月25日
    10000
  • 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

    阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…

    2025年12月25日
    9300
  • MiniMax M2.1深度实测:全栈开发新利器,从人生K线图到iOS木鱼App的代码生成实战

    国产 AI 大模型 MiniMax M2.1 正式发布。 本次更新在 Multi-SWE(多软件工程)领域实现了显著升级。它不仅让 Web 开发、App 开发以及 Rust、Go、Java 等核心技术栈的开发体验更为流畅,其全栈能力也得到了大幅增强。 一个突出的亮点在于其能力的均衡性。 此前许多 AI 模型,包括近期备受关注的 Gemini 3 Pro,往往…

    2025年12月25日
    7900
  • 文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?

    核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…

    2026年1月23日
    5300
  • 超越结果正确:Coding Agent过程合规评测新范式揭秘

    在 AI 辅助编程工具的实际应用中,一个值得深思的现象正在浮现:用户对 Agent 的不满,往往不是因为它“做不到”,而是因为它“做得不对”。通过观察用户反馈,最高频的抱怨指向同一个问题:Agent 不遵循明确给出的指令。这些场景或许并不陌生——用户在系统提示中明确要求“不要使用 emoji”,Agent 却在代码注释里加上表情符号;用户要求“先备份再修改”…

    2026年1月15日
    8000