当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”?

最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。
这意味着什么?简单来说,我们可能用两倍的时间和资源,只获得了一倍的有效信息。
重新审视评测的有效性
让我们先看几个具体的发现:
在实例层面的分析中,研究显示许多基准评测即使将测试样本数量减少一半,对模型排名的影响也微乎其微。这个结论背后的逻辑其实并不难理解:当大量测试用例在本质上考察相似能力时,增加数量并不能带来质的提升。
更有意思的是任务维度的重叠。比如“图像情感识别”和“社会关系理解”这两个看似不同的评测任务,实际上在能力考察上存在显著重叠——它们都需要模型具备对视觉信息中隐含社会语义的理解能力。
然而并非所有任务都如此相似。研究发现,像“名人识别”这类基于知识记忆的任务,与其他侧重感知推理的维度保持着相对独立性。这提醒我们:真正有价值的评测设计,应该关注能力维度的正交性。
建立量化冗余的分析框架
面对评测冗余这个问题,研究团队提出了一套系统化的量化框架,从三个层面切入:

第一层:基准内部的维度冗余。核心思路是,如果两个评测维度在测试相似能力,那么不同模型在这两个维度上的表现排序应该高度一致。通过计算所有维度对之间的排序相关性,可以量化整个基准的平均冗余度。
第二层:测试实例的冗余。方法是通过随机抽样不同比例的测试样本,观察部分样本得出的模型排序与完整评测结果的一致性。如果仅用50%的样本就能复现几乎相同的排序,那说明另外50%的样本在提供冗余信息。
第三层:跨基准的冗余。针对同一垂直领域(如数学推理)的多个基准,分析它们在模型排序上的相关程度。这能帮助我们理解不同基准之间的差异化价值。
在相关性度量上,研究采用了斯皮尔曼等级相关系数(SRCC)、皮尔逊线性相关系数(PLCC)和R²分数等多个指标,从不同角度刻画排序的相似性。
值得一提的是,团队还引入了“Top-K分析”的思路。考虑到实际应用中我们往往更关注头部模型的性能差异,通过聚焦排名前K的模型,可以更精准地分析不同性能层级下的冗余特征。
从数据中读出的洞察
研究以广泛使用的MMBench为例进行了深入剖析,得出的结论耐人寻味。
在排名前50的模型(Top-50)中,不同维度之间展现出相对清晰的区分度。比如“结构化图像-文本理解”任务与“空间关系推理”(0.69)、“OCR”(0.56)等维度都有明显关联,这反映出结构化理解确实需要综合运用多种基础能力。而“名人识别”作为一个纯知识型任务,与其他感知类维度的相关性普遍较低,保持了较强的独立性。
然而当我们把目光转向排名后50的模型(Bottom-50)时,画风突变。这些模型在各个维度上的排序相关性普遍偏高,超过80%的维度对相关系数超过0.6。
这背后的原因其实不难理解:当模型整体能力较弱时,各项能力往往“齐头并进”地薄弱,导致不同维度的表现高度同步。反观成熟模型,由于已经建立了较完备的基础能力体系,在不同复杂任务上的专项优化会带来差异化的表现,从而形成更清晰的能力区分。
这个发现对评测实践有着直接启示:评测的区分度与被评测对象的能力水平密切相关。同一套评测体系,对于初级模型可能过于粗糙,而对于高级模型则可能刚刚好。
实例冗余:少即是多
研究纳入了VLMEvalKit平台上18个公开基准的评测数据,系统性地分析了测试样本的有效性。


团队设定了0.95的相似性阈值(当排序相关系数超过0.95时,认为两个排序实质等同)。结果显示:大多数现有评测基准在对Top-50和Bottom-50模型排名时,至少有50%的测试实例是冗余的。
这意味着,在不显著影响排名结果的前提下,许多基准完全可以将样本量减半。从资源效率角度看,这是一个不容忽视的优化空间。
更细致的对比还发现,要达到相同的排序稳定性,Bottom-50模型所需的样本量显著少于Top-50模型。这再次印证了前面的结论:模型能力越强,评测区分度要求越高,所需的样本多样性也就越大。
这给评测设计者提供了一个清晰的优化方向:根据目标模型的能力水平,动态调整测试集的规模和复杂度,既能保证评测的有效性,又能避免不必要的资源消耗。
跨基准分析:数学领域的启示
为了探讨垂直领域内不同基准的差异化价值,研究聚焦于数学推理这一热门方向,选取了MathVista、MathVision、MathVerse和DynaMath四个代表性基准,基于OpenCompass推理排行榜上37个模型的评测数据进行了分析。

结果显示,尽管这些基准都声称评测数学能力,但它们之间的相关性差异明显。其中MathVista表现出最低的冗余度,与其他基准的相关性最弱;而MathVerse和MathVision则显示出较高的一致性,与其他基准有更强的关联。
这种差异从何而来?深入分析任务分布后,团队发现了关键线索:MathVista包含了30%-40%的非典型数学问题,如科学图表理解、通用视觉问答、图表解读等任务。这些任务虽然也需要一定的数理能力,但并不是数学推理的核心考察点。
为了验证这一假设,研究团队尝试从MathVista中剔除通用VQA任务,并重新计算冗余度。调整后,MathVista与其他数学基准的相关性显著提升,更加贴合“数学能力评测”这一定位。进一步剔除CLEVR衍生的图形计数问题(这类问题更偏向视觉识别而非数学推理)后,相关性进一步增强。
这个实验揭示了一个重要问题:评测基准的“纯度”直接影响其代表性。当一个数学评测基准混入大量非数学任务时,它在数学领域的代表性就会被稀释,反而可能因为引入了其他能力维度而显得“独特”——但这种独特性是我们想要的吗?
基于这些分析,研究提出了两条领域内基准设计的原则:
如果一个基准旨在代表某一垂直领域的核心能力,那么它应该与该领域的其他基准表现出相对较高的冗余度——这说明它确实抓住了领域的共性特征。
如果一个基准想要填补领域内的特定空白,那么它应该与现有基准保持较低的冗余度——这表明它提供了差异化的评测视角。
这两条原则看似矛盾,实则互补,关键在于明确基准的定位和目标。
从发现到行动
这项研究不仅指出了问题,更重要的是为改进指明了方向。
对于基准设计者而言,冗余分析框架可以帮助回答几个关键问题:某些评测维度是否需要独立存在,还是可以合并?准确评测所需的最小样本量是多少?在某个垂直领域推出新基准的必要性有多大?
对于模型开发者而言,理解冗余特征有助于更高效地进行模型评测:识别哪些基准可能偏离了领域核心分布,找到能够代表领域整体水平的锚定基准,从而在有限资源下做出更明智的评测选择。
更宏观地看,系统性地解决评测冗余问题,不仅能提升评测体系的科学性,还能显著降低整个行业的评测成本,构建一个更精简高效的评测生态。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14641
