几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力
近年来,视觉语言模型(VLMs)在图文问答、表格理解、数学应用题等多模态任务上取得了显著进展。然而,当面对几何图形问题时,它们的表现往往明显下降。
近日,来自光明实验室与清华大学的研究团队通过深入剖析多个主流模型的错误案例,发现了一个关键问题:当前VLM在几何问题上的失败,很大程度上源于其几何感知错误的短板,而这一核心因素在现有研究中往往未被单独、系统地分析。
换言之,在许多情况下,模型并非不会推理,而是在更早的阶段——对图形结构的识别上——已经出现了偏差。常见的感知错误包括:
* 错误识别几何基本元素(点、线、圆)
* 漏检关键结构关系(共线、垂直、相切)
* 图像定位(grounding)偏移
* 识别并不存在的结构(结构性幻觉)
这些问题发生在推理之前,却直接影响了后续的逻辑链条。

GEOPERCEIVE:首次独立评测几何感知能力
现有的几何评测基准通常采用端到端的方式:输入“图像+问题”,判断模型输出的自然语言答案是否正确。这种方式将感知错误与推理错误混合统计,难以准确定位能力瓶颈。
为此,研究团队提出了 GEOPERCEIVE,这是首个面向几何感知能力的独立评测框架。过去的基准关注“模型是否‘答对’”,而GEOPERCEIVE关注“模型是否‘看对’”。

用程序表达几何:GeoDSL
研究团队设计了一种几何领域专用语言——GeoDSL,用于结构化表示:
* 几何元素:点、线、圆
* 结构关系:共线、垂直、相切
* 拓扑与依赖约束
评测时,几何图形首先由程序自动生成,再渲染为图像。模型输出的自然语言结果会被翻译为GeoDSL结构表示,并进行精确匹配。这种设计带来了两个关键优势:
1. 可控地生成不同复杂度的几何结构。
2. 可进行精确、自动化的结构级评分。
元素级结构评分
GEOPERCEIVE采用结构解析、匈牙利匹配和元素级F1评分。评估粒度从“答案是否正确”,细化到“每一个几何元素、每一条结构关系是否识别准确”,从而能够精确定位模型在结构识别层面的能力瓶颈。
GEODPO:结构化强化学习优化路径
诊断出几何感知短板后,一个自然的问题是:如何在不破坏模型自然语言表达能力的前提下,引入结构级优化信号?
直接监督模型生成结构化程序容易带来分布偏移,并对标记(token)顺序高度敏感。因此,研究团队提出了 GEODPO:翻译器引导的强化学习。其整体流程如下:
模型输出自然语言 → 专用翻译器(NL→GeoDSL) → 结构级精确评分 → 构造偏好对 → DPO优化
模型依然输出自然语言,但优化信号来自结构匹配分数。这种方式具有三个优势:
* 不改变模型的输出空间。
* 奖励函数可解释、可计算。
* 优化目标与结构识别能力直接对齐。
实验观察
研究团队在多个主流视觉语言模型上进行了系统评测。
几何感知能力提升
- 多个骨干网络模型在GEOPERCEIVE评测中均获得明显提升。
- 相较于直接的有监督微调(SFT),GEODPO的表现更为稳定。
分布外(OOD)泛化能力
在分布外测试集上:
* GEODPO保持了持续的提升趋势。
* SFT在部分模型上出现了性能波动。
这提示结构化奖励在分布偏移场景下可能具备更好的稳定性。
下游几何推理任务
在MathVista等几何推理基准测试中,研究团队观察到:当结构识别准确度提高时,整体推理表现往往同步改善。这一现象表明,底层结构表示的质量可能是影响几何推理性能的重要因素。


总结
研究团队提出了:
* GEOPERCEIVE:首个面向几何感知能力的独立评测框架。
* GEODPO:基于结构化奖励的优化方法。
通过将几何结构识别从端到端推理任务中显式拆分出来,研究团队能够更清晰地分析模型在“感知—推理”链条中的能力分布。实验结果显示,几何感知能力是影响几何推理表现的重要因素之一,而结构化强化学习提供了一种稳定、可解释的优化路径。
更重要的是,这项工作提供了一种研究范式:
* 将复杂能力拆解为可独立评测的子模块。
* 用结构化表示替代模糊的语言匹配。
* 用可计算的奖励函数引导模型能力对齐。
几何场景由于其高度结构化的特性,为研究多模态模型的底层表示能力提供了一个理想入口。类似的思路或许可以扩展至工程图纸解析、科学图像理解、CAD结构识别、医学结构建模等领域。在多模态模型逐步迈向更可靠结构理解的过程中,几何问题或许不仅仅是众多任务中的一类,更是理解模型“是否真正看懂结构”的关键窗口。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28011


