几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力

几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力

近年来,视觉语言模型(VLMs)在图文问答、表格理解、数学应用题等多模态任务上取得了显著进展。然而,当面对几何图形问题时,它们的表现往往明显下降。

近日,来自光明实验室与清华大学的研究团队通过深入剖析多个主流模型的错误案例,发现了一个关键问题:当前VLM在几何问题上的失败,很大程度上源于其几何感知错误的短板,而这一核心因素在现有研究中往往未被单独、系统地分析。

换言之,在许多情况下,模型并非不会推理,而是在更早的阶段——对图形结构的识别上——已经出现了偏差。常见的感知错误包括:
* 错误识别几何基本元素(点、线、圆)
* 漏检关键结构关系(共线、垂直、相切)
* 图像定位(grounding)偏移
* 识别并不存在的结构(结构性幻觉)

这些问题发生在推理之前,却直接影响了后续的逻辑链条。

几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力

GEOPERCEIVE:首次独立评测几何感知能力

现有的几何评测基准通常采用端到端的方式:输入“图像+问题”,判断模型输出的自然语言答案是否正确。这种方式将感知错误与推理错误混合统计,难以准确定位能力瓶颈。

为此,研究团队提出了 GEOPERCEIVE,这是首个面向几何感知能力的独立评测框架。过去的基准关注“模型是否‘答对’”,而GEOPERCEIVE关注“模型是否‘看对’”。

几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力

用程序表达几何:GeoDSL

研究团队设计了一种几何领域专用语言——GeoDSL,用于结构化表示:
* 几何元素:点、线、圆
* 结构关系:共线、垂直、相切
* 拓扑与依赖约束

评测时,几何图形首先由程序自动生成,再渲染为图像。模型输出的自然语言结果会被翻译为GeoDSL结构表示,并进行精确匹配。这种设计带来了两个关键优势:
1. 可控地生成不同复杂度的几何结构。
2. 可进行精确、自动化的结构级评分。

元素级结构评分

GEOPERCEIVE采用结构解析、匈牙利匹配和元素级F1评分。评估粒度从“答案是否正确”,细化到“每一个几何元素、每一条结构关系是否识别准确”,从而能够精确定位模型在结构识别层面的能力瓶颈。

GEODPO:结构化强化学习优化路径

诊断出几何感知短板后,一个自然的问题是:如何在不破坏模型自然语言表达能力的前提下,引入结构级优化信号?

直接监督模型生成结构化程序容易带来分布偏移,并对标记(token)顺序高度敏感。因此,研究团队提出了 GEODPO:翻译器引导的强化学习。其整体流程如下:
模型输出自然语言 → 专用翻译器(NL→GeoDSL) → 结构级精确评分 → 构造偏好对 → DPO优化

模型依然输出自然语言,但优化信号来自结构匹配分数。这种方式具有三个优势:
* 不改变模型的输出空间。
* 奖励函数可解释、可计算。
* 优化目标与结构识别能力直接对齐。

实验观察

研究团队在多个主流视觉语言模型上进行了系统评测。

几何感知能力提升

  • 多个骨干网络模型在GEOPERCEIVE评测中均获得明显提升。
  • 相较于直接的有监督微调(SFT),GEODPO的表现更为稳定。

分布外(OOD)泛化能力

在分布外测试集上:
* GEODPO保持了持续的提升趋势。
* SFT在部分模型上出现了性能波动。
这提示结构化奖励在分布偏移场景下可能具备更好的稳定性。

下游几何推理任务

在MathVista等几何推理基准测试中,研究团队观察到:当结构识别准确度提高时,整体推理表现往往同步改善。这一现象表明,底层结构表示的质量可能是影响几何推理性能的重要因素。

几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力

总结

研究团队提出了:
* GEOPERCEIVE:首个面向几何感知能力的独立评测框架。
* GEODPO:基于结构化奖励的优化方法。

通过将几何结构识别从端到端推理任务中显式拆分出来,研究团队能够更清晰地分析模型在“感知—推理”链条中的能力分布。实验结果显示,几何感知能力是影响几何推理表现的重要因素之一,而结构化强化学习提供了一种稳定、可解释的优化路径。

更重要的是,这项工作提供了一种研究范式:
* 将复杂能力拆解为可独立评测的子模块。
* 用结构化表示替代模糊的语言匹配。
* 用可计算的奖励函数引导模型能力对齐。

几何场景由于其高度结构化的特性,为研究多模态模型的底层表示能力提供了一个理想入口。类似的思路或许可以扩展至工程图纸解析、科学图像理解、CAD结构识别、医学结构建模等领域。在多模态模型逐步迈向更可靠结构理解的过程中,几何问题或许不仅仅是众多任务中的一类,更是理解模型“是否真正看懂结构”的关键窗口。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28011

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话

    谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …

    2025年11月25日
    22000
  • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

    智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

    2026年1月4日
    1.2K00
  • DeepSeek V3.2 多维度能力评测:从基础交互到复杂游戏逻辑的10个实战用例分析

    最近,DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估,我们设计了一系列按难度递进的实战测试用例。每个用例均包含:用例名称、技术标签、考察重点及完整的 Prompt。 第一关:热身赛(基础能力验证) 1.1 复古打字机应用 技术标签:前端交互 | 动画效果 | 拖拽功能 考察重点:能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…

    2025年12月9日
    26600
  • 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

    阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…

    2025年12月25日
    22400
  • Gemini 3.1 Flash Lite评测:推理速度创5秒新低,指令遵循能力意外强劲

    核心结论:为高速响应与高效执行而生的轻量化模型 概述 Gemini 3.1 Flash Lite(下称Lite)在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录,而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题,其响应近乎瞬时。 在推理能力方面,Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45…

    2026年3月5日
    24300