Anonymous Intelligence Signal
清华团队发现VLM几何短板:模型不是不会推理,而是根本“没看懂”图形
视觉语言模型(VLM)在几何问题上频频“翻车”,其根源可能并非推理能力不足,而是更基础的“视觉感知”存在缺陷。清华大学与光明实验室的研究团队通过分析主流模型的错误案例,揭示了一个关键问题:模型在几何图形识别阶段就已出现系统性偏差,包括错误识别点线圆、漏检垂直相切等关键关系,甚至“幻觉”出不存在的结构。这些发生在推理之前的“几何感知错误”,直接导致了后续逻辑链条的崩塌。
为精准定位这一能力瓶颈,研究团队提出了首个独立评测几何感知能力的框架——GEOPERCEIVE。与以往仅关注“答案是否正确”的端到端评测不同,该框架的核心是判断模型是否“看对”。团队设计了一种几何领域专用语言GeoDSL,用于结构化表示图形中的元素与关系。通过将模型输出的自然语言结果翻译为结构表示并进行精确匹配,GEOPERCEIVE能够实现元素级的自动化评分,从而精确定位模型在结构识别层面的具体短板。
在诊断出感知短板后,研究进一步探索了优化路径。团队提出了GEODPO方法,旨在通过结构化的强化学习,引导模型先“看懂”图形,再进行推理。这一工作不仅为评估多模态模型的底层感知能力提供了新工具,也指明了提升VLM在几何乃至更广泛结构化视觉任务上性能的关键方向:强化对视觉信息的精确结构化理解,是解决复杂推理问题的前提。