SWE-Vision

大模型工程

多模态模型视觉短板被攻克！UniPat AI用500行代码打造SWE-Vision，让AI学会“掏出Python尺子”自我验证，五大视觉基准全SOTA

模型“看见”却无法“精确处理”的短板过去一年，多模态大模型在代码任务上的表现突飞猛进，已能媲美资深开发者。然而，在基础视觉理解任务上，其可靠性远未达到同等水平。 UniPat AI 此前发布的多模态基准测试 BabyVision 揭示了这一现象：模型常能给出长篇推理，却在最基础的计量、计数和空间关系判断上出错。该基准已被多个重要模型的技术报告引用，凸显了社…

8小时前
29000