BabyVision

大模型评测

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

01｜“看懂世界”这关，大模型还没上幼儿园过去一年，大模型在语言与文本推理上突飞猛进，但在面对无法用语言清晰表述的问题时，其视觉理解能力却暴露了短板。为了量化评估这一能力，UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员，发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

2026年1月12日
387000