BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

01|“看懂世界”这关,大模型还没上幼儿园

过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision

UniPat AI 致力于构建真实场景下 AI 训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署。

如果一个视觉问题可以完全用文字描述而不丢失信息,它本质上就“退化成文本题”。模型可以依靠强大的语言推理能力“通关”,看似会看,实则走了语言捷径。真正的视觉能力,需要在没有语言辅助的情况下完成比较、追踪、空间想象、模式归纳等任务。BabyVision 的评测结果表明,当前多模态大模型的这些纯视觉能力仅相当于“三岁幼儿”的水平。

Google DeepMind 创始人 Demis Hassabis 在近期访谈中也表达了类似观点:“大模型可以在国际数学奥林匹克竞赛中夺金,却会在小学几何题上出错;它能生成惊艳的图像,却不理解杯子为什么不会飘在空中。”

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

项目链接:
* 博客文章:https://unipat.ai/blog/BabyVision
* GitHub:https://github.com/UniPat-AI/BabyVision
* Hugging Face:https://huggingface.co/collections/UnipatAI/babyvision

02|将顶尖模型与儿童置于同一张“纯视觉试卷”

BabyVision 首先进行了一项直观的对比实验:将 20 道视觉中心任务(BabyVision-Mini)交给不同年龄段儿童(3/6/10/12岁)与当前顶尖的多模态模型完成。

这份“小试卷”严格控制了对语言的依赖:题目要求简洁,答案必须完全基于视觉信息得出。

结果令人意外(如图1所示):
* 大多数模型的得分,明显低于3岁儿童的平均水平。
* Gemini3‑Pro‑Preview 是唯一稳定超过3岁儿童基线的模型,但仍落后6岁儿童约20个百分点。

以下是一道典型例题,要求将三件物品沿着连线与对应颜色的垃圾桶匹配。儿童可以轻松做对,但顶尖模型在追踪线条时却会出错。

任务:三件物品沿着线分别连到哪个颜色垃圾桶?
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长
* 正确答案:A – 蓝,B – 黄,C – 绿
* 模型答案(Gemini3-Pro-Preview):A – 绿,B – 黄,C – 蓝

人类的解法几乎是本能的,从起点出发沿线追踪至终点。而模型则会生成一大段“逐段追踪”的文字推理,最终仍将路径接反:看似“很会分析”,实则在最基础的视觉追踪能力上存在缺陷。

03|BabyVision‑Full:用388道题拆解4大类22项视觉子任务

研究团队将核心视觉能力提炼为四大类别,每类下细分若干子任务:
* 精细辨别:分辨细微的视觉差异(8个子任务)
* 视觉追踪:跟随路径、线条与运动轨迹(5个子任务)
* 空间感知:理解三维结构及其关系(5个子任务)
* 视觉模式识别:识别逻辑与几何规律(4个子任务)

这套设计的核心理念明确:并非为了“刁难”模型,而是为了量化那些“人类直觉就会、但构成智能地基”的视觉原子能力。这也是具身智能走向现实世界的必修课。

为确保“纯视觉”考核的有效性,BabyVision 在数据构建上遵循了严谨流程:
1. 任务定义:参考儿童认知教材与视觉发育测验,梳理出4大类共22种子任务。
2. 素材收集:为每种子任务选取2-3个“种子示例”,并基于此通过逆向图像搜索与关键词搜索,从互联网爬取约4000张候选图片。过程中严格遵守版权规范,并过滤掉含大量文字或需文化常识理解的图片。
3. 人工标注:专业人员筛选图片,精心设计问题与标准答案,并为每道题附上详细的“解题过程”说明,确保答案可由纯视觉推理得出。
4. 双盲质检:每道题均由两位独立专家交叉审核,仅在双方均认可答案无误、推理严谨时才被收录;存在异议的题目经修改仍无法达成一致则被弃用。

最终,BabyVision 产出388道高质量视觉题目,涵盖全部22种子任务。
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

评测结果:人类准确率94.1%,最强闭源模型49.7%,最强开源模型22.2%

在 BabyVision‑Full 上,16位至少具有本科学历的测试者完成了全部388题,人类基线准确率达94.1%。

模型表现如下:
* 闭源模型:Gemini3‑Pro‑Preview(49.7%)、GPT‑5.2(34.8%)、Doubao‑1.8(30.2%)
* 开源模型:最强模型(Qwen3VL‑235B‑Thinking)整体准确率为22.2%,多数模型集中在12–19%区间。

关键发现在于:差距并非集中在某一类别。模型在四大类视觉能力上均全面落后,这表明存在“系统性的基础视觉能力缺失”,而非单一缺陷。部分子任务(如“Count 3D Blocks”)几乎所有模型得分都极低,暴露了其在结构化场景理解上的严重不足。
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

04|根源探究:无法言说的视觉推理

最反直觉的地方在于:BabyVision 中的许多题目对人类(甚至儿童)而言并不困难,孩子通过指认、圈画或沿线追踪即可解决。但模型一旦试图用文字“复述”视觉信息,再通过语言进行推理,关键信息便已在转换过程中丢失。

研究团队将这种现象概括为:这些视觉题目是“无法言说”的,无法在不损失信息的情况下被完整语言化;模型试图将视觉信息压缩成文本标记,细节在压缩过程中消失。

并进一步总结了四类典型挑战:

挑战1:看不见“非语言细节”
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长
例如在拼图/补全题中,选项间的差异可能仅是一个微小边界、一个局部凸起或一个像素级的错位。
* 人类凭借几何直觉“对齐边界”即可快速判断。
* 模型一旦将形状用语言概括为“像钩子、有两条腿、大约由七八个六边形组成”,细节便被抹平,选项在文本标记空间中变得“几乎一样”。

挑战2:追线追丢了
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长
连线/绕线/轨迹题,答案编码在“连通性”中:
* 人类的策略是锁定一条线,穿过交叉点,一路追踪至终点。

  • 模型往往把线翻译成“左/右/上/下”的离散步骤,一遇到交叉点就出现分叉爆炸,容易“换轨”追错线。

挑战 3:缺少真正的空间想象(Spatial Imagination)

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

三维方块计数、视角投影、遮挡下的结构判断,人类通常不是“用语言一步步描述”,而是把结构在脑中“立起来”,换个角度看,再数。

模型则容易犯两类错误:漏掉隐藏块、投影关系搞错。这不是逻辑差,而是缺少稳定的 3D 内部表征与变换能力。

挑战 4:图形规律归纳难(Visual Pattern Induction)

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

这类题要求从少量视觉示例里抽象出规则,再迁移到新图。

人类做的是关系映射,真正决定正确性的是“发生了什么变化”而不是“那里有什么”,具体的形状、颜色、绝对位置都可以变,只有它们在变换中的“身份”不变。

模型常常盯着表面属性(颜色、形状),把“结构规则”误读成“外观统计”,导致迁移时幻觉规则。

05|如果不让它用文字回答,让它“画”呢?BabyVision‑Gen 给出一个新方向

当文本推理不够用,一个自然的问题出现了:能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?

于是有了 BabyVision‑Gen:
* 从原基准中重新标注出 280 道适合“生成式作答”的题
* 要求模型输出图像 / 视频来表达解题过程或答案
* 并开发了自动评测工具,与人工评测一致性达 95%

研究团队在 BabyVision‑Gen 上评测了多种生成模型。现阶段得到的结论很克制但重要:
* 生成式推理在视觉追踪、精细辨别等 VLM 易翻车任务上出现“更像人类”的行为(会真的去画轨迹、做标注);
* 但整体仍然缺乏稳定到达完全正确解的能力。

这至少说明:把视觉推理“落地到视觉操作”上,可能是补齐短板的一条路。

下面看一个具体的例子:

任务:用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径。

Sora2

NanoBanana-pro
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

06|为什么 BabyVision 重要?因为现实世界不靠语言提示

正如研究团队所写:很难想象一个视觉能力低于 3 岁孩子的机器人,能够可靠地在真实物理世界里帮助人类。

今天,多模态模型“会说会写”已经很强。但要走向真正的通用智能与具身智能,视觉地基必须补上:
* 看得准(细粒度辨别)
* 追得住(轨迹 / 连通性)
* 想得出(3D 结构想象)
* 归纳得了(图形规则迁移)

BabyVision 的价值正在于:把“看懂世界”拆成可测量、可诊断、可迭代的 22 个原子能力,告诉我们差距到底在哪里、下一步该补什么,从而引导多模态大模型发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17678

(0)
上一篇 2026年1月12日 下午12:33
下一篇 2026年1月12日 下午12:45

相关推荐

  • GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力

    OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…

    2025年12月14日
    19100
  • MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

    MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…

    2025年12月24日
    1.5K00
  • 清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达

    在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…

    2026年2月26日
    27700
  • EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

    EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化 当多模态大模型进入真实世界,其“失聪”问题开始凸显。 例如,在厨房场景中:背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里,却完全由声音传递。此时,即便是当前最先进的模型也开始“失灵”:它们能看懂动作,却听不懂发生了什么;能描述现象,却无法推断背后的原因。 核…

    6天前
    8000
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    21600