五一假期将至,DeepSeek 选择在这个时间点公开一项新技术,引发了广泛关注。
昨天,DeepSeek 的陈小康在 X 平台上发布了一条消息,让人们开始聚焦 DeepSeek 在多模态领域的最新进展。

随后,部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。
就在刚刚,DeepSeek 在 Github 上正式发布了多模态模型,并同步公开了详细的技术报告。

这无疑是一项新鲜出炉的成果,且代表了推理范式的创新。

- 项目地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
- 技术报告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf
接下来,我们将基于这份技术报告,深入探究 DeepSeek、北京大学与清华大学共同创造的这项突破。
这篇论文题为“Thinking with Visual Primitives(以视觉原语思考)”。它直指当前几乎所有多模态大模型的核心痛点:这些模型虽然能“看见”,却未必能“想清楚”。
例如,给出一张密集的人群照片,询问 GPT-5.4“图里有多少人”,它很可能数错。向 Claude Sonnet 4.6 展示一张复杂电路图,并问“左边的红色电容在右边电感的左侧还是右侧”,其回答往往含糊其辞,甚至前后矛盾。问题并非出在模型无法看清图片,而是模型在“思考”过程中,无法有效锁定它想讨论的视觉对象。
DeepSeek 将这一问题命名为“Reference Gap”(指代鸿沟),并提出了一套完整的解决方案。
背景:“看清”与“想清”是两回事
要理解这个问题,不妨想象一下:你在向一位看不见你屏幕的朋友描述一张复杂的棋盘布局。你说“左边那个棋子要吃掉中间偏右一点那个棋子”,但对方根本不知道你指的是哪两颗棋子。
这正是当前多模态大模型在推理时所面临的困境。它们依赖自然语言构建“思维链”(CoT),但自然语言本身具有模糊性:“左边那个大的”、“靠近中央的红色物体”——这些描述在密集场景中根本无法精确定位。模型的注意力在推理过程中逐渐“漂移”,导致逻辑混乱,最终得出错误结论。
此前,学术界的应对策略主要集中在让模型“看得更清楚”:通过对图片进行高分辨率切割、动态分块等方式,确保模型能感知到细节。这解决的是“感知鸿沟”(Perception Gap)。
然而,DeepSeek 的论文指出,即使感知能力再强,也无法替代精确的“指代能力”。“看见”和“能说清楚在说哪个”,是两件截然不同的事。
架构:站在 V4-Flash 的肩膀上
这项工作以 DeepSeek 最新发布的 V4-Flash 作为语言主干——这是一个总参数为 284B、推理时激活 13B 参数的混合专家模型(MoE)。视觉编码部分则采用了 DeepSeek 自研的 ViT(视觉 Transformer),能够支持任意分辨率的输入。

值得注意的是,该团队的核心贡献在于提出了一套完整的“训练哲学”:如何利用极少的视觉 token,教会模型在推理过程中精确指代视觉对象。
核心创新一:将坐标转化为“思维单元”
这篇论文最核心的思路,可以概括为一句话:将点坐标和边界框(Bounding Box)作为推理的基本单位,像文字一样穿插在思维链中。
在传统做法中,边界框只是输出的一部分:模型先完成思考,再告诉你“目标在图片左上角坐标 [100,200,300,400]”。这属于事后标注,而非思考工具。
DeepSeek 的做法截然不同。模型在推理过程中,每当提及一个视觉对象,就会同步输出其坐标:
“扫描图片寻找熊,找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。”
这就像人类在数东西时会用手指逐个点过去。坐标不再是最终的答案,而是推理过程中消除歧义的“锚点”。模型的逻辑链被牢牢钉在图片的物理坐标上,不会发生漂移。
这套机制包含两种“原语”(Primitives):边界框(<|box|>)用于需要定位和尺寸信息的对象;点坐标(<|point|>)用于更抽象的空间指代,例如迷宫探索轨迹或曲线追踪路径。
核心创新二:高达 7056 倍的视觉压缩
另一个令人印象深刻的技术创新,来自于架构层面的压缩。
对于一张 756×756 的图片,传统方案需要将大量视觉 token 输入给语言模型。DeepSeek 的流程如下:图片首先经过 ViT 处理,生成 2916 个图像块 token;接着经过 3×3 空间压缩,合并为 324 个 token 输入语言模型;最后,内置在 V4-Flash 中的“压缩稀疏注意力”(Compressed Sparse Attention,CSA)机制,将 KV 缓存进一步压缩 4 倍,最终仅剩下 81 个视觉 KV 条目。
从原始像素到最终缓存条目,整体压缩比达到了 7056 倍。
这意味着,对于一张 800×800 的图片,该模型只需约 90 个 KV 缓存条目。相比之下,Claude Sonnet 4.6 需要约 870 个,而 Gemini-3-Flash 则需要约 1100 个。论文的论点在于:精确的空间指代能力,可以在一定程度上弥补视觉 token 不足的问题。模型不需要“看更多”,而是需要“指更准”。
核心创新三:冷启动数据的精心设计
技术创新的第三个维度,体现在训练数据的构建方式上。
团队首先爬取了近 10 万个与目标检测相关的数据集,经过两轮严格筛选(语义审核和几何质量审核),最终保留了约 3.17 万个高质量数据源,并生成了超过 4000 万条训练样本。
在“思考与视觉原语”的专项冷启动数据方面,团队设计了四类任务。
第一类是计数任务,分为粗粒度(“图里有多少人”)和细粒度(“穿蓝色衣服的人有几个”)两种。对于粗粒度计数,模型学习“批量锁定”——一次性框出所有候选对象再计数;对于细粒度计数,则学习逐一扫描、逐一核对属性。这两种策略对应不同的认知负荷,分别进行训练。

第二类是空间推理和视觉问答,大量利用 GQA 数据集(自然场景)和 CLEVR 工具链(可控合成场景)生成多跳推理样本,迫使模型在每一步推理时,都使用边界框锁定所涉及的对象。

第三类是迷宫导航任务,共生成 46 万条样本。团队采用 DFS(深度优先搜索)、Prim 和 Kruskal 算法,生成了矩形、圆形、六边形三种拓扑结构的迷宫,并专门设计了“表面可解但实际无解”的迷宫,以训练模型的鲁棒性。模型需要使用点坐标记录每一步的探索轨迹,回溯时也要用坐标标记已排除的路径。

第四类是路径追踪任务,共 12.5 万条样本。给定一张多条贝塞尔曲线相互交叉的图,要求模型追踪指定起点的曲线到达终点。关键挑战在于“交叉歧义消解”:当两条线交叉时,模型必须判断哪一条才是目标曲线的延续,而不能依赖颜色取巧——为此,团队专门设计了所有曲线颜色相同的测试版本。

训练流程:“先分家,再合体”
在后训练阶段,团队采用了“先专家化,后统一”的策略。
第一步,分别使用边界框数据和点坐标数据,训练两个专家模型(FTwG 和 FTwP),以避免两种模态在数据量较少时互相干扰。
第二步,针对两个专家模型分别实施强化学习(RL),采用 GRPO 算法。奖励机制设计极为细致:格式奖励(检验输出格式是否符合规范)、质量奖励(由大语言模型评判思考内容与答案是否一致)、精度奖励(针对特定任务)三管齐下。在计数任务中,使用平滑指数衰减奖励而非简单的二元对错判断;迷宫任务的奖励则拆解为五个子项(因果探索进度、探索完整性、穿墙惩罚、路径有效性、答案正确性),目的都是为模型提供密集且信息丰富的学习信号。
第三步,利用两个专家模型生成的 rollout 数据,执行统一的强化微调(Unified RFT),随后从预训练模型重新初始化并开始训练,最终得到统一模型 F。
第四步,通过在线策略蒸馏(On-Policy Distillation)来缩小统一模型与专家模型之间的性能差距——让学生模型自行生成轨迹,然后最小化其输出分布与专家分布之间的 KL 散度。
实验结果:在“最具挑战性的题目”上超越 GPT-5.4
论文在 11 个基准测试中进行了评估,与 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 等主流模型进行了对比(所有前沿模型均通过 API 评测,并使用统一的提示词)。
结果概要如下:
- 在计数任务上,该模型在 Pixmo-Count(精确匹配)中取得 89.2% 的得分,超过 Gemini-3-Flash 的 88.2%,大幅领先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。在细粒度计数(DS_Finegrained_Counting)方面,以 88.7% 的成绩超越 Qwen3-VL 的 87.2%,排名第一。
- 在多个空间推理基准测试中,整体表现与头部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均位居榜首。
- 最具代表性的差距出现在拓扑推理任务上。在迷宫导航(DS_Maze_Navigation)中,该模型得分为 66.9%,而 GPT-5.4 为 50.6%、Gemini-3-Flash 为 49.4%、Claude Sonnet 4.6 为 48.9%——所有前沿模型仅能答对约一半,而该模型提升了约 17 个百分点。在路径追踪(DS_Path_Tracing)中,该模型为 56.7%,对比 GPT-5.4 的 46.5%、Gemini-3-Flash 的 41.4%,差距同样显著。
论文坦诚地指出:“所有前沿模型在拓扑推理任务上均表现欠佳,表明多模态大模型的推理能力仍有相当大的提升空间。”
下面展示了几个定性示例:



局限与未来
论文并未回避几个已知的局限性。
- 当前模型需要明确的“触发词”才能启用视觉原语机制——它尚不能自主判断何时该“使用手指”。
- 受输入分辨率限制,在极细粒度的视觉场景中,视觉原语的位置偶尔不够精准。团队认为,与现有高分辨率感知方案结合是自然的下一步。
- 用点坐标解决复杂拓扑推理问题,目前的跨场景泛化能力仍然有限。
结语:一种新的“思考姿势”
这篇论文的意义,不仅在于在几个榜单上取得领先。
它提出的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”——在此之前并非学界的主流叙事。
主流的努力方向是更大的模型、更高的分辨率、更多的训练数据。这篇论文开辟了另一条路径:不是让模型“看更多”,而是让模型“指更准”,用坐标替代语言描述,用空间锚点稳定逻辑链。
从这个角度看,“Thinking with Visual Primitives”更像是为多模态推理增添了一种“思考姿势”——一种人类在处理复杂视觉任务时本能就会使用、但 AI 此前一直缺失的姿势:用手指点着想。
更多详情请参阅原论文。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32813

