DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

五一假期将至，DeepSeek 选择在这个时间点公开一项新技术，引发了广泛关注。

昨天，DeepSeek 的陈小康在 X 平台上发布了一条消息，让人们开始聚焦 DeepSeek 在多模态领域的最新进展。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

随后，部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。

就在刚刚，DeepSeek 在 Github 上正式发布了多模态模型，并同步公开了详细的技术报告。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

这无疑是一项新鲜出炉的成果，且代表了推理范式的创新。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

项目地址：https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
技术报告：https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

接下来，我们将基于这份技术报告，深入探究 DeepSeek、北京大学与清华大学共同创造的这项突破。

这篇论文题为“Thinking with Visual Primitives（以视觉原语思考）”。它直指当前几乎所有多模态大模型的核心痛点：这些模型虽然能“看见”，却未必能“想清楚”。

例如，给出一张密集的人群照片，询问 GPT-5.4“图里有多少人”，它很可能数错。向 Claude Sonnet 4.6 展示一张复杂电路图，并问“左边的红色电容在右边电感的左侧还是右侧”，其回答往往含糊其辞，甚至前后矛盾。问题并非出在模型无法看清图片，而是模型在“思考”过程中，无法有效锁定它想讨论的视觉对象。

DeepSeek 将这一问题命名为“Reference Gap”（指代鸿沟），并提出了一套完整的解决方案。

背景：“看清”与“想清”是两回事

要理解这个问题，不妨想象一下：你在向一位看不见你屏幕的朋友描述一张复杂的棋盘布局。你说“左边那个棋子要吃掉中间偏右一点那个棋子”，但对方根本不知道你指的是哪两颗棋子。

这正是当前多模态大模型在推理时所面临的困境。它们依赖自然语言构建“思维链”（CoT），但自然语言本身具有模糊性：“左边那个大的”、“靠近中央的红色物体”——这些描述在密集场景中根本无法精确定位。模型的注意力在推理过程中逐渐“漂移”，导致逻辑混乱，最终得出错误结论。

此前，学术界的应对策略主要集中在让模型“看得更清楚”：通过对图片进行高分辨率切割、动态分块等方式，确保模型能感知到细节。这解决的是“感知鸿沟”（Perception Gap）。

然而，DeepSeek 的论文指出，即使感知能力再强，也无法替代精确的“指代能力”。“看见”和“能说清楚在说哪个”，是两件截然不同的事。

架构：站在 V4-Flash 的肩膀上

这项工作以 DeepSeek 最新发布的 V4-Flash 作为语言主干——这是一个总参数为 284B、推理时激活 13B 参数的混合专家模型（MoE）。视觉编码部分则采用了 DeepSeek 自研的 ViT（视觉 Transformer），能够支持任意分辨率的输入。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

值得注意的是，该团队的核心贡献在于提出了一套完整的“训练哲学”：如何利用极少的视觉 token，教会模型在推理过程中精确指代视觉对象。

核心创新一：将坐标转化为“思维单元”

这篇论文最核心的思路，可以概括为一句话：将点坐标和边界框（Bounding Box）作为推理的基本单位，像文字一样穿插在思维链中。

在传统做法中，边界框只是输出的一部分：模型先完成思考，再告诉你“目标在图片左上角坐标 [100,200,300,400]”。这属于事后标注，而非思考工具。

DeepSeek 的做法截然不同。模型在推理过程中，每当提及一个视觉对象，就会同步输出其坐标：

“扫描图片寻找熊，找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>，它正在爬树，不在地面上，排除。再往左下看，找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>，站在岩石边缘，符合条件。”

这就像人类在数东西时会用手指逐个点过去。坐标不再是最终的答案，而是推理过程中消除歧义的“锚点”。模型的逻辑链被牢牢钉在图片的物理坐标上，不会发生漂移。

这套机制包含两种“原语”（Primitives）：边界框（<|box|>）用于需要定位和尺寸信息的对象；点坐标（<|point|>）用于更抽象的空间指代，例如迷宫探索轨迹或曲线追踪路径。

核心创新二：高达 7056 倍的视觉压缩

另一个令人印象深刻的技术创新，来自于架构层面的压缩。

对于一张 756×756 的图片，传统方案需要将大量视觉 token 输入给语言模型。DeepSeek 的流程如下：图片首先经过 ViT 处理，生成 2916 个图像块 token；接着经过 3×3 空间压缩，合并为 324 个 token 输入语言模型；最后，内置在 V4-Flash 中的“压缩稀疏注意力”（Compressed Sparse Attention，CSA）机制，将 KV 缓存进一步压缩 4 倍，最终仅剩下 81 个视觉 KV 条目。

从原始像素到最终缓存条目，整体压缩比达到了 7056 倍。

这意味着，对于一张 800×800 的图片，该模型只需约 90 个 KV 缓存条目。相比之下，Claude Sonnet 4.6 需要约 870 个，而 Gemini-3-Flash 则需要约 1100 个。论文的论点在于：精确的空间指代能力，可以在一定程度上弥补视觉 token 不足的问题。模型不需要“看更多”，而是需要“指更准”。

核心创新三：冷启动数据的精心设计

技术创新的第三个维度，体现在训练数据的构建方式上。

团队首先爬取了近 10 万个与目标检测相关的数据集，经过两轮严格筛选（语义审核和几何质量审核），最终保留了约 3.17 万个高质量数据源，并生成了超过 4000 万条训练样本。

在“思考与视觉原语”的专项冷启动数据方面，团队设计了四类任务。

第一类是计数任务，分为粗粒度（“图里有多少人”）和细粒度（“穿蓝色衣服的人有几个”）两种。对于粗粒度计数，模型学习“批量锁定”——一次性框出所有候选对象再计数；对于细粒度计数，则学习逐一扫描、逐一核对属性。这两种策略对应不同的认知负荷，分别进行训练。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

第二类是空间推理和视觉问答，大量利用 GQA 数据集（自然场景）和 CLEVR 工具链（可控合成场景）生成多跳推理样本，迫使模型在每一步推理时，都使用边界框锁定所涉及的对象。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

第三类是迷宫导航任务，共生成 46 万条样本。团队采用 DFS（深度优先搜索）、Prim 和 Kruskal 算法，生成了矩形、圆形、六边形三种拓扑结构的迷宫，并专门设计了“表面可解但实际无解”的迷宫，以训练模型的鲁棒性。模型需要使用点坐标记录每一步的探索轨迹，回溯时也要用坐标标记已排除的路径。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

第四类是路径追踪任务，共 12.5 万条样本。给定一张多条贝塞尔曲线相互交叉的图，要求模型追踪指定起点的曲线到达终点。关键挑战在于“交叉歧义消解”：当两条线交叉时，模型必须判断哪一条才是目标曲线的延续，而不能依赖颜色取巧——为此，团队专门设计了所有曲线颜色相同的测试版本。

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

训练流程：“先分家，再合体”

在后训练阶段，团队采用了“先专家化，后统一”的策略。

第一步，分别使用边界框数据和点坐标数据，训练两个专家模型（FTwG 和 FTwP），以避免两种模态在数据量较少时互相干扰。

第二步，针对两个专家模型分别实施强化学习（RL），采用 GRPO 算法。奖励机制设计极为细致：格式奖励（检验输出格式是否符合规范）、质量奖励（由大语言模型评判思考内容与答案是否一致）、精度奖励（针对特定任务）三管齐下。在计数任务中，使用平滑指数衰减奖励而非简单的二元对错判断；迷宫任务的奖励则拆解为五个子项（因果探索进度、探索完整性、穿墙惩罚、路径有效性、答案正确性），目的都是为模型提供密集且信息丰富的学习信号。

第三步，利用两个专家模型生成的 rollout 数据，执行统一的强化微调（Unified RFT），随后从预训练模型重新初始化并开始训练，最终得到统一模型 F。

第四步，通过在线策略蒸馏（On-Policy Distillation）来缩小统一模型与专家模型之间的性能差距——让学生模型自行生成轨迹，然后最小化其输出分布与专家分布之间的 KL 散度。

实验结果：在“最具挑战性的题目”上超越 GPT-5.4

论文在 11 个基准测试中进行了评估，与 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 等主流模型进行了对比（所有前沿模型均通过 API 评测，并使用统一的提示词）。

结果概要如下：

在计数任务上，该模型在 Pixmo-Count（精确匹配）中取得 89.2% 的得分，超过 Gemini-3-Flash 的 88.2%，大幅领先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。在细粒度计数（DS_Finegrained_Counting）方面，以 88.7% 的成绩超越 Qwen3-VL 的 87.2%，排名第一。
在多个空间推理基准测试中，整体表现与头部模型持平或略有超越，在 MIHBench（85.3%）和 SpatialMQA（69.4%）上均位居榜首。
最具代表性的差距出现在拓扑推理任务上。在迷宫导航（DS_Maze_Navigation）中，该模型得分为 66.9%，而 GPT-5.4 为 50.6%、Gemini-3-Flash 为 49.4%、Claude Sonnet 4.6 为 48.9%——所有前沿模型仅能答对约一半，而该模型提升了约 17 个百分点。在路径追踪（DS_Path_Tracing）中，该模型为 56.7%，对比 GPT-5.4 的 46.5%、Gemini-3-Flash 的 41.4%，差距同样显著。

论文坦诚地指出：“所有前沿模型在拓扑推理任务上均表现欠佳，表明多模态大模型的推理能力仍有相当大的提升空间。”

下面展示了几个定性示例：

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”