DeepSeek颠覆多模态推理：7056倍压缩视觉Token，性能媲美GPT-5.4

“Seeing is not Reasoning.”

当 DeepSeek 团队在其最新论文《Thinking with Visual Primitives》中写下这句简短有力的论断时，他们实际上戳破了当前多模态大模型领域一个被普遍忽视却致命的泡沫——我们一直以为让模型看得更清楚就能推理得更好，但真相却是：即便为模型配备显微镜级别的视觉感知能力，其在复杂空间逻辑面前的推理依然可能瞬间崩溃。

DeepSeek颠覆多模态推理：7056倍压缩视觉Token，性能媲美GPT-5.4

这篇论文提出了一个足以引发领域深刻反思的核心概念——参考鸿沟。何为参考鸿沟？试想你正试图向远方友人描述自家书架上第三排左数第二本书的书脊颜色。纯粹的言语描述不仅冗长，且极易引发歧义。这正是当前多模态大模型所面临的困境：它们的链式思维深陷于语言空间的泥沼，却始终缺少一根能够穿透屏幕、精准指向物理世界的“手指”。

而 DeepSeek 给出的解决方案，其优雅之处恰恰在于它极其贴近人类的认知本能。当我们面对复杂的迷宫，或需清点密密麻麻的物体时，大脑会自发地调用“指示性手势”。我们会不自觉地伸出手指，一边点着目标一边进行内部推理。这种“指-思”协同机制，正是认知心理学家丹尼尔·卡尼曼所描述的“System 2”思维的关键外显特征。

DeepSeek 的“视觉基元思考”框架，正是这一认知机制在 AI 系统中的复现。该框架将空间标记——点与边界框——提升为思考过程中的“最小单位”。 这意味着，模型的推理轨迹不再是一串飘浮在语义真空中的文字序列，而是被牢牢锚定在图像物理坐标上的精确探索。

结果令人震惊。在 800×800 分辨率的输入图像上，该模型在 KV 缓存中仅需保留约90 个视觉条目，相较于传统方案动辄数千个视觉 Token，实现了高达7056 倍的压缩比。

然而，正是这个极其紧凑的模型，在包含计数、空间推理与拓扑导航在内的 7 项基准测试中， 平均性能追平甚至超越了 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等巨无霸模型。这不仅是一条技术路线的胜利，更从根本上揭示了后 Token 时代多模态智能发展的核心方向：未来不在于看见更多的像素，而在于构建更精确、更少歧义的指代桥梁。

unsetunset本文目录unsetunset

一、视觉语言的囚笼：当我们给 AI 装上眼睛，却忘了给它手指
1.1 从“感知鸿沟”到“参考鸿沟”：一个被忽略的致命瓶颈
1.2 “指-思”协同：人类认知的启示录
1.3 惊人的效率悖论：少即是多的深刻注解
二、视觉基元的炼成：从大规模数据锻造到训练流程重构
2.1 架构根基与极致压缩：7056 倍压缩的工程奇迹
2.2 视觉基元的定义：为何“框”优于“点”？
2.3 大规模数据锻造：全自动筛选流水线
2.4 后训练的冷启动设计：四维任务矩阵
2.5 专家化后训练：专才的锻造与融合
三、相关研究脉络：视觉推理的进化与困局
3.1 从感知优化到粗略定位
3.2 “参考鸿沟”的识别与本文的超越
四、实验的群像：当坐标成为真理
4.1 计数任务的降维打击
4.2 空间推理与 VQA 的锚定效应
4.3 拓扑推理：AI 开始真正地“走迷宫”
五、结论与展望：通往 System 2 智能的坐标基座
5.1 结论总结
5.2 进阶分析
5.3 未来工作

unsetunset一、视觉语言的囚笼：当我们给 AI 装上眼睛，却忘了给它手指unsetunset

近年来，随着大语言模型与计算机视觉的深度融合，多模态大模型已具备令人惊叹的场景理解能力。

然而，当我们尝试将这些模型推向需要深度思考的“System 2”类复杂推理任务时，一个根深蒂固的缺陷便暴露无遗——这些模型的内部推理过程，即通常所说的链式思维，虽然在语言序列层面编织得愈发精巧，却始终与它们声称在分析的视觉世界保持着一种诡异的割裂。

这种割裂，被 DeepSeek 团队精准地定义为一个影响深远的原创概念：参考鸿沟。

1.1 从“感知鸿沟”到“参考鸿沟”：一个被忽略的致命瓶颈

要理解这个概念的深刻性，我们需要回顾多模态大模型近两年的技术演进轨迹。此前，几乎所有致力于提升多模态推理性能的研究——包括那些前沿模型所采用的视觉缩放策略，如高分辨率裁剪与动态分块——都将火力集中在解决 “感知鸿沟” 上。

感知鸿沟试图回答的问题是：“模型是不是看漏了什么？” 为了解决这个问题，业界掀起了惨烈的图像 Token 军备竞赛。一个 800×800 的图像被切分成成千上万个 Token 的情况并不罕见，甚至在某些极端配置下，单张图像消耗的 Token 量堪比半本小说。这种做法虽然让模型对图像细节的“所见”日益精细，却在不经意间走入了一个逻辑死胡同。

“看见”并不等同于“推理”。

DeepSeek 团队在论文中通过密集计数与多步空间推理等任务，系统性地揭示了这一逻辑塌缩的根源。即使模型拥有了高清到足以数清每一根睫毛的视觉感知，它在处理“数出图中所有白狗的数量”这样看似简单的查询时，仍然会频繁产生幻觉。原因无他——当模型试图用一串语言字符，比如“左下角的那只白狗”，去锚定连续视觉空间中的一个具体实体时，语言固有的歧义性便暴露了。

这就像你试图用一篇描述性散文去指挥一台手术。 语言天然是模糊的、抽象的、可多重解读的，而视觉空间则是具体的、连续的、坐标确定的。 当模型在一片文字的海洋中“丢失”它正在指涉的物体时，推理便成了一场地基不稳的空中楼阁。

1.2 “指-思”协同：人类认知的启示录

面对这一瓶颈，论文的解决思路并未走向对视觉编码器的进一步魔改，而是巧妙地转向了人类的认知过程。这是一个典型的认知科学驱动的研究范式。

当我们面对复杂的空间任务时，人类大脑会自然而然地采用一种高效的认知减负策略——外部化。比如，用手指沿着迷宫的路径逐段追踪，或用笔尖在报表上逐个数字点读。这个看似简单的“指”的动作，本质上是在外部物理坐标与内部神经计算之间，搭建起一座稳固的参照系桥梁。当“指”发生时，思维不再需要在珍贵的工作记忆中不断刷新目标的语义描述，而是将这部分信息卸载到持久且确定的外部空间标记上。

DeepSeek 提出的 “用视觉基元思考” ，本质上就是将这一过程算法化。这意味着空间标记——包括坐标点和边界框——被提升为思考的媒介，而不仅仅是最终输出结果。传统的做法通常是：模型先进行内部语言推理，最后再将推理结果“翻译”成一个边界框作为参考答案。这种后置锚定模式无法解决推理过程中参照丢失的问题。

在视觉基元框架下，模型可以边“指”边“想”。它的思考轨迹会变成这样：

“我需要数出所有的白色狗。首先，我将注意力集中在画面左上角，在坐标 [120, 45, 215, 150] 处锁定了一个候选对象，这是一只白色的狗。接着，我向右扫描，在 [340, 62, 420, 170] 处发现了第二个相似的白色目标……”

请注意，这里的坐标并非事后补充的证明，而是驱动思维前进的内在步骤。这种交织使得模型的认知路径被物理世界的坐标所规训，从而极大地压制了在抽象语义空间中“信马由缰”的幻觉倾向。

1.3 惊人的效率悖论：少即是多的深刻注解

这一范式所带来的性能提升在论文的实验数据中得到了强有力的支撑。然而，比绝对性能数据更令人深思的，是该架构展现出的极端视觉 Token 效率。

论文中有一组极具冲击力的对比图，也就是下图 1，它展示了不同模型在处理相同分辨率图像时的 Token 消耗与最终性能表现之间的关系。

图 1：(a) 不同模型在处理一张800×800分辨率图像时的Token消耗量。 (b) 在7项基准测试上的平均性能表现，包括计数与空间推理任务，其中排除了内部评测集。对于800×800的输入，该模型在KV缓存中仅保留约90个条目，通过高效的压缩策略实现了极具竞争力的性能。这组数据揭示了一个残酷的产业现实：部分大模型为了覆盖其视觉推理缺陷，不得不诉诸暴力式的Token扩容，将视觉序列膨胀至数千乃至上万。而DeepSeek的模型则凭借其压缩稀疏注意力机制，以极少的视觉Token实现了同等乃至更强的认知深度。这无疑是优雅算法对“大力出奇迹”范式的又一次无声嘲讽——真正的智能不在于你吞下了多少数据，而在于你是否拥有一个精干、无歧义的认知骨架。

因此，这项工作不仅仅是提出了一种新的模型训练技巧，它实际上是对当前主流多模态推理范式的一次拨乱反正。它迫使我们重新审视一个根本性问题：在通往通用多模态智能的道路上，我们究竟是应该继续堆砌更清晰的“眼睛”，还是该为模型安上一对能够精准“指认”这个世界的“手指”？答案似乎正在向后者强力倾斜。

二、视觉基元的炼成：从大规模数据锻造到训练流程重构

要赋予模型这种用坐标思考的能力，并非简单地改造输出头或在 Prompt 中添加几句指令就能做到。这需要一场贯穿数据构造、模型架构与训练流程的系统性工程。

DeepSeek 的“视觉基元思考”框架是建筑在一个经过精心优化的高效架构基础之上的，其核心理念与实现路径，为业界提供了一套高度可复现的方法论蓝图。

2.1 架构根基与极致压缩：7056 倍压缩的工程奇迹

在深入数据与训练的细节之前，理解其基础架构的 Token 压缩流水线是至关重要的，因为这直接决定了模型是否具备“长程指代”的物理条件。

作者开篇即指出，传统方法在视觉 Token 上的挥霍无度，不仅推高了推理成本，更致命的是在 KV 缓存中塞入了大量冗余信息，使得模型在长上下文中难以精准定位。
DeepSeek 的方案则呈现出一条令人咋舌的压缩轨迹。我们可以通过论文中一个具体的算例来体会其精妙之处：
原始输入：一个分辨率的图像，共 571536 个像素。
补丁嵌入：视觉 Transformer（ViT）以的补丁大小进行处理，生成 2916 个图像补丁 Token。
空间压缩：ViT 输出端应用一个空间 Token 压缩层，将每 9 个相邻补丁 Token 沿通道维度合并为 1 个，Token 数骤降至个。
KV 缓存压缩：最关键的环节在于其基础语言模型 DeepSeek-V4-Flash 中内嵌的压缩稀疏注意力机制。 该机制将 KV 缓存中的视觉 Token 再压缩 4 倍，最终将个 Token 缩减为仅仅81 个视觉 KV 条目。

整个流程从原始像素到最终存入 KV 缓存，整体压缩率高达7056 倍。

压缩比原始像素条目

这种极致的压缩并非简单的下采样，而是一种高度结构化的信息筛选。它迫使模型学习将丰富的视觉信息编码进一种极其紧凑的“空间潜码”。 这种设计使得模型在执行后续的视觉基元推理时，其注意力矩阵只需处理这 81 个高信息密度的位置，而不是在数千个 Token 的海洋中寻找针尖般的坐标。

2.2 视觉基元的定义：为何“框”优于“点”？

在架构之上，DeepSeek 团队对视觉基元自身的定义做了深刻的哲学思辨。他们确立了两种标准的输出格式作为基元：边界框 与点。

初看之下，点似乎更简洁、更原子化。然而，作者在两相比较后，明确地将数据构建的重心大幅度倾斜向了边界框。 这一选择背后包含着对信息确定性与任务泛化能力的深层思考，论文从三个维度展开了论证：

标注的确定性：一个边界框严格地包裹一个物体，其标注相对具有确定性，IoU（交并比）可以明确定义好坏。而点的标注则高度模糊，物体内部任何一点都可作为参照，缺乏严格的真值标准。 尤其在严重遮挡场景，一个原本属于背景物体的点可能直接落在前景遮挡物上，导致灾难性的参照歧义。
任务的可泛化性：一个边界框本质上由两个点定义，即左上角和右下角坐标。因此，一个能够精准输出边界框的模型，自然地包含了输出点的能力。 这种“向下兼容”的设计使得预训练阶段可以专注于一个更严格、更可评估的任务。
信息的丰富度：一个框不只是“在哪里”，它还封装了物体的粗略几何信息，如宽度、高度和长宽比。 这些隐式编码的几何信息，为后续更复杂的推理，如判断大小关系、空间包含等，提供了额外的运算基础。

2.3 大规模数据锻造：全自动筛选流水线

有了明确的目标格式，下一个棘手的问题是：数据从何而来？现有的公开数据集如 COCO 或 Pixmo-Points，虽然相对精确，但规模与多样性严重不足，无法支撑一个通用“视觉基元思维”基座模型的训练。DeepSeek 的解法是：构建一套全自动化的、面向海量互联网数据的爬取与筛选流水线。

2.3.1 自动化获取与语义筛选

团队首先从 HuggingFace 等平台进行了大规模数据抓取，依据标签如“Object Detection”获取了 97984 个与框定位相关的数据源，并使用 LLM 智能体自动解析各个数据集的 README.md 文件，将结构各异的数据转换成统一格式。

然而，来自互联网的数据极度嘈杂，充斥着各种语义与几何缺陷。为此，论文设计了一个两阶段过滤机制。第一阶段是语义级审查，由 MLLM 驱动的自动评分机制负责，专门甄别和清除三类致命语义缺陷。

深度重写与降重

2.3.2 几何质量把控与平衡采样

第二阶段的工作重心是视觉几何质量审查，其核心目标是确保边界框的精确性与标注的完整性。此环节主要针对以下三种结构性缺陷进行精准剔除：

严重漏标（低召回率）：若抽样检查发现，与给定标签对应的多个实例中，超过50%未被标注，则整个数据集将被直接丢弃。
严重截断与偏移：系统采用差异化的容忍策略。对于轻微松弛的边界框可以接受，但那些严重截断物体关键视觉特征（例如切掉头部或轮子）的框，则会被严格拒绝。
巨型框问题：如果某个边界框无意义地覆盖了超过90%的图像区域，并且该现象在抽样中频繁出现，则判定该数据集本质上是图像分类数据被强行转换为检测数据，缺乏有意义的定位信息，同样予以丢弃。

经过这两层严格的审查，最终筛选出31701个高质量数据源。为确保数据分布的平衡，团队设计了一套基于类别的采样策略：每个类别、每个数据集最多采样1000张图像。最终，一个超过4000万样本的预训练数据集由此诞生。

2.4 后训练的冷启动设计：四维任务矩阵

预训练阶段赋予了模型输出视觉基元的基本能力，但要将其打造成高效的推理工具，还需要一套精细的后训练流水线。然而，关键难点在于，直接从真实世界标注数据中提取包含视觉基元的完整思考链极其困难。 为此，DeepSeek构建了一个规模虽小但极其精准的“冷启动”数据集，用以引导模型学习如何生成交织着坐标的思维过程。

这个冷启动数据集主要围绕以下四个核心维度展开：

计数：通过边界框来锚定每一个被计数的对象，强制模型形成“枚举-定位-求和”的思维链条。其数据生成过程高度程序化，借助场景图来构建精细的计数问题，并辅以严格的验证机制，确保思维链中的每个框都与元数据坐标对齐。
空间推理与通用VQA：利用CLEVR等合成环境，生成包含多跳逻辑的复杂空间性问题。模型需要在思考过程中定位多个对象，并通过坐标关系来判断“紫色橡胶物体是否与灰色金属物体大小相同”。为了防止模型走捷径，团队特别引入了反事实数据与否定样本。
迷宫导航：这是对拓扑推理能力的直接考验。团队使用DFS、Prim等算法生成了大量网格型、圆形、六边形迷宫，并设计了不可解迷宫。模型被训练以DFS式的探索过程进行思考，每一步都用点坐标来验证墙壁的连通性。
路径追踪：该任务要求模型在一团纠缠的线条中，追踪一条指定的曲线并识别其终点。这迫使模型在面对线条交错时，借助局部几何连续性这一基元来进行分支决策。

图2：模型架构与训练流程。该架构基于DeepSeek-V4-Flash开发，在预训练阶段习得基础视觉基元生成能力，随后进入采用“专家化-整合”范式的后训练阶段。整个训练框架清晰地体现了“先专后统”的策略，专家模型在各自任务上通过RL达到极致，再通过蒸馏与合并实现能力融合。

这个冷启动数据集虽然规模不大，总计约60万样本，但纯度极高。所有视觉基元在思维链中的引用都经过自动验证，从而杜绝了监督信号中的噪声。

2.5 专家化后训练：专才的锻造与融合

这部分是论文方法论中极具工业实践价值的核心内容。面对“框”和“点”这两种特性迥异的视觉基元，直接让一个模型同时精通这两种能力是低效的。DeepSeek采用了一套先进的“先分散、后统一”的策略：

专家化SFT与RL：基础模型分别针对“带框思维”和“带点思维”进行监督微调与强化学习，训练得到两个专家模型，即和。在RL阶段，除非绝对必要，否则并不对思维链内部的视觉基元坐标进行监督，这极大地扩展了RL数据的可用范围。论文精巧地设计了一系列奖励模型：
- 格式RM：确保生成框或点的语法正确，并惩罚生成重复框的“死循环”行为。
- 质量RM：基于LLM，评判思维内容是否自洽、是否与最终答案一致、是否有“奖励黑客”行为（如强行编造答案）。
- 准确性RM：每个任务都有其定制设计。例如，计数任务的奖励函数被设计为一个优雅的指数衰减形式：

$$R(p, g) = expleft(-frac{(p – g)^2}{2sigma^2}right)$$

该公式在预测值$p$偏离真实值$g$时给予平滑的惩罚，尤其适合物体数量$g$较大的场景，避免了二元对错信号的稀疏性。

统一RFT与策略蒸馏：在获得专才模型后，让两位“专家”对大量数据进行采样，生成推理数据，并挑选其中最能提供学习信号的“中等难度”样本，重新训练一个新的基础模型，即统一RFT。最后，为了进一步逼近专家水平，采用在策略蒸馏，其目标函数是最小化学生模型$pi_{theta}$与两个专家模型$pi_{text{box}}$、$pi_{text{point}}$在自身生成轨迹上的反向KL散度：

$$mathcal{L}{text{Distill}} = mathbb{E}) right) right]$$}}left[ sum_{t} text{KL}left( pi_{theta}(cdot | x, y_{<t}) parallel pi_{text{expert}}(cdot | x, y_{<t

这套从冷启动到专家化，再到融合的流水线，构成了一套完整且严密的视觉基元能力注入体系。

三、相关研究脉络：视觉推理的进化与困局

多模态大模型的推理能力进化，始终围绕着两条轴线展开：

一条是如何让模型“看得更清”，即弥合感知鸿沟；
另一条则是如何让模型“想得更深”，即提升逻辑链的质量。

本文的工作在继承前者的基础上，尖锐地指出了后者存在的一个被长期忽略的瓶颈，并开创了第三条赛道——让模型“指得更准”。

3.1 从感知优化到粗略定位

早期的工作，如LLaVA系列，奠定了将视觉特征与语言指令以Token序列形式进行交互的基本范式。这一阶段的核心矛盾是感知：模型是否捕捉到了图像中的细粒度信息。
随后，以GPT-4V和Gemini为代表的前沿模型，通过高分辨率分块和动态编码等视觉缩放策略，将感知能力推向了新高度。

这些工作的核心贡献在于确认了一个事实：给模型输入足够多的视觉Token，它确实能“看见”很多细节。

与此同时，另一条支线开始尝试在模型的输出中引入空间定位。部分研究开始探索将边界框作为后置验证机制整合进思维链，但_其驱动力主要来自对高分辨率基准测试的需求，关注点仍是“看清”物体然后标出来，而非“指着”物体来思考。_

3.2 “参考鸿沟”的识别与本文的超越

DeepSeek团队精准地捕捉到了上述工作的共同局限性：它们都未能解决参考鸿沟。 即使是那些能够输出边界框的模型，其坐标也往往是推理结束后的最终产物，而不是推理过程本身的内在媒介 。试想一下这两者的区别：

旧范式：模型在脑中想“左边那个大的红色的球…”，然后输出[x1, y1, x2, y2]作为答案。
新范式：模型想“我看向 [x1, y1, x2, y2] 这个物体，它是红色的、大的，正好满足条件…”。

在旧范式中，从“左边那个”到最终坐标的过程中，模型完全依赖于其内部表征对语言描述的解码。而在新范式中，坐标是锁链本身，它夹持着推理的锚点，完全杜绝了语义漂移的空间。

这种差异在拓扑推理任务中表现得尤为致命。早期的视觉CoT工作在面对迷宫导航或路径追踪这类任务时几乎是空白。因为用纯语言去描述一条不规则曲线的轨迹是近乎不可能的，而本文的“用点思考”则为此类问题提供了天然的解决方案。通过在思考流中插入 <|point|>[x1,y1], [x2,y2]...<|/point|> 这样的序列，模型得以用一种连续的、几何的方式去模拟轨迹追踪。

四、实验的群像：当坐标成为真理

衡量范式的唯一标尺，始终是性能。在下面这份详尽的表1中，我们将直观地看到一次对多模态模型能力评估体系的重新校准。

表1：与前沿模型的性能对比。 为确保公平性，所有模型均通过各自的API，在相同的提示集下进行评估。粗体表示最优结果，下划线为次优结果。

这份成绩单揭示了一个耐人寻味的现象：在像Pixmo-Count这类相对通用的计数任务上，各模型之间的表现差距并不悬殊。然而，一旦进入论文专门为测试“参考鸿沟”而设计的内部基准——即包含硬负样本的细粒度计数、多跳空间推理、迷宫导航以及路径追踪——性能差距便被急剧放大。这完美地印证了论文的核心论点：当前模型的瓶颈并不在于“是否看得见”，而在于“是否能指得准”，并基于“指”这一动作进行推演。尤其是在最具挑战性的路径追踪任务上，本模型取得了56.7%的准确率，而大多数竞品仍在30-40%的区间挣扎，有些甚至低至24.5%。

面对GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等一系列顶级旗舰模型，DeepSeek的284B总参模型（13B激活）并未在所有指标上都取得压倒性的第一。然而，它在一个关键维度上实现了降维打击——那就是需要深度视觉锚定的逻辑推理任务。

4.1 计数任务的降维打击

传统MLLM的计数方式，本质上是一种“神经网络回归”：模型根据图像的整体印象，从其概率分布的某个峰值附近“猜测”出一个数字。这种模式在面对密集场景或需要排除干扰项时，注定会失败。

本模型则在思维链中展现了完全不同的作业模式，如图3所示。

图3：粗粒度与细粒度计数的冷启动数据示例。 模型首先进行意图分解，随后利用视觉基元锚定每一个相关实体，最后基于视觉域执行系统化的计数程序。

这本质上是将计数的认知过程，从“统计直觉”转变为“视觉枚举算法”。这种转变使得模型在面对“数出图中的白色狗”这类细粒度问题时，能够清晰地将“白色狗”的边界框与“其他颜色的狗”或“背景物体”的边界框区分开来。这种可追溯、可验证的推理链，正是模型在DS_Finegrained_Counting评测集上达到88.7%准确率（相较于其他模型取得显著领先优势）的根本原因。

以“数出图中的男人数量”为例，模型输出的不再是单纯的数字，而是一个包含25个边界框坐标的庞大矩阵。它扫描、定位，然后将每个框作为一个外在的、稳固的记忆锚点。最终的数字25，是对这一系列显式坐标进行简单求和后的自然产物，而非一个黑箱输出的标量。

4.2 空间推理与VQA的锚定效应

在空间推理与通用VQA的大范畴中，视觉基元扮演了“逻辑常量”的角色。当模型被问到“紫色的橡胶物体是否与灰色的金属物体大小相同”时，传统的语言推理链可能会在“那个大的灰色的球”和“旁边那个小的紫色的东西”之间产生指代混乱。

图4：空间推理任务的冷启动数据示例。 模型在思考过程中锚定所有相关实体，从而支撑起复杂的多跳逻辑推理。

这种“锚定效应”是消除幻觉的一大利器。因为语言可以模棱两可，但坐标[502, 209, 555, 288]在二维平面上是唯一且排他的。论文在合成场景CLEVR的变体评测集上取得了98.7%的准确率，近乎真理，这证明了当推理链条被完全坐标化后，空间逻辑问题对模型而言已退化为简单的几何运算。

本模型的工作方式则极为严谨，如图4所示： 它首先定位“灰色金属球``<|box|>[502, 209, 555, 288]”，然后对外宣称“它的尺寸属于小物体”。接着，它依据这个尺寸标准，逐一检索其他小物体，并用坐标逐一排除候选。整个过程如同一场严谨的法庭证据呈堂，每一个断言的背后，都是一个四元组坐标。

4.3 拓扑推理：AI开始真正地“走迷宫”

或许最惊艳的定性结果，来自迷宫与路径追踪。 这是纯粹主义者用来拷问AI空间理解能力的试金石。当Gemini和Claude面对一个中高难度的迷宫时，其内部的语言模型可能在编织一个“虽然我向左转然后又向右，但我觉得我可以找到出口”的故事，而本模型却在执行一套离散的、可执行的坐标搜索。

图5：迷宫导航任务的冷启动数据示例，展示了拓扑推理中点视觉原语的核心应用。 模型采用DFS策略逐点探索迷宫路径，以坐标序列完整记录探索与回溯过程。纯语言无法精准描述不规则轨迹，点原语将抽象拓扑推理转化为具象坐标操作，解决了轨迹指代模糊的问题。本文生成了46万个不同难度的迷宫样本，模型在DS_Maze_Navigation基准上的准确率达到66.9%，远超其他模型，证明了点原语高度适配迷宫导航类拓扑推理任务。

图6：路径追踪任务的冷启动数据示例。 在路径追踪任务的点原语推理流程中，模型定位起点后，用密集坐标点精准追踪曲线轨迹，高效应对线条交叉带来的歧义问题。路径追踪需要依赖几何连续性进行判断，点原语让模型摆脱颜色等浅层特征的干扰，专注于路径本身。本文构建了12.5万个路径追踪样本，模型在DS_Path_Tracing基准上的准确率为56.7%，显著优于前沿模型，验证了点原语在连续轨迹推理中的核心价值。

图7：基于定位的思维示例（细粒度计数、反常识视觉问答）。 模型依托预训练的多语言能力，可直接输出中文推理与结果，无需额外中文语料。边界框的几何信息支撑了复杂的属性区分，使模型在DS_Finegrained_Counting基准上的准确率达到88.7%，证明了视觉原语能够解决细粒度视觉推理中的指代与判别难题。

图8：基于定位的思维示例（世界知识问答、操作建议）。 这展现了边界框原语结合世界知识的推理能力。模型先定位地标、设备等实体，再关联知识给出答案与实操步骤。边界框锚定让知识推理与视觉实体强绑定，避免了知识与视觉信息的脱节。模型可依据咖啡机、地标等视觉信息，输出生活化的操作建议与地理知识回答，体现了视觉原语框架不仅适配专业推理任务，也能高效落地于日常多模态交互场景。

图9：基于定位的思维示例（幽默理解、密室逃脱指导、计数）。 这展示了边界框原语在多元开放任务中的泛化能力，覆盖了幽默解析、任务指导、密集计数三大场景。模型用边界框定位关键视觉元素，拆解幽默成因、规划逃脱步骤、精准统计人数，解决了开放任务中视觉指代模糊的核心问题。视觉原语让模型的推理过程变得可解释、可验证，能够在各类开放视觉任务中保持稳定输出，充分验证了框架的泛化性与实用价值。

从图5和图9可以看到，模型的思考过程就是一份完整的DFS（深度优先搜索）日志：

Step 1: 到达 <|point|>[555, 499]。

Step 2: 发现2个方向。

Step 3: 朝顺时针方向移动至 <|point|>[597, 472]... 发现死胡同，回溯至 <|point|>[720, 705]

每一句思考都伴随着一个不可篡改的<|point|>。这种模式令模型在“探索进度”和“墙壁违规”等细粒度奖励信号的引导下，学会了一套内部化的、基于视觉基元的物理搜索算法。 在DS_Maze_Navigation上，模型以66.9%的准确率远超所有前沿竞品（最高50.6%），这不仅仅是“更好”，而是“能做”与“不能做”之间的本质区别。

五、结论与展望：通往System 2智能的坐标基座

《Thinking with Visual Primitives》这篇论文，凭借其深刻的洞察力和扎实的工程实践，为多模态推理领域树立了一座新的里程碑。它从认知科学的底层逻辑出发，重新定义了空间标记在AI思维中的角色，并展示了其颠覆性的效率与能力。但这并非终点，而是一个充满更大想象空间的开端。

5.1 结论总结

本文的核心贡献在于识别并尝试解决了一个根本性的瓶颈——参考鸿沟。

方法论创新：该研究提出一种“以视觉基元思考”的框架，将点和边界框从单纯的输出格式，升华为思维过程的内在媒介，从而构建出“指-思”协同的全新认知范式。
架构与效率突破：借助压缩稀疏注意力等核心技术，实现了高达 7056 倍的视觉 Token 极端压缩，有力证明了高效推理无需依赖庞大的 Token 预算。
性能验证：通过一套全面且严苛的评测基准，涵盖细粒度计数、多跳空间推理以及复杂拓扑导航，实证表明该方法在逻辑严谨性上，相较于 GPT-5.4、Claude 等前沿模型具备决定性优势。
训练范式：提供了一套完整且可复现的后训练流水线，其流程为“预训练-冷启动-专家化 RL-统一蒸馏”，为业界后续研究提供了清晰的蓝图。

5.2 进阶分析

在充分肯定其价值的同时，我们也需以冷峻的视角审视其局限性：

首先，该方法出色地缓解了“参考鸿沟”，但并未将其完全根除。模型目前对视觉基元的调用仍依赖于特定触发词，这表明该能力更接近于一种可被激活的特殊模式，而非一种泛在的、自发的认知本能。 它尚未学会像人类一样，自主判断何时该“伸出手指”，何时则无需如此。
其次，该方法在“点”基元的泛化上面临显著挑战。论文本身也承认，特别是在路径追踪、迷宫等拓扑任务上，其跨场景泛化能力有限。一个在程序化生成的贝塞尔曲线上训练出的追踪能力，能否迁移至真实世界的地图导航或医学影像中的血管追踪？实验数据的断层以及此类任务的低绝对得分，暗示了当前视觉基元推理仍高度依赖其训练数据的分布，其抽象程度尚不足以形成通用的拓扑直觉。
此外，还需关注隐性计算成本。尽管推理时的 KV 缓存被极限压缩，但后训练阶段的 RL 和蒸馏流程复杂且高度定制化。为每个专长领域训练一个专家模型再进行融合的路线，在扩展到成百上千种新任务时，其训练的经济成本和工程复杂度是否会成为新的瓶颈？

5.3 未来工作

论文作者明确指出了几个直接的技术演进方向。

首先，他们计划将本框架与那些旨在解决“感知鸿沟”的高分辨率方法进行整合，以期在精细场景下实现更精确的视觉基元输出。
其次，让模型能够根据上下文自主决定是否启用这种坐标化思维，是实现更自然交互的关键下一步。
最后，拓宽“用点思考”技术在更复杂拓扑问题上的应用边界与鲁棒性，已被列为重要的攻坚课题。

站在 AI 芯片与异构计算的角度，这项工作的深意远不止于软件算法层面。它实际上为未来 AI 芯片的架构设计指明了新的方向。

当模型的推理过程从自由形态的文本生成，转变为包含大量结构化、可预测的坐标序列时，我们是否可以在硬件上设计专用的空间坐标协处理器？一个专门优化 <|point|> 和 <|box|> Token 生成与校验的稀疏计算单元，其能效比可能是当前通用 GPU 的数个数量级。

更进一步，这催生了一个极具野心的想象——“坐标基座模型”。如果视觉、激光雷达点云、触觉传感器乃至机器人的关节角度，都能被统一表达为一种广义的“空间基元”，那么一个以坐标为核心进行推理的智能体，将有可能在物理世界中实现无缝的、高精度的人机协作与自主操作。这不仅是多模态模型的未来，更可能是具身智能真正走向现实世界的“操作系统”雏形。

DeepSeek 的“视觉基元思考”框架通过将空间坐标锚定为思维的最小单位，成功弥合了长期困扰多模态模型的“参考鸿沟”。它以极致的 7056 倍 Token 压缩效率，在计数、空间推理和拓扑导航等严肃的逻辑拷问中超越了当前最强模型。

这昭示了一个清晰的未来：多模态智能进化的下一站，不是给 AI 装上更高分辨率的眼睛，而是赋予它一根能精准指向世界每一个角落的手指。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/32839

DeepSeek颠覆多模态推理：7056倍压缩视觉Token，性能媲美GPT-5.4

unsetunset本文目录unsetunset

unsetunset一、视觉语言的囚笼：当我们给 AI 装上眼睛，却忘了给它手指unsetunset

1.1 从“感知鸿沟”到“参考鸿沟”：一个被忽略的致命瓶颈

1.2 “指-思”协同：人类认知的启示录

1.3 惊人的效率悖论：少即是多的深刻注解

二、视觉基元的炼成：从大规模数据锻造到训练流程重构

2.1 架构根基与极致压缩：7056 倍压缩的工程奇迹

2.2 视觉基元的定义：为何“框”优于“点”？

2.3 大规模数据锻造：全自动筛选流水线

2.3.1 自动化获取与语义筛选

深度重写与降重

2.3.2 几何质量把控与平衡采样

2.4 后训练的冷启动设计：四维任务矩阵

2.5 专家化后训练：专才的锻造与融合

三、相关研究脉络：视觉推理的进化与困局

3.1 从感知优化到粗略定位

3.2 “参考鸿沟”的识别与本文的超越

四、实验的群像：当坐标成为真理

4.1 计数任务的降维打击

4.2 空间推理与VQA的锚定效应

4.3 拓扑推理：AI开始真正地“走迷宫”

五、结论与展望：通往System 2智能的坐标基座

5.1 结论总结

5.2 进阶分析

5.3 未来工作

相关推荐

TrajSelector：轻量级隐状态复用，突破大模型推理的Best-of-N性能瓶颈

AI霸主之争：OpenAI面临谷歌与Anthropic双重夹击，万亿豪赌能否守住王座？

开源多模态推理新突破：MMFineReason框架以4B参数逆袭30B模型，开启数据驱动的高效推理时代

AI编程革命：从手工艺到工业化的软件未来

摩尔线程科创板上市：国产GPU的里程碑与AI智算战略转型深度解析