DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

五一假期将至,DeepSeek 选择在这个时间点公开一项新技术,引发了广泛关注。

昨天,DeepSeek 的陈小康在 X 平台上发布了一条消息,让人们开始聚焦 DeepSeek 在多模态领域的最新进展。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

随后,部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。

就在刚刚,DeepSeek 在 Github 上正式发布了多模态模型,并同步公开了详细的技术报告。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

这无疑是一项新鲜出炉的成果,且代表了推理范式的创新。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

  • 项目地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
  • 技术报告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

接下来,我们将基于这份技术报告,深入探究 DeepSeek、北京大学与清华大学共同创造的这项突破。

这篇论文题为“Thinking with Visual Primitives(以视觉原语思考)”。它直指当前几乎所有多模态大模型的核心痛点:这些模型虽然能“看见”,却未必能“想清楚”。

例如,给出一张密集的人群照片,询问 GPT-5.4“图里有多少人”,它很可能数错。向 Claude Sonnet 4.6 展示一张复杂电路图,并问“左边的红色电容在右边电感的左侧还是右侧”,其回答往往含糊其辞,甚至前后矛盾。问题并非出在模型无法看清图片,而是模型在“思考”过程中,无法有效锁定它想讨论的视觉对象。

DeepSeek 将这一问题命名为“Reference Gap”(指代鸿沟),并提出了一套完整的解决方案。

背景:“看清”与“想清”是两回事

要理解这个问题,不妨想象一下:你在向一位看不见你屏幕的朋友描述一张复杂的棋盘布局。你说“左边那个棋子要吃掉中间偏右一点那个棋子”,但对方根本不知道你指的是哪两颗棋子。

这正是当前多模态大模型在推理时所面临的困境。它们依赖自然语言构建“思维链”(CoT),但自然语言本身具有模糊性:“左边那个大的”、“靠近中央的红色物体”——这些描述在密集场景中根本无法精确定位。模型的注意力在推理过程中逐渐“漂移”,导致逻辑混乱,最终得出错误结论。

此前,学术界的应对策略主要集中在让模型“看得更清楚”:通过对图片进行高分辨率切割、动态分块等方式,确保模型能感知到细节。这解决的是“感知鸿沟”(Perception Gap)。

然而,DeepSeek 的论文指出,即使感知能力再强,也无法替代精确的“指代能力”。“看见”和“能说清楚在说哪个”,是两件截然不同的事。

架构:站在 V4-Flash 的肩膀上

这项工作以 DeepSeek 最新发布的 V4-Flash 作为语言主干——这是一个总参数为 284B、推理时激活 13B 参数的混合专家模型(MoE)。视觉编码部分则采用了 DeepSeek 自研的 ViT(视觉 Transformer),能够支持任意分辨率的输入。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

值得注意的是,该团队的核心贡献在于提出了一套完整的“训练哲学”:如何利用极少的视觉 token,教会模型在推理过程中精确指代视觉对象。

核心创新一:将坐标转化为“思维单元”

这篇论文最核心的思路,可以概括为一句话:将点坐标和边界框(Bounding Box)作为推理的基本单位,像文字一样穿插在思维链中。

在传统做法中,边界框只是输出的一部分:模型先完成思考,再告诉你“目标在图片左上角坐标 [100,200,300,400]”。这属于事后标注,而非思考工具。

DeepSeek 的做法截然不同。模型在推理过程中,每当提及一个视觉对象,就会同步输出其坐标:

“扫描图片寻找熊,找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。”

这就像人类在数东西时会用手指逐个点过去。坐标不再是最终的答案,而是推理过程中消除歧义的“锚点”。模型的逻辑链被牢牢钉在图片的物理坐标上,不会发生漂移。

这套机制包含两种“原语”(Primitives):边界框(<|box|>)用于需要定位和尺寸信息的对象;点坐标(<|point|>)用于更抽象的空间指代,例如迷宫探索轨迹或曲线追踪路径。

核心创新二:高达 7056 倍的视觉压缩

另一个令人印象深刻的技术创新,来自于架构层面的压缩。

对于一张 756×756 的图片,传统方案需要将大量视觉 token 输入给语言模型。DeepSeek 的流程如下:图片首先经过 ViT 处理,生成 2916 个图像块 token;接着经过 3×3 空间压缩,合并为 324 个 token 输入语言模型;最后,内置在 V4-Flash 中的“压缩稀疏注意力”(Compressed Sparse Attention,CSA)机制,将 KV 缓存进一步压缩 4 倍,最终仅剩下 81 个视觉 KV 条目。

从原始像素到最终缓存条目,整体压缩比达到了 7056 倍。

这意味着,对于一张 800×800 的图片,该模型只需约 90 个 KV 缓存条目。相比之下,Claude Sonnet 4.6 需要约 870 个,而 Gemini-3-Flash 则需要约 1100 个。论文的论点在于:精确的空间指代能力,可以在一定程度上弥补视觉 token 不足的问题。模型不需要“看更多”,而是需要“指更准”。

核心创新三:冷启动数据的精心设计

技术创新的第三个维度,体现在训练数据的构建方式上。

团队首先爬取了近 10 万个与目标检测相关的数据集,经过两轮严格筛选(语义审核和几何质量审核),最终保留了约 3.17 万个高质量数据源,并生成了超过 4000 万条训练样本。

在“思考与视觉原语”的专项冷启动数据方面,团队设计了四类任务。

第一类是计数任务,分为粗粒度(“图里有多少人”)和细粒度(“穿蓝色衣服的人有几个”)两种。对于粗粒度计数,模型学习“批量锁定”——一次性框出所有候选对象再计数;对于细粒度计数,则学习逐一扫描、逐一核对属性。这两种策略对应不同的认知负荷,分别进行训练。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

第二类是空间推理和视觉问答,大量利用 GQA 数据集(自然场景)和 CLEVR 工具链(可控合成场景)生成多跳推理样本,迫使模型在每一步推理时,都使用边界框锁定所涉及的对象。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

第三类是迷宫导航任务,共生成 46 万条样本。团队采用 DFS(深度优先搜索)、Prim 和 Kruskal 算法,生成了矩形、圆形、六边形三种拓扑结构的迷宫,并专门设计了“表面可解但实际无解”的迷宫,以训练模型的鲁棒性。模型需要使用点坐标记录每一步的探索轨迹,回溯时也要用坐标标记已排除的路径。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

第四类是路径追踪任务,共 12.5 万条样本。给定一张多条贝塞尔曲线相互交叉的图,要求模型追踪指定起点的曲线到达终点。关键挑战在于“交叉歧义消解”:当两条线交叉时,模型必须判断哪一条才是目标曲线的延续,而不能依赖颜色取巧——为此,团队专门设计了所有曲线颜色相同的测试版本。

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

训练流程:“先分家,再合体”

在后训练阶段,团队采用了“先专家化,后统一”的策略。

第一步,分别使用边界框数据和点坐标数据,训练两个专家模型(FTwG 和 FTwP),以避免两种模态在数据量较少时互相干扰。

第二步,针对两个专家模型分别实施强化学习(RL),采用 GRPO 算法。奖励机制设计极为细致:格式奖励(检验输出格式是否符合规范)、质量奖励(由大语言模型评判思考内容与答案是否一致)、精度奖励(针对特定任务)三管齐下。在计数任务中,使用平滑指数衰减奖励而非简单的二元对错判断;迷宫任务的奖励则拆解为五个子项(因果探索进度、探索完整性、穿墙惩罚、路径有效性、答案正确性),目的都是为模型提供密集且信息丰富的学习信号。

第三步,利用两个专家模型生成的 rollout 数据,执行统一的强化微调(Unified RFT),随后从预训练模型重新初始化并开始训练,最终得到统一模型 F。

第四步,通过在线策略蒸馏(On-Policy Distillation)来缩小统一模型与专家模型之间的性能差距——让学生模型自行生成轨迹,然后最小化其输出分布与专家分布之间的 KL 散度。

实验结果:在“最具挑战性的题目”上超越 GPT-5.4

论文在 11 个基准测试中进行了评估,与 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 等主流模型进行了对比(所有前沿模型均通过 API 评测,并使用统一的提示词)。

结果概要如下:

  • 在计数任务上,该模型在 Pixmo-Count(精确匹配)中取得 89.2% 的得分,超过 Gemini-3-Flash 的 88.2%,大幅领先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。在细粒度计数(DS_Finegrained_Counting)方面,以 88.7% 的成绩超越 Qwen3-VL 的 87.2%,排名第一。
  • 在多个空间推理基准测试中,整体表现与头部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均位居榜首。
  • 最具代表性的差距出现在拓扑推理任务上。在迷宫导航(DS_Maze_Navigation)中,该模型得分为 66.9%,而 GPT-5.4 为 50.6%、Gemini-3-Flash 为 49.4%、Claude Sonnet 4.6 为 48.9%——所有前沿模型仅能答对约一半,而该模型提升了约 17 个百分点。在路径追踪(DS_Path_Tracing)中,该模型为 56.7%,对比 GPT-5.4 的 46.5%、Gemini-3-Flash 的 41.4%,差距同样显著。

论文坦诚地指出:“所有前沿模型在拓扑推理任务上均表现欠佳,表明多模态大模型的推理能力仍有相当大的提升空间。”

下面展示了几个定性示例:

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

局限与未来

论文并未回避几个已知的局限性。

  • 当前模型需要明确的“触发词”才能启用视觉原语机制——它尚不能自主判断何时该“使用手指”。
  • 受输入分辨率限制,在极细粒度的视觉场景中,视觉原语的位置偶尔不够精准。团队认为,与现有高分辨率感知方案结合是自然的下一步。
  • 用点坐标解决复杂拓扑推理问题,目前的跨场景泛化能力仍然有限。

结语:一种新的“思考姿势”

这篇论文的意义,不仅在于在几个榜单上取得领先。

它提出的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”——在此之前并非学界的主流叙事。

主流的努力方向是更大的模型、更高的分辨率、更多的训练数据。这篇论文开辟了另一条路径:不是让模型“看更多”,而是让模型“指更准”,用坐标替代语言描述,用空间锚点稳定逻辑链。

从这个角度看,“Thinking with Visual Primitives”更像是为多模态推理增添了一种“思考姿势”——一种人类在处理复杂视觉任务时本能就会使用、但 AI 此前一直缺失的姿势:用手指点着想。

更多详情请参阅原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32813

(0)
上一篇 1小时前
下一篇 1小时前

相关推荐

  • 阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

    近期,世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH(Alibaba Token Hub)事业群,正式发布了其首个主动式实时交互世界模型产品——HappyOyster(快乐生蚝)。 据官方介绍,HappyOyster基于原生多模态架构,是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开:漫游(Wander)、导演(Dir…

    2026年4月17日
    56000
  • 从工具到导师:AI教育如何通过多模态交互实现真正的授人以渔

    在AI技术快速渗透教育领域的当下,一个核心问题日益凸显:大多数AI教育产品仍停留在“授人以鱼”的工具层面,追求快速响应和标准答案输出,却未能触及“授人以渔”的教学本质。这种模式虽然提升了效率,却掩盖了学生思维过程的缺失,导致“一听就会、一做就废”的学习困境。真正的AI教育革命,应当聚焦于如何将思考过程还给学生,而不仅仅是提供答案。 当前AI教育市场呈现两极分…

    2025年11月11日
    36000
  • 悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

    在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(M…

    2025年10月30日
    35600
  • 强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

    在人工智能领域,大语言模型的快速发展正将“记忆”问题推向技术前沿。当前,即使是最先进的GPT-4.1等模型,在处理持续增长的交互时,仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令,导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现,标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学…

    2025年11月7日
    37500
  • AI智能体能力动态化革命:Skills系统架构解析与Minion开源实现

    在人工智能技术快速演进的当下,AI智能体(Agent)正从简单的指令执行者向具备专业能力的智能助手转变。最近,Claude推出的Skills系统标志着这一转变的关键里程碑——它让AI智能体能够像人类专家一样,在需要时动态加载专业能力,而非将所有知识预先装入有限的上下文窗口。这一设计理念不仅解决了传统AI智能体开发中的核心矛盾,更为开源社区提供了可复用的架构模…

    2025年12月15日
    46700