DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

1小时前 • AI产业动态 • 阅读 18

实测 DeepSeek 识图模式：推理耗时4分钟却秒错，但HTML复原与OCR表现惊艳

今天，你被DeepSeek识图模式灰度测试覆盖了吗？

大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布，惊喜接踵而至。在官方尚未披露更多细节之前，各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。

确实有不少发现。

例如，DeepSeek的识图模式背后，似乎是一个独立于V4 flash/pro的全新模型。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

再比如，DeepSeek在V4技术报告中提到的“未来展望”，实际上可能已经基本实现。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

今天一睁眼，我也幸运地获得了灰度测试资格，下面就来展示一下实测结果。

实测 DeepSeek 识图模式

在识图模式下，用户可以选择是否开启深度思考功能。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

非思考模式下，这个DeepSeek视觉模型的响应速度极快，点击发送键后几乎无需等待，答案便会迅速生成。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

那么，在思考与非思考模式下，DeepSeek识图模式的推理能力究竟有何差异？

推理能力

先来一道空间推理题：要使右侧图形在不旋转的情况下拼合成左侧的正方体造型，问号处应添加哪个图形？

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

非思考模式秒给出答案，但……秒错。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

开启深度思考后，DeepSeek成功闯关，给出了正确答案D。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

然而，它思考这个问题整整耗时4分多钟。

这个思考过程的冗长程度，我们可以直观感受一下——在思考的中段，DeepSeek其实已经找到了正确答案：

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

但紧接着就是一个“等等”，随后绕了一大圈。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

这个问题也有人向DeepSeek研究员陈小康反馈过。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

再试试图片找不同：找出两张图片中所有的不同点。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

非思考模式下，DeepSeek很快找到了7处不同。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

可以明显看出，其中存在不少幻觉，比如第5点托盘里的钥匙来源不明，第7点苹果和香蕉之间也没有白色的空盘子。

思考模式这次只用了16秒，找出了12处不同。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

但……不知道是否与图片本身有关，幻觉反而更多了。

实用功能

推理部分还有提升空间，那么在实用功能方面，DeepSeek的识图模式表现如何？

试试OCR。

将DeepSeek V4技术报告的摘要图片输入识图模式，不开深度思考的情况下，它依然闪电出结果，还贴心地将开源链接生成为超链接。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

纯文本看起来问题不大，再试试表格DeepSeek能否胜任。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

没有问题，格式上也能用Markdown整齐呈现。

而更受欢迎的一种新玩法是，将网页截图发给DeepSeek，它就能直接复原出对应的HTML代码（非思考模式即可实现）。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

其中的按钮都是可用的，比如给出API文档的链接，它能自动配置好实现跳转。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

DeepSeek还能顺利通过“隐藏图片”测试。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

但在色盲测试中，偶尔会出现翻车情况。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

根据识图模式自己的回答，它的知识截止日期与DeepSeek V4 flash/pro相同，均为2025年5月。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

而从它的世界知识中，有博主发现了端倪：视觉模型了解“Ta”，而V4 flash/pro则对此一无所知。

这是否意味着，识图模式中的视觉模型是独立训练的？

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

验证了一下，flash不联网时确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

行动比承诺更快

目前，DeepSeek的识图模式仍处于灰度测试阶段，陈小康透露灰度范围正在逐步扩大。

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

实测下来坦白说，DeepSeek Vision还有不少可以精进之处。

但话说回来，谁又能想到DeepSeek的多模态功能来得如此之快呢？

当DeepSeek在V4技术报告中写下“我们也正在努力将多模态能力整合到我们的模型中”时，大家都以为这只是一个优先级不高的目标，不少朋友在惋惜的同时，也认同“资源有限的情况下优先做好纯文本是对的”。

而现在看来，DeepSeek做到的或许比外界想象的更多、更快。

那么论文中提到的“在MoE和稀疏注意力架构之外，将积极探索模型稀疏性的其他新维度”，是不是也……

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

参考链接：
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/32798

Deepseek 多模态实测推理能力识图模式

赞 (0)

0 0

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

上一篇 1小时前

从动态计算到静态查表：STEM如何重构Transformer的记忆机制

下一篇 2026年3月9日上午10:48

AI产业动态

UI-Genie：移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁

在人工智能技术快速演进的当下，多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie，为这一转型提供了极具启发性的技术路径。该研究由肖涵（第一作者，研究方向为多模态大模型和智能体学习）、王国志（研究方向为多模态大模型和Agent强化学习）共同完成，项目负责人任帅（研究方向为多模…

2025年11月7日
332000
AI产业动态

GPT-5.2发布遇冷：技术跃进与用户体验的鸿沟分析

OpenAI在成立十周年之际发布了备受期待的GPT-5.2系列模型，官方宣称这是“迄今为止在专业知识工作上最强大的模型系列”，并在多项基准测试中刷新了SOTA水平。然而，发布后短短24小时内，社交媒体上却涌现出大量负面评价，用户普遍反映模型“不通人性”、“安全过度”、“像对待幼儿园小孩”，甚至认为这是“技术倒退”。这一现象揭示了当前大模型发展中一个核心矛盾：…

2025年12月13日
300000
AI产业动态

腾讯青云奖学金首秀：姚顺雨亲颁百万奖金，揭秘AI人才培养新战略

闻乐发自凹非寺量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖，竟然偶遇了姚顺雨。这位27岁的腾讯首席AI科学家，在腾讯大楼的线下公开亮相，不是发布重磅产品，也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。为更值得的探索青云奖学金是…

2026年1月31日
254000
AI产业动态

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画在图像生成领域，扩散模型通常需要数十步的迭代去噪才能生成高质量图像，这带来了高昂的计算成本，阻碍了实时应用。为了加速推理，常见的知识蒸馏方法试图将生成过程压缩到几步之内，但它们通常假设从噪声到图像的路径是一条直线，而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

2026年2月15日
321000
AI产业动态

OpenAI斥资1亿美元收购Torch，加速打造AI健康助手ChatGPT Health

OpenAI斥资1亿美元收购Torch，加速打造AI健康助手ChatGPT Health 智东西1月13日消息，今日，OpenAI宣布收购AI医疗初创公司Torch，强调将其与ChatGPT Health结合，意在“开启一种理解和管理健康的新方式”。Torch CEO Ilya Abyzov也发文称：“我和Torch团队将加入OpenAI，致力于将ChatG…

2026年1月13日
307000