DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

实测 DeepSeek 识图模式:推理耗时4分钟却秒错,但HTML复原与OCR表现惊艳

今天,你被DeepSeek识图模式灰度测试覆盖了吗?

大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布,惊喜接踵而至。在官方尚未披露更多细节之前,各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。

确实有不少发现。

例如,DeepSeek的识图模式背后,似乎是一个独立于V4 flash/pro的全新模型。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

再比如,DeepSeek在V4技术报告中提到的“未来展望”,实际上可能已经基本实现。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

今天一睁眼,我也幸运地获得了灰度测试资格,下面就来展示一下实测结果。

实测 DeepSeek 识图模式

在识图模式下,用户可以选择是否开启深度思考功能。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

非思考模式下,这个DeepSeek视觉模型的响应速度极快,点击发送键后几乎无需等待,答案便会迅速生成。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

那么,在思考与非思考模式下,DeepSeek识图模式的推理能力究竟有何差异?

推理能力

先来一道空间推理题:要使右侧图形在不旋转的情况下拼合成左侧的正方体造型,问号处应添加哪个图形?

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

非思考模式秒给出答案,但……秒错。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

开启深度思考后,DeepSeek成功闯关,给出了正确答案D。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

然而,它思考这个问题整整耗时4分多钟

这个思考过程的冗长程度,我们可以直观感受一下——在思考的中段,DeepSeek其实已经找到了正确答案:

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

但紧接着就是一个“等等”,随后绕了一大圈。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

这个问题也有人向DeepSeek研究员陈小康反馈过。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

再试试图片找不同:找出两张图片中所有的不同点。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

非思考模式下,DeepSeek很快找到了7处不同。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

可以明显看出,其中存在不少幻觉,比如第5点托盘里的钥匙来源不明,第7点苹果和香蕉之间也没有白色的空盘子。

思考模式这次只用了16秒,找出了12处不同。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

但……不知道是否与图片本身有关,幻觉反而更多了。

实用功能

推理部分还有提升空间,那么在实用功能方面,DeepSeek的识图模式表现如何?

试试OCR

将DeepSeek V4技术报告的摘要图片输入识图模式,不开深度思考的情况下,它依然闪电出结果,还贴心地将开源链接生成为超链接。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

纯文本看起来问题不大,再试试表格DeepSeek能否胜任。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

没有问题,格式上也能用Markdown整齐呈现。

而更受欢迎的一种新玩法是,将网页截图发给DeepSeek,它就能直接复原出对应的HTML代码(非思考模式即可实现)。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

其中的按钮都是可用的,比如给出API文档的链接,它能自动配置好实现跳转。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

DeepSeek还能顺利通过“隐藏图片”测试。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

但在色盲测试中,偶尔会出现翻车情况。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

根据识图模式自己的回答,它的知识截止日期与DeepSeek V4 flash/pro相同,均为2025年5月。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

而从它的世界知识中,有博主发现了端倪:视觉模型了解“Ta”,而V4 flash/pro则对此一无所知。

这是否意味着,识图模式中的视觉模型是独立训练的?

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

验证了一下,flash不联网时确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

行动比承诺更快

目前,DeepSeek的识图模式仍处于灰度测试阶段,陈小康透露灰度范围正在逐步扩大。

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

实测下来坦白说,DeepSeek Vision还有不少可以精进之处。

但话说回来,谁又能想到DeepSeek的多模态功能来得如此之快呢?

当DeepSeek在V4技术报告中写下“我们也正在努力将多模态能力整合到我们的模型中”时,大家都以为这只是一个优先级不高的目标,不少朋友在惋惜的同时,也认同“资源有限的情况下优先做好纯文本是对的”。

而现在看来,DeepSeek做到的或许比外界想象的更多、更快。

那么论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是不是也……

DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

参考链接:
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32798

(0)
上一篇 1小时前
下一篇 2026年3月9日 上午10:48

相关推荐

  • UI-Genie:移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁

    在人工智能技术快速演进的当下,多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie,为这一转型提供了极具启发性的技术路径。该研究由肖涵(第一作者,研究方向为多模态大模型和智能体学习)、王国志(研究方向为多模态大模型和Agent强化学习)共同完成,项目负责人任帅(研究方向为多模…

    2025年11月7日
    33200
  • GPT-5.2发布遇冷:技术跃进与用户体验的鸿沟分析

    OpenAI在成立十周年之际发布了备受期待的GPT-5.2系列模型,官方宣称这是“迄今为止在专业知识工作上最强大的模型系列”,并在多项基准测试中刷新了SOTA水平。然而,发布后短短24小时内,社交媒体上却涌现出大量负面评价,用户普遍反映模型“不通人性”、“安全过度”、“像对待幼儿园小孩”,甚至认为这是“技术倒退”。这一现象揭示了当前大模型发展中一个核心矛盾:…

    2025年12月13日
    30000
  • 腾讯青云奖学金首秀:姚顺雨亲颁百万奖金,揭秘AI人才培养新战略

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖,竟然偶遇了姚顺雨。 这位27岁的腾讯首席AI科学家,在腾讯大楼的线下公开亮相,不是发布重磅产品,也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。 上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。 为更值得的探索 青云奖学金是…

    2026年1月31日
    25400
  • ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画

    ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画 在图像生成领域,扩散模型通常需要数十步的迭代去噪才能生成高质量图像,这带来了高昂的计算成本,阻碍了实时应用。为了加速推理,常见的知识蒸馏方法试图将生成过程压缩到几步之内,但它们通常假设从噪声到图像的路径是一条直线,而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

    2026年2月15日
    32100
  • OpenAI斥资1亿美元收购Torch,加速打造AI健康助手ChatGPT Health

    OpenAI斥资1亿美元收购Torch,加速打造AI健康助手ChatGPT Health 智东西1月13日消息,今日,OpenAI宣布收购AI医疗初创公司Torch,强调将其与ChatGPT Health结合,意在“开启一种理解和管理健康的新方式”。Torch CEO Ilya Abyzov也发文称:“我和Torch团队将加入OpenAI,致力于将ChatG…

    2026年1月13日
    30700