实测 DeepSeek 识图模式:推理耗时4分钟却秒错,但HTML复原与OCR表现惊艳
今天,你被DeepSeek识图模式灰度测试覆盖了吗?
大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布,惊喜接踵而至。在官方尚未披露更多细节之前,各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。
确实有不少发现。
例如,DeepSeek的识图模式背后,似乎是一个独立于V4 flash/pro的全新模型。

再比如,DeepSeek在V4技术报告中提到的“未来展望”,实际上可能已经基本实现。

今天一睁眼,我也幸运地获得了灰度测试资格,下面就来展示一下实测结果。
实测 DeepSeek 识图模式
在识图模式下,用户可以选择是否开启深度思考功能。

非思考模式下,这个DeepSeek视觉模型的响应速度极快,点击发送键后几乎无需等待,答案便会迅速生成。

那么,在思考与非思考模式下,DeepSeek识图模式的推理能力究竟有何差异?
推理能力
先来一道空间推理题:要使右侧图形在不旋转的情况下拼合成左侧的正方体造型,问号处应添加哪个图形?

非思考模式秒给出答案,但……秒错。

开启深度思考后,DeepSeek成功闯关,给出了正确答案D。

然而,它思考这个问题整整耗时4分多钟。
这个思考过程的冗长程度,我们可以直观感受一下——在思考的中段,DeepSeek其实已经找到了正确答案:

但紧接着就是一个“等等”,随后绕了一大圈。

这个问题也有人向DeepSeek研究员陈小康反馈过。

再试试图片找不同:找出两张图片中所有的不同点。

非思考模式下,DeepSeek很快找到了7处不同。

可以明显看出,其中存在不少幻觉,比如第5点托盘里的钥匙来源不明,第7点苹果和香蕉之间也没有白色的空盘子。
思考模式这次只用了16秒,找出了12处不同。

但……不知道是否与图片本身有关,幻觉反而更多了。
实用功能
推理部分还有提升空间,那么在实用功能方面,DeepSeek的识图模式表现如何?
试试OCR。
将DeepSeek V4技术报告的摘要图片输入识图模式,不开深度思考的情况下,它依然闪电出结果,还贴心地将开源链接生成为超链接。

纯文本看起来问题不大,再试试表格DeepSeek能否胜任。

没有问题,格式上也能用Markdown整齐呈现。
而更受欢迎的一种新玩法是,将网页截图发给DeepSeek,它就能直接复原出对应的HTML代码(非思考模式即可实现)。

其中的按钮都是可用的,比如给出API文档的链接,它能自动配置好实现跳转。

DeepSeek还能顺利通过“隐藏图片”测试。

但在色盲测试中,偶尔会出现翻车情况。

根据识图模式自己的回答,它的知识截止日期与DeepSeek V4 flash/pro相同,均为2025年5月。

而从它的世界知识中,有博主发现了端倪:视觉模型了解“Ta”,而V4 flash/pro则对此一无所知。
这是否意味着,识图模式中的视觉模型是独立训练的?

验证了一下,flash不联网时确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。


行动比承诺更快
目前,DeepSeek的识图模式仍处于灰度测试阶段,陈小康透露灰度范围正在逐步扩大。

实测下来坦白说,DeepSeek Vision还有不少可以精进之处。
但话说回来,谁又能想到DeepSeek的多模态功能来得如此之快呢?
当DeepSeek在V4技术报告中写下“我们也正在努力将多模态能力整合到我们的模型中”时,大家都以为这只是一个优先级不高的目标,不少朋友在惋惜的同时,也认同“资源有限的情况下优先做好纯文本是对的”。
而现在看来,DeepSeek做到的或许比外界想象的更多、更快。
那么论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是不是也……

参考链接:
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32798

