本以为DeepSeek这轮疯狂的AI更新已经暂告段落,但谁也没想到,就在上周刚刚发布V4版本之后,它又猝不及防地抛出了一个更大的惊喜。

就在刚刚,DeepSeek正式上线了识图模式,目前正处于灰度测试阶段。这意味着,被业界热议了一整年的DeepSeek多模态能力,终于落地了!

目前,DeepSeek网页版和App更新后,部分用户都有可能被灰度到这一新功能。APPSO第一时间进行了实测。DeepSeek负责多模态的研究员陈小康在X上发文:“Now, we see you”,并配上了一张图。我们让DeepSeek自己来解读这张图背后的含义。

结果显示,它能识别出图中隐含的隐喻。尽管图片中没有任何直接提及DeepSeek的文字,但通过结合发布者身份和图像内容,它推断出这是一次关于DeepSeek多模态能力的更新。最后,它给出了一句非常精准的总结:“那只看不见世界的鲸鱼,现在终于睁开眼了。”

比起最终的答案,APPSO发现DeepSeek识图模式的思考过程反而更有趣。

上下滑动查看完整思考过程。过去,AI看到那张推特截图,大概率只会老老实实地描述:“两只蓝色鲸鱼,左边戴眼罩,右边没戴。”但DeepSeek一上来就开始追问:这人是谁?他为什么发这个?鲸鱼logo代表什么?眼罩上的XX又在暗示什么?

这才是我们刷到一张梗图时大脑里真正发生的事情。没人会先数鲸鱼有几只,我们关心的是谁在对谁说话,话里藏着什么潜台词。而且,它还会反复进行自我纠正。比如,它一度把图中的眼罩联想到《天元突破》里卡米那的眼镜,随后又自己打脸:“不,这太宅男向了。”“等等,仔细看……”“再换个角度……”前面的推理、联想和自我纠正已经足够精彩,但整段思考过程中最反常识的部分,是在推理接近尾声时,它突然自己喊了个暂停,给自己开了一场小型的答辩会。

它列出了三个问题自问自答:先确认客观事实,再推测事件性质,最后才做解读。DeepSeek把这种连我们自己都没意识到的思维习惯,直接做成了识图的思考逻辑。就像我们平时在得出结论前,脑子里也会过一遍:“等等,这个前提对吗?那个假设站得住吗?万一我理解错了方向呢?”我们还把经典的AI测试题——数手指——抛给了DeepSeek。

它思考了一番,还是答错了,中间还吐槽了一句:“我真的是数晕了。”不过,如果我再稍加引导,它还是能给出正确答案。

在另一个数手指的测试中,第一次回答错误后,我没有提供答案,只是让它再想想,它也能正确回答。


我们还尝试了一个经典的“爱心”测试。这张图此前难倒了所有AI,DeepSeek同样没能识别出来。

抛开这些难度较高的极限测试,APPSO初步测试下来,DeepSeek识图的准确率其实相当高。如果不开启思考模式,甚至半秒就能给出答案。比如,这张电影剧照的识别,应该已经在其数据库内了。

对抽象图片的理解也十分到位。

优衣库这个商品图的理解也没有问题。

不过,识图过程似乎没有联网搜索,只能基于知识库回答。因此,一些较新的内容无法识别,比如苹果的新吉祥物Finder酱。

此外,识图模式上传的文件格式也有限制,例如不支持HEIF格式。

DeepSeek识图模式的上线,意味着这只鲸鱼终于睁开了眼睛,但这或许只是一个开始。DeepSeek多模态的更多能力很可能很快会陆续更新。补齐这块短板后,整个国产模型的格局也可能再次迎来微妙的变化。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32716

